数据挖掘 - 主题 - 蝴蝶教程

数据挖掘的理论基础

数据挖掘的理论基础包括以下概念 -

数据缩减- 该理论的基本思想是减少数据表示，以牺牲准确性换取速度，以响应在非常大的数据库上获得快速近似答案的需求。一些数据缩减技术如下 -
- 奇异值分解
- 小波
- 回归
- 对数线性模型
- 直方图
- 聚类
- 采样
- 索引树的构建
数据压缩- 该理论的基本思想是通过以下编码压缩给定数据 -
- 位
- 关联规则
- 决策树
- 集群
模式发现− 该理论的基本思想是发现数据库中出现的模式。以下是有助于该理论的领域 -
- 机器学习
- 神经网络
- 协会采矿
- 顺序模式匹配
- 聚类
概率论− 该理论基于统计理论。该理论背后的基本思想是发现随机变量的联合概率分布。
概率论− 根据该理论，数据挖掘仅在可用于某些企业的决策过程的范围内发现有趣的模式。
微观经济观点− 根据该理论，数据库模式由存储在数据库中的数据和模式组成。因此，数据挖掘是对数据库进行归纳的任务。
归纳数据库− 除了面向数据库的技术外，还有可用于数据分析的统计技术。这些技术也可以应用于科学数据以及来自经济和社会科学的数据。

一些统计数据挖掘技术如下 -

回归− 回归方法用于从一个或多个预测变量中预测响应变量的值，其中变量为数值。下面列出的是回归的形式 -
- 线性的
- 倍数
- 加权
- 多项式的
- 非参数化
- 强健的
Generalized Linear Models− 广义线性模型包括 −
- 逻辑回归
- 泊松回归
该模型的泛化允许分类响应变量以类似于使用线性回归的数值响应变量建模的方式与一组预测变量相关联。
Analysis of Variance- 该技术分析 -
- 由数值响应变量描述的两个或多个总体的实验数据。
- 一个或多个分类变量（因子）。
混合效应模型− 这些模型用于分析分组数据。这些模型描述了响应变量与根据一个或多个因素分组的数据中的一些协变量之间的关系。
因子分析− 因子分析用于预测分类响应变量。该方法假设自变量服从多元正态分布。
时间序列分析- 以下是分析时间序列数据的方法 -
- 自回归方法。
- 单变量 ARIMA（自回归综合移动平均）建模。
- 长记忆时间序列建模。

可视化数据挖掘使用数据和/或知识可视化技术从大型数据集中发现隐含的知识。可视化数据挖掘可以被视为以下学科的整合 -

可视化数据挖掘与以下密切相关 -

一般来说，数据可视化和数据挖掘可以通过以下方式集成 -

数据可视化- 数据库或数据仓库中的数据可以以下列几种可视形式查看 -
- 箱线图
- 3-D 立方体
- 数据分布图
- 曲线
- 表面
- 链接图等
数据挖掘结果可视化− 数据挖掘结果可视化是数据挖掘结果以可视化形式呈现。这些视觉形式可以是散点图、箱线图等。
数据挖掘过程可视化− 数据挖掘过程可视化展示了数据挖掘的几个过程。它允许用户查看数据是如何提取的。它还允许用户查看数据是从哪个数据库或数据仓库中清理、集成、预处理和挖掘的。

音频数据挖掘利用音频信号来指示数据的模式或数据挖掘结果的特征。通过将模式转化为声音和沉思，我们可以听音调和曲调，而不是看图片，以识别任何有趣的东西。

今天的消费者在购物时会遇到各种各样的商品和服务。在实时客户交易期间，推荐系统通过提出产品推荐来帮助消费者。协同过滤方法通常用于向客户推荐产品。这些建议是基于其他客户的意见。