您现在的位置: 精品资料网 >> 管理信息化 >> bi商务智能 >> 资料信息

数据预处理概述(PPT 1114页)

所属分类:
bi商务智能
文件大小:
4427 KB
下载地址:
相关资料:
预处理
数据预处理概述(PPT 1114页)内容简介
4. 数据预处理
为什么要进行数据挖掘?
为什么数据预处理重要?
数据预处理的主要内容:
数据预处理的主要内容
一、原始数据的表述
二、数据清理——缺失值的填补
例:
均值填补:
(二)异常值(孤立点)探测
异常值的探测方法
第二,基于距离的异常点检测(二维以上数据)
异常值探测的应用
三、数据变换
为什么要进行标准化?
1、小数缩放
3、标准差规范化(z-score规范化)
为什么要进行数据的平滑?
1、分箱
2、回归
3、通过自然划分分段
Example
为什么要进行数据概化?
四、元组的归约
1、有监督离散化和无监督离散化
2、动态和静态离散化
3、自顶向下和自底向上
4、局部和全局离散化
(二)典型离散化的过程
(三)离散化方法的评价
(四)具体的离散化方法
进行重新分组:使得每个区间的频数大于12
2、聚类
3、基于熵的离散化方法
贪心算法
基于熵的离散化方法
举例:iris样本集的具体步骤
4、chimerge算法
应用
具体步骤:
五、属性的归约
1、主成分分析(因子分析)
2、因子分析
主成分分析和因子分析的对比
主成份分析和因子分析的优点
3、聚类分析——K均值聚类分析
(二)属性子集的选择
1、搜索策略
2、属性子集选择中的评价函数
3、评价函数的要求
4、模式识别中基于距离的评价函数
属性子集选择方法的应用
..............................