您现在的位置: 精品资料网 >> 管理信息化 >> 大数据 >> 资料信息

大数据应用基础-数据挖掘流程(PPT 77页)

所属分类:
大数据
文件大小:
2899 KB
下载地址:
相关资料:
大数据应用,应用基础,数据挖掘
大数据应用基础-数据挖掘流程(PPT 77页)内容简介

主要内容
数据挖掘流程
数据挖掘的基本流程
高度重视以下同义词
数据预处理
数据预处理的步骤
数据质量有很多方面问题
数据准备
数据准备的重要性
数据集成
数据集成中的实体识别问题
数据集成中属性值不一致的问题
数据集成中的数据值格式不一致问题
数据集成中的属性冗余问题
数据探索
数据探索的方法
数据清理(数据预处理)
数据清理
缺失值
缺失值的成因
缺失值的处理方法
数据噪声
识别数据噪声
处理数据噪声
识别异常个案
处理异常个案
识别异常值
重复数据
数据转换
数据转换——离散化
数据转换——产生衍生变量
数据转换——使变量分布更接近正态分布
数据标准化
数据归约
数据归约——抽样
数据归约——不平衡数据的抽样
数据归约——属性筛选
属性筛选的方法
属性筛选的方法——线性相关性
属性筛选的方法——互信息
属性筛选的方法——R平方
属性筛选的方法——特征抽取法
属性筛选的方法——主成分分析
后续步骤
数据挖掘
评估
分类算法评估的主要宗旨
分类算法评估——一个比喻
分类算法评估——混淆矩阵
分类算法评估—— ROC曲线
分类算法评估——Lift曲线
分类算法评估——成本收益分析
分类算法评估——其他
分类算法评估的目的
知识表示
数据挖掘结果的应用和效果评估
数据挖掘是一个反复循环的过程
分类的一个常见问题——过度拟合
如何避免过度拟合?

 


..............................