您现在的位置: 精品资料网 >> 管理信息化 >> 大数据 >> 资料信息

大数据时代的数据挖掘与商务智能(ppt 240页)

所属分类:
大数据
文件大小:
3945 KB
下载地址:
相关资料:
数据挖掘,商务智能
大数据时代的数据挖掘与商务智能(ppt 240页)内容简介

数据分析基本概念
统计数据分析方法
数学家的幽默
何为统计学?
统计(Statistics)的涵义
统计的研究对象的特点
统计研究的基本环节
统计设计
收集数据
整理与分析
统计资料的积累、开发与应用
统计学的流派
政治算术学派与国势学派
社会统计学派
数理统计学派
理论统计学和应用统计学
数学与统计学的联系
统计学与数学的区别
测量与数据
统计数据
变量与变量值
例:员工个人资料表
变量的测度等级
名义测度(Nominal )
有序测度(Ordinal)
间距测度(Interval)
比率测度(Ratio)
数据来源
总体和样本
总体参数和样本统计量
数据的类型
面板数据
非结构化数据
数据与模型的关系
数据的质量
数据的完整性
数据的准确性
数据的可比性与一致性
数据预处理
为什么需要预处理
脏数据形成的原因
数据清理的重要性
数据清理处理内容
空缺值
噪声数据
分箱(binning)
分箱方法用于数据平滑
聚类
聚类(Clustering)
计算机和人工检查相结合
回归
数据集成
数据变换
数据规范化
数据规约
属性子集选择
维规约
主成分分析 
主成分分析 (PCA)
数值规约
聚类后抽样
离散化和概念分层
数值数据离散化和概念分层
数值概念分层
概念分层自动生成
数据预处理小结
描述统计的作用
描述统计
数据整理
数据分组
如何分组?
统计数据的分组
次数分配
变量次数分配的编制
确定组数与组距
分组计算
分6组,组距7
结合实际数据
按5组,10元作为组距, 计算次数。
次数分配表
作图
用excel作直方图
分两组
分组太细会出现什么问题?
分组数据的图示 (直方图的绘制)
次数曲线
累计次数分布
统计表和统计图
示例数据
线形图(Line graph)
条形图 (Bar chart)
圆饼图 (Pie chart)
环形图 (doughnut chart)
环形图
多变量数据—雷达图 (radar chart)
多变量数据—雷达图 (雷达图的制作)
多变量数据—雷达图 (例题分析)
散点图(Scatter Diagram)
集中趋势和离中趋势
次数分配后有两个特征
算术平均值      
加权算数平均数
算数平均值的好性质一
算数平均值的好性质二
均值的缺点
表示变异(离散)程度的特征数
离散程度的测度
方差
标准差
用Excel计算描述统计量
Excel中的统计函数
数据分布特征和描述统计量
因变量(Y)与自变量(X)之间的关系
变量之间的关系
函数关系
相关关系
总体相关系数
样本相关系数
相关关系的测度 (相关系数取值及其意义)
相关性的可视化
示例
相关分析中应注意的问题
推断统计
相关分析与回归分析
回归模型的类型
一元线性回归模型
一元线性回归模型假设
一元线性回归方程
模型适合性分析
误差项的异方差性检验
误差项的自相性关检验
误差项的自相性关检验
多元线性回归分析
多元线性回归分析的定义
多元线性回归模型
参数的最小二乘估计
回归方程的显著性检验
总离差平方和分解
样本决定系数对回归方程 “拟合优度”的检验
回归系数的显著性检验
时间序列分析
时间序列的成分
趋势成分 
循环成分
季节成分
不规则成分
利用平滑法进行预测
移动平均法
加权移动平均法
指数平滑法
利用趋势推测法进行预测
拟合澳大利亚政府1981—1990年 每季度的消费支出序列
线性拟合
拟合效果图
非线性拟合
常用非线性模型
对上海证券交易所每月末上证指数 序列进行模型拟合
利用趋势和季节成分进行预测
季节效应分析
时序图
季节指数
季节指数的计算
季节指数的理解
季节指数图
综合分析
(1)绘制时序图
(2)选择拟合模型
(3)计算季节指数
季节调整后的序列图
(4)拟合长期趋势
(5)残差检验
(6)短期预测
统计数据分析软件
统计学软件

 

 


..............................