您现在的位置: 精品资料网 >> 管理信息化 >> 大数据 >> 资料信息

大数据存储与应用数据流挖掘培训教材(PPT 64页)

所属分类:
大数据
文件大小:
623 KB
下载地址:
相关资料:
大数据,应用数据,数据流,培训教材
大数据存储与应用数据流挖掘培训教材(PPT 64页)内容简介
内容
流数据模型
系统,示例
抽样
过滤
数目统计
矩估计
窗口内计数
衰减窗口
预览
谷歌/淘宝是怎么做下面这些事情的
取样
比例取样
固定size取样
频度统计
统计item发生的次数
白名单过滤
统计不同查询的个数
评估用户访问的均匀性
发现最热item
简单的数据统计问题,在大数据场合下,新的方法
系统
示例
查询
问题

数据以流的方式进入
搜索引擎的查询请求
微博更新
特点
无穷
非平稳
流的到达速率取决于用户行为,系统无法控制
元素(Element)
Tuple
大数据下的系统限制
流源源不断地来
要求实时处理
系统限制
存储限制,不能存这么多
存得多,处理量也大,处理能力限制
NSA(美国棱镜门)
存几个月
流处理
有限存储情况下,怎么实时处理?
Onlinelearning
模型
两种查询
固定查询:
Standingquery
从不停止
例:
历史最高温度
事先写好 
Ad-hoc查询
不全存,但还是存一些内容
根据这些存储的内容应答
取样:
随机取样(Sampling)
过滤(白名单):选取特定属性的元素(Filtering)
计数(一定窗口内)
有多少个不同的元素?(distinctelements)
各元素的Popularity?
特征:各阶矩
谁最流行?
应用
Google:
查询流
发现最流行的查询关键字
Yahoo:
发现最流行的页面
微博:
发现最热的话题
找人
传感器网络
电话记录
美国,棱镜门
网络交换机
流量统计,优化路由
检测DDoS攻击
Sampling
两种抽样
固定比率抽样
1in10
固定Size抽样
总是保持s个元素
应用场合
搜索引擎,一个用户的搜索中,重复的有多少?
存不了全部,可以存1/10
最明显的办法
每来一个query
生成一个随机整数:0…9
如果是0,就存起来
1/10的采样
然后统计其中的用户重复搜索比例
对吗?
有问题
..............................
大数据存储与应用数据流挖掘培训教材(PPT 64页)

上一篇:大数据采集与清洗培训讲义(PPT 36页)

下一篇:尚无数据