大数据框架及应用(PDF 39页)
- 所属分类:
- 大数据
- 文件大小:
- 1138 KB
- 下载地址:
- 相关资料:
- 大数据应用
大数据框架及应用(PDF 39页)内容简介
目录
前言 1
一、 大数据的内涵 . 4
(一) 什么是大数据 . 5
(二) 大数据有何不同 . 5
(三) 大数据的风险 . 6
(四) 大数据的结构 . 6
(五) 探索大数据 . 6
(六) 有效过滤大数据 . 7
(七) 今天的大数据将不再是明天的大数据 . 7
(八) 行业大数据面临的挑战 . 7
二、 大数据源有哪些 . 9
(一) 网络大数据 . 9
网络数据揭示了什么 9
(二) 文本数据 . 10
文本数据的用途 10
(三) RFID 数据 . 11
RFID 数据的用途 11
(四) 社交网络数据 . 12
三、 大数据应用案例 . 13
(一) 互联网公司:Netflix . 13
(二) 传统 IT 公司:IBM 13
(三) 金融:Derwent 基金 13
(四) 传统零售企业:沃尔玛 . 14
四、 大数据处理的架构(流程) 15
(一) 大数据处理的架构 . 15
(二) 大数据处理的流程 . 16
1) 大数据处理流程之‐‐采集 . 16
2) 大数据处理流程之‐‐统计分析 . 17
3) 大数据处理流程之‐‐挖掘 . 18
五、 大数据常用的算法与数据结构 20
(一) 布隆过滤器(Bloom Filter) 20
(二) 跳跃表 . 20
(三) LSM 树 . 21
(四) Merkle 哈希树 . 21
(五) Snappy 与 LZSS 算法 . 22
(六) Cuckoo 哈希 22
六、 大数据的计算模型 . 23
(一) MapReduce 模型 . 23
1) 计算模型 . 23
2) 实例:单词统计 . 23
3) 系统架构 . 24
4) MapReduce 计算的特点及不足 . 25
(二) DAG 模型 . 26
1) DAG 计算系统的三层结构 . 26
2) Dryad 整体架构 26
(三) 流式计算 . 27
系统架构 28
七、 大数据处理工具 . 30
(一) Hadoop 30
(二) HPCC 30
(三) Storm . 31
(四) Apache Drill . 32
(五) RapidMiner 32
(六) Pentaho BI . 33
八、 南方平台与大数据的结合 。
(一) 南方平台的简介 。
(二) 南方平台的数据来源 。
附录 34
(一) 为什么使用 nosql 数据库 34
(二) NoSQL 数据库的特点 . 35
(三) NoSQL 数据库的类型 . 35
1) 键值(Key‐Value)数据库 . 35
2) 面向文档(Document‐Oriented)数据库 . 36
3) 列存储(Wide Column Store/Column‐Family)数据库 36
4) 图(Graph‐Oriented)数据库 . 37
参考文献
..............................
前言 1
一、 大数据的内涵 . 4
(一) 什么是大数据 . 5
(二) 大数据有何不同 . 5
(三) 大数据的风险 . 6
(四) 大数据的结构 . 6
(五) 探索大数据 . 6
(六) 有效过滤大数据 . 7
(七) 今天的大数据将不再是明天的大数据 . 7
(八) 行业大数据面临的挑战 . 7
二、 大数据源有哪些 . 9
(一) 网络大数据 . 9
网络数据揭示了什么 9
(二) 文本数据 . 10
文本数据的用途 10
(三) RFID 数据 . 11
RFID 数据的用途 11
(四) 社交网络数据 . 12
三、 大数据应用案例 . 13
(一) 互联网公司:Netflix . 13
(二) 传统 IT 公司:IBM 13
(三) 金融:Derwent 基金 13
(四) 传统零售企业:沃尔玛 . 14
四、 大数据处理的架构(流程) 15
(一) 大数据处理的架构 . 15
(二) 大数据处理的流程 . 16
1) 大数据处理流程之‐‐采集 . 16
2) 大数据处理流程之‐‐统计分析 . 17
3) 大数据处理流程之‐‐挖掘 . 18
五、 大数据常用的算法与数据结构 20
(一) 布隆过滤器(Bloom Filter) 20
(二) 跳跃表 . 20
(三) LSM 树 . 21
(四) Merkle 哈希树 . 21
(五) Snappy 与 LZSS 算法 . 22
(六) Cuckoo 哈希 22
六、 大数据的计算模型 . 23
(一) MapReduce 模型 . 23
1) 计算模型 . 23
2) 实例:单词统计 . 23
3) 系统架构 . 24
4) MapReduce 计算的特点及不足 . 25
(二) DAG 模型 . 26
1) DAG 计算系统的三层结构 . 26
2) Dryad 整体架构 26
(三) 流式计算 . 27
系统架构 28
七、 大数据处理工具 . 30
(一) Hadoop 30
(二) HPCC 30
(三) Storm . 31
(四) Apache Drill . 32
(五) RapidMiner 32
(六) Pentaho BI . 33
八、 南方平台与大数据的结合 。
(一) 南方平台的简介 。
(二) 南方平台的数据来源 。
附录 34
(一) 为什么使用 nosql 数据库 34
(二) NoSQL 数据库的特点 . 35
(三) NoSQL 数据库的类型 . 35
1) 键值(Key‐Value)数据库 . 35
2) 面向文档(Document‐Oriented)数据库 . 36
3) 列存储(Wide Column Store/Column‐Family)数据库 36
4) 图(Graph‐Oriented)数据库 . 37
参考文献
..............................
用户登陆
大数据热门资料
大数据相关下载