大数据技术体系(PDF 29页)
大数据技术体系(PDF 29页)内容简介
内容摘要
根据大数据处理的生命周期,大数据的技术体系通常可以分为大数据采集与
预处理,大数据存储与管理,大数据计算模式与系统,大数据分析与挖掘,大数
据可视化计算以及大数据隐私与安全等几个方面。
3.1 大数据采集与预处理
3.1.1 问题与挑战
根据MapReduce产生数据的应用系统分类,大数据的采集主要有四种来源:
管理信息系统、Web 信息系统、物理信息系统、科学实验系统。
1. 管理信息系统是指企业、机关内部的信息系统,如事务处理系统、办公自动
化系统,主要用于经营和管理,为特定用户的工作和业务提供支持。数据的
产生既有终端用户的原始输入,也有系统的二次加工处理。系统的组织结构
上是专用的,数据通常是结构化的。
2. Web 信息系统包括互联网上的各种信息系统,如社交网站、社会媒体、搜索
引擎等,主要用于构造虚拟的信息空间,为广大用户提供信息服务和社交服
务。系统的组织结构是开放式的,大部分数据是半结构化或无结构的。数据
的产生者主要是在线用户。电子商务、电子政务是在 Web 上运行的管理信息
系统。
3. 物理信息系统是指关于各种物理对象和物理过程的信息系统,如实时监控、
实时检测,主要用于生产调度、过程控制、现场指挥、环境保护等。系统的
组织结构上是封闭的,数据由各种嵌入式传感设备产生的,可以是关于物理、
化学、生物等性质和状态的基本测量值,也可以是关于行为和状态的音频、
视频等多媒体数据。
4. 科学实验系统,实际上也属于物理信息系统,但其实验环境是预先设定的,
主要用于研究和学术,数据是有选择的、可控的,有时可能是人工模拟生成
的仿真数据。
在物理信息
..............................
根据大数据处理的生命周期,大数据的技术体系通常可以分为大数据采集与
预处理,大数据存储与管理,大数据计算模式与系统,大数据分析与挖掘,大数
据可视化计算以及大数据隐私与安全等几个方面。
3.1 大数据采集与预处理
3.1.1 问题与挑战
根据MapReduce产生数据的应用系统分类,大数据的采集主要有四种来源:
管理信息系统、Web 信息系统、物理信息系统、科学实验系统。
1. 管理信息系统是指企业、机关内部的信息系统,如事务处理系统、办公自动
化系统,主要用于经营和管理,为特定用户的工作和业务提供支持。数据的
产生既有终端用户的原始输入,也有系统的二次加工处理。系统的组织结构
上是专用的,数据通常是结构化的。
2. Web 信息系统包括互联网上的各种信息系统,如社交网站、社会媒体、搜索
引擎等,主要用于构造虚拟的信息空间,为广大用户提供信息服务和社交服
务。系统的组织结构是开放式的,大部分数据是半结构化或无结构的。数据
的产生者主要是在线用户。电子商务、电子政务是在 Web 上运行的管理信息
系统。
3. 物理信息系统是指关于各种物理对象和物理过程的信息系统,如实时监控、
实时检测,主要用于生产调度、过程控制、现场指挥、环境保护等。系统的
组织结构上是封闭的,数据由各种嵌入式传感设备产生的,可以是关于物理、
化学、生物等性质和状态的基本测量值,也可以是关于行为和状态的音频、
视频等多媒体数据。
4. 科学实验系统,实际上也属于物理信息系统,但其实验环境是预先设定的,
主要用于研究和学术,数据是有选择的、可控的,有时可能是人工模拟生成
的仿真数据。
在物理信息
..............................
用户登陆
大数据热门资料
大数据相关下载