您现在的位置: 精品资料网 >> 管理信息化 >> 大数据 >> 资料信息

大数据技术体系(PDF 29页)

所属分类:
大数据
文件大小:
449 KB
下载地址:
相关资料:
大数据技术,技术体系
大数据技术体系(PDF 29页)内容简介
内容摘要
根据大数据处理的生命周期,大数据的技术体系通常可以分为大数据采集与
预处理,大数据存储与管理,大数据计算模式与系统,大数据分析与挖掘,大数
据可视化计算以及大数据隐私与安全等几个方面。
3.1 大数据采集与预处理
3.1.1 问题与挑战
根据MapReduce产生数据的应用系统分类,大数据的采集主要有四种来源:
管理信息系统、Web 信息系统、物理信息系统、科学实验系统。
1. 管理信息系统是指企业、机关内部的信息系统,如事务处理系统、办公自动
化系统,主要用于经营和管理,为特定用户的工作和业务提供支持。数据的
产生既有终端用户的原始输入,也有系统的二次加工处理。系统的组织结构
上是专用的,数据通常是结构化的。
2. Web 信息系统包括互联网上的各种信息系统,如社交网站、社会媒体、搜索
引擎等,主要用于构造虚拟的信息空间,为广大用户提供信息服务和社交服
务。系统的组织结构是开放式的,大部分数据是半结构化或无结构的。数据
的产生者主要是在线用户。电子商务、电子政务是在 Web 上运行的管理信息
系统。
3. 物理信息系统是指关于各种物理对象和物理过程的信息系统,如实时监控、
实时检测,主要用于生产调度、过程控制、现场指挥、环境保护等。系统的
组织结构上是封闭的,数据由各种嵌入式传感设备产生的,可以是关于物理、
化学、生物等性质和状态的基本测量值,也可以是关于行为和状态的音频、
视频等多媒体数据。
4. 科学实验系统,实际上也属于物理信息系统,但其实验环境是预先设定的,
主要用于研究和学术,数据是有选择的、可控的,有时可能是人工模拟生成
的仿真数据。
在物理信息
..............................