您现在的位置: 精品资料网 >> 管理信息化 >> 大数据 >> 资料信息

大数据分析的分布式技术(PDF 22页)

所属分类:
大数据
文件大小:
1055 KB
下载地址:
相关资料:
大数据,数据分析,分布式
大数据分析的分布式技术(PDF 22页)内容简介
内容摘要
近年来,随着大数据时代的到来以及互联网、传感器和科学数据分析等领域的快速发展,数据量近乎每年
在成倍地增长 [1] .无论是在科学领域(生物学、地理学、天文学、气象学等),还是在工程领域(网络数据分析、市
场数据分析等),都面临着数据雪崩的问题 [2] ,大数据的规模效应给数据存储、管理以及数据分析带来了极大的
挑战 [3,4] .OLAP(on-line analytical processing)联机分析处理是共享多维信息的、针对特定问题的联机数据访问和
分析的快速软件技术 [5] ,OLAP 按照其实现方式不同,可以分为 3 种类型,分别是 ROLAP,MOLAP 和 HOLAP [6] .
其中,ROLAP 采用关系表存储维信息和事实数据;MOLAP 则采用多维数据结构存储维信息和事实数据;而
HOLAP 称其为混合 OLAP,该方法结合了 ROLAP 和 MOLAP 技术 [7] .无论是何种 OLAP,都需要存储和计算平台
的支持,尤其是在大数据环境下.
为了解决大数据所带来的诸多挑战,学界和业界涌现出许多新技术,如分布式文件系统 [8] 、NoSQL 数据库
系统 [9] 、MapReduce 编程模型 [10] 以及相关的优化方法,这些技术都被广泛地运用到大数据分析中.MapReduce
编程模型是广为人知的可扩展、灵活且高效的分布式编程框架.Hadoop 是 MapReduce 的开源实现,可对海量数
据进行可靠、高效、可扩展的并行处理.基于 Hadoop [11] 的实现,涌现出大量的分布式数据管理系统,并广泛地运
用在大数据管理和分析领域,如 Hive [12] ,HBase [13] ,HadoopDB [14] 等.一方面,尽管这些数据管理系统均可支持
OALP,但其性能往往不尽如人意.例如,基于 HBase 的 OLAP 引擎 OLAP4cloud [15] 框架属于一种基于云计算技术
的 OLAP 实现,它采用列存储数据存储结构以及索引等技术优化 OLAP 的性能.但是,OLAP4cloud 并不提供维
信息的管理,也无法直接支持上卷下钻操作,因此,OLAP4cloud 仅限于支持对度量数据的查询和简单的聚集操
作.另一方面,这些数据库系统均未针对 OLAP 进行特殊的优化,我们之前的研究 [16] 表明,连接操作在 ROLAP 中
是非常频繁且相当耗时的操作,当数据量或维数量增加时,连接操作会成为 OLAP 的瓶颈.MOLAP 可以避免数
据集的连接操作,因此在性能方面有着天生的优势,但 MOLAP 需要集中式存储多维数据模型,且耗费大量空间,
如何基于分布式文件系统和 MapReduce 模型实现 MOLAP 模型则是一个难题.据我们所知,在大数据分析领域,
尚未有关于分布式 MOLAP 技术的权威报道,也鲜有成熟的基于 MapReduce 的 MOLAP 系统,该问题亟待解决.
..............................