您现在的位置: 精品资料网 >> 管理信息化 >> 大数据 >> 资料信息

基于粗糙集和遗传算法的大数据集数据挖掘应用研究(PDF 74页)

所属分类:
大数据
文件大小:
2307 KB
下载地址:
相关资料:
粗糙集,遗传算法,大数据,数据集,数据挖掘,应用研究
基于粗糙集和遗传算法的大数据集数据挖掘应用研究(PDF 74页)内容简介
男人摘要
第1章绪论
新的需求推动新的技术的诞生。数据分析是科学研究的基础,许多科学研究都是
建立在数据收集和分析基础上的。在目前的商业活动中,数据分析总是和一些特殊的
人群的高智商行为联系起来,因为并不是每个平常人都能从过去的销售情况预测将来
发展趋势或作出正确决策的。但是,随着一个企业或行业业务数据的不断积累,特别
是由于数据库的普及,人工去整理和理解如此大的数据源已经存在效率、准确性等问
题。因此,探讨自动化的数据分析技术,为企业提供能带来商业利润的决策信息而成
为必然I”。
事实上,数据(Data)、信息(Information)和知识(Knowledge)可以看作是广
义数据表现的不同形式。数据库是目前组织和存储数据的最有效方法之一,但是面对
日益膨胀的数据,数据库查询技术已表现出它的局限性。直观上说,信息或称有效信
息是指对人们有帮助的数据。数据的膨胀和技术环境的进步,人们对联机决策和分析
等高级信息处理的要求越来越迫切。尤其在电信行业,随着电信市场垄断格局的打破,
市场竞争更趋激烈,客户服务的质量要求日益提高,这些因素使得国内的电信企业开
始着手数据仓库的建设,并将数据挖掘系统作为数据仓库实施的一部分。
随着移动通信的不断发展,小灵通短信实现了全国互通以及和手机互通。山西网
通太原通信分公司负责太原、晋中、晋城、吕梁四地市共享的UT短信中心及全省短
信二级网关的维护。其中,短信二级网关是UT短信中心、中兴短信中心、北京一级
网关、移动短信网关和联通短信网关的互联通信枢纽,每日流量达五百万条以上,业
务处理十分繁忙。网关数据库每天生成一张短信数据表,每张表有30个字段,约500
万条纪录。一条短消息作为一条记录存储,其中包含有短消息ID,发送时间,接受
时间,发送号码,接受号码,来自哪个账号,资费类型,转发路由等大量信息。在日
常维护中,由于厂家没有提供完备的网管及告警系统,所以每天需要统计挂接在网关
上的主要帐号的收发成功率,来大致掌握短信系统的运行情况。一旦成功率低于正常
值(例如联通,移动方向的正常值是90%),就需要较快的定位造成异常的原因,及
时采取措施保障通信畅通。由于表中的字段过多,在实际工作中,往往只能根据经验
对某几个主要字段进行统计分析。如果不能通过统计几个字段得出结果,也就无法找
出原因。所以要能够高效的维护系统,从海量的数据中总结出知识,就需要建立数据
挖掘系统。基于该数据库字段多,记录数量庞大的特点,首先利用粗糙集来约简属性,
然后再用遗传算法筛选出比较准确的决策规则,供维护人员参考。数据库中海量的数
据信息通常是不完整的,缺失的,不确定的,为了客观处理这些信息,在挖掘中采用
粗糙集技术。粗糙集理论是一种研究能有效地分析和处理不精确,不确定知识的数学
工具。它的主要特点之一是无须提供问题所需处理的数据集合之外的任何先验信息。

..............................