APP下载

基于大数据收集与存储的数据挖掘分析及研究

2017-11-02杨静许峰

软件导刊 2017年10期
关键词:数据收集云计算数据挖掘

杨静++许峰

摘要: 大数据应用研究已成为学术界热点。为更好地收集与存储大数据,变革对数据的管理以使其在大数据时代更好地服务于企业、社会与科学研究,探讨了目前大数据收集与存储方式的优缺点,提出了大数据挖掘与分析面临的问题,为下一步研究大数据生物存储方法奠定基础。

关键词:大数据;数据收集;数据存儲;数据挖掘;云计算

DOIDOI:10.11907/rjdk.171755

中图分类号:TP301文献标识码:A文章编号:16727800(2017)010000103

英文标题The Analysis and Research of Data Mining Based on the Big Data Collection and the Storage

——副标题

0引言

随着互联网、物联网、云计算、三网融合等IT与通信技术迅猛发展,数据的快速增长给许多行业带来了严峻挑战与宝贵机遇,信息社会进入了大数据时代[1]。2011年5月,在“云计算相遇大数据”为主题的“EMC World 2011”会议中,EMC抛出了Big Data概念。《纽约时报》2012年2月一篇专栏称“大数据”时代已经降临许多现实世界的领域。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”大数据的涌现不仅改变着人们的生活、工作方式与企业运作模式,甚至还会引起科学研究模式的根本性改变。

大数据是指无法在一定时间内用常规机器与软硬件工具对其进行感知、获取、管理、处理、服务的数据集合[2]。IBM将大数据的特点总结为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velo- city)与价值密度低(Value)。首先,网络空间中数据的规模不断扩大,已经从GB、TB到PB,有的甚至以EB或ZB等单位来计数,IDC研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器数量将增加l0倍以迎合50倍的大数据增长。有专家研究认为,从人类文明诞生到2003年所产生的数据大约为5EB,而2003-2012年产生的数据是2003年以前的500倍之多,达到2.7ZB,2012-2015年所产生的数据又翻了3倍。大数据数据集在以难以想象的速度增长,大数据收集、存储及挖掘给数据的处理带来了极大挑战。

1数据收集

大数据的特点除了数量多以外,还有种类杂、来源广等,这导致处理数据前的存储问题变得比以往更为复杂[38]。存储数据本身不是一项新技术,但旧时存储技术已无法完全胜任大数据下的要求,因为在海量数据面前,存储数据已不再是单纯的存储行为,在存储这些数据前,首先要面对如何提取或收集有用数据。

随着手机、平板电脑、智能家电、VR等硬件与搭载其上的社交软件、数据处理工具、编辑器等软件普及,每天或者说每秒都会产生难以估量的数据。这些数据必须收集起来加以分析,才能使其价值体现出来,而数据收集难点主要有以下几个方面:

(1) 求真。信息增多,同时也意味着错误或虚假情报增多,错误的信息不仅增加了工作量,还影响了数据分析的价值。因此,在获取信息时对信息可信度进行评估是非常重要且必要的。

(2) 及时。大数据下并不一定总需要保障数据的及时性,但也有相当多情况需要保障及时性,如交通出行数据或突发事件处理等,因此需要兼顾及时性问题。

收集数据在大数据时代下已不再是被动与单一地收集特定数据,而是主动收集需要的数据,随时随地进行收集。作为实现数据有效价值的第一步,还有很长一段路要走,这是有意义的一条道路,将会对大数据发展起到非常重要的作用。

2数据存储

提取出有用数据后,就应该选择合适数据库或其它方式进行存储,以方便以后的数据分析。基于传统关系型数据库的存储特点,由于大数据结构复杂,且无法在获取数据前很好地预测大数据结构,目前数据库还未能满足大数据时代的数据存储需求。

大数据中有大量冗余,消除冗余是降低开销的重要途径。大数据当前的存储方式不仅影响效率也影响成本,需要研究高效率低成本数据存储方式、多源多模态数据高质量获取与整合理论技术、错误自动检测与修复理论技术以及低质量数据上的近似计算理论与算法。这些问题对当今数据处理技术提出了巨大挑战。

目前一些大公司(如Google、Facebook、Microsoft、IBM与Oracle等)都设计了许多专门应对大数据时代的存储技术,尤其是Google在这一方面取得了非常大的成就。

2013年,Goldman 与Ewan Birney[9]在实验室实现了DNA存储技术,成功使用DNA编码存储了5个文件。在此之前,哈佛大学生物学家George Church等[10]将一本约有5.34万个单词的书籍进行DNA编码存储,用了不到1g的DNA微芯片,并实现了利用DNA测序来阅读。如果信息存储密度可以像大肠杆菌的基因一样密集,那么全世界数据只需要1kg的DNA。瑞士Robert Grass等[11]将DNA保存在二氧化硅球体里,模拟在10℃下保存2 000年,数据依然完好无损,这预示着利用DNA存储数据可以更长久保存数据的完整性。DNA计算机具有4个方面突出优点:①高度并行性,整体运算速度快;②海量存储能力;③能耗低;④资源丰富。其计算原理是利用DNA分子具有的海量存储能力及生化反应的巨大并行性等特点进行计算,这也正是电子计算机所不具备的。

3数据挖掘与分析

大数据的价值是毫无疑问的,然而与普通数据不同,普通数据的价值在大多数情况下直接体现在数据上,数据价值与数据量基本上成正比,但大数据却不一定,数据越多并不一定代表价值越大,相反,在有些时候,数据越多对于存储与分析数据的能力要求会越高,且无法提前确定数据价值。正因为这样,大数据下分析与挖掘数据价值是一件非常有挑战性的工作,主要会遇到以下问题[12]:endprint

(1)分析目标对分析方法的影响。大数据下,因为从不同侧面分析同一份数据会得到不同的结果,因此需要在确定目标的前提下去分析数据。某些情况下会存在对同一个问题多次分析,因为在分析一些大问题时可能已经分析过其中的小问题,或者说对被分析问题的彻底理解需要借助更多关系,这势必提高问题难度,因为无法预料到各方面的权重是否合理。

(2)数据量对分析速度的影响。数据量对分析速度的影响除了表现在运算上,还有一个分析系统可承载数据量的问题。因为任何一个系统可以同时运算的数据量都不会无限大,系统存在一个负载问题,大数据下数据量的急剧增加导致了许多问题,很多运算系统必须改进。另一个问题是数据太多,运算时数据传输会影响数据运算速度,也许可以考虑改变运算方式,不是把数据输入到CPU去分析,而是让CPU去分析数据,但又会出现一些新的问题,需要研究一些新的技术与算法。

(3)隐私权是数据分析必须思考的问题。大数据隐藏着许多信息,简单几个数据不会轻易体现一个人的行踪,但当许多数据集中在一起时,结果可能就不一样了。因此还必须考虑隐私问题,这同样提高了数据分析的难度。

Google等一些科技公司为了应对大数据时代的机遇与挑战,研发了专门的数据库软件与新技术,比如Google在2004年提出了Map Reduce,完整流程如图1所示。

这是一个具有代表意义的批处理模式,从图1可见,将问题分而治之的思路,好处是显而易见的,复杂问题变得不那么复杂,且改变了数据与计算的关系。回想计算机发展史,从最初以运算器为中心的冯·洛依曼机到现在以存储器为中心的计算机结构,Map Reduce改变了数据必须送到计算中处理的方式,让计算“跑”到数据中处理数据。关系型数据库在很长一段时间内都是处理数据的最佳选择,然而随着大数据时代对数据处理需求的改变,出现了许多特别应对大数据分析的工具,Hadoop是目前比较流行的平台,当然也有在Hadoop基础上改进或完全独立开发的工具。

4数据分析结果显示

为什么数据分析结果不可以使用传统的方式展示,而要特地设计?先来看一组数据,如图2所示。

从图2可以看出原始数据的复杂性,分析结果也是多维度的,无法也不需要列出全部分析结果,这就需要寻求新的方式去展示数据分析结果。分析结果可能牵扯到个人隐私,这也是需要面对的问题。比如在Google里搜索关键字,会在无意识情况下将一个人的私人偏好或目前面临的问题暴露出来(比如Google后台被入侵或Google出售自己的数据,虽然这二者可能性都很低)。数据分析结果并不简单,需要兼顾非常多的技术问题与非技术问题。

5结语

如今,数据越来越多,但它本身只是璞玉,需经过精雕细琢才能实现真正的价值。总的来说,大数据研究才刚刚起步,还有许多基础问题需要解决;大数据与其它计算机技术有什么不同、是否会在根本上导致新的计算机革命,还需要较长时间来验证。不过,在某种意义上,大数据的魅力正是其未来的无限可能,因为未来无法预测,才令人充满好奇,停不下探索的脚步。

参考文献参考文献:

[1]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报:自然科学版,2014(5):405419.

[2]马建光,姜巍.大数据的概念、特征及其应用[J].国防科技,2013,34(2):1017.

[3]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015,45(1):144.

[4]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013(4):168172.

[5]WU X,ZHU X,WU G Q, et al. Data mining with big data[J]. IEEE Transactions on Knowledge & Data Engineering,2014,26(1):97107.

[6]BENSRHIR A. Big data for geopolitical analysis: application on barack obama's remarks and speeches[C]. ACS International Conference on Computer Systems and Applications IEEE Computer Society,2013:14.

[7]ZHENG Z, ZHU J, LYU M R. Servicegenerated big data and big dataasaservice: an overview[C]. IEEE International Congress on Big Data,2013:403410.

[8]ZIN T T, TIN P, TORIU T,et al. A big data application framework for consumer behavior analysis[C]. Consumer Electronics IEEE,2013:245246.

[9]GOLDMAN N, BERTONE P, CHEN S,et al. Toward practical highcapacity lowmaintenance storage of digital information in synthesised DNA[J]. Nature,2013:494.

[10]CHURCH G M,GAO Y,KOSURI S. Supplementary materials for nextgeneration nextgeneration digital information storage in DNA[J]. Science, 2012,337:16281643.

[11]GRASS R N, HECKEL R, PUDDU M,et al. Robust chemical preservation of digital information on DNA in silica with errorcorrecting codes[J]. Angewandte Chemie International Edition,2015,54(8):25522555.

[12]陳鹏.面向大数据应用的异构可重构平台关键技术研究[D].合肥:中国科学技术大学,2015.

责任编辑(责任编辑:何丽)endprint

猜你喜欢

数据收集云计算数据挖掘
基于并行计算的大数据挖掘在电网中的应用
实验云:理论教学与实验教学深度融合的助推器
一种基于Hadoop的大数据挖掘云服务及应用
基于全集成自动化的能耗监控管理系统设计
基于GPGPU的离散数据挖掘研究