大数据的特征、管理与挖掘
2015-05-30周健
周健
[摘 要]未来将是大数据的时代。大数据产业主要涉及数据生成、存储、处理分析、应用四个环节,具体来看,包含硬件设备、处理分析环节、综合处理、语音识别、视频识别、商业智能软件、数据中心建设与维护、IT咨询、方案实施、信息安全等领域。
[关键词]大数据;数据采集;数据管理
[DOI]10.13939/j.cnki.zgsc.2015.45.105
随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业、企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力。因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。世界权威IT信息咨询分析公司IDC研究报告预测:全世界数据量未来10年将从2009年的0.8ZB增长到2020年的35ZB(1ZB=1000EB=1000000PB),10年将增长44倍,年均增长 40%。而且,大量新数据源的出现导致数据结构的多样变化,非结构化、半结构化的数据呈爆发式增长。这些信息背后产生的大量数据远远超越了目前人力所能处理的范畴,大数据时代正在来临。
1 大数据的特征
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
1.1 数据体量巨大(Volume)
截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
1.2 数据类型繁多(Variety)这种类型的多样性也将数据分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
1.3 价值密度低(Value)价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
1.4 处理速度快(Velocity)这是大数据区别于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
一个基本的大数据处理流程,可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。
2 大数据的采集方法
2.1 系统日志采集方法
对于系统日志采集,很多互联网企业都有自己的海量数据采集工具,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,它们均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
2.2 网络数据采集方法:对非结构化数据的采集
网络数据采集可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。可以通过网络爬虫或网站公开API等方式从网站上获取数据信息。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。
2.3 其他数据采集方法
对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
3 大数据存储(导入)和管理
3.1 并行数据库
并行数据库系统大部分采用了关系数据模型并且支持SQL语句查询,在无共享的体系结构中进行数据操作的数据库系统。
3.2 NoSQL数据管理系统
NoSQL指的是“Not Only SQL”,即对关系型SQL数据系统的补充。NoSQL最普遍的解释是“非关系型的”,强调键值存储和文档数据库的优点,而不是单纯地反对关系型数据库。它采用简单数据模型、元数据和应用数据的分离、弱一致性技术,使NoSQL能够很好地应对海量数据的挑战。
3.3 云存储与云计算
在云计算概念上延伸和发展出来的云存储,是一种新兴的网络存储技术,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。云存储是一个以数据存储和管理为核心的云计算系统。
3.4 实时流处理
所谓实时系统,是指能在严格的时间限制内响应请求的系统。流式处理就是指源源不断的数据流过系统时,系统能够不停地连续计算。所以,流式处理没有严格的时间限制,数据从进入系统到出来结果可能是需要一段时间。然而,流式处理唯一的限制是系统长期来看的输出速率应当快于或至少等于输入速率。否则,数据会在系统中越积越多。
4 大数据的分析
数据分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。如果是一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
5 大数据的挖掘与展示
大数据技术不在于掌握庞大的数据信息,而是将这些含有意义的数据进行专业化处理,将海量的信息数据在经过分布式数据挖掘处理后将结果可视化。数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。依据数据及其内在模式和关系,利用计算机生成的图像来获得深入认识和知识。这样就对数据可视化软件提出了更高的要求。数据可视化应用软件的开发迫在眉睫,数据可视化软件的开发既要保证实现其功能用途,同时又要兼顾美学形式。例如,标签云、聚类图、空间信息流、热图等。
大数据成为推动经济转型发展的新动力。以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。大数据成为重塑国家竞争优势的新机遇。在全球信息化快速发展的大背景下,大数据已成为国家重要的基础性战略资源,正引领新一轮科技创新。大数据还成为提升政府治理能力的新途径。大数据应用能够揭示传统技术方式难以展现的关联关系,推动政府数据开放共享,促进社会事业数据融合和资源整合,将极大提升政府整体数据分析能力,为有效处理复杂社会问题提供新的手段。
参考文献:
孟小峰,慈祥.大数据管理:概念、技术与挑战[J].算机研究与发展,2014(1).