APP下载

对大数据的探讨

2014-10-13彭彬王文燕邓荣伟

湖北汽车工业学院学报 2014年3期
关键词:数据处理研究

彭彬,王文燕,邓荣伟

(湖北汽车工业学院电气与信息工程学院,湖北十堰442002)

对大数据的探讨

彭彬,王文燕,邓荣伟

(湖北汽车工业学院电气与信息工程学院,湖北十堰442002)

从数据处理技术的角度介绍了大数据的概念和特点,分析了大数据面临的挑战和研究现状,给出迎接大数据的几点思考。最后,结合湖北汽车工业学院的实情,提出了大数据研究的建议。

大数据;数据处理技术;挑战;大数据研究栈

随着新兴信息技术(如云计算、物联网)和新型信息服务(如电子商务、社交网络)等的不断涌现和广泛应用[1-2],人类可获取的数据种类日益增多,面临处理的数据尺寸由超大规模数据、海量数据发展到大数据[3],数据处理的规模和需求发生了急剧变化,传统的数据库、数据仓库等数据处理技术面临挑战,大数据研究的重要性日益凸显。正确认识大数据的内涵与挑战,积极应对大数据的研究机遇,合理选择大数据研究的突破点有十分重要的意义。

1 大数据的概念

大数据(Big Data)一词最早出现于2008年Na⁃ture杂志发表的文章《Big data:science in the pet⁃abyte era》[4-5],2011年5月McKinsey Global Institute发布的调研报告《Big data:Thenext frontier for inno⁃ vation,competition,and productivity》[6]使得大数据研究成为全球科技界和企业界共同的课题,2012年3月奥巴马政府启动的“大数据研究和发展计划”更使大数据研究上升到国家战略高度[7]。

关于大数据的定义,维基百科认为:大数据是因规模和复杂性而很难用传统数据处理程序对其进行分析、采集、管理、搜索、共享、存储、传输、可视化和隐私保护的数据集[8]。麦肯锡认为:大数据是尺寸超出典型数据库软件工具的采集、储存、管理和分析能力的数据集[6]。2个定义都说明了大数据是数据处理技术发展到新阶段的产物,本质是数据的集合,强调不能被传统的数据库技术处理。

由于能对政府决策、商业规划和知识发现等起重大作用,大数据逐渐成为重要的战略资源[2,9]。中国科学院计算技术研究所李国杰院士认为:一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点[1]。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。大数据研究具有战略意义。

2 大数据的特点

从计算科学发展历程来看,大数据的概念伴随物联网和云计算的发展而提出,物联网提高了大数据的存储要求,大数据拓展了云计算的服务能力,使云计算从“基础设施即服务”、“平台即服务”、“软件即服务”、“存储即服务”[10]发展到“信息即服务”的新境界。这就使得大数据具有不同于传统数据处理对象的特点。

1)规模性(Volume)

传统数据处理技术面临的是GB、TB级的数据,而大数据面临的数据规模往往高达PB级( 1kB=210Byte,1MB=210KB,1GB=210MB,1TB=210GB,1PB=210TB,1PB相当于50%的全美国图书馆藏书量)。

2)多样性(Variety)

传统数据处理技术面临的是结构化、半结构化数据;而大数据面临的更多是网络日志、视频、图片、地理位置信息这样的非结构化数据。

3)高速性(Velocity)

传统数据处理技术中的数据变化速度不大,数据处理的响应时间可以是分钟级别;而大数据中的数据产生与传播的速度快(呈现出鲜明的流式特征,俗称流式计算),数据处理的响应时间一般在秒级,以支持用户决策,满足“信息即服务”的质量要求。

4)价值性(Value)

大数据中有价值的数据往往分布不均匀,常常是“沧海”中“一栗”。从整体看,有价值数据分布稀疏,数据价值密度低,但挖掘出来的信息商用价值高。

3 大数据带来的挑战

数据处理包括数据收集、存储、加工、传播等活动,中心问题是数据管理(如分类、组织、编码、存储、检索和维护)[11]。由于大数据独有的特点,传统的数据处理技术面临压力。国际数据公司IDC认为大数据是“为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术”。

1)高效数据获取技术

数据获取是大数据处理的第一步,要应对大数据的高速性,就必须坚持数据获取的高效性。急需研究满足“按需获取”的“自适应数据获取”技术,实现在数据上传与存储之前的滤波去噪、降维、压缩,减小数据规模。

2)高速数据传输技术

高效获取的海量数据需要通过网络汇集到数据中心,或者在数据中心之间迁移。大数据传输必须面对时效性和数据完整性2个问题。一个具体应用可能偏重时效,也可能偏重数据完整性,还可能二者兼之。目前的网络技术不能满足大数据传输在时效性和数据完整性方面的需求,急需研究“新的网络体系结构、传输交换机理、通信协议及高效数据流和网络资源调度方法”[12]。

3)高效数据管理技术

大数据应用下,数据增长速度快、并发读写强度高、多样性数据在不同设备上存储、数据处理面临高速性压力,急需新的存储架构、数据组织方案和索引检索理论,以提供高效的数据管理技术。

4)高效数据分析技术

传统的数据分析技术基于结构化数据展开,数据量小,数据间关系已有部分先验知识(数据间关系也存储在关系数据库中),统计分析基于小样本、独立同分布理论进行。而大数据分析面对的是快速变化的海量数据,可获取的样本数已远远超过了传统的小样本量,样本的流式特征使得独立同分布的特性受到威胁。急需研究新的计算体系结构[12]、研究新的分析理论、模型和方法[13-14],提供高效的数据分析技术,以应对分析时效与分析成本的压力。

5)数据安全与用户隐私保护

冯登国等把用户隐私细化为用户位置隐私、用户标识符隐私和用户连接关系隐私等。大数据下,人们面临的威胁不仅包括个人隐私泄漏,更可怕的是基于大数据对用户(政府、企业和个人)状态和行为的预测;受攻击或刻意制造的大数据会导致错误的分析结论;大数据层层传播,误差积累也会导致数据失真[15]。中国计算机学会(CCF)大数据专家委员会关于2014年大数据发展趋势预测的报告[16]指出用户隐私会越来越多地融入各种大数据中,大数据更容易成为网络攻击目标,大数据分析技术更容易被黑客利用,大数据引起了更多不易被追踪和防范的犯罪手段。大数据面临严峻的数据安全与用户隐私保护挑战。

4 大数据研究现状

从技术层面看,Google提供了第一代大数据技术GFS、BigTable和MapReduce。其中GFS是一个可部署在廉价设备上的分布式文件系统,Bigtable是一个运行在GFS之上的分布式结构化数据存储系统,MapReduce是一个简单的并行计算框架。2012起,Google又相继推出新一代大数据技术:Co⁃lossus、Caffeine、Pregel、Dremel等。此外,Yahoo、Facebook、Twitter等互联网企业,将Goole的原创技术与自身的工程实践相结合,开发支持大数据应用的开源软件;IBM、Oracle等IT厂商对开源技术进行改进,提供面向行业的大数据应用系统紧。

从应用层面看,Google在Web搜索、Amazon和阿里巴巴在电子商务、Facebook和Twitter在社交网络方面都有大数据应用的成功经验。

从实现大数据技术的开源软件来看,Apache软件基金会的Hadoop影响最大,并以离线分析见长。但Hadoop一统天下的格局正在发生改变,如Twitter推出支持流式计算的Storm,以实时分析见长;由加州伯克利大学AMP实验室推出的Spark系统则有着比Hadoop快近100倍的性能,进一步降低了大数据应用开发的编程难度。

5 应对大数据的几点思考

5.1政产学研合作搭建大数据协同研究平台

政府应重视大数据的战略地位,为高校和科研机构建设云计算中心提供资金支持。推动政产学研建设大数据协同研究平台,政府和企业为大数据研究提供数据支持,高校和科研机构借助研究平台培养大数据研究应用相关人才、为企业和政府提供决策服务。

5.2选择合适的突破点,保证大数据研究的效益

大数据研究栈如图1所示。数据获取层研究快速数据感知工具及自适应数据获取技术,以高效获取数据。网络传输层研究满足大数据时效性和数据完整性的网络体系结构和数据传输机制。存储管理层研究应对数据规模快速增长的存储架构和高效的数据管理机制。分析算法层研究新的分析理论、模型和算法,解决大数据分析的共性问题。工具接口层研究基于大数据分析算法的应用接口和可视化工具。行业应用层研究特定行业的大数据解决方案,降低行业大数据应用的门槛。高校和科研机构应结合自己的技术积累,考虑自己的区域位置、行业特色、政企需求来选择大数据研究的切入点。网络传输层和存储管理层的研究基准较高,重点在数据获取层、分析算法层、工具接口层以及行业应用层选择突破点,以保证大数据研究的效益。

图1 大数据研究栈

5.3培养大数据市场,保证大数据研究可持续发展

企业需求是大数据研究最重要的动力,也是大数据研究持续发展的保证。政府应加速制定大数据产业政策,建立有效的有利创新的知识产权框架,建立大数据共享和交易市场,促进产学研进行大数据研究和应用推广;应加快制定隐私保护、数据安全等法律法规,界定大数据拥有者的权利和责任(不准确数据导致的负面结果),为大数据研究与应用提供司法支持。

6 湖北汽车工业学院大数据研究的建议

湖北汽车工业学院具有传感器、车联网、智慧城市、人工智能、数据库应用等研究经验,具备大数据研究的技术积累;与东风公司关系密切,熟悉汽车业的制造、销售和服务体系,东风公司信息化基础好,基于信息化提升制造、营销水平的意愿强,具备研究大数据行业应用的外部环境;学校地处南水北调水源区,扶贫攻坚、环保、产业升级培育的压力大,用大数据技术服务地方社会转型发展的切入点多,容易获得政府的支持。因此具备大数据研究的条件,建议启动大数据研究工作。

湖北汽车工业学院的大数据研究宜在数据获取层、分析算法层、行业应用层展开。可以研究支持大数据的传感器技术,基于大数据的汽车制造、汽车营销、环境保护、电子商务、法律法规,基于大数据的统计理论、行业大数据应用建模、模式识别、机器学习、人工智能等。

以服务汽车制造、服务南水北调为抓手,推进湖北汽车工业学院大数据研究可改变学校科研生态,提升学校服务汽车制造业、地方政府的能力。

7 结束语

大数据是数据处理技术发展到新阶段的产物,是不能被传统的数据库技术处理的数据集。大数据的研究与应用是挑战也是机遇,应基于自身条件切入大数据技术与应用研究,服务企业与社会,保证研究效益。

[1]李国杰.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):647-656.

[2]孟小峰,高宏.大数据专题前言[J].软件学报,2014(4):691-692.

[3]张兴旺.图书馆大数据体系构建的学术环境和战略思考[J].情报工作,2013(2):12-17.

[4]于艳华,宋美娜.大数据(1)[J].中兴通讯技术,2013(1):57-60.

[5]Graham-Rowe D,Goldston D,Doctorow C,et al.Big da⁃ta:science in the petabyte era[J].Nature,2008(455):1-50.

[6]JamesManyika,MichaelChui,Brad Brown,etal.Bigdata:The next frontier for innovation,competition,and produc⁃tivity[EB/OL].[2014-09-10].http://www.mckinsey.com/ insights/business_technology/big_data_the_next_frontier_ for_innovation.

[7]李国杰.大数据研究的价值[J].中国计算机学会通讯,2012(9):8-15.

[8]Wikipedia.Big data[OL].[2014-09-10].http://en.wiki⁃pedia.org/wiki/Bigdata.

[9]杨学山.迎接大数据发展的拐点[J].世界电信,2014(Z1):34-36.

[10]张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010(2):429-433.

[11]王珊,萨师煊.数据库系统概论[M].4版.北京:高等教育出版社.2006:6.

[12]王成红,陈伟能,张军等.大数据技术与应用中的挑战性科学问题[J].中国科学基金,2014(2):92-98.

[13]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014(1):5-9.

[14]李金昌.大数据与统计新思维[J].统计研究,2014(1):11-17.

[15]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(1):246-256.

[16]黎林峰.2014年大数据发展趋势预测[J].中国建设信息,2014(3):18-19.

Discussion on Big Data

Peng Bin,WangWenyan,Deng Rongwei
(Schoolof Electrical&Information Engineering,HubeiUniversity of Automotive Technology,Shiyan 442002,China)

From the perspective of data processing technology,the conceptand characteristics of big da⁃tawere introduced.The challengesbroughtby big dataand the research statuswere analyzed.Some con⁃siderations formeeting big datawere given.Some suggestionson the big data researchwere put forward according to theactual conditionsofHubeiUniversityofAutomotive Technology.

big data;data processing technology;challenges;big data research stack

10.3969/j.issn.1008-5483.2014.03.013

TP11.13;F416.6

A

1008-5483(2014)03-0060-04

2014-09-06

彭彬(1971-),男,湖北郧县人,副教授,从事网络与数据库、Web工程研究。

猜你喜欢

数据处理研究
FMS与YBT相关性的实证研究
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
2020年国内翻译研究述评
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
新版C-NCAP侧面碰撞假人损伤研究
MATLAB在化学工程与工艺实验数据处理中的应用
Matlab在密立根油滴实验数据处理中的应用