我国大数据技术研究趋势
2017-04-25常李艳
常李艳
摘要:大数据技术已经成为信息社会最重要的技术之一。为了深入了解我国近年大数据技术主要的研究现状和发展趋势,文章对我国最近五年大数据技术的研究文献进行了总结,概括了大数据技术涉及的大数据采集技术、大数据分析技术、大数据存储和管理技术、大数据安全和隐私保护技术以及大数据技术在不同领域的应用5个方面,并对这五方面的研究现状和发展趋势进行分析,并介绍了大数据在能源、教育、居民健康档案建设方面的应用。
关键词:大数据;社会网络分析;大数据分析;MapReduce;Hadoop
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)02-0002-03
Research trend of China's big data technology
CHANG Li-yan
(Nanjing University, Nanjing 210023, China)
Abstract: BIG DATA technology has become one of the most important technologies in the information society.In order to understand the research status and development trend of chinas BIG DATA technology in recent years,the article analyzed research literature of BIG DATA technology in recent five years in China and summed up five aspects of BIG DATA technology:acquisition techniques, BIG DATA analysis technique, management and storage techniques, data security and privacy preserving techniques and application of big data technology in different areas.Paper analyzed the research status and development trend of the five aspects.
Key words: BIG DATA; Social network analysis; BIG DATA analysis techniques; MapReduce; Hadoop
1 引言
随着互联网的发展,web2.0、web3.0的兴起,以及物联网的出现,人类的信息量急剧膨胀。根据IDC(国际数 据公司)的监测统计,2011年全球数据 总量已经达到1.8ZB,而这个数值还在 以每2年翻一番的速度增长,预计到2020年,全球将总共拥有35ZB的数据 量,比2011年增长了近20倍。换句话说,近2年产生的数据总量相当于人类有史以来数据量的总和[1,2]。从大量数据中获取有用信息成为人们的迫切需求,在此背景下“大数据(big data)”的概念受到社会各领域的重视。
2 大数据的概念及特征
2.1 大数据的概念
“大数据”至今没有公认的定义,2011全球知名咨询公司麦肯锡在《大数据: 创新、竞争和生产力的下一个前沿领域》报告中给出的定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。同时强调,并不是说一定要超过特定TB级的数据集才能算是大数据。国际数据公司(IDC)用四个维度的特征来定义大数据,即数据集的规模(Volume)、数据流动的速度(Velocity)、数据类型的多少(Variety)和数据价值的大小(Value)[3]。基百科上的大数据定义:“大数据指的是数据规模庞大和复杂到难以通过现有的数据库管理工具或者传统的数据处理应用程序进行处理的数据集合”。以上的定义虽然不尽相同,但均突出了数据的“大”。从数据到大数据量再到最后的大数据,不仅仅体现在量上的变化,而且是数据质量的提升,大数据的技术、平台、数据分析方法等均与从前小数据时代不同,大数据的核心是从海量无序信息中获取有用信息。
2.2 大数据的特征
尽管不同领域的人员对大數据的概念有不同见解,但是普遍认为大数据具备如下的4V特征:⑴ 体量Volume,是指数据存储量大,计算量大;⑵ 多样Variety,是指大数据的异构和多样性;⑶ 价值Value,是指大数据价值密度相对较低,信息海量,挖掘出真正有价值的数据难度较大;⑷ 速度Velocity,是指数据增长速度快。
3 近年我国大数据技术研究热点
通过对2012年至2016年CNKI数据库中涉及大数据技术的文献资料进行整理分析,抽取大数据技术相关文献总大于10的68个关键词作为高频关键词,并构建高频关键词共现矩阵,利用社会网络分析软件Ucinet建立关键词共现网络图谱,显示我国最近5年在大数据分析领域的主要研究热点和趋势(图1)。通过分析将我国的大数据技术分为大数据采集技术、大数据分析技术、大数据存储和处理技术、大数据安全与隐私保护技术、大数据应用5个方面。
3.1 大数据采集技术
数据集是大数据挖掘和分析的基础。因此一个有效的数据采集方案对大数据挖掘研究具有重要意义。目前常用的采集技术有形码技术、射频识别技术(RFID) 、视频监控技术、智能录播技术与情感识别技术、点阵数码笔技术、移动 APP 技术与网络爬 虫采集技术等。由于各个领域数据源各不相同,我国学者对不同领域不同结构数据的采集技术和方法进行了研究。主要研究云环境下大数据的采集、分布式大数据的采集技术以及各领域大数据采集。如,方晖提出了一种基于相干功率谱密度估计的大数据时代网络下云信息采集方法[4]。付华峥在系统的解析模块中提出了一种通用有效的基于标签树节点权重的正文提取算法的高效的分布式大数据采集系统,同时引入IP代理池技术来保证系统的持续性。实验证明,本系统能够高效快速地获取大量的网络数据[5]。刘宁从数据采集内容、数据采集规划、采集接口的网络部署和采集客户端的工作方式4个方面提出居民电子健康档案的数据采集方案(图2为刘宁设计的居民电子健康档案数据采集接口的客户端工作方式)[6]。
图2 居民电子健康档案数据采集接口的客户端工作方式
3.2 大数据分析技术
数据采集的主要作用是为了进行数据分析,获得有价值的信息。传统数据处理技术有对关系数据库的数据挖掘技术、智能分析、统计分析等,但这些技术已经不能满足大数据环境下对数据进行有效分析的需要。大数据环境下数据的分析主要集中与云计算、分布式数据库、MapReduce、大数据挖掘、基于机器学习的大数据分析技术、大数据分析系统的设计、可视化技术等技术。云计算是大数据分析处理技术的核心原理,也是大数据分析应用的基础平台[7]。它是一种新型超级计算,云计算的技术实际上是实现计算、服务、存储、应用软件等硬件资源的虚拟化。云计算主要是对数据进行分布式的处理以及分析来实现数据管理技术。针对大数据环境非结构化或半结构化的数据挖掘问题,Kang U等提出针对图片文件的挖掘技术[8],提出一种大规模文本文件的检索与挖掘技术[9]。 Google公司于2004年提MapReduce技术作为一种典型的数据批处理技 术被广泛地应用于数据挖掘、数据分析、机器学习等 领域,并且因为它并行式数据处理的方式已经成为大数据处理的关键技术[10]。 李晨晖等提出大数据分析的九层架构,认为复杂结构 处理技术、大数据智能识别与传感技术、大数据平台标准规范、虚拟化接入技术、知识服务交易模型、知识服务全生命周期管理技术、大数据知识服务质量评价体系、支持可视化大数据服务终端交互技术等共同构成了大数据分析和服务的关键技术体系[11]。
3.3 大数据存储和管理
传统的数据存储和管理以结构化数据为主,主要使用关系数据库系统(RDBMS)。大数据的4V特征表明,其主要以非结构化和半结构化的数据为主,而且数据常常为异构数据。传统的数据库技术很难完成对大数据的存储、检索和管理工作。现在对大数据存储和管理的研究主要涉及分布式并行数据集群技术的研究、面向大数据处理的MapReduce模型、NoSQL存储方案、分布式文件系统以及基于Hadoop开源体系的系统平台等方面。 程学旗等将大数据分为3类,认为结构化的大数据,通常采用新型数据库集群。它们通过列存储或行列混合存储以及粗粒度索引等技术,结合MPP(Massive Parallel Processing)架构高效的分布式计算模式,实现对 PB 量级数据的存储和管理。这类集群具有高性能和高扩展性特点,在企业分析类应用领域已获得广泛应用[12]。Hadoop 分布式文件系统 HDFS 是建立在大型集群上可靠存储大数据的文件系统[13],基于HFDS的Hive和HBase能够很好地支持大数据的存储。将Hive与HBase进行整合,共同用于大数据的处理,可以减少开发过程,提高开发效率。使用 HBase存储大数据,使用Hive提供的SQL查询语言,可以十分方便地实现大数据的存储和分析。非关系型数据库( NoSQL) 以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销[14]。Google的BigTable就是典型的NoSQL实现。申德荣等针对基于key-value数据模型的NoSQL数据库的相关研究进行综述。
3.4 大数据的安全和隐私保护
大数据环境下,数据分析方法的进步使人们可以从海量无序数据中发现规律性的有用的信息,从而使信息安全和个人隐私保护受到更大的威胁。一方面的企业或个人可以通过用户行为历史记录,可以预测用户的政治倾向、消费习惯等敏感信息,同时事实证明企业使用的匿名保护的方法,无法满足对用户隐私保护的需求,最后,现在没有相关的法律法规来规范企业对用户信息的采集、存储、传播和使用。现在的大数据安全与隐私保护技术主要涉及数据加密算法、隐私保护的立法、位置大数据的隐私保护、隐私保护的技术架构研究等方面。数据加密算法包括对称加密算法和非对称加密算法,Rivest在1989年开发出MD2算法,不需要密钥,引发了杂凑算法(也称Hash函数)的研究[15]。persona通过基于属性加密和传统公钥加密技术的组合,提供灵活的細粒度的访问控制,通过加密技术确保数据的保密性和隐私。许杰等从数据源的角度出发,使用几何变形的方法对数据进行干扰,使得数据聚类算法失效或分析得出错误的结果,从而达到大数据安全隐私保护的目的[16]。位置大数据的隐私保护技术主要有基于启发式隐私度量的位置大数据隐私保护技术、 基于概率推测的位置大数据隐私保护技术、基于隐私信息检索的位置大数据隐私保护技术等[17]。
3.5 大数据应用
大数据作为信息技术发展的新趋势,其技术已经应用到各行各业。大数据技术在能源、教育、科研、制造、金融、电子政务、企业经营管理、信息管理等领域的应用,为这些领域带来了革命性的影响。曹军威等认为在能源互联网中不仅信息的种类和数量巨大,而且对信息的实时性要求也越来越高,因此大数据分析技术在能源互联网中具有广泛的应用前景。文中分析了能源互联网大数据分析应用,能源互联网侧重分布式能源和可再生能源的接入和互联,大数据分析在能源互联网中的应用包括负荷建模、负荷预测、状态评估、电能质量监测与控制、需求侧管理与响应、分布式能源接入、多能调度规划、自动故障定位、系统安全与态势感知等[18]。张金磊提出在大数据时代,企业管理者应该深入剖析企业战略管理过程,并结合现有大数据技术在企业战略管理中的应用,提出如何利用大数据技术搭建企业数据分析平台,最终实现提升企业整体核心实力与环境应变能力[19]。刘宁等对对了大数据环境下,国内外健康档案数据采集现状,从数据采集内容、数据采集规划、采集接口的网络部署和采集客户端的工作方式4个方面提出我国居民电子健康档案的数据采集方案[7]。胡水星教育领域同样蕴藏着具有广泛应用价值的海量数据,在探讨教育大数据关键技术分析的基础上,结合共词分析和教育博客等社会化网络教育数据,构建教育领域的相关学习分析和数据挖掘模型,探索教育变量之间的相关关系,实践大数据的教育应用[20]。
4 总结
大数据技术已经成为信息社会的最重要技术之一,各国对大数据技术均十分重视。2012年3月,美国白宫科技政策办公室发布《大数据研究和发展计划》,成立“大数据高级指导小组”。2014 年 5月,美国发布《大数据:把握机遇,守护价值》白皮书,对美国大数据应用与管理的现状,政策框架和改进建议进行集中阐述[13]。本文通过对最近5年发表的关于大数据的文献资料进行分析,总结了我国大数据在大数据采集、大数据分析、大数据存储和管理、大数据安全和隐私保护以及大数据应用5各方面技术现状和研究热点,分析显示大数据技术已经带来社会各领域的变革,例如其在电力、能源、医疗、教育、企业管理、工业制造、智慧城市等方面均有较为深入的研究和应用。然而大数据技术刚刚起步,还存在数据获取、隐私保护等方面的问题,有待研究者进一步的研究和分析。
参考文献:
[1]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.
[2] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012,27(6):647-657.
[3] 麦肯锡公司的报告《大数据: 创新、竞争和生产力的下一个前沿领域》,http://taidupa.com/taxonomy/term/998,[2016-11-1].
[4] 方晖.大数据时代网络下云信息采集方法的改进与研究[J].电子技术与软件工程,2016(21).
[5] 付华峥,陈翀,向勇,等. 分布式大数据采集关键技术研究与实现[J]. 广东通信技术,2015(10):7-10+79.
[6]刘宁,郑曦,宋春雷,翟敏. 大数据时代居民电子健康档案数据采集设计[J]. 医学信息学杂志,2014(11):8-12+21.
[7]陈康, 郑纬民. 云计算:系统实例与研究现状[J]. 软件学报,2009,20(5):1337-1348.
[8] Kang U,Chau D H,Faloutsos C. PEGASUS: Mining billion-scale graphs in the cloud[C].IEEE International Conference on Acoustics,Speech,and SignalProcessing ( ICASSP ),2012: 5341-5344.
[9] Gubanov M,Pyayt A. MEDREADFAST: A structural in-formation retrieval engine for big clinical text[C]∥Proceedings of the 13th International Conference on Information Reuse and Integration( IRI) , 2012: 371-376
[10] 李成华,张新访,金海,等.MapReducec:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33 (3):129-135.
[11] 李晨晖,崔建明,陈超泉. 大数据知识服务平台构建关键技术研究[J].情報资料工作,2013(2): 29-34.
[12] 程学旗,靳小龙,杨婧等. 大数据技术进展与发展趋势[J].科技导报, 2016, 34(14):51-61.
[13] 李国杰. 大数据的研究现状与科学思考[J]. 中国科学院院刊, 2013,4(4).
[14] 张滨,陈吉荣,乐嘉锦.大数据管理技术研究综述[J].计算机应用与软件,2014,31(11):7-11,16.
[15] 刘黄生, 田苗苗, 黄河.大数据隐私保护密码技术研究综述[J].软件学院,2015 (4):229-247
[16] 许杰, 聂大成, 李明桂等.基于几何变形的大数据安全隐私保护方法[J].通信技术,2015,48(5):602-606.
[17] 王璐, 孟小峰. 位置大数据隐私保护研究综述[J]. 软件学报, 2014,25(4):693-712.
[18] 曹军威,袁仲达,明阳阳等.能源互联网大数据分析技术综述[J].南方电网技术, 2015, 9(11): 9-20.
[19] 张金磊. 浅析大数据技术在企业战略管理中的应用[J]. 电脑知识与技术, 2016, 12(20): 23-26.
[20] 胡水星. 大数据及其关键技术的教育应用实证分析[J]. 远程教育杂志, 2015: 48-55.