大数据技术总结和标准化工作研究进展
2016-07-02中国联通研究院大数据关键技术小分队队长博士王中国联通研究院平台与产品实验室产品开发实验室组长高级工程师王志军中国联通研究院平台与产品实验室兼云计算实验室主任高级工程师
杨 宇 中国联通研究院大数据关键技术小分队队长,博士王 蓉 中国联通研究院平台与产品实验室产品开发实验室组长,高级工程师王志军 中国联通研究院平台与产品实验室兼云计算实验室主任,高级工程师
大数据技术总结和标准化工作研究进展
杨宇中国联通研究院大数据关键技术小分队队长,博士
王蓉中国联通研究院平台与产品实验室产品开发实验室组长,高级工程师
王志军中国联通研究院平台与产品实验室兼云计算实验室主任,高级工程师
摘要:总结了大数据相关处理技术,介绍了国内外大数据标准化工作进展,并对大数据标准化工作提出了展望。
关键词:大数据;大数据处理技术;大数据标准化
1 引言
随着移动互联网、物联网、云计算等技术的快速发展以及智能手机、可穿戴设备的飞速增长,当前信息数据呈现出爆炸式的增长,人类社会开始迈入大数据时代。大数据意味着大价值,各个行业都已经积极地开展了大数据相关的研究和实践工作。目前,大数据已经不再局限于传统的信息学科领域,而是成为跨越信息科学、经济学、社会学和工程学等诸多领域的新兴交叉学科,尽管业界对大数据的定义与表述不尽相同,但是基本认同大数据的4V特征,即大规模(Volume)、多样性(Veracity)、高时效性(Velocity)和低价值密度(Value)。大数据的4V特性给数据的收集、处理和可视化等多方面带来了极大的困难,也对大数据的标准化工作提出了更高的要求。
从不同的维度可以对大数据进行不同的划分:
●从大数据生命周期的角度考虑,大数据涉及到数据的采集、预处理(清洗、标注等)、存储、处理(分析、建模)和可视化(解释)等处理流程。
●从面向应用的角度考虑,大数据属于一种资源,其又涉及集成、管理、服务、安全等多个方面,进而又涉及到使用大数据资源的相关角色包括数据生产者、数据消费者、代理人等。
目前,大数据处理技术已经大体涵盖了大数据生命周期的各个阶段,现有的应用软件和平台采用分布式的处理方法基本解决了大数据“难处理、难分析”的问题,大数据处理和分析平台已经初具规模。大数据标准化工作相对滞后,在多方的努力和推动下,国内外各大标准组织已经初步制定了大数据标准的路线图,大数据应用的多个维度的标准化工作也在蓬勃发展。
2 大数据处理技术
传统的数据存储和处理技术已经无法满足大数据处理的需求,从Goolge发表的GFS、MapReduce和Bigtable3篇论文开始,针对大数据在采集、计算、存储、分析等方面带来的问题,各种处理技术如雨后春笋般涌现,大数据技术的发展基本进入了成熟期。表1总结了现有大数据相关技术和典型应用软件。
3 大数据标准化工作
标准化是指对重复性事物和概念通过制定和实施标准使得各参与方能够对事物的认知和应用达到统一从而获得最佳秩序和社会效益。从大数据的生命周期来看,大数据从产生,到收集处理再到分析、可视化是一个复杂的系统工程,涉及到不同的参与方、多样化的处理系统平台并且有着多元化的应用需求和应用场景,这就要求整个大数据系统在不同的维度实现上高度的一体化和规范化,而大数据标准化正是解决上述问题的有效手段。
截止目前,ISO/IEC、ITU和NIST等国外标准组织已经积极开展大数据标准化工作,涉及到大数据术语、总体架构、处理流程和安全、应用等方面;在国内,工业和信息化部电子4院组织成立了全国信标委大数据标准工作组牵头制定大数据国家标准并对接ISO/IEC标准组织,CCSA在各个委员会开展了大数据研究工作,探讨大数据在云计算、物联网、移动互联网等方面的应用并对接ITU方面的标准。
表1 大数据相关技术和典型应用软件总结
3.1国外标准工作进展
3.1.1ISO/IEC
ISO/IECJTC1WG9是ISO/IEC专门设立的大数据工作组,负责总体规划大数据标准以及指导ISO/IEC JTC1中其它小组的大数据标准化工作。目前,WG9在研的大数据国际标准包括ISO/IEC20546《大数据概述和词汇》和ISO/IEC20547《大数据参考架构》。其中,《大数据参考架构》又划分为框架和应用过程、用例和派生要求、参考架构、安全和隐私保护以及安全路线图5个子标准。
3.1.2NIST
美国国家标准与技术研究所(NIST)的NBG-WG小组是最早开展大数据标准工作的国外组织,目前发布了第一版《NIST大数据互操作框架》系列标准,包括大数据定义、大数据分类法、用例和一般要求、安全和隐私权、架构白皮书调查、参考架构和标准路线图7个部分。
3.1.3ITU
ITU-T早在2013年就召开了关于大数据的讨论会,并发布了《大数据:今天巨大,明天平常》的技术报告,初步探索了大数据的用例和标准化路线。目前,ITU-T的大数据标准化工作主要是在SG13和SG20开展。其中,SG13 Q17是大数据标准化工作的主要小组。截止目前,ITU-T发布了1项正式标准,并有5项在研的标准和补充草案。
(1)Y.3600(《大数据—基于云计算的需求和能力》)
Y.3600是ITU-T发布的第一项关于大数据的标准,给出了大数据的定义、大数据生态系统中相关角色的定义,分析了大数据和云计算之间的关系,重点介绍了基于云计算的大数据在其生命周期的不同处理阶段的需求,并根据这些需求制定了基于云计算的大数据在上述处理阶段所需要提供的能力。该标准从云计算的角度,特别是从云计算中不同角色的角度来确定大数据在其生命周期中的需求和能力。
(2)Y.Suppl.BigData-RoadMap(《大数据路线图》)
Y.Suppl.BigData-RoadMap补充草案由SG13 Q17小组牵头制定,从ITU的角度制定大数据标准化的路线图,是ITU在大数据标准化方面的指导性文件,该草案分析大数据与云计算、物联网、软件定义网络、数据开放的关系,并关注了大数据在安全和隐私方面的问题。目前,该草案认为ITU在大数据标准化工作上应从以下几方面入手:
●大数据通用需求和用例。
●大数据定义、架构、数据模型和API。
●网络驱动的数据分析。
●个性化网络体验。
●数据安全(保护、匿名化、个人数据的隐私化)。●数据质量和框架。
●电信行业大数据的法律影响。
●电信大数据交易的框架和相关标准。
(3)Y.IoT-BigData-reqts(《面向大数据的物联网具体需求和能力要求》)
Y.IoT-BigData-reqts标准草案是SG20Q2小组在研的标准,重点关注物联网在面向大数据时的具体需求和能力要求。该标准草案从物联网的4层结构(设备层、网络层、服务层和应用层)的角度探讨物联网在大数据不同处理阶段(包括收集、预处理、存储、分析、传输、可视化)的需求,并根据这些需求制定了物联网在面向大数据应用时应该提供的能力。
(4)Y.BigDataEX-reqts(《大数据交易框架和需求》)
Y.BigDataEX-reqts标准草案是SG13 Q17小组在研的标准,重点关注大数据在共享、交易和互操作方面的需求和框架。该标准草案详细描述了大数据交易生态系统中的角色、活动等,从而提炼出大数据在交易过程中的功能需求,包括大数据发现、查询、请求、抓取、提供、元数据发布和导入等方面的问题。
(5)Y.BDaaS(《云计算—大数据即服务》)
Y.BDaaS标准草案是SG13Q18小组在研的标准,该标准草案从云计算的角度分析大数据可以对外提供的服务,重点关注大数据即服务的功能组件、功能架构等方面的工作。
(6)Y.bDDN-fr(《基于深度包检测的大数据驱动的网络架构》)
Y.bDDN-fr标准草案是SG13Q7小组在研的标准,该标准草案分析利用在网络的各个节点(包括无线网络和固定网络)收集的信息(包括用户数据、信令数据等)解决现有网络在管理、运营和优化方面的问题。该标准定义了大数据驱动的网络架构,将网络分为感知层、大数据存储层、网络分析层和数据智能服务层,并制定了在这些层次的功能需求标准。
3.2大数据国内标准工作进展
3.2.1全国信标委大数据工作组
全国信标委大数据工作组主要制定和完善我国大数据领域标准体系,组织开展大数据相关技术和国家标准的研究。大数据工作组设立了大数据总体专题组、大数据国际专题组、大数据技术专题组、大数据产品和平台组、大数据安全专题组、工业大数据专题组、电子商务大数据组共7个工作子组展开工作。
目前,主要在研的大数据相关国家标准有:
●《信息技术大数据术语》。
●《信息技术大数据技术参考模型》。
●《信息技术数据交易服务平台交易数据描述》。
●《信息技术数据交易服务平台通用功能要求》。
●《信息技术数据溯源描述模型》。
●《信息技术科学数据引用》。
●《多媒体数据语义描述要求》。
●《数据能力成熟度评价模型》。
●《信息技术数据质量评价指标》。
●《信息技术通用数据导入接口规范》。
3.2.2CCSA
CCSA作为通信行业的标准化研究组织与管理单位在2013年左右也开始了大数据标准化的相关研究工作,截止目前,共有11个在研的大数据标准化项目。主要集中在TC11、TC1、TC10、TC7、TC5、TC8等几个工作组,涉及大数据质量、可视化、安全、开放、测试、运维以及大数据应用等多个方面。
(1)大数据需求、场景及架构研究
该标准项涉及大数据的应用场景、系统需求和体系架构方面的研究。
(2)面向大数据的数据可视化需求与技术研究
该项目关注大数据可视化的重点与难点、大数据可视化与其他大数据处理流程的关系和大数据可视化的商业价值与价值模式。
(3)大数据环境下数据质量要求与数据质量评估方法研究
该项目主要关注大数据处理流程不同阶段对数据质量的要求、数据质量评估的定义和意义、数据质量评估指标和数据质量评估模型。
(4)电信互联网大数据开放平台标准化研究
该标准分析国内外大数据技术应用发展的趋势和大数据开放平台的建设实践,重点围绕数据开放、数据安全和隐私保护等目标,分析大数据开放平台建设、运营、监管中的标准化需求。
(5)大数据平台基准测试指标和测试技术要求
该标准主要规定了大数据平台基准测试的基本原理,以及测试对象、测试负载、测试数据和指标体系的总体要求。
(6)移动大数据安全技术研究
该标准关注的主要方面有:
●大数据安全的基本定义与科学内涵。
●大数据安全的技术体系框架。
●大数据安全保障的关键技术。
●大数据应用安全的关键技术。
●大数据安全技术的实施建议。
●大数据安全的法律法规和标准研究。
●大数据安全的产业动态与最佳实践。
(7)大数据管理功能框架研究
该项目主要研究大数据管理框架,分析大数据管理所涉及的功能及活动,研究一种对大数据管理框架进行描述的方法,并对采用该方法对大数据管理框架进行描述。
(8)大数据运维技术与标准研究
该项目提出电信运营支撑系统大数据应用总体技术要求,包括:
●电信运营支撑系统大数据分析应用场景。
●电信运营支撑系统大数据分析数据模型。
●电信运营支撑系统大数据分析系统参考模型,数据存储要求、数据质量管理要求、数据安全总体技术要求等。
(9)电信运营商的大数据应用业务安全技术要求
该项目主要工作为:
●提出大数据应用业务流程与安全管控框架。
●大数据采集安全技术要求。
●大数据存储安全技术要求。
●大数据挖掘安全处理技术要求。
●大数据输出审计安全技术要求。
●大数据传输安全技术要求。
●大数据运营安全技术要求。
(10)物联网大数据处理技术要求
该项目主要工作为:
●物联网大数据的特点和类型。
●物联网大数据的业务需求(从物联网业务角度提出需求)。
●物联网大数据的技术框架等方面。
(11)移动互联网大数据技术研究
该项目主要是分析国内外移动互联网大数据技术发展的趋势和建设实践,探索移动互联网大数据应用中的标准化需求,梳理国内外已有研究基础。
4 大数据标准化工作总结与展望
4.1大数据标准化工作总结
总体来看,在大数据技术发展进入成熟期后,大数据标准化工作驶入了快车道,从大数据的基础标准(包括术语、架构、平台、角色定义)到大数据具体处理技术的标准,再到行业大数据标准,已有和在研的标准工作基本覆盖了大数据生态系统的所有方面。
在国际上,以ISO/IEC和ITU为代表的标准组织已经明确了大数据标准工作的方法和工作路线图,后续的大数据相关系列标准应该会快速涌现。
在国内,信标委大数据工作主要负责制定大数据基础性和通用性标准,通过对接现有的ISO/IEC大数据标准工作,推动并制定本地化的大数据标准;CCSA通过吸收和借鉴互联网企业以及电信运营商已有的大数据工作成果,充分考虑大数据与云计算、大数据与物联网的关联性,制定面向通信行业的大数据标准工作,制定的大数据相关标准对通信行业的大数据发展具有指导意义。
表2介绍了各个标准组织的现有标准工作成果和主要内容。
4.2大数据标准化工作展望
大数据的技术发展需要大数据标准的支撑。同样,大数据的标准化工作也需要大数据技术的推动,二者相辅相成,互相促进。从目前发布和在研的大数据标准来看,标准化工作与处理技术的耦合度较低,进一步推动大数据处理技术与大数据标准的融合是未来需要考虑的问题。
另外,大数据标准化工作还不够完善,仍需要加强如下两方面的标准工作:
(1)融合各行业的大数据需求并扩展大数据标准化工作的广度,实现跨平台、跨领域的数据互通需要尽快制定大数据语义、元数据等方面的标准。
(2)发挥大数据的价值需要,尽可能地搜集所有数据,但数据开放与隐私保护永远是一个相悖的问题。因此,避免数据过度保护和保护数据隐私之间需要寻
找制定标准的平衡点。
表2 大数据标准化工作总结
5 结束语
大数据已成为经济发展的新引擎,将会为社会的发展带来新的活力。在大数据发展的关键阶段,各行业应以此为契机,努力推动大数据技术和标准化的协同发展,建立大数据学科的体系框架,形成产业规模,促进大数据产业的快速发展。
参考文献
[1]魏凯.大数据的技术挑战及发展趋势[J].信息技术与标准化,2013(6):20-25.
[2]韩晶,王健全.大数据标准化现状及展望[J].信息通信技术,2014(6):38-42.
[3]张群.大数据标准化现状及标准研制[J].信息技术与标准化,2015(7).
[4]Ghemawat Sanjay,Gobioff Howard,Leung Shun- Tak. The google file system[C].19th ACM Symposium on Operating SystemsPrinciples,2003,10.
[5]Chang Fay,Dean Jeffrey,Ghemawat Sanjay,etal. Bigtable:A distributed storage system for structured data[C].seventh Symposium on Operating System DesignandImplementation,2006,11.
[6]Dean Jeffrey,Ghemawat Sanjay. MapReduce:simplified data processing on large clusters[C].Sixth Symposium on Operating SystemDesignandImplementation,2002,4.
[7]ISO/IEC JTC 1.Study Group on Big Data(BD-SG)[EB/OL]. [2016-03-21].http://jtc1bigdatasg.nist.gov/home.php.
[8]NIST.BigDataWorkingGroup[EB/OL].[2015-11-01].http:// bigdatawg.nist.gov/home.php.
[9]詹剑锋,高婉铃,王磊等.BigDataBench:开源的大数据系统评测基准[J].计算机学报,2016(1).
Big data technologysummaryand standardizationtrends
YANGYu,WANGRong,WANGZhijun
Abstract:This paper summarizes the processing technology of big data, and then introduces the trends of domestic and foreign big data standardization work. Finally, prospects of big data standardizationworkare presented.
Keywords:big data; big data process technology; big data standardization
收稿日期:(2016-03-20)