大数据标准化现状及展望
2014-05-18王健全
韩 晶 王健全
1 中国联合网络通信有限公司 北京 100033,
2 北京邮电大学 北京 100876
引言
大数据是继云计算后的新一代信息技术,它的发展和应用已经对政府、企业决策和人们的生活方式产生深远的影响。从2014年Gartner发布的技术成熟度曲线(如图1所示)中可以看出,大数据已经逐渐迈向低谷期。这意味着在经历了持续的概念炒作之后,大数据市场已趋于稳定,并且形成一套合理的方法,大数据技术和应用也得到了长足发展。
图1 大数据技术成熟度曲线(Gartner 2014)
目前,大数据企业不断推出各式各样的大数据存储、处理、分析产品,同时,社交网络、金融、通信、政务等大数据存在的领域,也相继建设大数据平台,从平台的存储处理分析等各方面都无不体现着行业特征。这种技术和应用缺乏通用性和标准化的现状,在很大程度上阻碍了大数据的发展。
相对于大数据的标准化工作,传统数据标准已经相对成熟,数据管理、数据处理和数据表示等方面的国际国内标准都已形成体系,然而,像NoSQL数据存储系统和GFS文件系统这样的诸多大数据新技术新应用,无论是国际还是国内,迄今为止其标准规范的研究工作还很匮乏。此外,由于大数据存在领域广泛、存储处理产品众多,不仅大数据的定义、相关术语、分类、架构等方面缺乏统一描述,各种大数据产品的技术要求也不尽相同,这种现状一定程度上阻碍了大数据产业的良性发展。因此,加强大数据标准化研制,对推动我国大数据产业进程,加快技术与标准的相互融合,推动大数据发展国家战略和数据立法具有重要意义。
1 大数据标准化现状
自2012年开始,ITU-T、ISO/IEC、NIST、CCSA等国内外标准研制组织相继组建工作组展开大数据研究和标准化工作,这些工作组在大数据定义、相关术语、需求等方面输出少量研究报告和标准,如图2所示。截至目前,虽然研究成果有限,但其研究方法和方向具有重要的借鉴意义。
图2 大数据标准化现状
2012年6月,ITU-T SG13 WP6 Q26/13 TD57中提出“Big Data:use case,requirements,and capabilities”作为未来可能进行的新项目[1]。2013年1月,NIST(美国国家标准和技术研究院)成立Big Data Working Group (NBD-WG),在大数据定义、术语、要求、安全和隐私、安全隐私架构、参考架构、技术路线方面的研究[2]。2013年3月,CCSA TC7WG3中立项《大数据运维技术与标准研究》,针对大数据的分类、组织,以及大数据分布式管理问题、大数据运维的全生命周期管理、大数据迁移、大数据利用和数据销售服务管理等范围进行研究。2013年10月,CCSA TC8WG2中立项《大数据应用安全技术要求》行业标准,该标准从运营商对外数据应用的安全防护层面,研究大数据安全管控技术,包括大数据存储安全技术、挖掘安全处理技术、输出审计安全技术、传输安全技术、运营安全技术等。2013年11月,ISO/IEC JTC1建立大数据研究组BD-SG,通过调研现有ICT生态系统中与大数据相关的关键技术、标准、模型、用例和场景等内容,确定大数据中的关键定义和术语,评估大数据标准化市场需求[3]。2014年3月,CCSA TC5WG5立项《移动大数据安全技术研究》研究课题,该课题对大数据安全的基本定义、体系框架、安全技术和保障机制等内容进行研究。2014年3月,CCSA TC1WG4立项《大数据需求、场景及架构研究》研究课题,该课题在借鉴国内外电信运营商和互联网企业在大数据方面的应用场景的前提下,侧重于提炼各个行业对大数据系统的需求,并分析大数据系统的体系架构。2014年3月,CCSA TC1WG4立项《电信互联网大数据开放平台标准化研究》研究课题,该课题围绕促进互联互通、数据安全和隐私保护等目标,系统分析大数据开放平台建设、运营、监管中的标准化需求。2014年3月,CESI(中国电子技术标准化研究院)着手《大数据标准化白皮书》征求意见会,重点研究大数据基本概念、特征作用、大数据发展现状、大数据技术参考模型和关键技术,以及大数据标准体系和下一步工作建议等内容。2014年5月,CCSA TC11WG1立项《移动互联网大数据技术研究》研究课题,研究电信运营商大数据的范围、数据模型、体系框架、关键技术、保障机制、应用场景和价值模式等内容[4]。2014年6月,ITU-T召开大数据研讨会,旨在探讨大数据对电信运营商的影响以及大数据标准化战略[5]。
2 NIST大数据标准化现状
美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)多年以来一直参与分析联邦政府和私营部门的海量数据管理,在大数据标准化工作方面,NIST远远走在前列。
2013年1月,NIST建立大数据工作组Big Data Working Group (NBD-WG),该工作组又分为定义和分类(Definition and Taxonomy Subgroup)、参考架构(Reference Architecture Subgroup)、技术路线图(Road Map Subgroup)、安全和隐私(Security and Privacy Subgroup)、用例及需求(Use case and Requirements Subgroup)、大元数据(Big Metadata Subgroup)六个子工作组。通过工作组定义了数据分析技术和技术基础设施在互操作性、可移植性、可重用性、可扩展性等方面的需求,在大数据定义、术语、要求、安全和隐私、参考架构、技术路线方面展开讨论和研究,从而支持大数据的安全有效利用。
在大数据定义方面,NIST认为大数据指的是数据量大、产生获取速度快、种类多样的数据,以至于当前系统的存储容量或分析能力难以支持。
在大数据分类方面,NIST将大数据分为参与者(Actors)、角色(Roles)、活动(Activities)、组件(Components)、子组件(Sub-components)五部分。其中,大数据参与者有传感器、应用程序、软件代理、个人、组织、硬件资源、服务等;大数据角色包括数据提供者(Data Provider,DP)、数据消费者(Data Consumption,DC)、系统管理者(System Orchestrator,SO)、大数据应用提供者(Big Data Application Provider,BDAP)、大数据框架提供者(Big Data Framework Provider,BDFP)以及大数据安全隐私相关人员五种。数据提供者代表产生数据或者拥有数据的机构或者人,例如企业、搜索引擎、网络运营商等参与者;数据消费者使用大数据,例如研究人员、应用程序和软件系统。同时,企业、终端用户、研究机构等可能既是大数据提供者又是大数据消费者;系统管理者对大数据进行管理、监控和实施,数据科学家、软件架构师、安全架构师等均属此列;应用提供者提供应用实例,应用程序专家、平台专家、咨询机构等都可能是应用提供者;框架提供者对外提供硬件和系统管理框架等资源,如集群、数据中心、云平台提供者等都是框架提供者;大数据安全人员旨在监控大数据安全和隐私保护情况,企业中的安全管理人员和安全专家都属于大数据安全人员。
在参考架构方面,NIST大数据工作组基于以下规则建立大数据参考架构:大数据参考架构是传统数据系统的超集,是一种厂商中立、技术无关的系统,同时也是一种由各种逻辑角色组成的功能架构,该架构最终能够应用到大量不同的商业模型中。图3展示了该参考架构,其中,数据提供者的职能有发掘数据、描述数据、接入数据以及执行数据操作代码;数据消费者的职能有发现应用服务、描述数据、数据可视化、数据呈现等;大数据应用提供商的职能包括身份管理和身份认证;大数据框架提供者的职能包括分析处理数据、转换数据、代码执行、存储或检索数据、提供计算基础设施以及提供网络基础设施等;系统管理者负责明确需求、管理和监控系统运行情况。在大数据用例和需求方面,NIST大数据工作组基于一些已有用例,结合大数据参考架构,建立了26个用例模版,在政府管理运营、商业、国防、健康和生命科学、深度学习和社交媒体、生态系统、天文和物理学、地球环境科学以及能源等9个领域征集了51种大数据实际用例。这些领域的数据量从TB级到10PB级不等,所用平台有高性能计算(High Performance Computing)机群也有云计算平台。针对这些实际用例,工作组从数据源、数据生命周期、数据转换方式、基础设施、数据使用、架构组件及安全隐私要求等方面进行详细分解,最终抽取出35个常规需求及437个特殊需求。一个实际用例通常是若干常规需求和特定需求的集合,例如有的用例需要R、Weka等特殊软件的支持,需要能够实时处理,或者需要对数据进行加密。随着大数据参考架构的不断演进,这些需求也会随之演进,其内容将会更加丰富,分类也需要不断调整。
图3 NIST大数据参考架构
在大数据安全和隐私方面,在大数据参考架构基础上,对大数据应用提供商与数据提供者、数据消费者、大数据框架提供商之间的三个接口,以及大数据框架提供商内部的安全隐私考虑进行了梳理,如表1所示。
表1 大数据安全和隐私考虑因素
3 大数据标准化工作展望
可以看出,在大数据的国际化进程中,全球范围内大数据的标准化工作还处于研究阶段,无论是术语、架构,还是存储、处理、行业应用等,都尚未形成标准规范,这也是我国引领国际大数据标准化的良好契机。因此,我国应当加快标准化研究和制定,规范大数据行业,推进行业发展,为我国的大数据战略顶层设计做参考。
在大数据行业发展方面,与国外企业相比,国内企业侧重于大数据基础设施和数据存储平台建设,而在基于大数据的挖掘以及创新商业模式上,还更多处于探索阶段。在这种背景下,我国的大数据标准化工作方向有两个,一是研制大数据术语、架构等通用标准,二是各个行业可以根据行业特定需求制定行业大数据应用标准;因此,在借鉴国外先进经验的基础之上,从更加宏观与全面的角度出发,我国的大数据标准化体系研制工作可通过以下几方面开展。
1)国家级标准组织机构牵头建立大数据标准化工作组,政府、产业界、学术界多方参与,针对大数据定义、分类、数据模型、架构、关键技术、数据开放和隐私、盈利模式等议题定期展开讨论,对外发布研究报告及大数据标准化体系纲要。
2)对我国移动互联网、通信、金融、政府、医疗等大数据所在领域的大数据源、数据量、数据模型、存储架构、数据开放等方面展开调研,梳理我国大数据应用场景和需求。
3)研究我国数据开放和隐私相关政策法规,调研产学研用各方对大数据隐私的要求和已有数据开放接口规范。
就目前而言,各个标准化机构可先行研制领域大数据标准,为开展大数据标准化顶层设计提供参考依据。
具体到标准化工作实施方面,从标准化原则来说,大数据与很多已有技术都有交集,例如关系数据库、数据挖掘等,大数据标准化工作应更侧重于大数据背景下的新技术和新应用,例如非关系型数据库、实时大数据分析、非结构化大数据统一表示等;从标准化范围来说,大数据全生命周期的各个环节都应考虑在内,同时由大数据引发的新应用和新产品也是标准化工作的重点。基于以上考虑给出大数据标准化体系建议,如图4所示。
图4 大数据标准体系框架
大数据标准体系包括以下标准。1)基础标准。包括大数据术语、大数据参考架构、大数据平台架构标准。其中大数据平台架构标准包括整体架构、架构内各个层面(或各个组件)之间的接口标准以及查询、分析和可视化等应用请求与数据存储语言的标准化转换接口的标准化(例如,将应用请求重写为UnQL、JAQL等非关系型存储系统查询语言)。2)数据表示标准。包括数据编码规范、元数据规范、非结构化数据统一描述规范[6]、大数据集统一描述规范等。3)数据处理标准。包括数据质量评价标准、数据采集标准、数据组织标准等大数据处理阶段相关的标准规范。4)数据存储标准。包括非关系型数据库规范、非结构数据管理系统规范等大数据背景下的新型存储系统相关规范。5)大数据服务标准。包括大数据提供服务、大数据实时分析服务、可视化服务等一系列大数据服务的标准化描述和接入。6)大数据安全和隐私标准。包括对外提供大数据服务时,对数据存储安全,数据传输安全,数据分析挖掘安全等方面的标准化。7)行业大数据应用标准。针对电子政务、通信、金融、电子商务、智慧城市、医疗等典型的大数据领域,其领域大数据应用、领域大数据的分类和编码等方面的标准;8)大数据产品测试标准。包括大数据产品的测试场景、测试指标、测试工具等。
4 结语
大数据标准化是大数据行业良性发展的基础之一,在全球范围内大数据标准化尚未形成体系的今天,企业、行业协会、科研机构等各界应当更多投入到大数据标准研制当中,同时积极将我国的大数据诉求输出到国际标准组织中。
[1]ITU-T SG13[S/OL].[2014-09-20].http://www.itu.int/en/ITU-T/studygroups/2013-2016/13/Pages/default.aspx
[2]NIST Big Data Working Group[EB/OL].[2014-09-20].http://bigdatawg.nist.gov/home.php
[3]ISO/IEC JTC 1 Study Group on Big Data (BD-SG)[EB/OL].[2014-09-20].http://jtc1bigdatasg.nist.gov/home.php
[4]CCSA TC11WG1[S/OL].[2014-09-20].http://www.ccsa.org.cn/tc/index.php?tcid=tc11&groupid=wg1
[5]ITU Workshop on“Big Data”[EB/OL].[2014-09-20].http://www.itu.int/en/ITU-T/Workshops-and-Seminars/bigdata/Pages/default.aspx
[6]韩晶,鄂海红,宋美娜,等.基于主体行为的非结构化数据模型[J].计算机工程与设计,2013(03):904-908