烟草科研大数据标准体系的构建
2020-06-06胡良霖朱艳华高瑜蔚冯伟华邱纪青
胡良霖,朱艳华,高瑜蔚,陈 希,贾 楠,王 锐,冯伟华,邱纪青*
1.中国科学院计算机网络信息中心,北京市海淀区中关村南四街4 号 100190
2.中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2 号 450001
当前全球科技创新已经进入大数据时代,科研大数据也已成为科学发现的新型基础性战略资源。将数据转换为知识能力正成为衡量一个国家、一个行业科学研究水平的关键。烟草科研大数据是指烟草农业、工业、商业等领域产生的与科研活动相关的数据,是烟草产业链各类活动中所产生的全部数据和信息的总和,既有实验数据、调查数据、研究报告等原始或经过加工的业务数据,也包括论文、专利、项目成果、标准规范等科技成果数据。在烟草行业建立科研大数据环境,充分汇聚、深入分析并有效利用烟草科研数据,是提升烟草行业研发水平和效能、推动行业科技进步的重要手段。近年来随着大数据技术的快速发展和广泛应用,大数据领域的标准制定已成为相关国际标准化组织和研究机构共同关注的热点,而烟草行业大数据标准体系建设目前尚处于起步阶段。大数据标准化工作可以有效集成烟草科研大数据资源,固化烟草数据资源管理经验,促进烟草数据资源有序、规范和高效利用。为此,通过对国内外大数据标准进行研究分析,结合烟草行业科研数据现状,构建了烟草科研大数据标准体系,以期为烟草行业科学数据的采集与分析奠定基础,更好地发挥烟草科研大数据的作用。
1 国内外大数据标准研究现状
1.1 国际大数据标准研究进展
目前大数据标准化工作主要集中在国际标准化组织ISO/IEC JTC1/WG9 大数据工作组(以下简称WG9)、ISO/IEC JTC1/SC32“数据管理和交换”分技术委员会(以下简称SC32)、国际电信联盟电信标准分局(以下简称ITU-T)和美国国家标准技术研究院(以下简称NIST)等机构[1]。其中,WG9成立于2014 年11 月,主要工作是聚焦和支持JTC1的大数据标准计划;编制大数据基础标准和基于基础标准的其他大数据标准,以及识别大数据标准化中的差距等。SC32 致力于研制信息系统环境内部及其之间的数据管理与交换,协调跨行业和领域的数据管理能力。2014 年6 月SC32 启动了4 项大数据标准化工作,主要涉及结构化查询语言对多维数组的支持、结构化查询语言对JS 对象标记的支持、数据集注册元模型、数据源注册元模型等。ITU-T 重点研究大数据云计算及相关技术[2],在2013 年11 月发布的《大数据:今天巨大,明天平常》技术报告中,分析了ITU-T 开展的标准化工作,提出了大数据基本特征、大数据发展所需要的技术、面临的困难和挑战以及未来发展方向等。NIST 于2013 年6 月成立了大数据公共工作组,通过建立来自产业界、学术界和政府的公共环境,在定义[3]、术语、安全参考体系结构[4-5]和技术路线图[6]等方面达成共识,为大数据的使用提供最佳方案。
1.2 国内大数据标准研究进展
为顺应和满足大数据技术快速发展的需要,我国于2015 年8 月发布的《促进大数据发展行动纲要》提出:“建立标准规范体系。推进大数据产业标准体系建设,加快建立政府部门、事业单位等公共机构的数据标准和统计标准体系,推进数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数据交易、技术产品、安全保密等关键共性标准的制定和实施。开展标准验证和应用试点示范,建立标准符合性评估体系,充分发挥标准在培育服务市场、提升服务能力、支撑行业管理等方面的作用”[7]。
2015 年底全国信息技术标准化技术委员会大数据标准工作组成立,负责制定和完善我国大数据领域标准体系,组织开展大数据相关技术和标准研究,并确认了12 项国家大数据标准研制任务,其中由中国科学院计算机网络信息中心牵头研制的《科学数据引用》和《数据溯源描述模型》2项国家标准已正式发布。同时,中国电子技术标准化研究院发布了《大数据标准化白皮书V2.0》,提出了大数据标准体系框架,指出大数据标准体系应由基础标准、技术标准、产品和平台标准、安全标准、应用和服务标准5 个类别的标准组成[8]。中国科学院计算机网络信息中心研制完成了科学数据共享标准体系,包括数据资源建设、管理、应用服务等方面的标准40 余项[9]。此外,王卷乐等[10]初步建立了地球系统科学数据共享标准规范体系框架,共包括18 项标准规范;齐建军等[11]发布了《工业大数据白皮书(2017 版)》,包括工业大数据标准化工作范围、工业大数据定义及特性、工业大数据标准体系框架等内容;林旺群等[12]提出特定领域大数据标准体系主要由基础、技术、平台、应用、安全和质量6 类标准组成。
1.3 烟草科研大数据标准研究现状
烟草行业经过30 多年的发展,特别是近10 年信息技术的持续进步,极大提高了行业信息化水平。为满足工商企业对数据管理的需求,烟草行业先后制定并发布了《烟草行业主数据》系列标准(YQ-XX/T 2—2017)、《烟草行业数据中心交换服务体系WEB 业务服务》(YC/T 324—2009)、《烟草行业数据元 第1 部分:结构与原则》(YC/T 534.1—2015)、《烟草行业组织机构代码编制规则》(YC/T 190—2005)、《烟草行业人力资源代码》系列标准(YC/T 258—2008)、《烟草行业数据中心人力资源数据元》系列标准(YC/T 451—2012)、《烟草行业企业应用集成技术规范》系列标准(YC/T 493—2014)、《卷烟零售市场信息采集和分析应用基本规范》系列标准(YC/T 455—2013)、《烟用材料编码》系列标准(YC/T 209—2006)、《烟用材料数据元》系列标准(YC/T 326—2009)、《烟草行业地理信息共享服务基本规范》系列标准(YC/T 474—2013)等数据标准和规范,对规范工商企业数据交换和数据共享起到积极促进作用。在烟草科研领域也开展了相关规范、分类和代码标准的研究工作,发布实施了《烟草种子 品种命名原则》(GB/T 16448—2013)、《烟叶代码》系列标准(YC/T 210—2016)等标准,但针对烟草科研大数据标准体系规划和建设尚未开展相关研究。
1.4 烟草科研大数据的特点
通过调研烟草行业内外企事业单位科研活动和数据资源情况[13],发现烟草科研数据资源具有以下特点:①数据内容丰富。涉及烟草农业、烟草工业、烟草科研等方面,这些数据主要产生于烟草工农业生产和科研过程中,与行业科技创新绩效密切相关。②数据类型多样。烟草科研数据类型主要包括生产、实验、观测、统计、文献等数据,以不同格式分散在不同数据库系统、网站平台以及科研机构和工商企业中。③数据连续性与相关性强。经过30 多年的发展,烟草行业全产业链已经积累了大量科研数据,这些数据具有一定的连续性且关系密切,每个阶段记录的数据都是下一发展阶段的起点和依据。
尽管烟草行业现有科研数据之间存在较强相关性,但由于数据产生时间和来源不同,采用的标准和软硬件平台存在差异,且缺乏统一标准和顶层设计,难以实现数据的互联互通。此外,科研数据中非结构化数据所占比例较大,对数据共享和利用造成较大影响,导致科研人员难以从海量数据中识别有价值的数据信息,数据之间潜在的关系需要进行规范化处理后才能被有效发现和使用。
2 烟草科研大数据标准体系构建基本原则
标准体系是指一定范围内的标准按其内在联系形成的科学的有机整体[14]。基于此,烟草科研大数据标准体系则是根据烟草科研大数据资源分类与资源管理生命周期的内在联系形成的各类标准的有机整体,该体系的构建要遵循以下4项原则。
(1)实用性且有切实需求。以烟草行业科研活动的实际需求为驱动,准确把握烟草科研主体的应用需求,强化烟草科研大数据资源体系与数据标准体系的顶层设计,开展需求分析、整体规划等工作。标准体系是对烟草科研大数据全生命周期管理关键节点的规范化,要与实际业务对接,切实提高大数据驱动烟草科研创新的效率。
(2)科学性且要适度前瞻。充分借鉴和兼容国内外大数据标准现有研究成果,结合国内烟草科研大数据的特点,在提高标准化对业务支撑的有效性和准确性的基础上,适度前瞻,保障标准研制的科学性和前沿性,从中发现新知识、创造新价值、提升新能力。
(3)体系性且可动态完善。烟草科研大数据标准体系作为一个开放的、可扩展系统,在遵循烟草业务和大数据技术相关国家标准的基础上,着眼于现状和未来发展,兼顾近期需求和长期目标,及时做出调整和更新。烟草科研大数据标准体系在研制过程中,要发挥已有资源的作用和现有大数据的成熟技术,强调标准体系框架的稳定性和关键领域业务标准、技术标准的动态可调整性。
(4)专业性且应各司其职。在具体分工方面,烟草科研大数据业务领域标准应由烟草行业相关业务领域专家牵头研制,基础标准和技术标准则由计算机信息领域专家牵头研制。其中,领域标准应充分结合烟草科研大数据的特点和实际业务需求,分批制定领域元数据标准和质量规范,关键技术标准的规划既要考虑烟草行业需求,也要考虑现有技术的成熟度和潜在风险。
3 烟草科研大数据标准体系的构建
在借鉴国内外大数据标准体系现有研究成果的基础上,通过梳理相关国际标准、国家标准、行业标准和地方标准,结合烟草科研活动和科研数据资源特点,研究构建了烟草科研大数据标准体系(图1)。该体系将全部标准规范划分为基础标准、技术标准、业务标准和管理办法4 大类。其中,基础标准规定了整个体系的框架、术语定义和参考模型,且贯穿标准研制的全过程。技术标准规定了烟草科研大数据资源从生产、管理到应用服务全生命周期关键节点的标准化,包括元数据、数据处理、数据管理、数据质量和数据服务等内容。业务标准结合了已制定技术标准中的元数据标准和质量规范等内容,包括主数据标准和领域数据标准。管理办法主要用于指导烟草行业科研大数据的管理与共享服务,包括共享管理办法和数据工作考核评价管理办法。
3.1 基础标准
基础标准是烟草科研大数据标准的纲领性文件,主要规范烟草大数据建设和服务中使用的技术参考模型、词汇概念和元数据管理等内容。基础标准是烟草科研大数据标准体系中具有基础性和指导性的标准规范,是所有标准的技术基础和方法指南,也是其他标准执行的依据。其使用范围贯穿烟草科研大数据标准化的全过程,具有较长时期的稳定性、延续性和指导性。
图1 烟草科研大数据标准体系框架Fig.1 Framework of standard system for big data of tobacco scientific research
基础标准主要包括标准体系框架、术语、技术参考模型以及数据元设计与管理等。其中,标准体系框架规定了框架结构、核心内容以及各部分之间的关系,适用于体系规则的建设和管理。术语规定了烟草科研大数据领域中的常用术语和定义,目的是消除概念理解上的歧义,为大数据标准提供术语基础,适用于平台建设、管理和运行服务等。技术参考模型和数据元标准是在调研国内外相关标准适用范围的基础上,遵循信息技术领域已发布的相关国家标准。技术参考模型主要采用国家标准《信息技术 大数据 技术参考模型》(GB/T 35589—2017),描述了大数据的参考架构,包括角色、活动和功能组件及其之间的关系,适用于对大数据复杂操作的理解,可为大数据系列标准的制定提供基础;数据元设计与管理主要采用国家标准《科技平台 数据元设计与管理》(GB/T 31074—2014),规定了数据元的数据模型以及数据元属性描述规范、数据元的设计流程与操作指南、数据元的注册与维护管理,并给出了科技平台数据元编写指南,适用于平台建设、管理与服务活动中的数据元设计与管理。
3.2 技术标准
技术标准主要是对烟草科研大数据全生命周期管理过程的关键节点进行规范,用于指导烟草科研大数据从需求分析、设计实现到共享服务的全流程管理。在制定过程中,技术标准应考虑行业实际需求,结合技术发展的前沿现状和研究热点,根据国内外相关标准的适用范围,等同采用、修改采用和非等效采用国际标准、国家标准、行业标准和地方标准。
技术标准主要由元数据、数据处理、数据管理、数据质量、数据服务、数据安全和应用服务等系列标准组成,目前已完成制定的技术标准见表1。元数据包括烟草科研大数据元数据注册系统、元数据参考模型、数据集核心元数据和数据对象元数据等;数据处理包括烟草科研大数据资源加工指导规范以及通用数据导入接口规范等;数据管理包括烟草科研大数据标识规范和建库技术指导规范等;数据质量包括烟草科研大数据质量指标体系、数据质量评价方法、数据溯源描述模型和数据溯源元数据等;数据服务包括烟草科研大数据服务指导规范和服务网站建设指导规范等;数据安全包括数据生命周期管理规范和数据中心安全管理规范等;应用服务包括应用服务规范、应用服务平台集成规范和通用服务接口规范等。
表1 已制定的烟草科研大数据标准体系技术标准Tab.1 Technical standards in standard system for big data of tobacco scientific research
3.3 业务标准
目前烟草行业虽然建立了部分与科研活动相关的标准规范,但尚未建立规范的科研业务数据标准,更未形成完整、系统、科学的科研业务数据标准体系。为指导行业科研数据的采集、存贮、管理和共享,发挥科研数据在行业科技创新中的作用,遵循实用、科学、体系、专业的原则,构建了烟草科研业务数据标准分体系。业务标准由主数据标准和领域数据标准两部分组成,适用于烟草科研领域数据建设过程中的数据采集、数据处理、数据交换和共享应用等环节。其中,主数据标准包括人员信息、机构信息和公共代码,已制定的主数据标准见表2。
领域数据标准包括数据元标准和数据编码规则,并可根据领域特征制定数量不等的、不同类别的、不同等级的数据元标准或数据编码规则。目前已完成制定的领域数据标准共52 项(表3)。其中,数据元标准包括烟草基因3 项、烟草农业11 项、烟草化学3 项、烟草工艺3 项、烟用添加剂2 项、卷烟材料14 项、烟草与烟草制品检验2 项、卷烟鉴别1 项、烟草标准化2 项和烟草科技文献8 项;数据编码规则有3 项。领域数据标准将随着烟草科研大数据中心建设和应用的发展不断进行补充和完善。
表3 已制定的烟草科研大数据标准体系领域数据标准Tab.3 Data standards in fields of standard system for big data of tobacco scientific research
3.4 管理办法
管理办法主要对烟草科研数据工作效果、数据汇交、分级管理和访问授权等进行规范,内容包括烟草科研数据共享管理办法和烟草科研数据工作考核评价管理办法等。共享管理办法明确了科研数据产出与汇交、管理与服务、共享与使用等内容;考核评价管理办法主要对烟草科研数据产出单位(机构)的数据汇交、数据质量与数量、使用情况以及利用效果等提出要求。
4 结语
在充分借鉴国内外科研大数据标准体系研究成果的基础上,结合烟草科技活动和科研数据资源的特点,研究构建了烟草科研大数据标准体系。该体系将标准规范划分为基础标准、技术标准、业务标准和管理办法4 大类。以构建的标准体系为指导,研究制定出基础标准4 项、技术标准15 项、重点业务数据元标准52 项以及管理办法2 项,为烟草科研数据的采集汇聚、分析挖掘和共享服务奠定了基础,为中国烟草科学数据中心建设和行业科技创新工作提供了基础支撑。同时,烟草科研大数据标准体系是一个开放和可扩展系统,根据未来烟草科技创新需求,还可对现有标准体系进行修订、补充和完善,以进一步提高标准体系的科学性和有效性。