APP下载

浅谈智能领域科研成果数据标准化交付策略

2024-12-31杜佳诚宋恒闫弋张驰

中国标准化 2024年13期
关键词:元数据标准化

关键词:数据交付,元数据,智能领域,标准化,标准贯彻

DOI编码:10.3969/j.issn.1002-5944.2024.013.003

0 引言

科研数据是国家科技创新发展和经济社会发展的重要基础性战略资源[1]。为保障科研数据安全,完善科技成果评价体系,促进科技与经济社会发展更加紧密结合,国务院办公厅先后于2018年3月、2021年7月,发布了《科研数据管理办法》和《关于完善科技成果评价机制的指导意见》,规范了科研数据的管理、评价和复用过程,充分肯定了科研数据的价值地位。2022年10月,党的二十大报告中提出了要加快实施创新驱动发展战略,加强基础研究,突出原创,鼓励自由探索[2],强调了在新形势下,加大科研投入、提高科技创新能力、提升核心竞争力的迫切需求。

现阶段正处于人工智能第三次浪潮[3],世界各国相继在智能领域加大投资和规划力度[4],图1[5]为美国防部发布由美国防部首席数字与人工智能办公室(CDAO)制定的最新版《2023年数据、分析和人工智能采用战略》,旨在推动对智能领域自主智能技术的额外投资。作为新一轮科技和产业革命的重要驱动力,智能领域科研数据有助于促进国家经济、社会、军事等领域发展,提高国家竞争力;同时智能领域科研数据也对基础数据管理提出了更高的要求。

数据交付作为科研数据管理过程的首要环节,是后续数据入库、评价、复用、共享的重要基础。科研数据交付可以从数据驱动的角度,为企业提供决策制定的科学依据,加强产品和服务的质量,提高企业生产力;同时帮助企业发现新的机会和潜在的增长领域,使企业更好地规划业务战略和创新方向,推动新产品和解决方案的开发,推动企业研发良性循环。

由于现阶段智能领域工程项目成果数据交付的标准化工作未经历体系化地分析与设计,缺乏权威、统一的数据标准指导与有效的工具手段支撑,填报的科研成果数据内容、格式混乱,数据质量不高,难以汇总管理与复现复用,造成“数据孤岛”“数据烟囱”等诸多问题[6]。因此,解决企业中智能领域科研成果数据交付面临的问题势在必行。本文提出了一种智能领域科研成果数据标准化交付策略,通过制定统一的数据交付标准,研发配套的支撑工具软件,解决上述问题,为企业智能领域科研成果数据的共享共用奠定理论基础。

1 智能领域科研成果数据标准化交付必要性分析

1.1 智能领域科研成果数据标准化交付现有问题分析

随着企业对智能领域科研成果投入的增加,对投入与产出进行有效管理的需求也不断增加;数据作为数字化时代核心的生产要素和成果资产,更是科研管理的重中之重。然而,由于缺乏统一的数据标准和工具手段进行规范和支撑,不同项目来源、研发团队、成果类别的科研数据在交付、管理和复用等环节均存在诸多问题,这主要体现在以下方面:

(1)数据类别多,缺乏提交规范

智能领域科研成果可能包括:数据集类、软件类、模型类等,每类成果的数据主体及需要提交的附属文件要求不尽相同,同时不同成果的提交流程也有所差别,缺乏标准规范来约束各类成果的提交过程。

(2)属性结构杂,缺乏统一描述

由于未规范科研成果元数据结构、内容、格式等信息,不同研发团队与个人的理解差异会导致对科研成果管理、存储、共享等数据的描述不一致,使得数据质量下降。成果数据描述语言的缺乏,增加了科研成果的汇聚、管理与共享难度,阻碍了科研成果的价值发挥。

(3)推广复用难,缺乏贯彻机制

由于缺乏数据标准贯彻的方法手段,不同人员的经验、知识水平等因素会对标准内容的解读和理解造成影响,从而降低科研成果数据交付质量和效率,无法保证科研成果标准化工作落地实施。

(4)填报要求高,缺乏工具支撑

为达到规范填报、科学管理和科研成果数据的共享共用,每类科研成果需交付和评价的信息较多,且各有具体的提报要求,现阶段缺乏基于填报要求研发的配套支撑工具,导致填报质量和效率低下。

上述问题出现的本质原因是智能领域的科研成果数据没有规范化、结构化和流程化,导致科研成果数据的填报和交付过程效率低、质量差,数据在不同组织部门或机构之间交互共享过程受限,产生了“信息孤岛”“数据壁垒”等严重问题,因此智能领域科研成果数据交付规范工作势在必行。

1.2 智能领域科研成果数据管理的意义

在现代企业面临全球化和人工智能变革的大环境下,数据管理扮演着重要角色。科研数据“管好”“用好”将惠及企业的多部门、多阶段、多任务,全面提升企业管理效能和核心竞争力。

针对现阶段企业科研成果数据面临的问题,规范数据管理在智能领域科研成果数据资产建设中至关重要,其必要性主要体现在以下方面:

(1)对企业决策层

规范智能领域科研成果数据管理能够为企业决策层提供经费投向投量依据,辅助项目立项决策,优化技术布局,促进企业科研良性、可持续发展。

(2)对市场销售部门

规范智能领域科研成果数据管理能够使市场销售部门掌握企业数据分析技术及规范产品货架等数据资产,开展成果的推广销售,为企业带来经济效益。

(3)对实施交付部门

规范智能领域科研成果数据管理能够使实施交付部门更好地把握科研项目进度,提高项目实施与验收质量,规范化项目申报、归档,为企业规避风险。

(4)对产品研发部门

规范智能领域科研成果数据管理能够让产品研发部门复用有价值的科研成果数据,缩短研发周期,降本增效,优化资源配置。

2 智能领域科研成果数据交付管理框架设计

智能领域科研成果数据交付管理框架以促进智能领域科研成果共享共用为原则,基于智能领域科研成果数据标准建设、手段建设的需求分析,开展科研成果数据交付要求标准、科研成果数据核心元数据标准的研究编制。标准的编制包括框架设计、程序设计、编制标准等步骤;基于标准内容,开展标准贯标研究工作,明确贯标对象、贯标方法、贯标机制;在标准研制及贯标研究的基础上,开展配套工具软件研发,通过需求分析、架构设计,实现工具软件使用即标准的目标;最后,开展标准及工具软件试点应用,征求试用意见作为输入,指导标准及工具软件的迭代更新。智能领域科研成果数据交付管理方案的思路和流程如图2所示。

3 智能领域科研成果数据标准化交付策略

3.1 科研成果数据交付要求标准编制

针对智能领域科研项目中形成的数据集类、软件类、模型类等多类科研成果数据,研究制定科研成果数据的类别、交付内容及交付程序等相关要求,形成科研成果数据交付要求标准,保证智能领域科研成果数据交付的充分性、完整性及规范性,支撑科研成果数据资源高效率、高质量建设。本文提出的科研成果数据交付要求标准编制,主要包括以下四个步骤:

(1)规范科研成果数据定义

参考关于“成果对象”“数据资产”以及各类科研成果等概念的现行标准,分析标准内容,甄选在本部分标准中适用的术语和定义。在此基础上,分析调研相关智能领域项目科研成果数据现状,把握智能领域科研成果数据总体定位,剖析科研成果数据的工程性质和数字化资产内涵,明确各类科研成果数据相关的术语和定义。

(2)明确科研成果数据分类

在数据集类、软件类、模型类各类科研成果分类的基础上,分析各类成果的范围和内涵,参考相关标准和数据资源,并根据自身项目背景,将各个类别细分到三级分类。

以数据集类为例。本文参考现行标准,并查阅如UCI机器学习数据库、Kaggle数据分析大赛等公开数据资源,同时根据历史项目经验将数据集类成果细分为“算法数据集”“试验数据集”等类别;根据算法训练的通用过程将“算法数据集”进一步细分为“训练数据集”“测试数据集”等类别。

(3)梳理成果数据交付内容

以科研成果能够复现和共用共享为核心原则,确定科研成果数据交付内容的共性和特性要素。

参考关于“成果交付”“信息归档”“数据汇交”相关的现行标准,同时学习关于数据交付管理的先进做法,如国家基因组科研数据中心发布的《国家基因组科研数据中心数据汇交指南》等数据交付规范[7],分析其中关于成果交付内容的要求,结合自身项目特点,梳理科研成果数据共性交付内容的组成,包括如成果数据主体、配套交付文档、配套软件工具及环境、描述信息等内容。

以数据集类为例,参考关于数据集成果交付的现行标准,分析标准中对数据集类成果主体,以及验收文件的交付要求,提炼补充数据集类成果特性的交付内容,如数据字典等。参考关于“交付元数据”“库表数据元”等数据集交付基本信息的现行标准,分析标准中对于数据集类成果交付所需字段项信息及对应的填写要求,形成数据集类成果数据交付信息表。参考关于“数据集归档”“数据字典”等数据集成果归档的现行标准,解读其中关于数据集说明书、试验大纲、仿真报告、数据字典等文档的格式、要素、内容框架和提交要求,剪裁适用本项目的条款,按数据集类别匹配并规范各类配套文档的交付要求。

在项目及合同信息数据交付方面,分析标准库中的现行标准,并基于自身项目、合同管理需求,结合科研项目、合同模板,分析提炼描述项目及合同的信息要素;此外,根据历史项目管理经验,同时参考项目、合同管理软件等平台,调研项目通用的评审材料,进一步细化项目、合同信息描述的字段项及填写要求。在项目与合同相关文件方面,检索分析“文档分类”“档案管理”的相关现行标准,结合科研项目验收实际需要,筛选项目、合同交付所需的文档,划分类别、范围并明确交付要求。

(4)确定成果数据交付程序

参考关于“成果管理”“验收流程”的现行标准规范,分析提炼其中关于科研成果数据交付程序的要求与原则。依据自身项目管理流程的基本要求和实际需要,明确各类科研成果数据交付的共性流程步骤,并细化各步骤中相关方的权责要求,形成科研成果数据交付程序。

3.2 科研成果数据核心元数据标准编制

针对数据集类、软件类、模型类等多类智能领域科研成果数据目录建设与检索需求,研究并提出各类科研成果数据核心元数据内容、结构、格式、管理、分类、交换等方面的信息,形成科研成果数据核心元数据标准,包括编制要求研究、通用基础研究与各类智能领域科研成果数据核心元数据研究等内容。本文提出的科研成果数据核心元数据标准编制,主要包括以下两个步骤:

(1)形成核心元数据编制要求

参考关于“元数据”“核心元数据”的现行标准,把握科研成果数据核心元数据编制要求的整体思路;检索元数据的标识、命名、属性描述等方面的资料,归纳其中元数据命名、标识、属性描述相关的规则、约定;调研各组织单位对于元数据注册、管理的经验做法,结合工程实际需求,给出科研成果数据核心元数据的扩展要求,以及元数据管理的相关方、职责与流程。

(2)梳理各类成果核心元数据

基于“科研成果数据核心元数据编制要求”,梳理项目、合同以及各类科研成果的共性与特性的核心元数据。

在都柏林核心元数据元素集的基础上,以描述科研成果数据核心信息为目标,同时考虑科研成果数据管理、存储、定位、获取、共享的需要,划分通用基础与各类科研成果核心元数据实体,并给出属性描述模型。

参考关于项目、合同、科研成果数据描述的现行标准,总结提炼项目、合同、科研成果等相关文件中的内容要素,借鉴各类数据资源元数据提取的经验做法,调研项目、合同、数据资源管理系统中相关元数据的选用情况,针对不同类别梳理出通用基础与各类科研成果的核心元数据。

3.3 标准贯标方案制定

为减少人员的经验、知识水平等因素对标准内容的解读和理解差异,降低对科研成果数据交付质量和效率的影响,需要确定数据标准贯彻的方法和手段,建立问题的响应机制,支撑科研成果数据标准化工作落地实施。此外,标准贯彻方法研究将重点关注标准在配套工具软件中的实现,使用户更便捷、顺畅地完成符合标准的科研成果数据交付任务。本文提出的标准贯标方案制定策略,主要包括以下四个步骤:

(1)调研项目现状与需求

针对临近节点评估与验收等环节的智能科研项目,从当前进展、指标要求、标准依据、支撑手段、预期目标、存在的问题等方面设计调研问卷,开展科研成果数据加工准备、采集提报情况的调研。

基于调研情况,分析项目主管部门、合作部门在科研成果数据交付阶段步骤、计划安排、协调沟通等方面存在的问题。

基于问题分析,提出解决方案,明确贯标需求,如为减少人员的经验、知识水平等因素对标准内容的解读和理解差异,开展标准宣贯,统一对标准内容的理解。又如为解决传统的交付手段降低了科研成果数据信息填报效率及规范性的问题,提供简单易用的工具软件,减轻科研成果数据信息填报人员的负担。

(2)总结历史做法与经验

借鉴国内外数据标准贯标的先进经验和做法,为科研成果数据相关标准的贯彻执行提供参考。如美国航空运输协会(ATA)发布的SPEC系列标准,从数据字典各项数据项的定义、格式等方面对航空装备进行了详细规定,同时美国联邦航空局(FAA)采取适航条令、适航颁证等准入控制方式,约束航空装备供应商遵循ATA相关标准。又如北约(NATO)物资编目相关的数据标准—物品标识号(NIIN)[8],按数据标准研制实施部署了NATO编码系统,采取注册、共享的方式,实现了各国注册装备的信息项一致、格式统一。再如我国的全国组织机构统一社会信用代码数据服务中心编制发布的GB 32100—2015《法人和其它组织统一社会信用代码编制规则》,通过明确组织的主要职能,配套制定了实施流程,开展培训解读,并在互联网上部署登记审批平台[9],取得了良好效果。

(3)明确贯标对象与范围

明确“科研成果数据交付要求”“科研成果数据核心元数据”标准的贯标对象,如项目主管部门、合同主管部门的科研成果数据信息采集填报人员及涉及的业务信息系统。明确“科研成果数据交付要求”“科研成果数据核心元数据”标准的贯标范围,如结题项目、在研项目、新立项目,又如在用系统及新研系统。明确“科研成果数据交付要求”“科研成果数据核心元数据”标准的贯标时间,如根据科研成果数据管理要求,结合项目管理,确定标准的贯标时间。

(4)形成贯标方法与机制

通过分析标准贯标的关键要素,进一步明确贯标工作的方法和原则。首先明确科研成果数据相关标准贯标的各方,如归口管理、实施支撑、监督检查、落实使用机构及人员等,统一对于贯标工作重要性的认识,明确各方关于贯标工作的具体职责,如归口管理机构负责拟制贯标工作规划,督促贯标工作进度等。其次梳理分析相关顶层文件,寻求标准贯标的制度支持,以促进和支持标准的贯彻实施和贯标检查工作。然后从满足科研成果数据标准化交付需求,且减轻承研单位工作量负担的角度,确定贯标方法,如提供标准宣贯以及有效统一的工具软件,满足项目、合同、科研成果数据信息的高效采集提报,开展试点应用以验证贯标的效果。最后依据标准贯标要求、检查方法、考核指标,对贯标情况进行监督检查。

3.4 配套工具软件研发

结合标准贯彻研究,本文将智能领域科研成果数据交付要求及核心元数据等标准中的要求嵌入到工具软件的使用中,实现符合标准的智能领域科研成果数据采集工具软件设计。工具软件需具有项目信息、合同信息、成果数据管理及标准阅读下载等主要功能,满足国产自主可控要求,具有一定的运行环境适应性和兼容性;工具软件应当提供对外标准数据接口,便于其他系统对接并获取相关数据。本文提出的配套工具软件研发,主要包括以下三个步骤:

(1)明确软件需求

工具软件主要用于科研项目信息、合同信息、科研成果数据信息的采集交付。工具软件依照“科研成果数据交付要求”系列标准规范进行开发,实现了项目信息、合同信息、科研成果数据信息的规范化、便捷化及高效率地提报,使得填报数据过程与数据标准落标过程融为一体,方便项目管理部门后续开展智能领域科研成果数据信息的审核查验,支撑科研成果复现及数据共享的目标。

(2)设计软件架构

基于需求分析的结果,进行软件的概要设计工作。确定软件的模块划分、界面设计、数据结构等方面的设计方案,并绘制相应的概要设计文档。根据概要设计,对软件各个模块的详细设计进行进一步规划和细化。包括功能模块的具体设计、数据结构与算法的选择和设计,以及界面交互细节的设计等。

(3)实现模块功能

根据架构设计对软件需求进行功能实现。项目信息方面,允许项目主管部门管理项目下的合同,汇总、查看并维护各合同中的科研成果数据。

合同信息方面,允许合同主管部门编辑合同信息,编辑、整理合同下的科研成果数据信息,提交合同级科研成果数据。科研成果数据信息方面,支持合作部门进行科研成果数据信息(对应的数据集、软件、模型类)填报、相关文件上传,支持填报数据校验与打包,用于交付项目主管部门统一管理。此外,软件还需为用户提供数据标准和用户手册的在线预览及下载功能。

4 试点应用实施工作建议

基于前述智能领域科研成果数据标准化交付策略,在标准及工具软件形成较为完善的版本后,可开展标准及工具软件部署及试点应用,提供相应的咨询与培训服务,以促进数据交付工程实施落地;同时在试用过程中,广泛征求意见并如实记录使用问题,作为新的输入指导标准及工具软件的持续更新,提升标准及工具软件的使用效果。本文提出的试点应用工作实施建议,主要包括以下两点:

(1)宜形成试点机制,促进贯标落标

基于标准贯标方案,开展项目现状与需求调研时,可优先选取重点智能科研项目,调研其项目进展、里程碑节点、参与人员组成、科研成果数据分布等情况,梳理项目主管部门所需参与的人员,明确相关职责,形成具体的贯标范围与试点流程。

可在宣贯培训试点的多个方面开展策划准备,形成试点工作机制,促进标准贯标落标。如在宣贯材料方面,可包括宣贯手册、标准文本、工具软件、使用手册、征求意见函等材料准备。在人员分工安排方面,可考虑标准宣贯、软件演示、问题解答、运行维护等方面人员,如支撑“科研成果数据交付要求”标准讲解及答疑的编制组人员,以及支撑工具软件部署及操作讲解的技术人员等。宣贯演示工作安排方面,具体工作可按照标准宣贯及软件演示、用户单位答疑、标准及工具软件使用开展征求意见的顺序开展。问题及意见收集反馈方面,可针对标准使用和软件操作,提供现场答疑和线上答疑等方式,总结归纳其中典型问题,并收集整理相关人员对于典型问题的规范解答;收集整理用户在标准和工具软件试点过程中提出的问题、需求,作为新的输入不断迭代修改标准和工具软件,提高标准和工具软件的操作性、便利性。

(2)宣贯培训及征求意见

可根据试点流程的宣贯培训部分,开展标准宣贯和软件培训工作。标准宣贯方面,基于“科研成果数据交付要求”和“科研成果数据核心元数据”系列标准开展宣贯演示,为科研成果数据提报人员解答科研成果数据“是什么”“交什么”“怎么交”“怎么描述”等问题,建议重点讲述科研成果、合同及项目数据的范围界限、交付内容、描述方式等,统一科研成果数据提报人员对标准的理解。在软件培训方面,需制作演示材料从不同角色的视角(项目主管部门、合同主管部门、合作部门等)对工具软件的使用要求进行讲解,增加科研成果数据提报人员对工具软件的熟悉程度,提高科研成果数据信息采集效率。

根据试点工作机制,可针对“科研成果数据交付要求”“科研成果数据核心元数据”系列标准、配套工具软件,广泛征求用户试用意见。按照标准修订和软件修改两个类别将意见整理,作为过程材料和版本更新依据,为标准和软件迭代提供输入。

5 结语

智能领域科研成果数据交付规范旨在管理智能领域科研成果数据的交付过程,提高交付质量与数据价值,促进科研成果数据共用共享。本文通过分析现阶段智能领域科研成果数据面临的问题,引出智能领域科研成果数据管理的必要性,提出了一种智能领域科研成果数据交付管理框架,并给出了规范智能领域科研成果数据交付过程的实施工作建议。

随着智能领域的投入不断增加,智能领域科研成果数据的交付和管理的重要性日益凸显。随着数据资源建设的不断成熟,智能领域科研成果数据管理也将向着高效化、规模化、常态化的方向发展,为国家智能领域的综合实力提升奠定数据基础。

作者简介

杜佳诚,通信作者,硕士,助理工程师,研究方向为航空标准化与质量、大数据技术、数据治理、数据分析。

宋恒,博士,工程师,研究方向为航空标准化与质量、大数据技术、数据治理、数据分析。

闫弋,联合培养硕士,研究方向为航空标准化与质量、软件工程、图像识别、数据治理。

张驰,博士,高级工程师,研究方向为航空标准化与质量、大数据技术与人工智能、航空装备大数据治理及分析挖掘,数据标准化、数字图像处理等识别、数据治理。

(责任编辑:张佩玉)

猜你喜欢

元数据标准化
标准化简述
企业标准化管理信息系统
标准化是综合交通运输的保障——解读《交通运输标准化体系》
基于来源的组织机构元数据构建研究
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
归档网络信息价值判断的元数据描述研究综述
财会信息资源元数据标准的研究
基于隐语义模型和用户信任的个性化推荐模型
以标准化引领科技创新