“一带一路”经济管理专题数据库标准体系模型及框架构建
2022-08-10司莉刘尧
司 莉 刘 尧
(武汉大学信息管理学院,湖北 武汉 430072)
随着“一带一路”高质量发展被写入《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,“一带一路”建设正从谋篇布局的“大写意”阶段转向精耕细作的“工笔画”阶段,进一步凝聚合作共识、扎实推进互联互通、大力拓展市场合作成为高质量发展的要求[1]。为跟进高质量发展的战略纲要,弥补沿线国家间信息不对称,增进双方互信,需建设“一带一路”经济管理专题数据库(以下简称“经管专题库”)。
标准化是专题库建设过程中的重要环节。标准规范是人文社科专题库建设的首要问题和深度开发利用的前提[2],也是跨国信息资源整合的基础[3]。但当前“一带一路”专题库在建设过程中面临规范化管理不足的问题。一方面,各库资源采集标准尚未确定,组织方式各不相同[4],跨国信息资源整合机制尚未形成;另一方面,“一带一路”沿线国家在信息采集、加工、存储、交换等环节所使用的标准差异较大[3],不利于沿线国家信息的融合和服务体系的建立。该问题同样存在于经管专题库中。经管专题库建设是项庞大复杂的系统工程,涉及沿线多个国家和部门及语种,亟需通过标准规范进行统筹协调;目前已建成的专题库中尚未采用统一标准,其建库目的、数据来源和服务对象各异,为资源整合与用户的统一检索带来不便。因此,本文对经管专题库的标准体系的模型及框架进行探讨,以期提升专题资源建设效率,进而增进沿线国家政策沟通与经济合作,推动共建“一带一路”向高质量方向转变。
1 相关研究现状
1.1 专题库标准体系建设研究
目前研究中的专题库标准体系主要有以下几种构建思路:①基于业务板块的构建思路,主要从专题库的架构角度,针对标准体系所面临的业务要求如技术、管理、服务等方面建立标准。国家科技管理信息系统标准体系框架由总体、信息资源、应用服务、支撑技术、基础设施和管理类标准构成[5];档案数据库建设标准体系综合考虑技术、管理、工作和专业等不同性质标准[6];环境影响评价基础数据库标准规范体系设置数据资源、数据库、共享交换和应用服务4个大类12个小类[7];基层医疗卫生信息系统的标准体系由基础类、数据类、技术类、安全与隐私类和管理类标准构成[8];教育宏观决策数据库标准体系由基础、数据、技术和管理标准构成[9]。②基于数据处理的构建思路,聚焦于专题库的数据描述、组织、规范控制等处理过程构建标准体系。如“一带一路”新型智库信息资源标准规范体系由信息处理、唯一标识符和元数据标准等组成[10];“一带一路”沿线多语种、共享型经济管理数据库元数据标准体系包括数据结构、数据值、数据内容、数据格式和技术交换标准[11];专题档案资源库采用国际国内通用数据著录标准、数据格式标准、数据标引标准、规范控制标准对资源进行系统化、逻辑化的组织[12];古籍书目数据库标准规范从著录标准、分类标准和用字规范等方面构建[13];CALIS重点学科网络资源导航库制定的相关标准规范包括资源选择标准、元数据规范、著录规则、资源类型控制标准[14]。
1.2 经管类数据标准的建设
国际经济行业组织的数据标准建设多集中于元数据、质量控制和发布环节。国际货币基金组织(IMF)发布的《通用数据传播标准》和《专用数据传播标准》提出,从数据传播中的4个维度控制数据质量[15];世界银行的《信息分类和控制政策》《银行指南:发展数据采集与存储》《信息获取政策》[16]对数据的采集、组织、存储和利用等流程进行控制;经济合作与发展组织(OECD)制定的《统计数据质量准则》[17]《统计数据和元数据交换(SDMX)》[18]和《数据集和表格的发布标准》[19]等;英国数据存档(UKDA)通过制定编目指南、元数据标准、馆藏发展政策、数据处理标准和保存标准,对其从英国经济与社会研究委员会(ESRC)和国家统计局获取的经济数据进行管理[20];欧盟统计局发布了统计数据质量控制标准框架和元数据标准,并对国际贸易和农业经济等领域数据的收集、编码、发布进行规范[21]。
有研究对审计与银行的数据标准进行探讨。如审计信息化标准体系包括基础、信息处理和基础支撑3个大类,并按业务和主体维度对部分标准进行细分[22];银行数据标准管理体系包括组织建设、体系规划、监督检查与维护等[23]。
现有研究中提出的专题库标准体系能为本文提出的框架在整体结构上提供参考,但尚未涉及“一带一路”和经管领域;经管类数据标准建设研究在元数据、质量控制和发布上已有探索,但多是基于工作经验提出,缺乏顶层设计和理论指导,未能覆盖数据的整个生命周期。因此,本文基于霍尔的三维结构理论,从适用范围、主题类型和数据流程维度构建标准体系模型和框架;再结合标准化部门和国际经济行业组织的标准文件,对经管专题库数据流程中各环节的标准内容进行解析。
2 “一带一路”经济管理专题数据库标准体系模型与结构框架
2.1 理论基础与模型构建
2.1.1 理论基础
1)霍尔三维结构理论。由美国系统工程专家霍尔提出,它将系统工程的过程分散到三维空间结构中,即6个阶段(时间维)、7个步骤(逻辑维)和专业知识(知识维);结合3个维度可准确定位工程进度,进行计划、组织和控制[24]。该理论被应用于全球范围的大型复杂系统的规划、组织及管理,在标准体系构建过程中已得到较多应用[25]。本文借鉴该理论,将标准分列为3个维度。
2)总体架构(Enterprise Architecture,EA)方法论。它是在信息系统设计与实施的实践基础上发展而来的方法,描述了业务、信息、应用和技术互动的整体构想。美国国家标准与技术研究院等提出5层EA模型,包括技术基础设施层、数据描述层、系统与应用层、信息流及其关系、业务流程层[26]。该理论已成为普遍采用的复杂系统设计与实施的理论和工具[27],用于整体架构和顶层设计,为标准体系模型的主题类型维的设计提供支撑。
3)信息生命周期理论。信息生命周期指信息从生成到失去价值的整个时间区间[28],不同时期的信息可能在格式、目的、价值和使用上经历多种转换。英国数据档案项目联盟提出的DDI 3.0生命周期模型要素包括数据收集、处理、存档、发布、发现、分析和再利用[29]。该理论为理解和开展数据管理提供了框架,能够识别数据的演变阶段和使用人员的特定需求,确定建库过程中的标准化任务,是标准体系模型的数据流程维的理论基础。
2.1.2 标准体系的三维模型
本文立足上述理论,构建了经管专题库标准体系模型,如图1所示。具体而言,依据霍尔三维结构确定模型的结构,即适用范围、数据流程和主题类别三维;总体架构方法论和信息生命周期理论分别用于主题类别和数据流程维标准的划分。
图1 经管专题库标准体系三维模型
1)适用范围维标准。《标准体系构建原则和要求(GB/T 13016-2018)》指出,应立足个性标准,提取共性技术要求作为上层的共性标准[30],说明标准体系应被划分为适用于共性、个性的层次结构,由指导、通用和专用3个层次组成[31]。本文结合霍尔三维结构的逻辑维,将适用范围维标准划分为指导、通用和专用标准。
2)主题类别维标准。数据库的建设是一个系统工程,其业务活动涉及到数据处理、数据应用、基础设施和运行管理等多个环节,是标准规范体系构建所面向的业务需求,需从信息系统整体架构的角度对其进行梳理。参考EA模型,将主题类别维划分为基础设施、资源建设、应用服务和运行管理类标准。
3)数据流程维标准。专题库的建设涵盖数据从产生到消亡的全过程,以数据生命周期为视角,结合DDI 3.0生命周期模型的要素,对建库中的数据处理进行阶段化管理,建立数据采集、描述、组织、加工、保存、服务和复用标准。
2.2 标准体系的结构框架
经管专题库标准体系的结构框架立足三维模型,从适用范围、主题类型和数据流程3个维度出发,由顶层设计、主体结构到内容体系形成了三大要素体系,如图2所示。其中,顶层设计是经管专题库标准在适用范围维度上的体现,不仅从全局统领标准化建设,还能对4个主题结构提供指导;主题类型维构成了标准体系的主体结构,既是适用范围维中指导标准的具体实践,也是通用标准的具体展开,从基础设施、资源建设、应用服务和组织管理层面具体分解标准体系的建设思路;作为经管专题库在建设初期的主要标准化任务,主题类型维的资源建设和应用服务标准在数据流程维中被分别具体化为资源采选、元数据、分类编码、内容加工、长期保存标准和数据服务规范、开放共享标准,是标准体系的核心内容。
图2 标准体系的结构框架
2.2.1 适用范围维标准的构成
1)指导标准。是与标准的制定、应用和理解等方面相关的标准,国家科技管理信息系统标准体系中包含基本术语和标准化指南[5];科学数据共享工程标准体系中包括标准体系及参考模型、标准化指南、概念与术语、标准一致性测试。本文指导标准包括经济管理与数据库术语、标准体系参考模型、规范性引用文件和专题库标准化建设实施指南。
2)通用标准。是对特定的流程和事件提出要求或提供标准化的执行方法[5],包括数据描述类、数据产品与生产类、数据管理类、数据服务类、应用系统建设类标准[31];“一带一路”智库信息标准规范体系中的通用标准包括技术标准、管理标准、服务标准[10]。本文通用标准包括基础设施类、资源建设类、应用服务类和运行管理类,即主题类型维的四大主体结构。
3)专用标准。是根据通用标准制定以满足特定领域数据资源建设需求的标准。具有领域特点的信息资源需要制定相应的专用标准,且应遵循或继承通用标准[5];例如,企业投资项目和科研立项是“一带一路”信息资源体系的重要内容[32],在收集、整合多源异构的项目信息、建立“一带一路”项目库过程中,可基于通用标准,制定针对项目信息的采选、描述、组织、多语言处理和整合标准。
2.2.2 主题范围维标准的构成
该维度从以下4个方面展开:
1)基础设施标准。基础设施标准针对经管专题库的硬件和网络制定,《数据中心基础设施施工及验收规范(GB50462-2015)》将其划分为综合布线与网络系统、安全防范系统、配电系统等[33];国家科技管理信息系统标准体系中包括信息安全、网络基础设施、计算机及存储系统、机房及配套设施[5]。本文基础设施标准包括基础设施施工及验收规范、系统建设通用技术要求、信息安全标准和网站建设规范。
2)资源建设标准。是数据库规范化管理的核心,对数据采集、创建、描述等相关要素进行规范。中国科学院数据云标准体系将其划分为数据采集与整理、元数据与元模型、数据管理、数据服务标准[34];审计信息处理类标准包括数据采集、预处理、存储与管理、分析标准[35]。结合信息生命周期理论,本文将资源建设标准划分为资源采选、元数据、分类与编码内容加工和长期保存规范。
3)应用服务标准。针对经管专题库的服务对象、内容、方式、绩效、宣传与引导、监督预评价方面进行规范。国家科技管理信息系统中将其划分为支持互联互通的基本接口、统一认证与业务集成标准,以及数据管理和移动端应用服务规范;中科院数据应用环境建设与服务标准规范框架中,应用服务标准包括服务的对象类型、方式与要求、数据交换格式及数据的共享分类分级政策。本文将应用服务标准划分为数据服务规范和开放共享办法,与资源建设类标准共同作为数据流程维标准的内容。
4)组织管理标准。为信息系统建设和服务提供管理手段与措施,是保证信息系统高效运作的重要保障,由运维管理、数据评估、数据资产管理等构成[36]。中国科学院数据云的数据管理标准包含数据质量管理规范、数据质量评测方法与指标体系和数据加工增值管理办法等[34];考虑到经管专题库数据由多渠道采集而来,可能存在知识产权风险,因此,本文的管理标准除数据质量评估与控制外,还有知识产权管理规范。
2.2.3 数据流程维标准的构成
数据流程维标准是经管专题库标准的内容体系,也是建设初期的主要标准化任务。具体包括资源采选、元数据、分类与编码、内容加工、数据服务和开放共享标准。详细内容见本文的第3部分。
3 “一带一路”经济管理专题数据库标准体系框架的内容体系
经管专题库标准内容体系主要包含资源与服务两个体系,其中资源标准体系需基于经管专题库资源建设的过程,明确资源的生命周期,结合已有的标准文件,建设资源采选标准、元数据标准、分类与编码标准、内容加工规范和长期保存标准。服务标准体系则包含数据服务规范和开放共享标准,对其主客体、内容、流程与评估进行规范。具体来说,主要包含以下几个方面。
3.1 资源建设标准体系
3.1.1 资源采选标准
资源采选标准是数据库资源建设的核心问题,为确定“一带一路”经管资源采选指标,笔者收集了数字资源和经管信息的采选标准,如表1所示。数字资源的采选标准在考虑用户需求、成本效益和用户服务方面,与经管专题库具有共性,且已有标准化组织和图书馆联盟的实践经验;经管领域的组织在馆藏内容上与经管专题库有相似性,可参考其采选标准。
表1 数字资源/经管信息采选标准
结合调研结果,确定经管专题库资源采选的维度为:①契合度,主要考察资源内容是否与“一带一路”和经济管理相关,是否满足政府、科研和企业用户的决策与研究需求;②质量,即完整性、准确性和时效性等;主要从资源的时空跨度、记录与元数据是否完整、资源来源是否权威、更新时间和频率等方面评估;③成本,主要考虑资源的价格、维护成本、人均使用量等;④风险,主要考虑许可协议中是否保证资源版权的合法性、是否规定版权纠纷发生时适用的法律和解决方式、是否制定用户隐私保护条例等。
3.1.2 元数据标准
沿线不同国家、机构的异构元数据不利于信息的整合与访问,需要统一的元数据标准。根据课题组前期研究[10],经管专题库元数据标准应包括:①数据结构标准。主要记录资源的类型和内容等信息,其中,数据集核心元数据为标识符、标题、主题、关键词、摘要、语种、时空范围、更新频率、责任者、权限、许可、格式、URL、关联资源和数据结构;②数据值标准,用于规范元素中所出现的人名、地名、专业词汇等;③数据内容标准,用于规范数据值的格式和语法规则,包括元数据著录指南、编目规则,以及针对具体元素的编码规范;④数据格式和技术交换标准,是上述元数据标准的机读格式表述,规范其多语言处理与置标过程。
表2 元数据标准框架及其可参考标准
3.1.3 分类与编码标准
信息要被不同用户和应用系统共享,须有一致认可的定义和表示法;前者依赖于信息分类,后者则需要信息编码[37]。参考《信息分类和编码的基本原则与方法》的相关要求和《数字资源知识组织分类标准规范》[38]的内容结构,经管专题库分类与编码标准包括:①基本原则,即科学性、系统性、可扩延性、兼容性和综合实用性;②分类体系架构,包含主表、分类与代码表、复分表。其中,主表、分类与代码表包含宏观、部门和微观经济3个基本大类、33个二级类目、245个三级类目;复分表6个,对信息的时空、语种、类型和来源进行揭示[39];③编码规则,规范代码类型、特征、表现形式、编号方法。
表3 信息分类与编码标准框架及其可参考标准
3.1.4 内容加工规范
内容加工指将大量分散、凌乱、无序的内容资源进行整理、浓缩、提炼,并按逻辑顺序加以编排,使之系统化的过程[40],即对资源进行校对、清洗、编码和标识,以供描述和标记。笔者将内容加工规范划分为以下3个方面:
1)数据质量控制标准。数据质量是指数据的特性满足明确的和隐含的要求的程度[41]。“一带一路”经管数据具有多源异构性,需对其数据结构和格式不一致、关联性差、数据软件不兼容、数据重复、内容错误、缺失、更新和传输有误等质量问题进行评估、发现和修正。
2)数据字符编码标准。数据字符编码是网络传输数字资源的基本通信技术和规范[42],用于规范经管专题库对资源的编码描述。目前已有广泛使用的标准规范,可直接选用。
3)数字对象唯一标识符标准。数字对象唯一标识符是为任意类型的对象提供永久性唯一标识[43],其标准规范了标识符的语法、描述和解析功能,以及对标识符名称进行注册和管理的基本原则。
4)不同类型的资源加工操作指南。鉴于经管专题库的资源包括文本、音视频和图像等多种形式,可参考《内容资源数字化加工(GB/T 38548)》和图书馆资源数字化标准,针对各类型资源建立加工指南,对其内容标记、资源格式体系、加工级别、技术参数和加工流程进行规范,具体如表4所示。
表4 内容加工规范框架及其可参考标准
3.1.5 长期保存标准
“一带一路”信息资源体量较大,仅“一带一路”研究与决策支撑平台就收录超过401万条数据、21万篇文献和4.8万篇报告[44];然而载体老化、技术过时等因素使数字资源生命周期较短,标准缺失不利于数字资源的长期保存和可获取[45]。在参照长期保存参考模型和框架、信息与文件保存相关标准的基础上,笔者认为,经管专题库资源长期保存标准包括管理标准和技术标准。
管理标准针对数据资源和元数据定义了保存环境的基本功能、实施主体及其职责范围等。技术标准包含存储规范和系统标准,前者明确了长期保存中资源传输和存储的技术标准、数据格式和载体要求,后者规定了长期保存系统的运行及其互操作所需达到的技术要求,如表5所示。
表5 长期保存标准框架及其可参考标准
3.2 应用服务标准体系
3.2.1 数据服务规范
服务规范用于规定服务应满足的要求以确保其适用性[46]。基于《服务业组织标准化工作指南(GB/T 24421)》的一级标准,结合经管信息、政务信息、新闻资讯和科学数据服务标准,笔者将经管专题库标准分为:①服务通用标准,即对服务术语和服务分类进行规范。为保障标准的适应性,服务分类标准可参考“一带一路”专题库的功能模块[47],并结合中科院《数据服务指导性规范》确定导航、检索、数据下载、分析、多语种服务、个性化服务和新媒体服务7类服务;②服务提供标准。参考服务要求标准和服务标准编写通则,对7类服务的环节、人员、功能、合同和安全进行规定;③服务评价标准。根据国家标准从服务组织、人员、环境、环节、信息、满意度、效果等指标对服务进行评价,以确定服务提升措施。
表6 数据服务标准框架及其可参考标准
3.2.2 开放共享标准
提供共享服务是经管专题库建设的终极目标。参考政务数据开放共享、中国科学院科学数据共享工程标准的结构,笔者将资源开放共享标准划分为3个部分。
1)共享服务标准,主要对共享主体、内容和方式进行规定,统筹协调数据内容、整合过程。根据课题组前期研究,需对共享主体在资源整合、人员配置、经费使用等方面进行规范化控制;确定共享方式,明确与政府部门、商业和科研机构、国际组织和联盟机构之间的业务、技术、项目和协议等合作形式;规范共享数据的内容、格式和载体等。
2)共享保障标准,指为保障数据开放共享的实施,所建立的数据描述与组织标准、网络与平台要求、管理与评估标准。
3)开放共享评估标准,借鉴政务数据和科学数据的相关标准,从数据资源、平台设施、安全保障、管理评价和应用成效角度,对共享效果和开放程度进行评估,并对评估原则、指标体系和方法进行规定。
4 结 语
标准体系框架的构建是确保经管专题库建设的有序推进、提高资源质量的基础性工作。本文以国家标准为指导,参考借鉴霍尔三维结构、EA理论和信息生命周期理论,从适用范围、主题类别和数据流程3个维度,建立了标准体系的三维模型,并进一步构建了包含三大顶层设计、四大主体结构,以资源采选、元数据、分类编码、内容加工、长期保存、数据服务和开放共享标准为内容的标准体系框架。同时,为提升标准体系对经管领域的针对性,其资源采选标准的制定过程中参考了OECD、IMF、CCSA等国际经济行业组织的标准;元数据标准体系中制定了多语种经济术语对照词表;分类与编码标准参考了《国民经济行业分类》、国家统计局《中国统计年鉴》、中国信息经济网、《经济类型分类与代码》等。所构建的标准体系框架满足数据库在硬件、资源、服务和管理等方面的需求,覆盖数据的整个生命周期,能为数据库的规范化管理提供参考。
但本文仅提出了标准体系的基本框架,后续研究可基于此对其中要素进行细化,获得具备直接指导意义的标准、指南;同时,应考虑到跨语言技术、数据库服务的发展对标准提出的新要求,在维持标准体系框架结构稳定的前提下,进行丰富与完善。