APP下载

面向共享和交换的国际统计元数据标准及其应用

2021-07-21刁洪滨张景鸣刘智龙周春雨王文鹏

统计理论与实践 2021年6期
关键词:词汇表跨域数据结构

刁洪滨 张景鸣 刘智龙 周春雨 王文鹏

(黑龙江省统计发展服务中心,黑龙江哈尔滨150000)

当前社会各界对统计数据的需求日益增强,统计数据的生产也需要行政记录、电商数据等其他部门和机构的数据支持,统计部门内部和多部门间统计数据的交换和共享成为常态化需求。由于统计数据专业性强、内涵丰富,不同专业、部门的概念、统计术语和指标解释并不完全一致,所以共享和交换经常使用各种格式和非标准概念以临时方式进行,导致共享和交换的效率低、开发周期长、成本高。因此在数据共享和交换的背景下对统计数据进行描述的元数据就不应是分散的、以部门和专业为基础各自为政的碎片化的元数据,而是建立统一的、符合统计业务特点的、标准化的元数据以及共享和交换过程的模型。

当前我国统计元数据研究还主要局限于各部门自身的业务需求,跨部门基于主题域的统计数据和元数据交换标准体系的相关研究还比较少。国外对统计数据共享和交换研究工作重视程度较高,起步较早。欧盟统计局、IMF等七个国际组织于2001年发起成立SDMX国际组织。目前,SDMX已经成为事实上的统计数据交换和共享的全球标准。SDMX的目标是开发和使用更有效的流程,提升组织和部门间统计数据共享和交换的效率。为实现这一目标,SDMX提供了信息模型、内容指南和用于交换数据和元数据的IT架构。

一、SDMX标准架构组成

SDMX的基本思路是从统计数据生产的全流程入手解决统计数据的共享和交换问题,元数据标准体系要覆盖整个统计业务,而不只是适用于部分项目或主题域。SDMX标准由SDMX信息模型(Information Model)、内容指南(Content Oriented Guidelines)和面向共享和交换的IT架构(IT Infrastructure for exchange and sharing)三部分组成(见图1)。这三个部分既独立工作又相互关联,为统计数据的共享和交换提供了标准高效的流程规范和方法论。

图1 SDMX标准架构

(一)SDMX信息模型

SDMX信息模型给出了统计过程的标准方法、统计过程中对象之间的关系、结构定义、概念和代码表,描述了统一管理和标准访问的方法以及SDMX注册表和Web服务。

1.元数据

元数据是SDMX信息模型的重要概念。SDMX元数据包括结构元数据和参考元数据。结构元数据用于描述统计数据和元数据,参考元数据是附加解释性元数据,例如统计调查所使用的统计方法和数据的质量。

统计数据集由一组包含特定概念(概念作为数据的标识符和描述符)的元数据值描述。结构元数据在结构定义中设定。结构元数据用来识别并描述数据。它与数据关联,通过元数据可以识别、检索和浏览数据。数据结构定义(Data Structure Definition,DSD)和元数据结构定义(Metadata Structure Definition,MSD)描述了数据集/元数据集的组织方式,并定义了描述的数据/元数据集的结构元数据机制。DSD定义了在特定统计域内达成一致的信息结构,从而给出实际值时可以对数据集进行完整的描述。MSD描述了元数据集的组织方式,参考元数据及其概念的关联方式、表示方式(自由文本或编码)以及对象类型(代理、数据流、数据提供方等)。参考元数据用来描述数据的内容、方法和质量的概念,包括:

概念元数据:描述所使用的概念及其实际实现。

方法元数据:描述生产数据所采用的方法(例如采样、收集方法、编辑过程等)。

质量元数据:描述所得统计数据的不同质量维度(例如及时性、准确性)。

参考元数据不作为统计数据集的组成部分,它仅涉及与整个数据集合相关的内容。参考元数据是内容元数据,提供有关统计数据的更多信息,以使其解释更加精确。

参考元数据根据MSD来构造。元数据结构定义描述了如何组织包含参考元数据的元数据集,并定义用于引用此参考元数据所涉及的统计数据或结构元数据的机制。欧盟统计局定义了一种称为Euro-SDMX元数据结构(ESMS)的元数据结构。它包含统计元数据概念的描述和表示,用于记录统计数据和提供有助于评估数据质量和生产过程的摘要信息。

2.SDMX信息模型主要元素

SDMX信息模型使用多维数据模型中数据立方体中的维度、属性和度量等概念来表示统计交换中的统计数据和元数据,模型还包括参与者、流程和资源等元素。SDMX信息模型主要元素见图2。

图2 SDMX信息模型主要元素

数据流定义标识了数据结构的定义,并且可以通过类别与一个或多个主题域相关联。它是一组定期重复的数据集,它们来自不同的时间段,或不同的国家(或两者都有),或者在某些其他维度上重复,可以将其视为数据集的持续发布。如各国统计局编制的季度国民账户统计数据和季度(或月度)失业统计数据,以及许多其他类似的定期重复数据采集就是数据流的例子。

数据结构定义是数据流的超立方体结构的正式定义。它根据维度定义超立方体,将它们与概念和分类(SDMX称为代码列表)相关联。它还提供属性信息,可以在单元级别、表级别或中间级别提供其他信息,如统计质量、度量状态或其他脚注类型信息。

数据集是由数据结构定义的超立方体的某个子多维数据集的数据。数据流由其成员数据集(包括将来仍会出现的数据集)组成。

类别方案和类别为数据流提供了用于搜索和发现的索引。类别嵌套在类别方案中,并且可以有几个备选的类别方案索引数据流。类别方案可以基于出版物目录,或者基于统计术语辞典,或者基于特定客户端集合中的一些常用术语索引。

数据供应方和供应协议描述了在数据交换环境中取得数据供应方详细信息的机制。同时对通过网站发布统计数据方面提供了非常有价值的信息,也为数据自动发布和自动呈现查询提供了基础。

图2的轴心是数据或元数据流,由收集数据或元数据的组织维护。数据流链接到DSD,而元数据流链接到MSD。DSD或MSD定义数据或元数据的结构,并标识可以附加相关元数据的元素。数据供应方根据供应协议,可以报告或发布多个数据或元数据流的数据或元数据。数据或元数据流还可以链接到主题方案(类别方案)中的一个或多个统计主题(类别)。类别方案提供了对收集、报告或发布数据进行分类的方法。

SDMX标准提供了一种通用模型和多种数据格式,支持交换任何类型的数据“立方体”。为了允许自动处理来自各种源的数据,需要以符合SDMX信息模型的方式定义“立方体”结构。

SDMX信息模型允许参考元数据的交换和存储独立于其所描述的数据。参考元数据可以保存在元数据库中。因此,数据自动发布系统可以利用相关参考元数据来发布数据,可以通过访问参考元数据库获得参考元数据的具体内容,也可以通过索引参考元数据来支持搜索工具。

(二)内容指南

SDMX的标准框架不仅适用于统计主题域,还可以应用于其他主题域,不同主题域可以建立本主题域的内容指南。但目前SDMX研究和应用的主题域主要是统计主题域。针对统计主题域发布的统计内容指南本文简称内容指南或指南。

内容指南主要包括两个方面:统计术语的统一、代码清单和统计主题领域(面向内容的指南);实施SDMX标准的具体指导方针准则。指南通过使用底层元数据中的常见统计概念,促进了SDMX框架下统计数据和元数据文件内容的统一。与技术规范不同,SDMX机构主导的指南的开发在ISO框架之外进行,这种机制吸引了全球统计界许多领域的专家参与开展内容导向工作,加速了指南的开发,提高了指南的广泛性和权威性。指南建议在实践中使用SDMX技术标准创建可互操作的数据和元数据集。准则侧重于协调、统一大量统计域共有的特定概念和术语(因此称为“跨域”)。这种协调有助于实现更高效的可比数据和元数据交换。

除了提出跨域内容导向指南,SDMX还提供了用于开发特定域的面向内容的指南的框架。在该框架内,参与制定特定统计领域标准的公认国际机构将在制定具体内容指南和相关术语方面发挥重要作用。虽然SDMX技术标准和SDMX面向内容的指南可以相互独立使用,但它们在一起使用时更有利于标准化。

1.跨域概念(Cross-domain concepts)

跨域概念是指可以在不同统计主题域共同使用的概念。SDMX框架中的跨域概念描述了与许多统计域相关的概念。SDMX建议在SDMX结构和消息中尽可能使用这些概念,以便促进组织之间统计信息和相关元数据的重用和交换。在使用过程中,这些概念都应符合SDMX面向内容指南中定义的指定名称、角色和表示。这些跨域概念可以在SDMX词汇表中找到(在“类型:跨域概念”属性中)。

跨域概念应用于DSD和MSD,在DSD中使用跨域概念来定义给定域的数据集的有效内容。跨域概念来表示属性或维度,并定义有效类型,例如,概念可以具有代码列表或自由文本表示,或其他类型。在MSD使用跨域概念来定义给定域的元数据集的有效内容,以及使用跨域概念交换数据和元数据消息。

随着越来越多的统计领域中使用SDMX技术标准和面向内容的指南,跨域概念列表预计会增长并定期更新。跨域概念不仅包括概念的名称及其内容描述,还包括与之关联的代码列表,在数据结构定义和元数据结构定义中起到了重要的作用。

使用SDMX跨域概念不是技术一致性的先决条件,但它提供了一个框架,使符合技术标准的系统之间可以方便地共享数据和元数据。这促进了不同国际组织和国家及区域数据生产机构通过交换符合一致性元数据标准的统计数据来进行统计概念和统计方法的比较。

跨域概念有三方面的应用:

(1)作为数据结构定义中的维度。多个维度用于标识每个统计度量。例如,名为“参考区域”的维度将标识特定统计度量所指的国家。维度值通常取自代码列表(如国家/地区的代码列表)。

(2)作为数据结构定义中的属性。属性提供有关数据的信息,从而进一步限定数据。例如,“计量单位”的属性可以提供统计数据的属性信息。

(3)作为元数据结构定义中的属性。这里的概念可以用于报告数据流或数据提供协议(可以包含一组数据集)的元数据,其具有诸如及时性、参考周期、分类系统和数据编译的概念。可以对这些概念的值进行编码,但通常是文本。

每个数据集或元数据集使用适当类型的结构定义,以便交换数据和元数据的系统可以理解数据或元数据集包含的内容。概念可以在各种结构定义中重用。因此,诸如“参考区域”的概念可以用在数据结构和元数据结构定义中。为了跨多个域进行交换,存在单个概念和单个表示是至关重要的。重复使用这个单一概念的数据和元数据结构可以很容易联系起来,因为它们在相同的术语中指的是相同的想法。

跨域概念根据SDMX信息模型,概念(用于数据和元数据结构定义)必须具有一些特定的属性。这些属性包括:

(1)概念的强制性描述。一般SDMX跨域概念的定义和注释包含在SDMX词汇表中。

(2)由同一维护机构维护的跨域概念列表中的概念只能包含唯一标识。

(3)如果概念是“编码的”,则应提供包含有效值的代码列表的链接。

(4)维护机构负责维护在数据和元数据结构定义中使用的概念。对于SDMX跨域概念,维护代理是SDMX,它们将标记为“SDMX”。对于其他特定域的概念(未包含在SDMX跨域概念中或尚未包含在其中),有各种不同的维护代理。“维护机构”概念对于许多不同的目的很重要,因此,它本身就是一个跨域概念,也以统一的方式编码。

2.统计主题域(statistical subject-matter domain)

统计主题域是内容指南的重要组成部分和统计活动的分类方法,其目标是涵盖官方统计数据。统计主题域是指在数据收集的变量、概念和方法以及整个统计数据编制过程方面具有共同特征的统计活动。比如,价格统计、国民账户环境统计和教育统计。

在内容指南中,统计主题域的列表有三个功能:

(1)作为国家和国际组织的类似域名表映射的标准方案,促进数据和元数据的交换;

(2)作为在SDMX注册管理机构上注册和搜索统计数据的标识符框架在SDMX技术标准2.0版(以及更高版本)中应用;

(3)作为用于识别和组织相应的“域组”的导航辅助工具在使用SDMX技术标准和面向内容的统计和相关元数据交换指南方面发挥积极作用。

SDMX统计主题域分类利用了联合国欧洲经济委员会(UNECE)国际统计活动分类和区域国际统计活动数据库(DISA)。SDMX利用统计域1-38中的主题框架,其中包括:人口统计和社会统计、经济统计、环境和多域统计。SDMX网站的“指南”页面提供了SDMX统计主题域的详细列表。

3.SDMX词汇表

SDMX词汇表是SDMX概念和相关定义的指南,是构建和理解基于SDMX的数据和元数据交换的基础。词汇表提供了SDMX信息模型,以及DSD和MSD中所使用的术语定义,并将其作为常用SDMX术语的单一入口点,以便通信和理解标准的统一。

词汇表没有强制在SDMX结构中使用的特定概念和代码列表,它是一个统计通用术语词汇表,目的是促进统计数据的沟通和理解。指南要求如果使用术语,则其精确含义应与词汇表定义相对应。词汇表与跨域概念紧密相关,因为它还包含所有这些概念,说明了它们的定义和上下文描述。词汇表并不能涵盖整个统计术语范围,它的重点主要是那些通常用于构建和理解元数据系统和SDMX数据交换的术语,如图3中的实例。

图3 词汇表实例

词汇表中定义的元数据概念由本领域内的国际组织定期讨论,随着SDMX指南在越来越多的统计领域中使用,该列表将会扩大并更新。因此,词汇表是一份“活的”文件,它的构建和改进来源于在SDMX和国家框架内对这些定义和概念的应用。例如,涉及SDMX跨域概念的面向内容的指南的变化意味着需要更新词汇表以反映这些变化,即由于跨域概念将被修订和扩展,需要词汇表进行同步修改,比如增加新术语、改进现有定义、添加更详细的信息等。词汇表提供了一个单一入口点可用于访问各种术语,包括有时无法使用或难以找到的术语。在某些情况下,词汇表会包括一个或几个背景解释的相关定义,有时提供额外的解释;其他时候强调特定定义在特定领域或地理环境中应用的特殊性。

词汇表以国际组织已经开展的工作为基础。其定义大多来自现有的国际标准或建议的统计做法。术语表还提供了作为“SDMX”编写的信息,例如,SDMX技术规范和跨域概念中使用的术语。这一术语子集由SDMX直接维护,而更多的更广泛的元数据术语集和更详细的解释与外部源和词汇表相关联。最新版本的词汇表可从SDMX网站的“指南”页面或使用相应的链接获得。

(三)SDMX IT 架构

IT架构定义了SDMX交换数据和元数据的标准格式,包括SDMX-ML和SDMX-EDI。架构还给出了数据交换的模式,包括推(Push)、拉(Pull)和数据集线器模式(Data Hub)三种模式。此外,IT架构还包括SDMX相关IT工具。

二、SMDX标准应用现状和发展

SDMX标准建立和逐渐升级完善已经近20年,其中SDMX1.0标准于2004年发布,最新版本是SDMX2.1。在2.1版中,2.0的许多功能得到改进,包括Web服务增加了RESTful接口,增加了标准功能和错误消息。现在,可以基于SDMX标准开发通用的可互操作应用程序。此外,基于2.0版的应用经验,已经简化了各种XML数据格式。SDMX3.0技术标准目前还在修订和讨论中。

从使用方式上来看,有三类应用场景可以使用SDMX,包括:作为统计数据收集和发布的格式、各国中央银行(早期实施GESMES/TS,现在是SDMX-EDI)和欧洲统计机构(历史上使用GESMES)受欧盟统计局人口普查中心等项目的推动使用SDMX作为报告和收集格式;作为网站的数据发布标准,在广泛的机构包括中央银行(欧洲央行和欧洲中央银行体系、国际清算银行、美国联邦储备委员会和纽约联邦储备银行等),其他赞助机构(世界银行、经合组织等)和国家统计机构(墨西哥国家统计协会、新西兰统计局、澳大利亚统计局、欧盟各国统计局等)使用SDMX标准发布网站数据。目前,欧盟统计局发布的数据集已全部采用统一的欧盟一级的元数据,欧盟成员国发布的数据集已有85%采用统一的国家元数据。欧洲中央银行围绕SDMX信息模型创建了所有内部数据仓库,并获得了成功。许多其他组织正在使用SDMX来管理其统计数据,创建元数据存储库,以及集成其元数据和数据。SDMX已经在许多统计领域有了实际的应用,包括:人口普查和人口统计、教育、财务和货币指标、经济指标、国民账户、劳工、粮食和农业、渔业、流行病学、运输、数据质量、发展指标等。

目前,SDMX标准已较为成熟,被广泛认可,成为统计数据交换的全球标准。SDMX组织2021年1月发布了“SDMX2025路线图”,规划了未来五年SDMX的发展目标。这些目标包括:加强SDMX的实施、SDMX简化数据使用、通过SDMX来促进统计流程和IT基础架构的现代化、改善与广大社区的交流和互动。SDMX核心资源是SDMX网站,域名为“sdmx.org”,这是官方的SDMX标准网站,其内容包括:SDMX标准、相关手册、实施案例、相关IT工具以及培训等,欧盟统计局也在其官方网站上开辟了SDMX专栏介绍和推广SDMX。SDMX组织每两年召开一次SDMX全球大会和SDMX专家组会议。

三、SDMX标准在我国统计业务中应用展望

元数据技术在联网直报、普查等统计业务中普遍应用,在促进统计数据的标准化和规范化方面起到了积极作用。我国还没有建成在线的元数据库,元数据的覆盖范围和时效性、统一规范度都较为欠缺。现行的统计元数据标准如企业一套表元数据标准,其主要目的是管理和描述项目本身的统计数据生产和管理等业务流程,不同统计调查项目采用的元数据指标、概念并不一致。现有标准尤其缺少更高层次、标准统一的描述统计数据的逻辑模型,和有关如何构建内容指南以及与之相关的标准化IT技术和方法工具。缺少统一标准,没有“共同语言”,统计数据的共享和交换成本巨大成为大数据与政府统计深度融合的“拦路虎”,统计生产流程再造也很难实现,统计数据传播力的提升也难有突破。

从我国统计工作的发展来看,统计数据和元数据的标准化工作是提升统计服务质量的内在需要。SDMX标准于2008年在联合国统计委员会第39届会议上被确定为“全球统计界交换和共享数据和元数据的首选标准”,已经成为国际主流的统计数据和元数据共享和交换的标准。我国在相关领域的研究还较薄弱,参考国际标准、借鉴国际经验可以尽快缩小和国际统计界的差距。

借鉴SDMX标准提升、优化统计业务模式和流程是可行的思路。SDMX的应用绝不是研究一个新标准、开发一套新软件那么简单,更不是一个简单的数据格式问题,它包含着统计数据的治理和统计业务流程再造,是一件涉及面广、影响大的系统工程,应当将SDMX的实施和推广加入我国统计能力建设的长期目标当中。从欧盟统计局的经验来看SDMX的实施可以包括准备阶段、合规阶段、执行阶段和生产阶段。准备阶段是最重要的阶段,该阶段应明确项目的目标、实施时间表、项目计划草案以及人员的角色和责任,并对生产系统、传输文件格式和代码清单进行分析。合规阶段要完成基础工作、系统设计和工作流程安排,这个阶段可能需要大量时间投入,并可能会重新返回到准备阶段。合规阶段还要完成分析数据交换、定义交换数据结构(包括数据和元数据)、应用SDMX内容指南;重用现有代码列表,然后创建DSD和MSD。执行阶段是项目的实施阶段,主要是发现问题、寻求解决方案、采取纠正措施。这一阶段应将SDMX相关成果文件上传到注册中心,比如DSD文件,建立适合SDMX传输的IT基础设施,并进行项目试点审查DSD和测试IT基础设施。生产阶段在生产环境中使用符合SDMX标准的数据进行交换,并对SDMX成果文件进行定期维护。从我国统计业务的实际情况看,选择易与国际接轨的项目,按照以上四个阶段进行SDMX试点是稳妥可行的方案,同时应加强SDMX标准的学习、培训和研究工作,并积极开展相关国际合作。

2020年4月,中共中央、国务院出台了《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据与土地、劳动力、资本、技术并列为五大生产要素。统计部门既是数据的生产者也是数据的消费者,数据是统计业务的核心,统计工作者应该成为数据市场的深度参与者和引领者。如何提升与放大统计数据要素的价值应该成为统计部门未来重点的努力方向。学习和研究SDMX标准,借鉴欧盟统计局等的成功实践,以统计数据共享和提升统计数据传播力为目标,应成为提升我国统计能力建设的重要手段之一。◆

猜你喜欢

词汇表跨域数据结构
基于多标签协同学习的跨域行人重识别
为群众办实事,崂山区打出“跨域通办”组合拳
混合跨域神经网络的草图检索算法
G-SRv6 Policy在跨域端到端组网中的应用
数据结构线上线下混合教学模式探讨
Peritoneal dissemination of pancreatic cancer caused by endoscopic ultrasound-guided fine needle aspiration: A case report and literature review
为什么会有“数据结构”?
高职高专数据结构教学改革探讨
词汇表
词汇表