利用信息化技术建立统计元数据库系统的研究
2018-10-21邓帅
摘 要:元数据作为一种较为先进的数据管理手段,在国际上已经得到了广泛的应用。随着统计信息化的逐步推进,统计元数据建设也逐步提上日程。本文通过梳理元数据的概念,立足于江西统计工作实际,应用现代的信息化技术,提出了建设本省元数据系统的设想,以更好地服务于江西统计工作。
关键词:元数据;统计信息化;行业标准
中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2018)08-0025-03
Abstract:As a relatively advanced data management method,metadata has been widely used in the world. With the gradual advancement of statistical informatization,the construction of statistical metadata is gradually on the agenda. This article through the concept of combing metadata,based on the actual situation of statistical work in Jiangxi,the application of modern information technology,put forward the idea of building the provinces metadata system,to better serve the statistical work in Jiangxi.
Keywords:metadata;statistical informatization;industry standard
0 引 言
元数据是定义和描述其他数据的数据。依据《国家统计调查元数据标准》(国统办设管字[2016]29号),通过建立统计元数据库系统,使所有的基层数据和宏观数据都能够被正确地描述和存储,避免在数据流转过程中出现信息丢失或转义等错误。这对于增强统计数据的可解释性、准确性和一致性,提高统计工作的标准化水平,以及推进统计信息化具有重要的意义。
1 目前国内外已经建立的元数据规范
(1)DDI(Data Documentation Initiative):针对社会科学领域,较贴近统计,国际住户调查案例较成熟,对统计抽样调查规范具有很好的启示作用;
(2)ISO/IEC 11179:针对社会组织,适合描述微观数据,并跟踪其变动情况;
(3)SDMX(ISO 17369:2013):主要由国际金融机构发起,人民银行发布的行业标准(JR/T 0107.1~7-2014);
(4)GSIM(Generic Statistical Information Model):属于概念模型,适于描述政府统计产品全过程;
(5)GSBPM(The Generic Statistical Business Process Model):用于描述统计业务流程模型;
(6)GILS(Global Information Locator Service):針对政府/组织,适合描述信息资源定位与检索;
(7)Dublin Core:针对数字图书馆,对描述我们的统计文档有借鉴意义;
(8)FGDC、CEN/TC287、ISO/TC211:空间元数据标准的三个组织和规范;
(9)CWM(Common Warehouse Metamodel):用于数据仓库构建和应用的元数据建模;
(10)RDF(Resource Description Framework):使用XML语法和RDF Schema(RDFS),将元数据描述成为数据模型。
2 统计元数据库的设计思路
按照国际标准,元数据大致可分为3种类型:描述性元数据、结构性元数据和管理性元数据。
(1)描述性元数据:用以描述和识别数字对象的特征、分析信息体知识内容的数据;
(2)结构性元数据:用于确保数字化对象正常发挥功能的技术性信息;
(3)管理型元数据:提供有关数字对象的存储条件和转换过程相关的信息。
3 统计元数据库的设计原则
(1)一致性原则。在元数据设计过程中,应保持与现有的国家标准、行业标准或者其他国际标准相一致;
(2)准确性原则。在元数据设计过程中,应尽可能全面细致地描述数字对象,满足统计业务人员的专业需求,避免元数据描述与实际出现歧义;
(3)简单性原则。在满足准确性原则的基础上,设计的元数据在实际应用时应易于掌握,方便理解,这将有助于专业技术人员在编写制度、基层表和汇总表时,更好更快地完成任务;
(4)可扩展性原则。统计业务在不断地发展,统计标准的更新以及指标概念的重新定义将导致原有的元数据在描述上变得不准确,所以在元数据设计过程中,应允许在原来的元数据定义上扩充一些属性值,以满足新的统计标准;
(5)可迁移性原则。建立的统计元数据库,应当可以在不同的统计业务系统中应用,具备一定的可迁移性。
4 统计元数据库的标准技术框架
统计元数据库标准技术框架包括元素定义、核心元素集、描述规范、语法机构和扩展规则。
(1)元素是统计元数据体系中的业务对象,可以小到单位名称,可以是指标,也可以是制度等。元素之间具有关联关系,比如制度包含报表,报表包含指标等。元素定义是对元素进行各种属性的约定。元素的属性具有可扩展性,根据业务需要进行扩展。比如,“单位名称”的属性除了字段类型、长度等外,可以扩展编码属性等;
(2)核心元素集是针对统计业务实际形成的基础的、稳定的和关键的元素集合。比如制度、报表、指标、分组、目录和方法等涉及的元素集合都是统计业务中的核心元素集;
(3)描述规范保证统计元数据体系形式上的统一和规范,通常采用XML或Json等格式进行内容描述,采用DTD、XML Schemas等文件进行规范描述;
(4)语法结构是利用某些技术手段形成的元数据定义和关联关系等的统一、规范、一致的语法结构,保证元数据体系能够适应业务变化的需求,而不会造成混乱。例如:
(5)元数据体系需要建立扩展机制和规则,灵活适应统计业务的变化需求。例如:
(6)技术框架。借鉴国内外现有元数据规范,结合国内统计数据及应用的实际特点制定。针对统计调查对象、基层数据、宏观数据、文档资料和空间数据等信息制定元数据规范。建立调查对象、统计制度、统计报表、统计指标、分组/目录、空间数据等统计要素之间的关联关系,形成统一、规范、可自解释的统计数据资源视图;建立元数据顶层管理规范,包括元数据注册、审批和发布等;开发元数据编辑、管理和发布等软件工具;为统计信息交换、存储、处理、分析和发布等环节奠定坚实的数据基础,统计元数据技术框架如图1所示。
5 统计元数据库的标准体系设计
面对数据资源来源广泛、数据类型复杂、数据标准不一致等问题和挑战,需要设计面向数据资源处理的元数据规范。具体数据资源处理元数据规范涉及制度、报表、指标、目录、分组和方法等内容。下面以制度元数据规范为例,制度元数据定义规范如表1所示。
参考文献:
[1] 胡帆.中国统计元数据的构成及初步诠释 [J].中国统计,2008(11):6-8.
[2] 上海市统计局课题组.建设上海统计元数据研究 [J].统计科学与实践,2014(5):36-38.
[3] 冯甲策.博物馆元数据规范建设与应用 [J].现代信息科技,2017,1(3):17-19.
[4] 朱荣.基于信息组织技术的数字图书馆服务 [J].现代信息科技,2018,2(3):124-125+127.
作者简介:邓帅(1983-),男,汉族,江西南昌人,工程师,学士。研究方向:元数据。