基于元数据的开放政府数据质量自动评估系统
2022-02-27汪春播温继文
汪春播,王 博,刘 璐,温继文
(1.北京林业大学 经济管理学院,北京 100083;2.IBM 全球咨询服务部,上海 200433;3.中央财经大学 会计学院,北京 100081)
0 引言
数据质量是决定开放数据能否发挥其价值的关键,我国《“十三五”国家信息化规划》提出,加强质量管理,提高数据准确性、可用性、可靠性等要求。建立科学、规范、有效的开放政府数据质量评估体系能够推动政府数据开放,培育发展数据要素市场,让数字经济为我国经济社会高质量发展赋能。开放政府数据具有更新性与时效性,因此需要进行持续的质量评估,自动评估能够适应当前快速增长、内容丰富的开放式资源环境,帮助政府发现开放数据的质量问题。国外政府提倡采用信息技术对“全量”开放政府数据进行“质量自动评估”,如美国“Project Open Data Dashboard”与欧盟“开放数据监测器”,国外学者也较早开展了针对开放政府数据门户自动评估质量的研究;国内则普遍采用网络爬虫技术采集“抽样”数据,围绕构建的评价指标体系进行人工评估,而且评估效率较低,评估结果粒度较粗,无法追溯质量维度。
元数据是开放政府数据质量的关键因素,元数据质量能够提高开放数据的可发现性,决定了开放政府数据的成功与否。因此,建立基于元数据的开放政府数据质量自动评估系统,可以实现自动获取、实时监测和定期评估开放政府数据质量,形成及时、有效的开放政府数据质量反馈机制,提升开放政府数据的价值。
本文综合考虑了开放政府数据生命周期“生成—开放—使用”三个阶段与“形式—内容—效用”三个质量层面构建质量评估框架,并以林业开放政府数据为例,构建了基于元数据的开放政府数据质量自动评估系统,采集开放政府数据平台的全量元数据,综合运用信息技术自动计算质量评估指标,同时引入商务智能技术,提供可视化门户,实现从多维度、细粒度对开放政府数据的质量状况进行定量和客观分析,从而达成定期检测、自动评估开放政府数据质量。
1 开放政府数据质量自动评估系统架构
基于元数据的林业开放政府数据质量评估系统由“输入—分析—输出—后端”四个模块组成,如图1 所示,输入模块用于收集开放政府数据外部数据源,分析模块完成数据整合和质量评估指标计算,输出模块实现质量评估分析的可视化展示,后端模块用于支持系统运行。
图1 开放政府数据质量评估系统架构
1.1 输入模块
开放政府数据质量自动评估系统“输入”模块包含采集器、数据导入与存储三个组件:
(1)“采集器”用于访问在线开放政府数据平台,并获取截至当前时刻的开放政府数据集的全量元数据实例,并将其存档在本地,以便后续对元数据记录进行访问和分析。将采集器和分析平台保持分离可使系统扩展性更高,即使没有存储库也可以使用元数据内容。
(2)“数据导入”用于将“采集器”存档的元数据实例采用标注时间戳的“全量更新”的方式导入系统后端,从而积累存储不同时刻的、各开放政府数据平台的全量元数据实例。
(3)“存储”用于存储“数据导入”的元数据实例,并向“分析”组件提供来自系统存储在数据库的元数据实例,而不是直接来自开放政府数据门户的数据。
1.2 分析模块
分析模块由两类数据处理组件构成:①为每个元数据实例提供质量评估指标的计算结果;②整合质量评估指标计算结果,基于质量评估主题进行不同维度和粒度的分析。在分析模块中采用高效稳定且扩展性好的ETL 工具Kettle 进行数据处理,并配合Python 综合使用。
1.3 输出模块
输出模块与后端模块、分析模块存在交互,用于以各种形式(如数字化、图表)提供质量评估结果和信息。基于分析模块中收集的信息,将分析结果生成可视化视图,便于用户了解质量评估结果。系统输出的可视化工具为Tableau,用户可登录直接获取质量评估仪表板的视图,依据提供的数据源进行交互式分析。
1.4 后端模块
后端模块用于存储相关数据。系统采用MySQL 存储数据,设计三类数据库表(表1):存储开放政府数据平台元数据实例的数据库表(FOGD_MD)、开放政府数据质量评估指标计算数据库表(FOGD_MD_QA)、面向质量评估主题的数据仓库(FOGD_MD_DW),包括用于分析的维度表与事实表。
表1 数据库表设计(部分示例)
2 开放政府数据质量自动评估系统的实现流程
2.1 数据源
通过数据爬取工具或程序,获取开放政府数据平台的元数据实例,使用ETL 工具(Kettle)将数据存入“FOGD_MD”数据库中,完成ETL_FOGD_BASIC 流程,形成开放政府数据质量自动评估的元数据。系统外部数据源主要有三类数据:各平台元数据实例、预先定义的元数据元素映射表、与质量评估指标有关的功能性枚举表。
2.1.1 开放政府数据平台元数据——林业数据
开放政府数据平台的元数据是质量自动评估系统的主要外部数据源。表2 为本文采集的中、美5 个林业开放政府数据平台以及各平台设置的元数据元素。本文于2020 年5 月、8 月、12 月分别采集不同时间节点的数据源内容。
表2 中美林业开放政府数据平台
2.1.2 元数据元素映射表
元数据元素映射表指借鉴元数据相互操作的思想,设置预先定义的元数据元素映射表,以作为后续质量自动评估的重要基础。表3 为元数据映射表的部分截取数据。
表3 开放政府数据平台元数据元素映射表
2.1.3 功能性枚举表
功能性枚举表指辅助系统完成质量自动评估的具有枚举值的功能性数据库表。本文根据质量评估指标,共设有四类功能性枚举表,其中三类为应用欧盟的开放数据监测器OpenDataMonitor 项目对定义的“非专属格式列表”“机器可读格式列表”“许可开放列表”,还以《政务信息资源目录体系第4 部分:政务信息资源分类》为标准,整理出以主题、行业为分类依据的“数据主题分类列表”。
2.2 数据质量评估模型
评估模型区指综合运用数学公式、Python 数据处理相关包、字符串函数及Web 服务控件等方式完成评估林业开放政府数据质量指标的自动计算,并将质量自动评估模型的计算结果存入“FOGD_MD_QA”质量评估指标数据库中,完成ETL_FOGD_QA 流程。
通过对开放政府数据质量评估指标的文献研究与实践回顾,本文从数据的形式、内容、使用效用三个方面出发,其中数据形式质量关注数据的结构和表达形式,数据内容质量关注数据的内容和取值对对象的描述程度,数据使用效用质量关注数据可以为用户带来的价值。另外在数据开放的不同阶段,度量其数据质量的指标并不是一成不变,根据开放政府数据“生成—开放—使用”生命周期的三个阶段,针对不同阶段应采用不同的度量指标。因此,本文采用了横向从“数据形式”“数据内容”“数据使用效用”三个方面,纵向从开放政府数据“生成—开放—使用”三个阶段,综合数据质量评估的全面性和数据生命周期的动态性,构建了一套全面衡量开放政府数据质量评估模型,如图2 所示。表4 总结了基于元数据的开放政府数据质量评估指标,其中使用的函数类型以布尔运算、简单比率形式为主,并提出了加权平均法的加权完整度,其他指标涉及一些复杂的数据处理方式,配合Python 相关数据处理包进行计算。
表4 开放政府数据的质量评估指标及其计算方式
图2 开放政府数据的质量评估框架
各平台依托Kettle 与Python 包两种方式分别进行指标计算,以中国林业共享与开放平台(FOGD_FDB)为例,对Kettle 工具处理流程作具体阐述(图3 为FOGD_FDB 平台依托Kettle 工具完成的质量评估流程,表5 说明了各节点的处理内容),此流程完成了完整性、开放性(数据格式开放、数据机器可读格式)、更新性(存量/增量数据)的计算过程。该流程运行完毕后,使用Python 包完成对全面性、期望符合度(受控值元素、自由文本元素)质量指标的计算。
图3 中国林业共享与开放平台的质量评估过程(Kettle 工具)
表5 中国林业共享与开放平台的质量评估过程(Kettle 工具)说明
2.3 数据质量评估数据仓库
数据仓库区指以质量评估维度为分析主题,运用Kimball 维度建模法构建基于星型模式的林业开放政府数据质量评估数据仓库。本文采用Erwin 工具描绘了图4 所示的星型数据仓库,共设置了11 个质量评估主题事实表,时间维、平台维、元数据维、元数据实例维等基础维度表,依据元数据实例,还设有元数据实例完整维、合规类型维、是否合规维等辅助分析维度。随后系统使用Kettle 工具将林业开放政府数据质量评估指标的计算数据从FOGD_MD_QA 抽取、转化、加载至FOGD_MD_DW 中,完成ETL_FOGD_DW 流程。
图4 林业开放政府数据的FOGD_MD_DW 数据仓库模型图
2.4 质量自动评估可视化
为了充分展示和分析开放政府数据质量评估的结果,系统使用Tableau 提供丰富多样的可视化仪表板。以图5 林业开放政府数据的各类别元数据信息映射数量为例,该仪表板中,颜色的深浅体现元数据元素与元数据框架中的元素映射成功的数值高低。不难看出,现中国林业科学数据中心与美国政府数据开放平台的元数据元素与元数据框架有较好的匹配度,也随即反映了质量评估的存在性指标(简单存在度),突显出各平台在存在性上的优劣。又如图6 所示的林业开放政府数据的开放性仪表板,开放性的度量涉及数据格式开放度、格式机器可读度和许可开放度三个指标,在该仪表板中使用了环形占比图和条形图综合展示,并可以勾选“林业开放政府数据平台”筛选器,在同一个视图页面获取不同平台在各个开放性指标的质量状态。
图5 林业开放政府数据的各类别元数据信息映射数量
图6 林业开放政府数据的开放性仪表板(Data.gov 为例)
通过集成多维度、细粒度、多样式的图表提供给用户各质量评估主题的开放政府数据质量评估仪表板,能够帮助用户与数据质量进行动态、直观的交互,使得评估结果直接且易于理解。
3 结论与展望
3.1 结论
本文针对当前国内开放政府数据质量评估系统研究的不足,提出了基于元数据的开放政府数据质量自动评估系统,并基于林业开放政府数据,对系统进行了原型验证,按照“数据源—质量评估—数据仓库—可视化”四步数据处理流程,说明了各阶段所使用的工具、方法、软件,阐述了获取开放政府数据元数据的外部数据源,借鉴元数据交互操作思想对不同平台的元数据元素进行映射,形成质量评估基础,采用算法完成质量自动评估模型的运算,通过数据集成、清洗和转换,构建开放政府数据质量评估数据仓库,最后采用商务智能技术输出评估结果的可视化效果,帮助用户对比发现开放政府数据的质量、现状和优劣。
本文构建的基于元数据的开放政府数据质量自动评估系统,可以为一般性开放政府数据质量评估提供参考,辅助政府及时发现开放数据的质量问题,改善开放政府数据质量,而且能够科学衡量政府数据开放后的产出和效果,进一步提升开放政府数据的价值。
3.2 展 望
本文提出的基于元数据的开放政府数据质量自动评估系统虽已通过原型验证,但仍存在以下不足,可供未来持续研究,即评估更多的开放政府数据平台。本文仅验证了中、美5 个平台,与国外学者与政府的相关实践研究规模相距甚远,未来可考虑大数据工具来“扩容”更多数量的开放平台,评估元数据内容与数据集本身的准确性。本文通过元数据实例衡量了林业开放政府数据质量,但未考虑数据集本身的准确性,未来可关注研究系统是否能够有效监控实际数据资源内容,以评估元数据的准确性。