APP下载

英国政府数据共享与开放的元数据标准建设及启示*

2021-04-29裴心童李剑锋

情报杂志 2021年4期
关键词:词汇表英国标准

翟 军 翟 玮 裴心童 李剑锋

(大连海事大学航运经济与管理学院 大连 116026)

0 引 言

英国拥有欧洲最大的数据市场(Data Market),一直处于世界范围数据创新(Data Innovation)的前沿[1]。据分析,2015-2020年大数据产业为英国带来约2 410亿英镑的收益,占GDP的2%左右,“数据经济”(Data Economy)已逐渐成为英国经济增长的重要引擎和数字经济的主要组成部分[2]。

在发展数字经济的过程中,英国非常重视政府数据的作用,积极推动政府数据的共享、开放与应用[3]。2017年3月,英国政府出台《数字化战略》(Digital Strategy),七大战略任务之一是发展数据经济、释放数据的价值[4-5],包括更好地管理、共享和开放政府数据,促进创造新的数据产品和服务。英国的《政府转型战略(2017-2020)》更是明确,通过开放政府数据、设立首席数据官和建立数据安全体系等措施保障政府数据的深度开发和利用[6-7]。

2020年4月,英国政府成立“数据标准局”(Data Standards Authority, DSA),隶属于政府数字服务局(Government Digital Service,GDS),致力于数据标准的建设,以提升跨部门的数据共享和利用水平及保障数据质量[8]。2020年8月,DSA公布第一批成果——共享和开放数据的元数据系列标准及实施指南,具有开放性和系统性的鲜明特征,代表着国际上元数据标准建设的发展方向[9]。本文通过对该系列标准的系统介绍和分析,提炼出有益的做法和经验,为我国各级政府数据资源的元数据标准建设提供借鉴和参考。

1 英国元数据标准的建设情况

数据和元数据的“标准化”(Standardization)是各国推动政府数据开放共享的普遍做法和最佳实践[9-10]。在元数据的标准和规范上,代表性的成果有美国的DCAT-US(即POD v1.1)、欧盟的DCAT-AP、德国的DCAT-AP.DE、澳大利亚的Data.Gov.AU元数据和英国的CKAN元数据等[11-14]及面向地理领域的英国GEMINI元数据标准等[14-15]。

英国连续五年(2013-2017年)居于万维网基金会的“开放数据晴雨表”(Open Data Barometer,ODB)全球评估的榜首,元数据标准的广泛应用对提升开放数据水平发挥了关键作用[16]。欧盟数据门户网站(European Data Portal)对各国数据目录元数据质量的监测显示,英国国家数据目录在元数据互操作和促进数据再利用等质量维度上的表现较为突出[17]。这次,英国又率先在政府数据共享和开放领域迈出了全面采纳“开放标准”(Open Standards)的步伐。

1.1采纳开放标准2017年底,在“创新英国”(Innovate UK,即英国政府技术战略委员会)的资助下,英国开放数据研究所(Open Data Institute,ODI)联合W3C(World Wide Web Consortium,万维网联盟)启动“数据的开放标准”(Open Standards for Data,OSD)项目(周期2017-2020年),旨在为政府和机构开发、采纳和实施开放标准提供指南和帮助[18]。

ODI将“数据标准”定义为“关于数据的表示、格式、结构、传输、操作、使用和管理等的文档化协议”,而“开放的数据标准”则是以开放、协作和广泛共识的方式开发、批准和维护,任何人都可以免费或低成本访问、使用或共享的标准,能够帮助机构发布、访问、共享和使用质量更好的数据,更能为企业参与政府服务创造公平、高效的竞争环境。ODI认为,数据的开放标准能够有效提高数据的互操作性、可比性、聚合性和连接性,与开放数据运动一起推动数据从封闭、共享和开放发展到广泛应用[19]。ODI建议,数据治理和管理实践中应尽可能使用已有的开放标准,而不是开发新的标准。目前,OSD项目的主要成果包括开放标准的开发方法、选择指南和标准目录等。

在OSD项目成果的基础上,英国内阁办公室领导的“开放标准委员会”(Open Standards Board)制定了“开放标准的选择原则和流程”[20],在开放数据领域已采纳和使用了“开放合同数据标准”和“国际援助透明度倡议数据标准”。

在开放标准委员会的指导下,数据标准局(DSA)确立三项开放标准作为英国政府数据共享和开放的元数据标准(见表1)[21],分别是都柏林核心元数据(Dublin Core Schema,简称DC)、Schema.org 数据集词汇表和W3C CSVW(CSV on the Web)标准。它们主要应用于通用的表格数据(Tabular Data),而在管理地理数据(包括GeoJSON、KML等格式)时,仍然使用原有的GEMINI标准。

表1 英国政府数据共享和开放的元数据标准

1.2政府数据共享的元数据标准为实现高质量的政府数字服务,需要政府机构间的数据共享。DSA选择都柏林核心元数据(DC)描述政府数据的主要原因是:①英国政府网站GOV.UK是数据共享的主要平台,而DC利于Web环境中数据的编目、校验和复用;②DC是其他复杂元数据标准的基础,包括支持开放数据的元数据标准DCAT(Data Catalog Vocabulary)和Schema.org 数据集词汇表,有利于从数据共享到数据开放的平滑转换;③DC元数据模式定义和元数据记录都支持机器可读的格式,如XML Schemas、RDF Schemas、RDF/XML、JSON和RDFa等,符合W3C的最佳实践[10]。

在描述共享的政府数据时,DSA要求提供:①发现元数据,使用的元素有title(名称)、description(简介)和identifier(标识符);②校验元数据,使用的元素有expires(失效日期)、supersededBy(替换者,即dct:isReplacedBy)、temporalCoverage(时间覆盖范围,即dct:temporal)和conformsTo(遵循的标准);③溯源元数据,使用的元素有creator(创建者)、contributor(贡献者)和dateCreated(创建日期);④使用元数据,使用的元素有encodingFormat(编码格式)和license(许可)等。

1.3政府数据开放的元数据标准为提高数据的Web可发现性,DSA选择Schema.org 数据集词汇表描述开放的数据集。

2011年6月,主要的搜索引擎公司Google、Bing、Yahoo!与Yandex联合发起Schema.org行动计划,共同开发和使用单一的“词汇表”(Vocabulary,即本体),为Web的结构化数据标记提供统一的模式定义[22]。从2012年至今,Schema.org词汇表的版本从V0.91升级到V9.0,从最初的297个类、187个属性,发展到626个类、901个属性。从2013年4月的V1.0a开始,Schema.org联合W3C进行Web Schemas/Datasets部分的扩展,到2019年4月的V3.5版本形成了稳定的数据集词汇表,包括DataCatalog(数据目录)、Dataset(数据集)、DataDownload(可下载的数据/文件)和WebAPI(数据接口/服务)四个核心类,见表2。

表2 Schema.org数据集词汇表的核心类

英国政府数字服务局(GDS)历来重视使用Schema.org 词汇表标注政府网站的内容,以提高搜索引擎的搜索效果[23]。例如,GOV.UK已使用Schema.org的SpecialAnnouncement词汇表描述新冠疫情信息,使得在谷歌(Google)搜索中突出显示Covid-19的相关内容。对于数据集的描述,GDS和DSA建议的元数据元素(即词汇表中类的属性)见表3,这也是谷歌“数据集搜索”(Dataset Search)引擎工具所要求的[24]。

表3 Schema.org数据集词汇表的主要属性

1.4 Tabular数据的元数据标准英国开放标准委员会将CSV(Comma-Separated Values,逗号分隔值)文件格式确立为政府Tabular数据(即表格数据)的首选格式。进一步,DSA将W3C CSVW标准确立为描述 Tabular数据内容和结构的元数据标准,以帮助用户更好地理解和使用数据。

W3C于2013年成立CSV工作组(CSV on the Web Working Group),联合英国开放数据研究所(ODI)于2015年12月-2016年2月发布了Web中CSV格式数据的系列标准[25],见表4。

为使得用户的应用程序能够通过读取和分析元数据,自动实现CSV数据的校验、转换、聚合、显示和搜索功能,CSVW标准明确定义了CSV数据的结构和数据类型,并建立描述这种结构的“词汇表”(即元数据模型),含有的词汇诸如csvw:TableGroup、csvw:Table、csvw:Row、csvw:Column、csvw:Cell、csvw:Schema、csvw:Datatype、csvw:format等,形成W3C最佳实践所推荐的“结构型元数据”(Structural Metadata)[10]。在描述CSV对象(如csvw:TableGroup、csvw:Table)的一般属性(如title、keyword等)时,仍使用DC、DCAT或Schema.org元数据。

2 元数据标准的实施指南

伴随着正式采纳“开放标准”及配合《政府转型战略(2017-2020)》的“高效使用数据”的战略目标,英国政府数字服务局(GDS)和数据标准局(DSA)发布了上述元数据标准的实施指南(见表5的前3个),同时更新了一些指南(见表5的后4个)配合这些指南的使用。

指南要求政府机构发布数据的同时要提供完备的元数据。除了面向人的阅读,还应提供机器可读的元数据:元数据可以与数据在同一个文件中,也可以放到单独的文件中,或者嵌入到数据集所在的网页。当数据与元数据不在一起时,要设置从数据到元数据的链接。例如,政府网站GOV.UK和开放数据网站DATA.GOV.UK是数据共享和开放的主要渠道,其中每个数据集的机器可读的元数据记录采用了JSON-LD格式,以脚本的方式嵌入到网页的HTML代码中;数据目录网站ckan.publishing.service.gov.uk/dataset则为每个数据集提供了四种格式的元数据文件,分别是XML、JSON-LD、TTL和N3。

指南对数据集的标识符也给出了明确的规定。在数据共享时,标识符可以是局部的,如“362857580”,而在数据开放时,标识符应是全局的,建议采用URL(Uniform Resource Locator,统一资源定位器)且是HTTP协议可解析的。目前,GOV.UK和DATA.GOV.UK都为每个数据集分配了持久的、静态的URL,可直接定位到数据集所在的网页。

指南还特别强调,在创建、发布和使用元数据时应遵守英国《数据保护法(2018)》(Data Protection Act 2018)和《数据伦理框架》(Data Ethics Framework)对数据安全、个人隐私保护和数据使用的伦理道德的规定。

3 元数据标准的应用

随着开放数据网站和数据集数量的快速增长,谷歌(Google)于2018年9月推出专业搜索引擎“数据集搜索”(测试版),致力于打造全新的国际数据生态系统。该搜索引擎是新一代的智能搜索引擎,只有以Schema.org数据集词汇表标记的网页才能被采集到专门的索引库[24]。2020年1月,其正式版发布,收录了全世界数千个网站中的约2 500万个数据集[26]。

英国数据标准局(DSA)采纳Schema.org 词汇表的主要目的就是提高数据的Web搜索引擎可发现性,促进政府数据的大范围流动,并已取得了良好的效果。例如,当使用谷歌数据集搜索引擎工具搜索“新冠疫情”(COVID-19)的相关数据时,可以找到100多个来自英国的数据集,它们广泛分布在各级政府网站、国家医疗服务体系(National Health Service,NHS)网站和各类开放数据网站中,网页标注的方式主要是JSON-LD和微数据[27],实例见表6。

表6 英国发布的新冠疫情开放数据集实例

图1显示了布里斯托市开放数据网站中一个数据集的元数据实例,标注代码的格式是JSON-LD,使用的Schema.org元数据项有name、description、url、keywords等(见表3)。从元数据记录可见这个数据集含有CSV格式的数据文件,数据集所在的网页也给出了CSV数据的结构元数据,定义了表格的area_name、specimen_date和geo_shape等字段及其数据类型。

面向数据使用者和普通用户,数据集搜索引擎工具大幅度提高了数据搜索的便捷性和准确性。调查显示,截至2019年下半年,42%的欧洲数据门户网站的访问者借助了搜索引擎的引导[28]。在开放数据领域,采纳和使用Schema.org 数据集词汇表等开放标准,能够帮助英国加速形成国际化的数据生态系统(Data Ecosystem,见图2),助力实现《国家数据战略》(National Data Strategy,NDS)确立的“数据的国际流动”的目标[29],在数据驱动的抗击新冠疫情的国际合作上更是发挥着积极作用。

图2 英国开放数据的生态系统

4 对我国的启示

在国家大数据战略的引领下,我国各级政府正在稳步推进数据开放工作。根据复旦大学《中国地方政府数据开放报告》,截至2020年4月底,我国已有130个省级、副省级和地级政府上线了开放数据平台[30]。近两年,上海、浙江、哈尔滨和青岛等省市政府先后出台《公共数据开放管理办法》,确立了“有序开放、安全可控、统一标准”等工作原则[31]。

在元数据标准的建设上,山东、广东和贵州等率先研制和发布了开放数据元数据的地方标准[30],如山东省的《政务信息资源目录 第2部分:核心元数据》(DB37/T 3521.2-2019)、广东省的《电子政务数据资源开放数据技术规范》(DB44/T 2110-2018)和贵州省的《政府数据 开放数据核心元数据》(DB52/T 1407-2019)。2020年4月,国家标准化管理委员会发布了《信息技术 大数据 政务数据开放共享 第1部分:总则》(GB/T 38664.1-2020)、《第2部分:基本要求》(GB/T 38664.2-2020)和《第3部分:开放程度评价》(GB/T 38664.3-2020)三项政府数据开放共享领域的国家标准,于2020年11月1日起实施[32]。

但我国还缺乏国家层面的开放政府数据的统一元数据标准,元数据标准建设滞后于实践需求,也落后于国际先进水平。相应地,我国公共数据开放共享总体上还处于发展阶段,在ODB上的排名仅为第24位[16],实践中还需要积极借鉴国际上的先进经验[33-35]。在此背景下,应重点从以下三方面学习和借鉴英国的做法和经验。

4.1将元数据标准建设提升到数据基础设施的高度在大数据和开放数据时代,英国政府将“数据基础设施”(Data Infrastructure)的重要程度提升到与传统的基础设施(如交通、通信等)相同的高度[36]。ODI认为,数据基础设施不仅包括数据资产本身,还包括如何管理和使用数据的标准和指南及管理和维护这些资产的组织、人员、设施和技术等[19]。在政府数字服务局(GDS)的领导下,英国政府数据标准局(DSA)将在未来3年建立一个以数据标准为核心的“数据基础设施”,以帮助政府部门提供以用户为中心的、跨越组织机构边界的数字服务[37],而政府数据开放共享的元数据标准和指南则是这个数据基础设施的第一个“构造块”。

我国正在推动各类新型基础设施的建设。在“新基建”中,数据中心(如科学数据中心、政府数据中心等)等数据基础设施是投资的重点之一,连续3年保持着30%以上的增长[38]。在数据中心的建设中,应重视数据标准和元数据标准的同步开发和应用,打破“数据孤岛”,实现数据资源之间的连接和互操作,为“新基建”在各个领域的广泛应用提供海量数据的支撑[38]。

4.2重视引进开放标准和融入国际数据生态系统英国历来重视在政府数字服务中使用国际标准和开放标准。2012年6月出台的《开放数据白皮书》将“使用开放标准”确立为开放数据的十四项原则之一[36]。2020年9月9日,英国数字、文化、媒体和体育部(DCMS)颁布《国家数据战略》(National Data Strategy,NDS),将“在安全的前提下支持数据的国际流动”确立为5个战略目标之一[29],保障的措施包括与各国合作开发“共享标准”,这次将DC和Schema.org 数据集词汇表等开放标准采纳为国家层面的元数据标准只是迈出的第一步。

在应对新冠疫情的国际合作中,通过开放数据和开放标准构建开放可信的国际数据生态系统日益得到各国的重视[39]。我国的开放政府数据,特别是新冠疫情数据,也是国际数据生态系统的重要一环。但还存在着一些问题影响着我国在国际合作上的主动权和话语权,如数据标准缺失[40]、元数据与国际标准(Schema.org 和DCAT)不兼容和通过搜索引擎(如百度、微软Bing和谷歌等)难以发现和定位到开放数据集等。

因此,我国在开展大数据和开放数据领域新标准研制工作的同时,应重视引进和鼓励使用国际上成熟的开放标准,同时积极参与数据标准开发和推广使用的国际合作,如W3C的Web数据标准化工作已经吸引了英国、德国、加拿大和澳大利亚等国家的几十家合作机构[41]。

4.3加强元数据治理、提高元数据管理的成熟度水平从2011年至今,英国政府已连续实施四轮“开放政府国家行动计划”(Open Government National Action Plan)[42],数据标准和开放标准建设是贯穿其中的重点内容之一。这次采纳元数据领域的开放标准是英国政府持续开展元数据治理、不断提高元数据管理水平的标志性成果之一。

政府元数据管理的成熟度水平从低到高分为5个级别[43],分别是:①第一级别,没有认识到元数据的重要性,随意使用元数据、数据模型和词汇表等,缺乏文档化的元数据,导致互操作问题;②第二级别,已实现元数据的文档化,但还不是集中管理和结构化的;③第三级别,元数据经过充分的文档化、可被重用,但还不是机器可读的;④第四级别,使用开放且可重用的元数据,元数据集中管理,提供机器可读的文档或API;⑤第五级别,使用语义Web技术(如词汇表/本体、RDF和关联数据等)定义和描述元数据,元数据是关联且开放的。目前,英国、美国、澳大利亚和欧盟的开放数据元数据管理基本处于第四或第五级别[11-14],其中英国的成熟度水平无疑是最高的。

我国各地方政府的元数据还存在着互操作水平低[12]、不是机器可读的和数据质量不高[44]等问题,是政府数据治理的薄弱环节。研究表明,“治理能力”是开放政府数据的关键制约因素[45],我国应构建跨部门的政府数据治理框架[46]。因此,政府部门应通过有效的元数据治理,持续提高管理的成熟度水平和元数据质量,为开放政府数据的可持续健康发展打下坚实的基础。

5 结 语

英国是世界范围开放政府数据运动的领跑者,其数据战略、政策法规、行动计划、平台和标准建设等一直是各国的典范。元数据标准是保障政府数据开放共享的关键基础设施,得到了各国的普遍重视。近年来,英国相继成立开放标准委员会和数据标准局,加大了元数据领域开放标准的采纳、建设和推广力度,为数字经济时代实施新的国家数据战略和构建国际化的数据生态系统提供了有力保障。本文在对该系列标准进行系统介绍和分析的基础上,提炼出了对我国有益的启示。

后续研究将继续关注英国新的数据战略框架下的数据标准建设、数据保护法规、数据伦理框架和数据驱动的人工智能等内容,为我国数字经济和开放数据的政策、法规和标准建设提供更多的建议和参考。

猜你喜欢

词汇表英国标准
2022 年3 月实施的工程建设标准
英国的环保
Peritoneal dissemination of pancreatic cancer caused by endoscopic ultrasound-guided fine needle aspiration: A case report and literature review
欧盟同意英国“脱欧”再次延期申请
忠诚的标准
美还是丑?
英国圣诞节
一家之言:新标准将解决快递业“成长中的烦恼”
英国立法向酗酒“宣战”
词汇表