APP下载

公共图书馆参与公共数据开放的现状调查与分析
——基于19 个省级政府数据开放平台的研究

2023-09-10

山东图书馆学刊 2023年4期
关键词:公共数据数据格式开放平台

胥 迅 姚 敏

(重庆图书馆,重庆 400037)

近年来,随着数字政府的建设和数据经济的发展,我国从中央到地方政府都在积极推进公共数据资源开放共享建设。 2015 年,国务院印发了《促进大数据发展行动纲要》,提出要大力推动政府部门数据共享,促进公共数据资源开放提升治理能力,在2018 年底前建成国家政府数据统一开放平台。2022 年8 月,中办、国办印发的《“十四五”文化发展规划》,要求“加强规划引导和政策指导,打通各层级公共文化数字平台,打造公共文化数字资源库群,建设国家文化大数据体系”“以国家文化大数据体系建设为抓手,坚持统一设计、长期规划、分步实施,统筹文化资源存量和增量的数字化,以物理分布、逻辑关联、快速链接、高效搜索、全面共享、重点集成为目标聚集文化数字资源”[1]。 作为公共文化体系的重要组成,公共图书馆的数据开放是贯彻落实我国数据开放共享战略的重要环节[2]。

目前学术界对公共图书馆数据开放在发展途径、经验借鉴及角色定位等方面都进行了研究,如刘龙[3]、黄如花[4]等提出我国图书馆参与政府数据开放的发展途径;李斯[5]等从法律、技术两个方面对大英图书馆资源开发,数据开放和数据利用的实践经验进行研究,对我国图书馆数据开放实践提供参考;陶成煦[6]在阐述图书馆参与政府数据开放的驱动力基础上,通过调查分析,明确图书馆在政府数据开放中的角色定位。 目前,我国的数据开放工作已经开始实施,与美国、英国等国家从中央政府到地方政府的发展路径不同,我国的公共数据开放主要实践于地方政府。 本文针对公共图书馆参与公共数据开放的职责和义务,通过梳理各省级公共图书馆在政府数据开放系统中的参与程度,分析公共图书馆在政府数据开放共享建设中存在的问题及主要原因,并提出改善措施,为促进公共图书馆的数据开放及利用提供参考。

1 公共图书馆参与公共数据开放的内驱性

1.1 数据开放是现代公共文化服务体系建设的重要目标

为顺应现代信息时代的发展,党的十八届三中全会提出了构建现代公共文化服务体系的战略构想,2015 年中办、国办发布的《关于加快构建现代公共文化服务体系的意见》中指出要“加强公共文化大数据采集、存储和分析处理”[7],突出了公共文化数据在现代公共文化服务体系建设的重要地位。 同年,国务院发布《促进大数据行动纲要》,正式将政府数据开放纳入国家发展战略中来,并在“未来远景规划目标”中提到要“面向公共数据资源建立科学合理的法规制度与政策体系”[8]。 2022 年10 月,党的二十大报告中提出要“实施国家文化数字化战略,健全现代公共文化服务体系,创新实施文化惠民工程”[9],充分说明了数据开放对于公共文化服务体系建设具有长远发展性。

据笔者不完全统计,党的十八大以来,党中央多次对数据开放及国家文化大数据体系建设工作作出部署,多个部委参与推动落实。 截至2022 年底,国务院及各部委先后颁布多项支持数据开放的政策文件(表1),推进数据开放规划。 公共文化数据作为数据开放体系建设的重要组成,其政策体系更加完备,发展路线更加清晰。

表1 公共服务机构参与政府数据开放的政策文件

1.2 参与数据开放是公共图书馆作为公共机构的重要职责

2015 年国务院发布的《促进大数据发展行动纲要》正式将政府数据开放纳入国家发展战略中来,该纲要指出要“稳步推动公共数据资源开放”“推动建立政府部门和事业单位等公共机构数据资源清单”“制定公共机构数据开放计划,落实数据开放和维护责任,推进公共机构数据资源统一汇聚和集中向社会开放”[10]。 2021 年我国“十四五”规划全文中提出要“扩大基础公共信息数据安全有序开放,探索将公共数据服务纳入公共服务体系”[11]。

公共图书馆作为“事业单位”“公共机构”、公共数据重要的存储者和提供者,在政府数据开放背景下发挥其应有作用,推进我国形成科学的政府数据开放政策体系,具有不可推卸的职责和义务。

1.3 参与数据开放是公共图书馆未来的发展趋势

2016 年,国际图联建议在国家和社区层面提高图书馆工作人员的可持续发展意识,加强图书馆在社会发展中的作用,让图书馆参与国家和区域层面的数据推广,并确保公众能够通过图书馆服务获取有关可持续发展的最新信息。 2021 年12 月,该组织又发布了《开放图书馆数据声明》,提出数据开放和可重复使用有助于让更广泛的参与者参与有关图书馆的讨论,呼吁政府直接负责有关图书馆及其使用的数据的收集和公开发布,或通过支持他人来实现此事,并确保在需要时为此类数据收集提供资金支持[12]。

由此可见,图书馆应该利用数据开放的机会,提供有价值的数据和信息,提高在社会及公众中的影响力,公众也可从公共图书馆中获得更专业更深层次的信息,从而更加巩固公共图书馆与社会服务群体的联系,更好地推动公共图书馆向智慧图书馆转型。

2 公共图书馆参与政府数据开放的基本现状

2.1 调查方式

鉴于目前全国公共数据开放门户网站的建设主体主要为各级地方政府,截至2022 年11 月底,笔者采用网络调查法,访问我国已上线的19 个省级政府数据开放平台,以“图书馆”为检索关键词进行了网络调查,并对检索结果围绕数据开放主体、数据发布数量、数据开放内容、数据开放类型以及数据利用情况这5 个方面的内容进行了收集(表2),为进一步分析图书馆数据开放现状提供依据。

表2 19 个省级政府数据开放平台有关“图书馆”数据开放情况

2.2 基本现状

2.2.1 数据开放主体

数据开放主体即开放数据的发布单位,一般为各级行政机关、履行公共管理和服务职能的事业单位。 《山东省公共数据开放办法》里进一步提出“具有公共服务职能的企业事业单位,人民团体等在依法履行公共管理职责、提供公共服务过程中,收集和产生的各类数据均属于公共数据,应纳入公共数据开放办法管理”[13]。 从而扩大了数据开放的主体规模,拓展了公共数据的适用范围,对保障图书馆开放数据的数量与质量具有重要意义。

开放主体是考量数据发布权威性的重要指标。调查发现,各省级政府数据开放平台图书馆数据发布单位比较单一,公共图书馆特别是省级公共图书馆作为数据开放主体的参与度不足。 例如,笔者对“浙江数据开放网”和“贵州省政府数据开放平台”中共176 个包含图书馆内容的数据集进行分析,它们的发布单位最主要是各市区县文化旅游局,其次是省文化和旅游厅、各级统计局、大数据发展管理局和自然资源规划局等相关行政部门,公共图书馆只有2 家,分别是温州市图书馆和遵义市图书馆。

2.2.2 数据发布数量

数据发布数量可以衡量数据开放的规模,主要通过调查数据集数量、数据量和API 接口数来表现。 如表2 所示,在19 个政府数据开放平台中共有开放数据集721 个,各省级政府数据开放平台上提供的图书馆数据集数量差异较大。 其中,山东省数量最多,为257 个,而海南省、辽宁省和陕西省的数量为0。 近50%的省级平台的图书馆开放数据集的数量在十个及以下,这些平台还应加大数据开放的力度。

2.2.3 数据开放内容

数据开放内容是由数据提供者根据数据目录的编制规范,编制包括数据目录、开放清单、开放属性、开放条件等内容,并进行动态调整,通过统一的数据开放平台向社会公开。 此次调查中,图书馆开放数据的内容基本以图书馆名称、地址、网址等基本服务信息为主,其次是馆藏量、流通人次、借阅人次等统计数据和书名、ISBN、出版社等书目数据,极少数开放了馆藏数据和借阅数据等内部数据,例如遵义市图书馆开放了文献逾期信息。 开放公众需求度高的数据,是图书馆数据开放工作的开放目标。 此外有个别平台上传年度报告等信息,严格意义上讲,这些不能算作开放数据。

2.2.4 数据开放类型

数据开放类型是数据开放标准化的体现,包括数据集文件、API 接口和APP 应用几方面,代表数据的可读性和可获得性,对开放类型的调查主要对数据集下载和API 接口两种方式进行分类统计。调查发现,74%的图书馆数据都是数据集形式,16个平台里有8 个只提供了数据集,未提供API 接口。

不同的数据格式可以适用于不同的应用场景,比如,CSV 格式适合用于数据分析,JSON 格式适合用于Web 开发,XML 格式适合用于数据交换。 为了促进数据的共享和使用,数据开放平台应该提供更多类型的数据格式。 调查发现,上海市、浙江省、山东省提供了XLS、CSV、XML、RDF、JSON 等比较全面的图书馆数据格式,更便于数据分析与开发利用工作;贵州省提供了XLS、JSON 等部分数据格式;天津市、宁夏回族自治区仅提供了XLS 格式,个别省份还存在DOCX、ZIP 等其他格式的文件,如北京市提供的数据集里有“2020 年北京市密云区图书馆决算”等2 个文件是docx 格式,“顺义区图书馆”等5个文件是zip 格式,“数字图书馆和文化馆建设信息”文件是rar 格式;天津市提供的“西青区图书馆信息”文件是doc 格式;此外个别平台提供的数据无法下载,如重庆市提供的数据均没有下载选项。

2.2.5 数据利用情况

数据开放的目的是促进数据有效利用,数据利用情况是评估数据开放平台对公众产生的实际影响的重要途径。 通过对比分析数据开放的预期目标与实际效果,还可确定数据开放平台需要改进的方面。对利用情况的调查主要从图书馆数据浏览量、数据集下载量以及API 接口调用量三方面进行。 如表2所示,可以看出上海市、广东省、山东省和浙江省提供的图书馆数据数量多,下载量高。 这些数据反映了公共图书馆数据的利用价值,值得其他省份学习借鉴。

2.3 主要问题

2.3.1 顶层设计赋能但标准规范缺失

调查发现,我国政府在大数据时代高度重视公共数据开放的顶层设计,并逐步将其提升为“国家战略”。 如表1 所示,党中央、国务院、各部委及各级地方政府都相继出台数据开放相关政策意见,为加快公共数据开放步伐、提高开放数据质量提供了坚实的政策保障。 但由于不同地区、不同部门参照的技术标准和管理规范存在差异,在推进数据开放的政策文件中,公共图书馆数据缺乏统一有效的标准化支撑,同时由于图书馆界对标准规范的实施推广和应用绩效评估等工作不够重视,从而降低了数据的利用价值,使公共图书馆不仅未能发挥自身优势,反而影响了公众对图书馆数据的查询与利用。

2.3.2 开放意识不足且数据质量参差

从数据开发角度,对数据收集、处理、筛选和开发需要投入大量人力财力,但公共图书馆缺乏数据开发专项经费和类似“全国文化信息资源共享工程”的数据开发部门,数据开发的规范化水平有待提升,在标准规范、数据开发到数据开放三个层面尚未形成有机整体。

从数据质量角度,各政府数据开放平台开放的图书馆数据质量差距明显,很多存在标题不规范、数据格式不规范、数据字段少、数据量不足等问题,影响了数据的统筹管理和高效共享。 ①标题不规范。标题要素不全、与正文内容有偏差就不能反映数据集的主要内容,从而影响检索效率。 表现为“种类繁多、名不副实、格式不一”,如北京市、贵州省等省市的很多数据集直接使用“图书馆”“公共图书馆”“图书馆信息”等名称文字作为标题,没有揭示具体的机构名称、数据内容等关键信息。 ②数据格式不规范。 数据开放平台应发布标准格式的数据文件,如XLS、CSV、XML、RDF、JSON 等,以提高开放数据资源的可用性和互操作性,一般不建议发布压缩包、DOC 文件等其他格式的数据文件。 例如,北京市提供的数据集里有DOCX、ZIP 及RAR 格式;天津市提供的数据集有DOC 格式,这些文件格式不属于可机读格式,不利于数据分析与处理,增加了数据开发利用的难度。 此外部分省级数据开放平台的数据格式较为单一,贵州省仅提供了XLS、JSON 数据格式,天津市和宁夏回族自治区仅提供了XLS 数据格式,不便于各类分析处理软件进行数据查找读取和选择,从而影响利用者进行挖掘和研究。 ③数据字段少。例如贵州省“公共图书馆”这一数据集,仅有“名称”“数量”两个属性字段;广东省“2021 年顺德图书馆集群成员馆”仅有“名称”“地址”两个属性字段。 这些数据集的数据字段不够完整,没有充分发挥数据价值。 此外,贵州省“公共图书馆”这一数据集中数据摘要仅为“公共图书馆”,没有揭示数据关键信息,不便于快速获取和检索,造成数据价值密度低。④数据量少。 如天津市开放的“南开区公共图书馆信息”这一数据集仅有一条记录;贵州省提供的“花溪区图书馆日志查询—采编分系统”仅6 条数据,这些数据集的数据量较少,影响数据分析的完整性和准确性。

3 公共图书馆数据开放发展的建议

3.1 健全数据开放相关标准与制度

鉴于我国数据开放的起步晚于欧美国家,为了更快地推动我国数据开放的发展,可借鉴其它国家已有经验,并在此基础上制定适合中国国情的数据开放标准,比如设置推进数据开放的专门机构,完善数据开放的顶层设计,针对各级数据开放平台建立统一的开放数据标准,准确定义数据的概念并明确数据质量的判断标准,同时对开放数据质量进行严格的监管,对分级分类、开放数据内容及数据安全等方面进行规定,避免出现重复数据和质量较低的数据。

目前国家图书馆相继出台了《电子图书元数据规范》《图书馆数字资源长期保存元数据规范》等一系列有关数据开放的行业标准规范,建议各数据开放平台参照相关规范统一元数据、数据集、数据格式和数据接口等内容,可有利于平台的数据格式、质量趋于一致,推进数据开放共享,提高数据利用率。

3.2 数据开放纳入考核评估,推进各方共同参与

图书馆评估定级工作是对各级公共图书馆执行政策法规和标准、开展服务水平与效果的重要监督机制,能够推动公共图书馆事业发展理念创新,带动公共图书馆事业体系不断完善。 调查发现,在2022年度的第七次全国公共图书馆评估定级考核中,尚无考核指标涉及图书馆数据开放。 因此,业界有必要制定图书馆数据开放的考核评估标准,推进评估常态化建设,强化政府监管的主导地位,加强图书馆数据开放业务规范化,在行政管理上形成数据开放落实的相应压力与动力,全面加强图书馆信息化,实现图书馆信息化提升改造,充分发挥评估定级“以评促建、以评促管、以评促用”的作用[14]。

3.3 促进数据互联互通,提升数据使用效能

图书馆数据开放应该在对技术标准、公共数据、服务数据集、应用资源、服务系统和程序代码等内容的整合、互联、协同基础上,加快推进数据互联互通,实现数据开放一体化,提高资源共享水平,满足读者个性化服务需求和支持图书馆服务创新,实现图书馆数据的统一和全方位开放。 例如截至2020 年底我国县级以上公共图书馆的电子图书馆藏书总量近9.61 亿册,如果能让这些数据资源实现开放共享,就能发挥更大的数据应用价值。

鉴于目前我国数据开放一体化程度仍偏低,未能充分满足社会对跨域数据融合利用的需求,建议各地公共图书馆主管部门联手推出有利于促进数据开放区域互联互通的政策文件,整合各区域平台的数据集主题、数据名称等方面内容,实现相互链接,促进跨地区的数据融合利用,提升数据使用效能。

猜你喜欢

公共数据数据格式开放平台
公共数据使用的路径探寻
——访工信部信息通信经济专家委员会委员、中国科协决策咨询首席专家王春晖
制定中国公共数据开发利用法规的建议
论公共数据管控权的规范建构
基于在线开放平台的混合式课堂教学模式构建与实践
公共数据开放许可的规范建构
基于AliGenie语音开放平台的传统家居智联网解决方案
在智能交通系统中PLC数据格式转换方法的研究
搭建开放平台 收获真情实感——谈《品德与生活》教学中开放式教学的实施
云计算开放平台的知识产权问题研究
论子函数在C语言数据格式输出中的应用