APP下载

高校图书馆和公共图书馆开放数据服务比较研究*
——以北京大学图书馆和上海图书馆为例

2019-05-14钱思晨岑炅莲

图书馆研究与工作 2019年5期
关键词:数据服务馆藏图书馆

钱思晨 岑炅莲 张 宇

(1.广西民族大学管理学院 广西南宁 530006)

(2.华东理工大学科技信息研究所 上海 200237)

1 引言

随着信息技术的发展,大数据已成为图书馆服务模式变革、服务创新、提高服务水平不可或缺的资源,图书馆相关服务也围绕着“数据”开展,提供开放数据服务,以促进数据资源的开发利用。国外图书馆开放数据服务实践起步较早,主要集中于高校图书馆和公共图书馆。2013年11月,德国数字图书馆就利用API接口向公众提供开放数据服务[1];美国高校图书馆面向科研工作提供科学数据服务,包括科学数据的开放共享服务[2];加拿大图书馆则积极参与政府开放数据,提供政府开放数据服务[3]。目前,国内相关研究大多围绕图书馆开展数据服务工作理论探讨层面[4-7],在实践领域北京大学图书馆(以下简称“北大图书馆”)和上海图书馆(以下简称“上图”)起步较早,开放数据服务功能比较完善,在高校图书馆和公共图书馆中具有较为明显的代表性。因此,本文选取北大图书馆和上图进行开放数据服务实践的比较,以期为图书馆开放数据服务实践提供建议。

2 研究设计

本文选取的高校图书馆和公共图书馆案例分别为北大图书馆和上图。北大图书馆于2014年初启动了研究数据管理项目,通过数据管理需求调查、试验平台搭建、技术标准调研、完成平台评估选型,于2015年12月正式上线运行北京大学开放研究数据平台。上图开放数据平台于2016年1月与上图家谱知识服务平台同期上线,此后不断增添盛宣怀档案数据库、名人手稿档案库、人名规范库等数据库,形成了服务于数字人文研究的综合性开放数据服务平台。

本文结合图书馆信息服务构成要素[8],并参考相关研究的分析思路[9-11],选取组织架构、资源建设、服务内容、技术支撑、推广应用5个方面作为北大图书馆和上图开放数据服务的比较维度,涵盖开放数据服务的主体、资源、内容、技术及推广要素。通过对北大图书馆开放研究数据平台和上图开放数据平台进行网络调查,收集5个比较维度的信息,结合相关文献资料,运用比较研究方法对高校图书馆和公共图书馆开放数据服务功能进行分析研究,在归纳总结的基础上对图书馆开放数据服务提出建议。

3 调查与发现

3.1 组织架构

图书馆开放数据服务离不开技术、管理以及数据资源的整合。从实践中看,北大图书馆以项目合作的方式推动开放研究数据平台建设,通过与国家自然科学基金-北京大学管理科学数据中心的战略合作,由管理科学数据中心进行数据资源的收集、清理、规范化和分析以及平台测试及反馈,由北大图书馆在面向北京大学师生数据管理需求调查的基础上,进行平台需求和功能设计、技术平台的搭建以及数据的存储、分类、管理和服务[12]。北大图书馆开放数据服务的组织架构如图1所示。

图1 北京大学图书馆开放数据服务组织架构图

上图开放数据服务组织架构如图2所示,其开放数据平台则由上图独立设计开发,平台所需的技术、管理和数据资源等均由上图提供支持,在具体的建设模式上,与北大图书馆有显著差异。上图开放数据平台是一个综合性平台,平台依托于家谱知识服务平台、盛宣怀档案知识库等多个数据库,各个数据库既相互独立,又统一于开放数据平台上。在平台建设思路上,上图采取分步推进的方式;家谱知识服务平台分为一期和二期工程;历史文献众包平台也分为一期和二期工程[13],多个数据库均是分批、分步建立的。

图2 上海图书馆开放数据服务组织架构图

3.2 资源建设

3.2.1 资源建设方式

北大图书馆开放数据服务资源主要来源于北大管理科学数据中心,同时北大图书馆也与北大中国调查数据资料库、中国家庭追踪调查(CFPS)、中国健康与养老追踪调查(CHARLS)、北京大学中国国情研究中心、北京大学健康老龄与发展研究中心等十多个项目或机构合作,采取资源共建共享的方式进行开放数据资源建设。除此之外,数据还可由学者提交和共享,主要采取两种提交方式,一是学者自行提交和发布;二是学者提供原始数据或记录,由平台提供“数据监护”服务,并且学者在数据发布后还可通过平台查看数据使用情况。

上图开放数据平台数据资源来自于其馆藏资源数字化,资源建设主要采取自建方式,由图书馆或外包机构对馆藏资源进行数字化,并对数字化的馆藏资源进行元数据编目,通过数据收集、清洗、加工、转换等步骤,将馆藏资源内容转化成规范化、结构化的数据[14]。在上图举办的开放数据应用开发竞赛中,上图也联合CADAL项目管理中心、哈佛大学计量社会学系和复旦大学图书馆等机构向参赛者提供了丰富的开放数据资源[15],但其平台上开放的数据仍是上图馆藏资源。

3.2.2 资源类型和格式

资源类型与格式是影响开放数据资源利用的重要因素之一。北大开放研究数据平台所开放的数据资源是狭义的数据资源,即数字符号以及数字符号的知识背景信息。而上图所开放的数据资源则是广义的数据资源,既包括数字符号及其知识背景信息,也包括数字化图片、文字、影像资源等。这与两者数据资源来源途径有紧密联系,北大图书馆数据资源主要来自于调查和科研中产生的数据,而上图数据资源则主要来自于其馆藏文献资源数字化。

在资源格式方面,北大图书馆开放数据资源格式为常见的pdf、docx、xlsx、tab等格式,以文件的形式提供数据资源检索和下载。上图开放数据如《中国家谱总目》的数据保存于Excel列表中,馆藏的家谱数据采取MARC格式存储于SQL Server数据库中[16],在开放利用过程中则是基于已有的馆藏元数据生成RDF格式数据,以保证开放数据资源可以顺利地开发利用。

3.3 服务内容

在开放数据服务内容比较方面,本文参考相关研究[9,17],从管理服务、检索服务、获取服务、分析服务、开发服务、咨询服务6个方面进行比较。管理服务即平台对开放数据资源提供定期维护管理,并且对用户共享的数据提供相关存储和管理服务。检索服务即平台提供开放数据资源进行整合和关联,提供快速、便捷的检索服务。获取服务即平台提供多种开放数据资源获取的方式和途径,以保证用户开放数据资源的有效获取。分析服务即利用计算机技术和可视化技术,提供开放数据的统计分析和可视化分析服务。开发服务即提供开放数据开发流程指南或手册,并提供相关开发工具服务。咨询服务即平台开辟专门的咨询和交流社区,方便平台与用户的沟通交流。通过网络调查,对北大图书馆和上图开放数据服务内容进行比较(见表1)。

表1 北京大学图书馆与上海图书馆开放数据服务内容比较

北大图书馆提供数据提交和发布服务,并且对用户提交的数据进行组织、管理和维护,以保证数据的可持续利用。上图则没有用户数据提交和发布服务,更没有用户数据管理服务。在检索服务方面,上图所涉及的数据资源库众多,并且这些资源库存储的对象差异很大,因而无法提供统一的集成式检索服务。北大图书馆的检索服务则类似于普通的信息检索,并未对其中的数据进行关联,因而检索结果关联性不大。在资源获取方面,北大图书馆面向科研工作者提供数据资源的直接下载服务,上图则不能直接下载,只可采取网页浏览和接口调用的方式进行开发利用。同样因两所图书馆开放数据对象的不同,在分析服务方面也存在较大差异:北大图书馆提供统计分析等在线可视化分析服务功能,上图提供的是知识图谱可视化服务。在开发服务方面,上图提供开发工具、API接口以实现开放数据的增值性开发利用,北大图书馆则无此服务。在咨询服务方面,北大图书馆提供了邮件咨询方式,上图网页上则没有相关咨询服务功能。

3.4 技术支撑

北大开放研究数据平台以哈佛大学开源平台Dataverse为基础进行开发,该平台最初是哈佛大学定量社会科学研究所数据科学团队研发的研究数据管理系统,主要面向学者、研究机构、期刊杂志、学会等提供研究数据的管理、发布和访问服务[12],其主要功能包括数据管理、用户管理、权限管理、检索服务、API接口、在线分析、持久标识符注册管理等[18]。从技术支撑来看,北大开放研究数据平台更像是面向科研人员的机构知识库,并没有突出大数据环境下开放数据开发利用的特征。

上图开放数据平台采用Open Link Software公司的开源系统Virtuoso来存储RDF数据,同时利用关系数据库来存储系统的流程控制、业务逻辑、用户访问数据。在开发方面,采用语义万维网的相关技术,如RDF数据查询语言SPARQL和Jena开发框架,实现对RDF数据的查询和增删改操作[19]。上图所采用的Virtuoso系统是一款语义仓储,该系统用本体作为语义模式,并且可以对这些数据进行推理,其数据模式更加灵活和通用,这使其能够快速地解释和适应新的本体和元数据模式[20]。

从两所图书馆开放数据平台采用的系统差异可以发现,上图在开放数据服务方面侧重于数据内容的展现、开发和利用,通过支持仓储的数据库来实现开放数据内容的知识表达。而北大图书馆则侧重于数据本身的管理,因而其采用的Dataverse系统支持数据管理、用户管理、权限管理等多种功能,通过这些功能可以保证数据的完整性、原始性和规范性,从某种方面而言,这也体现出科研学术的严肃性。

3.5 推广应用

开放数据服务价值的实现离不开推广应用,北大图书馆和上图均通过“以赛促用”的方式进行开放数据平台和服务的宣传推广。两馆近三年举办的开放数据比赛活动如表2所示。早在2016年4月,上图就开展了开放数据应用开发竞赛,这是我国首个家谱开放数据应用开发竞赛。竞赛活动迄今已举办三届,主要通过开发上图馆藏家谱知识库数据形成移动应用产品,在比赛过程中,上图还为参赛团队开展馆藏数据接口方面的解读及培训,最终的参赛作品还通过网络媒体、分享会等形式进行展示和交流[21-22]。北大图书馆在2017年11月联合北京大学信息管理系、南海大数据应用研究院等单位共同举办首届全国高校数据驱动创新研究大赛,参赛对象为全国高校本科、硕士、博士在读学生,并且要求参赛者必须基于数据进行研究,数据可以是北大图书馆开放数据平台上的数据,也可以是自己调查收集的数据,在提交研究论文的同时,也必须提供所使用研究数据。在比赛过程中,北大图书馆也通过网络直播的方式开展数据挖掘与分析方面的培训,参赛作品为研究论文,并在赛后推荐发表或转写为数据新闻等[23]。

表2 北京大学图书馆与上海图书馆开放数据比赛活动一览表

开放数据应用开发比赛极大地提高了图书馆开放数据服务的影响力,也促进了图书馆开放数据的利用程度。相对于北大图书馆的比赛,上图的比赛覆盖面更广、社会性更高、开发利用程度也更深,而北大图书馆的数据驱动创新研究大赛也在全国引起了关注,同时各参赛者提交的研究数据也提高了平台的数据增量。

4 总结及建议

通过比较分析发现,作为国内领先的图书馆开放数据服务提供单位,北大图书馆和上图在开放数据服务方面存在显著差异。以北大图书馆为典型的高校图书馆侧重于研究数据的存储和管理,以上图为典型的公共图书馆则侧重于开放数据的开发利用。而造成这些差异的因素主要包括图书馆类型、服务对象和服务目标等。

高校图书馆面向本校师生提供学科服务,因而北大图书馆开放数据服务主要围绕数据存储和管理开展,以便更好地服务学科建设和科学研究。而公共图书馆是一个地区的文化、信息服务中心,引导着大众阅读的方向和品位[24],其服务对象面向社会大众。因此,公共图书馆不仅仅是一个图书馆,还是一个文化象征。上图开放数据服务围绕着数字人文项目开展,是人文社科研究在大数据时代的深化和发展,也是对文化传播方式的创新。此外,两馆在数据资源配置方面也存在差异,这种差异除了高校图书馆和公共图书馆功能定位的不同之外,还有国家资金投入、时空差异等影响因素。

虽然高校图书馆和公共图书馆在开放数据服务上存在一定差异性,但两者在开放数据服务功能方面都存在不足,都有可以相互借鉴学习之处。总结而言,图书馆可从需求、资源、机构和服务四方面不断优化开放数据服务。

4.1 明确用户需求,以用户需求为服务导向

北大图书馆在开放数据平台建设中,充分调查和分析本校师生的数据服务需求,在明确用户需求的基础上构建了开放数据平台,这对开放数据资源建设、服务设计等都具有重要的指导作用。因此图书馆在提供开放数据服务时,可以借鉴北大图书馆的经验,首先应充分分析用户的开放数据需求,通过问卷、访谈等形式进行用户需求调查,结合本馆的实际情况,以用户需求为服务导向进行开放数据服务,公共图书馆在用户需求调查时还应注意服务对象的广泛性和社会性,真正彰显公共图书馆的公共性、文化性特征和以人为本的服务理念。

4.2 完善基础设施,促进数据资源集成共享

大数据时代,数据资源的整合集成是数据实现价值的前提,而相关的基础设施则是数据资源集成共享、开放利用的基础,这些基础设施包括数据库系统、数据共享系统、数据开放平台等。上图在系统平台建设过程中,分批、分步建设馆藏数据库系统、数据开放平台,不断完善系统平台的各项功能和服务,除此之外,还构建了基于历史人物的本体,实现了数据资源的规范化、格式化。因此,图书馆可借鉴上图的经验,完善数据开放平台的基础设施建设,将馆藏数据资源整合集成,避免数据资源的分散,并且设计构建符合本馆实际情况的元数据标准,促进馆藏数据资源的集成共享,以充分满足用户的需求,促进数据资源的增值性开发。

4.3 加强机构合作,提高开放数据服务能力

图书馆开放数据服务离不开技术、资金和管理的投入,仅仅依靠图书馆一家单位提供开放数据服务难免力不从心。北大图书馆在开放数据服务中与多个机构进行了战略合作,这些机构主要为科研机构;在开放数据创新大赛中,北大图书馆又与科研机构、高等院校、企业单位等机构合作,优化了技术、资金、数据等资源的配置,大大提高了图书馆开放数据的服务能力。这为公共图书馆提供了很好的参考经验,公共图书馆不仅可以进行图书馆馆际合作,在数据资源方面可以与档案馆、博物馆等文博机构合作,在技术方面还可以与高等院校合作,整合共享图书馆档案馆博物馆的数据资源、高等院校的技术资源,提高图书馆开放数据服务能力。

4.4 整合服务功能,构建开放数据服务体系

开放数据服务并非单纯将数据资源开放共享即可,而是涉及整个数据生命周期活动,因此北大图书馆、上图在开放数据服务实践中,除了提供数据开放服务,还提供相应配套的开发工具、分析工具培训,并通过比赛活动进行开放数据的宣传推广和应用开发,扩大了图书馆在大数据时代的影响力,同时也提高了图书馆数据资源的开发利用程度。因此,图书馆开展开放数据服务,在以用户需求为导向的前提下,应整合服务功能,开展多层次的服务,为数据的开放共享、分析处理、开发应用等各个环节提供必要的服务支持,构建以实现数据价值为目标、满足用户需求为导向的开放数据服务体系。

猜你喜欢

数据服务馆藏图书馆
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
基于数据中台的数据服务建设规范研究
馆藏几件残损《佚目》书画琐记
云南省档案馆馆藏《东巴经》
博物馆的生存之道:馆藏能否变卖?
图书馆
数据服务依赖图模型及自动组合方法研究
介绍两件馆藏青铜器
去图书馆