基于“互联网+”的图书馆科学数据服务与出版研究

2018-02-22陈莹

图书馆学刊 2018年11期

陈莹

（广州市黄埔区图书馆，广东广州 510000）

1 “互联网+”图书馆与科学数据出版服务

1.1 “互联网+”图书馆

互联网时代的到来影响着传统行业的各项服务，“互联网+”并不仅仅只是行业上简单的叠加，而是互联网与传统行业之间的深度融合，传统行业借助于“互联网+”的数据处理优越性，“互联网+”则借助于传统行业的数据积累，共同构建出具有个性化的科学数据服务[1]。图书馆作为公共服务行业，在与“互联网+”的深度融合过程中，产生全新的公共服务，形成网络经济与实体经济共同发展的行业新模式。与传统图书馆提供的数据服务模式不同，借助互联网平台的平等、开放、互动和去中心化等特点，基于“互联网+”的图书馆将会构建完成资源融合、结构改革和服务创新等重要节点的改变，图书馆不断适应全新的信息化时代数据的爆发，满足各种用户不断发展的新需求[2]。“互联网+”对图书馆公共服务的推动发展主要表现在3个重要方面[3]。

1.1.1 资源融合

不同于传统图书馆仅仅将馆藏资源作为主要资源依赖，基于“互联网+”的图书馆可以实现资源的深度融合与跨界合作。图书馆可以依托互联网将跨学科、跨领域的各项数据进行信息集成，并联合社会各界公共服务部门进行数据库的共享，完成跨界合作。

1.1.2 组织融合

传统图书馆的各个机构之间基本上按部就班，相互之间并无多少交集和联系，然而基于“互联网+”的图书馆则可以促进图书馆内部机构之间构建深层的融合链接，以互联网技术为基础，提升服务质量和员工工作效率。

1.1.3 服务融合

“互联网+”平台可以促进图书馆各种服务的融合。以互联网为基础，通过定制统一的数据标准和数据标识符来集成图书馆的馆藏文献和数据语义集成，用户可以在获取文献的同时获取相关的数据，提升图书馆服务的效率和用户体验。

1.2 科学数据出版

数据出版工作是一种全新形态下的出版方式和服务，主要表现在[4]：数据出版方式与传统的出版方式不同，传统出版方式仅仅将数据文件上传于网络使得数据得以公开访问，但是相应的数据并没有保障服务以及数据相关的信息描述项，不能保证在网络中长期存在并且不被损坏。科学数据出版能够保证除作者以外的其他相关研究者也能够访问、下载和使用数据，保证了学术机构能够从科学研究的角度对研究人员进行科学数据和相关信息的同行评审以及再加工，使数据符合统一的规范与标准，保证数据能够被同行进行引用，提升数据的知名度。此外，数据出版相对于传统出版来说更注重对在网络上公开并共享的数据进行标准化、规范化处理，保障公开数据的质量控制和安全保护，具有开放性的存取模式。

数据出版在传统出版的基础上对科学数据的出版产生了深远的影响[5]：数据出版是一种全新的数据共享机制，在保证学术文献的知识产权基础上能够提升科学数据的引用价值以及科研价值。数据出版为数据在公众视野内被发现、获取和引用提供了便利途径。在数据出版过程中，针对数据出版的同行评审环节能够为数据提供质量保证。数据出版能够保障数据集上传到受信任的数据库中，保障科学数据的安全性。由此可见，数据出版对于图书馆科学数据管理与共享具有良好的作用。

2 “互联网+”背景下的科学数据出版存在的问题

“互联网+”时代海量增长的科学数据需要更具个性化、更高效的数据出版模式，科学数据出版存在的根本性问题有科学数据标识问题、科学数据引用问题和科学数据评审问题等。

2.1 科学数据标识问题

“互联网+”时代背景下，在海量的科学数据面前，对于统一的科学数据标识符的需求应运而生，经过统一标识符标识后的数据具有统一的标准，极大地提升科学数据标识服务的效率。在此背景下，数字对象标识符DOI号、统一资源名称URN号以及开放链接OpenURL等统一数字标识符得到了广泛的发展[6]。在这些统一数字标识符中，DOI号在科学数据出版中得到了广泛的应用。DOI号的设计初衷是为了识别数字环境下各个对象的知识产权而构建的一组唯一的字符串，通过构建出网络文献出版的统一标识来保证出版内容的科学性。通过文献出版过程中的DOI号，读者可以快速获取原文链接完成文献的引用，文献提供者能够较好地完成数据的提供、保障以及知识产权等问题。在国际的统一标识标准中，DOI号由注册代理机构和成员单位进行分配，覆盖了世界各地，通过对各种语言的科学数据出版和文献出版分配唯一标识符号，提升科学数据标识的标准。因此，在“互联网+”的背景下，依托DOI号完成对科学数据的唯一标识，能够极大地提升科学数据出版的标准，提升科学数据访问的便利性。

2.2 科学数据引用问题

在科学数据的出版过程中，科学数据的公开发表和共享离不开数据的引用，针对数据和文献的引用能够极大增加提供者的贡献以及使用者的便利。因此，众多学者针对科学数据的引用问题进行了详细的研究。在科学数据引用问题中，主要包括如何引用，引用什么以及何时进行引用3个主要方面。研究表明，当前国内外对科学数据的引用并没有一致的标准，不同的知识库或者不同类型的论文都具有不同的数据引用格式。当前主流的科学数据引用方式包括哈佛大学构建的定量数据学术引用标准、OECD组织构建的数据集和数据出版标准以及DataCite等机构发布的研究数据引用方案[7]。科学数据引用标准的构建是建立在规范的引用基础之上的，需要被引用的科学数据具有良好的数据规范。所以，当科学数据是建立在DOI号的标准标识基础上时，即可依托DOI号的统一标准，让数据的引用能够实现对数据版本的动态变更，以及数据地址的动态更新，数据受益者无需不断改变引用地址，显著地增加了科学数据引用的便捷性。另外，DOI号还有助于保障作者的知识产权和署名权，提升作者的名誉和知名度。目前，国内外的图书馆数据和情报中心等机构已经开始着手构建标准的科学数据引用方式。对于引用科学数据的作者来说，科学数据的引用是为了说明数据的来源并且保证科学研究在一定的标准范围内，参差不齐的引用方式将会从很大程度上影响科学数据的引用率，减少科学数据的引用量。因此，构建科学的数据引用方式意义重大，能够在规范科学研究的同时提升科学研究的引用量，加快科学研究的发展。

2.3 科学数据评审问题

科学数据评审是针对科学数据出版的质量控制手段，通过对公开的数据、文档和代码进行评估，保证文件是真实有效的，并且容易重复使用。实际上，与学术论文出版过程中的同行评审不同，针对公开科学数据的评审需要更为专业的团队和更为标准的质量控制与评价手段。当前的公开科学数据出版的评审方法还未有统一的评审标准，事实上甚至对于科学数据是否需要评审也存在一定的疑问，学者仍在针对科学数据的评审进行研究和实践。根据科学数据评审的含义，科学数据评审是一个包含有较多内容的复杂活动，包括对数据计算与结果分析的准确性等指标进行双盲评审审查，具有较高的专业性，需要专业团队合作完成。在针对科学数据评审过程中，主要是针对数据的科学性质量、技术性质量和监护性质量3个方面的评审。其中，科学性质量的评审是为了保证科学数据的完整性、真实性、准确性和有效性，一般由专业编辑或同行进行评审，战略意义较大。技术性质量的评审则是针对数据形式和各种与数据相关的技术特点和细节进行评审，以保证数据格式的标准化以及数据对各种平台的兼容性。

3 基于“互联网+”的图书馆科学数据服务与出版新模式

为了解决科学数据在出版过程中存在的数据标识、数据引用和数据评审等问题，笔者在图1中给出了基于“互联网+”的图书馆科学服务与出版新模式。

图1 基于“互联网+”的图书馆科学数据服务与出版新模式

3.1 构建基于主体和客体相结合的科学数据出版新模式

“互联网+”背景下，图书馆需要在传统出版模式基础上，构建基于主体和客体相结合的新型出版模式。其中，基于主体的科学数据出版模式可以分为：独立数据出版、论文附件数据出版和网络公开论文数据出版。总体来看，独立数据通过具有合作关系的数据库完成公开的上传、评审和下载，依托于第三方的特性让其可扩展性较弱。网络公开论文数据出版则是将科学数据作为一种文本文献方式进行出版，通常包含带有专业数据库的期刊论文出版以及综合性的期刊论文出版两种形式。

基于客体的科学数据出版模式也可以分为3种：自上而下模式、横纵联合模式以及自下而上模式。其中，自上而下的模式要求数据出版严格按照政策既定的要求执行，而横纵联合模式能够将数据在区域或部门之间进行多元合作，提供更广泛的数据公开和共享，自下而上的模式依托于非强制性科学数据的公开和共享，一般通过某些数据知识库的存储和管理服务。目前，由于“互联网+”引入了海量的数据，通过大数据分析和数据挖掘方法在主体和客体的科学出版模式上形成了科学、高效的检索，提升了数据出版后的可发现性以及被引用率。

3.2 构建基于数据资源融合的科学数据开发新服务

“互联网+”为图书馆行业带来海量的数据资源需求，针对当前图书馆科学数据的匮乏，构建出基于数据资源融合的科学数据开发新服务，具有重要的意义。图书馆的科学数据开发服务是通过对其自身馆藏中的科学数据与其他机构之间的数据进行统一的收集和整理，针对各个机构之间的数据构建出科学数据共享平台，并通过该平台为用户提供数据开发新服务。科学数据开发服务旨在提升科学数据的利用率，让用户更方便地获取科研数据，提升工作效率，减少用户在获取数据上的无谓消耗。

“互联网+”时代结合嵌入式服务和大数据发展产生的海量半结构化数据和非结构化数据对图书馆的科学数据开发提出了较大的挑战。如何面向混合结构的数据完成有效的数据组织和开发，是当前绝大多数图书馆面临的问题。在“互联网+”背景下构建的科学数据开发新服务不同于传统的图书馆科学数据开发服务，对跨学科和跨领域的科学数据进行深度有机融合，替代了传统的线性叠加。科学数据的深度有机融合主要表现在，一是以互联网为基础的技术融合，通过元数据定义不同学科和领域之间的数据完成语义上的关联；二是以图书馆等公益组织为基础的组织融合，通过各个组织以数据共享的形式完成跨界合作，实现基于数据资源融合的科学数据开发新服务。

3.3 构建基于数据关联技术的科学语义检索新服务

科学数据出版的最重要目的是服务用户，让更多的用户能够享受到图书馆的科学数据出版服务。在科学研究的过程中，由于学科数据检索是科研人员获取资源的重要途径之一，因此针对科学数据的检索服务也逐渐成为了图书馆所要提升的项目之一。在“互联网+”和大数据时代背景下，基于语义分析的科学数据检索是当前图书馆数据检索的重要发展方向。国外很多图书馆都通过各种形式的语义分析完成对科学数据的检索，并将该服务提供给科研工作者，让科研工作者能够更快速、便捷地获取所检索的资源。相反，国内的图书馆在科学数据检索服务方面还存在较多的问题，包括数据资源有限，仅仅只提供以馆藏为主体的数据资源检索，缺乏与其他公益机构之间的数据融合。另外，各专业学科之间的数据检索较为分散，无法完成学科之间的数据关联检索。

“互联网+”环境和数据挖掘为图书馆的科学数据检索服务提供了有效的解决方案。在科学数据检索资源中，图书馆可以与其他科研、商业和公益机构完成跨界合作和数据共享，让图书馆摆脱传统的仅仅依靠自身馆藏数据完成检索的局限。另外，在检索技术方面，图书馆可以构建多维特征融合的数据检索技术，包括构建元数据描述、数字对象标识码等关键技术，让不同学科在科研过程中的文献和数据进行有效的深度链接，实现跨领域间的数据语义检索，提升科学语义检索效率。

3.4 构建基于云存储分布式集群的科学存储新服务

“互联网+”时代下“井喷”的结构化数据、非结构化数据和半结构化数据也为图书馆科学数据的存储服务带来全新的挑战。传统图书馆的科学数据存储服务只需要针对不同学科构建相应的数据仓库，即可为该学科的科学研究提供数据存储服务。科学的数据存储服务能够保证数据长时间的共享和复用，对科学研究具有重要的意义。然而，传统图书馆提供科学数据存储以自建数据库为主，主要为科学研究人员提供存储服务。随着数据密集型科学研究逐渐成形，海量的多结构原始学科数据将会为图书馆的数据存储带来较大的压力。图书馆将会面临大量的昂贵设备维护和安全问题处理的难题，不但会造成大量的资金浪费，还会让科学数据存储服务便捷性更差。

基于“互联网+”和云存储的图书馆科学数据存储形式，可联合图书馆和各大科研、商业和公益机构建设分布式的云存储服务。其优点如下：首先，合作机构的基础云架构能够减轻图书馆数据组织和维护的压力。其次，云存储构建的分布式集群能够深化图书馆与其他机构之间的合作关系，将科学数据服务扩展至更多的非科学研究用户，让科学数据的存储面向更多的受众人群，提升服务范围的同时增加图书馆的口碑，最终形成“互联网+”的普惠服务。第三，各个行业或专业可以针对自己学科领域内的数据进行组织和维护，保障了数据公开和共享的长期有效性。

4 结语

“互联网+”时代背景对图书馆的科学数据服务与出版提出了新的要求，通过构建主体和客体相结合的科学出版模式，开展数据资源融合的科学数据开发服务、数据关联技术的科学语义检索服务以及云存储分布式集群下的科学数据存储服务等，能够形成“互联网+”背景下图书馆科学数据服务与出版新模式。由此，科学数据服务与出版和用户需求更加紧密相连，提升了科学数据服务与出版的便利性和有效性。