APP下载

数据密集型科研环境下二次文献服务发展与思考

2016-08-04姚啸华

图书馆研究 2016年3期
关键词:密集型文献科学

姚啸华

(上海图书馆上海科学技术情报研究所,上海 200031)

数据密集型科研环境下二次文献服务发展与思考

姚啸华

(上海图书馆上海科学技术情报研究所,上海 200031)

概述分析了数据密集型科研环境的主要特征以及在该环境下二次文献服务所面临的新挑战。根据科学数据全生命周期的数据管护理论,认为二次文献服务应聚焦公开域和再利用环节的科学数据,制定相应的元数据标准,建立有力的技术和人员支撑体系,积极推进与外部的协同发展,来提升自身服务水平。

科学数据;数据密集型科研;数据管护;二次文献

1引言

自2007年基于数据密集型计算的科学研究第四范式提出后[1],随着数字化科研(e-Science)[2]理念和计算机网络技术的不断发展,人们对科学数据的认识日益深入,形成了数据密集型的科研环境,科学数据的组织、揭示和再利用等问题成为人们关注的焦点。二次文献作为传统的知识组织和文献检索工具,如何在新环境下应对新的挑战,提升其服务水平,值得业界研究探讨。笔者通过概述分析数据密集型科研环境的特征,结合二次文献自身特点,根据全生命周期的数据管护(Data Curation)理论,深入探讨了以科学数据为核心的二次文献服务定位、支撑体系构建和协同发展等问题,以期为二次文献服务的进一步发展提供有益参考。

2数据密集型科研环境概述

从数据类型来看,科学数据大体上可分为数值型和事实型两大类,一般是指在科学研究过程中,通过实验、观测、调查等各种方式所获取到的反映客观世界的本质、特征、变化规律等的基本数据,以及根据不同科研需要,用于支撑科研活动,进行系统加工整理的各类数据集合[3-5]。科学数据贯穿科学研究始终,它包括基本的原始数据,也包括中间的过程数据、失败数据[6]或是最终的有效数据;也包括公开出版的数据和非公开的灰色数据[7]。

随着科学研究的深入,科学数据呈指数级增长,计算机网络技术的成熟,数字化科研环境的形成,科学数据的重要性日益凸显,已成为科学研究的核心资源,促使人们对科学数据的认识产生深刻的变革。2007年,计算机学家吉姆·格雷(Jim Gray)提出了科学研究的第四范式。科学研究第四范式是将科学数据作为科学研究的起点,通过内容分析和数据挖掘探索发现新规律、新观点和新知识,是理论、实验和模拟一体化的数据密集计算的科研范式[8-9],是对前三个科研范式(实验科学、理论科学和模拟科学)的继承和发展。

数据密集型科研最为主要的特征体现在:(1)数据驱动科研。科学研究将越来越依赖科学数据,特别当数据量达到“大数据”级别时,原有的科研流程将被颠覆,不再局限于传统的先依据前人文献或理论提出新假设,再通过实验观察、理论推导或仿真模拟等方法来对假设加以验证,而是从海量科学数据入手,直接从中发现新规律、新观点和新知识,科学数据成为科研活动的起点和驱动力。(2)重视相关关系。针对海量数据的分析挖掘,更加注重发现数据之间的相关关系,特别是能够发现现实中原本不相关领域数据之间的相关关系。如著名的沃尔玛集团发现了关于超市尿布与啤酒销售量的正相关关系。这样的规律在原有的科研范式下得到是很难想象的,因为原有的科研范式更注重严密逻辑检验下的因果关系。数据密集型科研为我们分析解释客观世界提供了一个全新的视角。(3)强调数据再利用。科学数据的复用或再利用,一方面可以保证科研结果的可靠性和真实性,可以更快地检验和识别出错误或弄虚作假的科研结果[10];另一方面也可以促进新知识的发现。不同科研工作者即使面对同样的科学数据时,由于关注点和方法的不同,很有可能会有不同的发现,特别是在学科交叉的领域。

综上所述,科学数据对科研活动愈发重要,然而科学数据也呈现海量无序的特点,对科学数据进行有效的组织管理将成为数据密集型科研环境下的重要课题。二次文献作为传统的知识组织管理的重要工具,如何围绕科学数据开展服务,将是在数据密集型科研环境中面临的新课题。

3数据密集型科研环境下二次文献服务的挑战

二次文献是对一次文献进行加工、提炼和压缩之后所形成的一种工具性文献形式[11]。通常是根据一次文献的作者姓名、学科分类、内容主题等内容特征或外部特征进行标引,并按照一定顺序组织起来的,由于它能比较全面、集中、系统地报道或揭示在一定时空范围内,某一学科、专业或领域的文献情况,并提供查询检索和利用一次文献的有效手段,一直以来是科研工作者常用的检索和数据查询工具。根据原始文献的内容和对原始文献揭示程度的不同,二次文献可分为题录、文摘、索引等,如美国的《化学文摘》《工程索引》,我国的《全国报刊索引》《新华文摘》都是著名的二次文献。随着文献资源数字化,计算机网络技术的发展,二次文献也在不断转型,目前大部分二次文献服务提供者都构建了相应的服务平台,以数据库的形式提供网络版或光盘版的服务。然而,在目前的数据密集型科研环境下,新的变化又将会对二次文献服务形成新的挑战,主要表现在:(1)服务内容的挑战。目前二次文献对一次文献的内容和外部特征进行揭示组织工作还是主要以期刊的每一篇文章为核心,而没有深入一次文献,基本忽略对嵌入文献中的科学数据进行描述和组织。这就很难满足用户对科学数据查询、检索、再利用的需求。所以如何顺应科学数据日益重要的地位,满足用户的新需求,对科学数据加以有效组织、揭示、挖掘,并将原始一次文献同科研数据关联起来,使现有的服务内容得以扩充与创新,成为当下二次文献服务发展的重要挑战。(2)数据处理的挑战。数据处理的质量是决定后期服务内容是否能够实现的重要保障。随着科学数据快速的增长,充斥着异型异构的数据。数据处理的关键就是如何对这些海量的、无序的、非结构化的科学数据加以组织整序,二次文献传统的针对期刊文献的数据处理方式将受到考验和挑战,涉及诸如相关元数据标准的制定、数据处理相关技术的应用、整个数据加工制作的流程再造以及相关人力资源的培养等问题。(3)外部竞争与合作的挑战。在全文数据库诞生之后,二次文献就面临着外部巨大的竞争压力,在数据密集型科研环境下竞争必将日趋激烈。同时在数据密集型科研环境下,公开出版的科学数据数量毕竟有限,如何摆脱仅依赖公开出版的一次文献和数据,如何与相关机构及各类用户建立协同发展关系以弥补自身不足也是二次文献服务面临的新挑战。

4数据密集型科研环境下二次文献服务发展的思考

在数据密集型科研环境下,二次文献服务面临新的严峻挑战。笔者从二次文献服务的定位、支撑体系和协同发展三个方面提出建设性的思考。

4.1二次文献服务的定位

在数据密集型科研环境下,二次文献服务首先必须将核心从期刊文献转向科学数据,并明确自身定位。目前人们对科学数据管理的认识已经深入到数据管护的层面,它强调的是对科学数据整个生命周期的、可增值的、主动的管理过程[12]。关于数据管护的思想,近年来在各国得到积极推进,如英国数字管护中心 (Digital Curation Centre,DCC)[13]的成立、澳大利亚国家数据服务 (Australian National Data Service,ANDS)[14]和美国的DataOne[15-16]等项目的开展,这些数据管护实践为二次文献在整个科学数据管护流程中寻找定位提供了借鉴。一般认为科学数据在科研活动中的全生命周期主要是一个由产生、共享、加工、发布、再利用等环节构成的循环过程(如图1)。在空间上,ANDS项目基于学术交流生命提出了数据管理统一连续体[17-18]的概念,认为科学数据有一个在私有域、共享域和公开域之间迁移的过程(如图2)。

图1科研活动中科学数据的生命周期 

图2科研活动中科学数据空间迁移过程

从科学数据和二次文献自身特点来看,二次文献服务切入点和定位应该瞄准公开域科学数据的再利用环节。一方面,公开域中的科学数据依然呈现海量、非结构化、无序等特征,无法直接再利用,有必要通过二次文献这样的工具对其进行组织、揭示和挖掘。另一方面,部分科学数据在公开域是嵌入到公开出版的期刊文章等一次文献中,期刊文章等一次文献长期以来是二次文献服务的主要数据来源和数据加工对象,相关技术相对成熟。从期刊文章等一次文献中收集科学数据,再进行加工组织相对便捷,同时也为进一步深度挖掘科学数据与期刊文章等一次文献之间的关联打下一定基础。综上所述,将二次文献服务嵌入科学数据生命周期与迁移过程(如图3),有助于二次文献更好地参与到科学数据的管护,也有助于科学数据被科研工作者更好地利用。

图3  二次文献服务嵌入的科学数据生命周期与迁移过程

4.2二次文献服务的支撑体系

为了适应数据密集型科研环境,实现二次文献的服务定位和功能,有必要建立相应的支撑体系,笔者主要探讨元数据标准、相关技术和人力资源等三个方面。

4.2.1元数据标准支撑

元数据被称为“关于数据的数据”,是二次文献组织、揭示、挖掘科学数据的重要基础。国内外关于元数据标准有很多成果可以供二次文献工具借鉴,如在各类型数据组织中有广泛应用的都柏林核心元数据标准(Dublin Core)、针对综合类科学数据的DataCite[19]元数据标准、还有专门针对某领域科学数据的生态元数据语言(Ecological Metadata Language,EML)等。国内近年也制定了相关的元数据标准,如中科院核心元数据标准、地球系统科学元数据、气象数据集核心元数据等。笔者认为,在借鉴这些元数据标准经验时,不应盲目生搬硬套,应在突出科学数据特征属性的基础上,结合用户需求和自身服务特色,注意与原先二次文献所针对的期刊文章等一次文献的元数据结构相关联,并充分考虑不同标准的元数据之间的互操作问题,这有利于今后进一步开展科学数据的深度挖掘和共享共建等工作。

4.2.2相关技术支撑

在数据密集型科研环境下,为了使二次文献平台能够实现科学数据的有效组织揭示,提升服务质量,有必要应用前沿的相关技术作为支撑。

(1)关联数据技术。关联数据技术一般是指以URI作为数据标识,以资源描述框架(RDF)的三元组结构作为数据模型,并基于HTTP发布到互联网上的数据应用形式和技术,是语义网的一种简化实现形式[20]。它有助于将科学数据相互关联起来,以及进一步将科学数据与期刊文章等一次文献关联起来,使科学数据实现更大的价值增值。

(2)数据挖掘技术。数据挖掘技术一般是指通过机器学习、关联分析、聚类分析等方法,从海量数据中发现隐含规律和知识的技术。数据挖掘技术的应用体现了对科学数据的主动管理理念,也是帮助二次文献有效组织揭示科学数据,使其增值再利用的重要技术支撑。

除上述的前沿技术外,可视化技术、自动标引技术、云计算技术等的应用也有助于二次文献工具提升服务质量,优化数据加工流程,提高加工效率。

4.2.3人力资源支撑

人力资源尤其是人员的数据素养是二次文献服务发展的重要保障。国内外的科学数据管护实践中都十分强调人员数据素养的培养,如美国就有专门的科学数据素养计划(Science Data Literacy Project)等培养项目[21]。在数据密集型科研环境下,应着力培养二次文献工作人员的科学数据意识,转变固有思维,将科学数据作为核心的服务资源,还应培养人员掌握数据处理的基本知识和技能,以及相关的数据政策、标准等专业知识,使相关人员不断提升自身的科学数据素养,提高发现数据、理解数据和处理数据的能力。

4.3二次文献服务的协同发展

笔者认为为了弥补二次文献的自身短板,应积极与外部谋求合作。

(1)与全文数据库的合作。当下全文数据库提供的全文服务受到用户广泛欢迎,但目前全文数据库之间的竞争导致单个库全文服务仍有收录不全等问题。二次文献平台应在突出自身收录特色的同时,与相关全文数据库,以相互链接等形式积极合作,形成优势互补、合作双赢的局面。

(2)与机构知识库的合作。二次文献主要以揭示公开出版的科学数据为主,但是有大量高价值的科学数据存在于以各类机构知识库为代表的共享域中,二次文献服务提供者应积极与这些机构知识库合作,使关于科学数据的二次文献服务可以向数据流的上游延伸,实现更大范围的科学数据共享。

(3)与用户的合作。用户既是科学数据的使用者也是生产者之一,二次文献服务提供者一方面应积极了解用户对科学数据的需求,另一方面可以利用众包等创新方式,让用户参与到科学数据的组织维护的工作中,提升二次文献工具的数据质量和服务体验。

5结束语

二次文献工具有着辉煌的历史,在我国可以追溯到汉代的《七略》和《别录》[22],而在现代《全国报刊索引》也有60年的服务历史。二次文献服务能够长期保持生命力是由于它能提供优质的文献服务,很好地辅助用户开展科学研究工作。面对数据密集型科研环境下的全新挑战,二次文献服务提供者必须充分认识新环境、新技术,调整自我定位,提高自身数据组织加工的能力,加强多方合作共建共享,使二次文献服务的水平不断提升,满足用户新的需求,为科学文献和数据的有效利用做出更多贡献。本文主要从宏观的视角进行了较为全面的分析论述,然而其中还有很多细致具体的问题有待进一步探讨,需要同行在以后的实践过程中不断总结,持续关注和深入研究。

[1]HEY T,TANSLEY S,TOLLE K.第四范式:数据密集型科学发现[M].潘教峰,张晓林,译.北京:科学出版社,2012.

[2]孙坦.数字化科研——e-Science研究[M].北京:电子工业出版社,2009.

[3]张晓林.颠覆数字图书馆的大趋势[J].中国图书馆学报,2011(5):4-12.

[4]肖潇,吕俊生.E-science环境下国外图书馆科学数据服务研究进展[J].图书情报工作,2012(17):53-58,114.

[5]赵华,王健.国内外科学数据元数据标准及内容分析[J].情报探索,2015(2):21-24,30.

[6]袁曦临.E-science环境下学术规范的新领域:科学数据[J].甘肃社会科学,2014(3):85-88.

[7]王学勤,STOUT A,SILVER H.建立数据驱动的e-Science图书馆服务:机遇和挑战[J].图书情报工作,2011(13):80-83.

[8]陈明.数据密集型科研第四范式[J].计算机教育,2013(9):103-106.

[9]王翠萍,李柏炀.面向数据密集型科学的数据引证分析研究[J].情报资料工作,2015(3):10-14.

[10]邓仲华,王鹏,李立睿.面向数据密集型科学研究的数据资源云平台构建[J].图书馆学研究,2015(10):42-47.

[11]梁占平.中国情报学百科全书[M].北京:中国大百科全书出版社,2010.

[12]王芳,慎金花.国外数据管护(Data Curation)研究与实践进展[J].中国图书馆学报,2014(4):116-128.

[13]History of the DCC[EB/OL].[2016-01-24].http://www.dcc.ac.uk/about-us/history-dcc/history-dcc.

[14]About ANDS[EB/OL].[2016-01-24].http://www.ands.org.au/about-ands.html.

[15]What is DataONE[EB/OL].[2016-01-24].https://www.dataone.org/what-dataone.

[16]许鑫,刘甜,于霜.Data One项目及其对我国数据监管工作的启示[J].图书与情报,2014(6):109-116.

[17]崔宇红.E-Science环境中研究图书馆的新角色:科学数据管理[J].图书馆杂志,2012(10):20-23.

[18]Curation Continuum[EB/OL].[2016-01-24].http://ands.org.au/guides/curation.continuum.html.

[19]Metadata Store[EB/OL].[2016-01-24].https://www.datacite.org/services/metadata-store.html.

[20]刘炜,夏翠娟,张春景.大数据与关联数据:正在到来的数据技术革命[J].现代图书情报技术,2013(4):2-9.

[21]QIN J,D’LGNAZIO J.Lessons Learned from a Two-Year Experience in Science Data Literacy Education[C/OL].[2016-01-24].http://docs.lib.purdue.edu/cgi/viewcontent.cgiarticle=1009&context=iatul2010.

[22]肖大成.二次文献在数字化进程中的生存危机与对策研究[J].图书馆理论与实践,2005(3):47-49.

(编发:章忠平)

Thinking about Secondary Document Service in Data-Intensive Scientific Research Context

YAO Xiao-hua
(Institute of Scientific&Technical Information of Shanghai,Shanghai Library,Shanghai 200031,China)

This paper analyzes and summarizes the main characteristic of data-intensive scientific research context,and new challenges which the secondary document service is faced in this environment.According to the whole life cycle of scientific data curation theory,it puts forward the suggestion that the secondary document service should focus on the public domain and reuse period scientific data,establishes the support system about relevant metadata standard,technology and personnel,and actively promotes the external collaboration to improve its service level.

scientific data;data-intensive scientific research;data curation;secondary document

G250

G250

A

2095-5197(2016)03-0106-05

姚啸华(1986-),男,助理馆员,硕士,研究方向:信息资源管理、知识组织。

2016-01-24

猜你喜欢

密集型文献科学
Hostile takeovers in China and Japan
湖北省专利密集型产业研究
密集型呼吸灯灯串设计与实现
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
点击科学
科学大爆炸
欧盟知识产权密集型产业的经济贡献及对我国的启示
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
中美专利密集型产业研究结果及分析
The Role and Significant of Professional Ethics in Accounting and Auditing