从数字图书馆到数据图书馆
2016-09-29谭影虹
摘 要:大数据时代的到来,使得“数据”成为了图书馆业务重构的中心和重点,也使得数字图书馆建设面临着不小的挑战,在开放存取、语义出版的影响和大数据技术、用户需求的驱动下实现向数据图书馆的服务范式转变成为了趋势。由于数据图书馆还是一个新生的概念而没有一个权威的定义,但从图书馆用户的需求发展趋势来看,数据密集型知识服务系统将是数据图书馆的核心组成,并向用户提供数据保存、数据挖掘、数据出版、数据管理与数据研究等服务。
关键词:数字图书馆;数据图书馆;大数据;服务范式
中图分类号: G250 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016055
From Digital Library to Data Library
——The Change of Librarys Service Paradigm in the Era of Big Data
Abstract The arrival of the era of big data, making the “data” becomes a key point of library restructuring, but also making the digital library construction faced with big challenge. With the impact of open access and semantic publishing, and the drive of user requirement, it achieves data library services paradigm transformation has become a trend. Since the data library is still a new concept and there is no authoritative definition, from the point of users requirement, data-intensive knowledge services system will be composed of core data library, and will provide user data storage, data mining, data publishing, data management and data research services.
Key words digital library; data library; big data; service paradigm
近年来,以数字技术处理和存储各种图书并茂文献的数字图书馆在缩小信息鸿沟、加速信息传递、促进资源共享等方面做出了积极的贡献,且随着国家数字图书馆推广工程等国家、地方数字图书馆项目的立项,数字图书馆迎来了一个快速发展期。然而,随着大数据时代的来临和全社会对数据价值及应用的日益重视,加之出版界、信息界出现的开放存取运动、人工智能研究等热潮,使得数字图书馆的发展面临着极大的挑战。实现从信息时代的数字图书馆到数据时代的数据图书馆服务范式转变将是当前社会需求及用户需求驱动的最终结果,因此,在这一服务范式转变之际,去探讨数字图书馆转型发展的驱动因素、数据图书馆的构建组成及服务内容显得尤为重要。
1 大数据时代数字图书馆发展面临诸多挑战
在信息时代,随着人们对数字文献获取方法方式的日益丰富和对数字文献内容要求的日益提高,数字图书馆建设过程中存在的标准不规范、文献数字化水平较低、数字文献的安全缺乏绝对保障等成为了人们经常讨论的问题。开放存取运动的进一步深化发展和以语义、云计算等为代表的信息技术出现,以及大数据时代的到来,则让数字图书馆面临着更多的挑战。
1.1 信息时代遗留的问题未得到解决
数字图书馆在建设过程中,由于受技术所限、资金不足、标准不统一等限制,致使数字图书馆在信息时代就存在着诸如接口不统一、资源元数据描述不够、检索能力不足、文献数据相互关联性较差、互操作程度较低、资源发现和扩展能力低下等问题,让数字图书馆成为了人们获取信息的最后选择。一份关于大学生对高校图书馆使用情况的调研报告则表明,72%的学生是通过网络获得信息,而通过图书馆获得信息的学生只占18%[1]。另一项调查也显示大学生访问图书馆网站(数字图书馆)的只占28%,远低于使用搜索引擎的使用比例,甚至有25.3%的大学生表示从没有去访问过图书馆网站(数字图书馆)[2]。这种现状也引发了图书馆界的担忧与思考,正如Rick所指出的一样,图书馆到了必须给图书馆资助机构更好、更多的说服力来证明图书馆存在的价值时候[3]。然而对数字图书馆来说,虽然经过了持续的技术革新、系统升级和业务延伸后,特别是经过了国家数字图书馆、国家科技图书文献中心及其网络服务系统、国家高等教育数字图书馆、国家科学数字图书馆、中共中央党校数字图书馆、军队院校数字图书馆和中国社会科学院数字图书馆等七大国家级数字图书馆工程项目的建设与推广,我国数字图书馆的建设在软硬件设施、数字资源、信息服务、资源共享等方面有了长足的经验积累,但系统间数据接口及共享、资源统筹采购等问题仍继续存在,数字图书馆向社会、向民众、向用户及政府证明自己存在价值的力度和广度也还不够。
1.2 新问题随着大数据时代的到来而到来
与大数据时代的到来相伴的是大数据操作技术的涌现和用户思维、习惯与要求的改变,数据的抓取与存储等问题也就随之而来,最终使得努力迎合用户需求的数字图书馆不得不面临新的挑战。
(1)多种出版模式为数字图书馆的出版服务带来了挑战。众所周知,利用互联网让经过同行评审的学术研究论文得到免费、自由、开放的存放与获取,提升了科学研究的公共利用程度、保障了科学信息的保存、提高了科学研究的效率的开放存取(OA)出版模式改变了传统的出版模式。根据布达佩斯开放存取计划(Budapest Open Access Initiative,BOAI)于2011年公布的研究报告,认为10年后在世界上的任何国家、任何或地区、任何学科的同行评议学术论文均将实现开放存取[4]。其实,快速增长的不仅是开放存取的仓储数据、期刊数量和论文数量,注重对开放存取数据质量和服务建设也是OA界最为倚重的。如设立于2003年5月,由瑞典Lund大学图书馆创建和维护、并由OSI、SPARC、EBSCO和瑞典图书馆学会等机构支持或协办、目前全球收录数量最大的OA期刊目录系统DOAJ(Directory of Open Access Journals),不仅从2015年1月1日开始剔除了存在信息更新不及时、数据质量管控不严等问题的3300本期刊[5],还于2016年开始收集DOAJ收录期刊的文章元数据,以满足DOAJ在2014年3月建立的旨在提高DOAJ的相关性和在开放出版上的重要性更高的检索标准[6]。这些变革了传统出版模式的开放存取、数据出版、语义出版等出版模式以及对数据质量监控、资源元数据重视实践,在让图书馆的资源建设受益的同时,也对数字图书馆的出版服务、数据质量监管等提出了新的挑战。
(2)大数据技术为数字图书馆的技术应用带来了挑战。大数据技术不但在概率统计、趋势预测、客户研究等方面有着出色的应用,也在图情领域的词频可视化、情报分析等方面都有着其它技术所无法比拟的优势。同时,语义技术、可视化技术等也在信息服务机构的知识库建设、资源链接与描述、用户分层与服务延伸等方面有着广泛的应用。但对数字图书馆来说,目前在信息检索互操作方面也主要有基于图书馆自动化系统的元数据互操作(如联合目录+OpenURL)和基于二代图书馆系统的基于系统的互操作(如MetaSearch+OpenURL)两种方式,而结合了这两种检索互操作方式,解决了信息描述、组织与检索能力不足问题的图书馆知识资源发现系统(如Primo、Summon等)尽管在图书馆已逐渐开始运用,但还是没有将复杂数据环境(多源数据、多类型数据)下的数据价值发现与图书馆知识服务相结合起来,加之目前还未将能够处理异构、非结构化数据的Hadoop等大数据技术广泛应用,数字图书馆还不能为用户去真正的解答、解决问题。
(3)大数据思维为数字图书馆的用户维护带来了挑战。大数据时代,数据将驱动社会的创新与发展,人们也将因为这种驱动方式的出现而形成有别于传统思维方式的大数据思维方式。与传统思维方式强调因果关系不同,大数据思维方式更强调相互关系、相关关系,人们将逐渐抛弃基于假想的易出错方法,而采用基于数据挖掘的相关关系分析法去预测事件及概率[7]、为信息找人[8]。很显然,数字图书馆在对组成数字图书馆最基本单元的文献资源唯一标示、科学引用频率统计、元数据描述标准统一、相似性关联及链接实现等还都无法做到的情况下,实现这类基于海量数据挖掘的概率预测、为信息找用户等服务就还需时日。
2 以数据为核心业务成为数字图书馆业务重构方向
ACRL(Association of College & Research Libraries,美国研究图书馆协会)于2012年发布的《2012 top ten trends in academic libraries》[9](2012学术图书馆发展趋势)报告,就对“数据监管”“数据保存”“新的出版与交流模式”等未来图书馆发展的趋势进行了研究。在这份报告之后,ACRL研究、计划与评价委员会于2014年6月发布的《高校图书馆发展大趋势》[10]虽然把“更深度的合作”概括为当前美国高校图书馆总的发展趋势,但也把“数据”列为四大关键词之一。由上述两份报告我们可以发现,在全球图书馆享有较高研究水平声誉的ACRL已经预见到了“数据”的价值,认为开展关于数据的收集、保存、开发与应用将是未来图书馆发展的趋势。值得赘述的是,ACRL对于“数据”的追捧并未随着时间的推移而减弱乃至消失,反而认为将有着明显的专业化、精深化发展趋势。在ACRL发布的《2016 top trends in academic libraries》[11](学术图书馆 2016 年 10 大发展趋势)报告中,认为“研究数据服务”“数据发展政策与管理计划”“基于馆员专业化发展而提供研究数据服务”“数字化学术中心”是学术图书馆2016年发展的几大趋势。考虑到业界已经广泛开展的数据素养教育和图书馆数据馆员设置、大数据挖掘应用等实践,可以说基于数据管理与应用的服务、建设已成为图书馆未来业务增长点,而实现对异构、海量数据的管理、应用与开发重任,无疑宜由现代技术应用最为广泛的数字图书馆承担。
3 数据图书馆是数字图书馆的发展方向
由于数据图书馆还是一个新生的图书馆存在形态,故对其科学内涵、服务内容等还没有一个权威定义。综合上述对数字图书馆面临的环境和挑战分析,不难得出围绕数据及数据业务去重构、重组数字图书馆的建设与服务,不但有着多环境影响因素,也有着多驱动因素。围绕数据,就是以数据为核心并进行数据的保存、处理和应用,进而形成具有数据服务、数据出版和数据增值服务的图书馆存在新形态,即数据图书馆形态。结合当前已经形成的数据密集型科研环境和全社会以数据为中心的价值认同,笔者以为数据图书馆的核心组成内容就是数据密集型知识服务系统,数据图书馆的服务就是基于数据挖掘的支撑服务,如决策支撑、发现支撑和融合支撑等。
3.1 数据密集型知识服务系统的框架构成
数据密集型知识服务系统主要由大数据层、计算融合层和用户服务层构成(见图1)。其中,大数据层主要承担文献大数据(期刊、会议、图书、学位论文、科技报告、专利等)、用户大数据(个人数据、生活数据、工作数据、学习数据等)和其它大数据(政府信息数据、社交媒体数据、科技创新数据等)的存储职能,当然,这些数据并非均储存于图书馆,而主要以云计算存储、异地存储、异构存储为主;计算融合层主要就是通过构建一体化描述模型来实现对数据的采集、解析、清洗与保存,并通过数据标引、描述、分类与标注来实现基于用户需求、基于信息发现的用户服务;用户服务层则主要是通过计算融合层向用户提供基础性数据服务(数据出版、数据管理与数据研究等)和发现性数据服务(态势解析、追踪与检测、未来发现等)等支撑性服务。
3.2 关于数据图书馆的服务
由数据图书馆核心系统的框架构成可以看出,本研究所设计的数据图书服务主要为支撑性服务,这是因为在大数据环境下,数据图书馆尽管拥有丰富的文献数据,但用户数据特别是产生于图书馆交互之外的工作数据、学习数据、生活数据并不易获得,因此,基于这些非全部数据量和数据类型的数据服务产品还需进一步去辨别和研究;其次,大数据思维要求数据图书馆提供焦点问题发现、为信息找用户等服务,即数据图书馆不再只是提供基于数据管理职能的数据保存、数据规划等服务,而是必须从海量文献数据中去找到可能影响用户的焦点问题,进而通过数据图书馆的互操作来提示用户,并将能够解决用户问题的数据推送给用户,实现焦点问题发现与信息找用户相加的发现性服务。
4 结语
大数据时代的到来已驱动着数字图书馆的转型与发展,数据图书馆作为数字图书馆发展的未来形态,也必然存在着诸如接口标准制定、数据保存算法设计、数据描述模型完善等研究性课题。本文仅限于对影响数字图书馆转型发展的驱动因素和影响因素入手,对数据图书馆的核心系统框架进行了简单设计,诸多存在的不足也还有待于进一步去深入研究。
参考文献:
[1] 张颖.大学生图书馆使用情况调查与研究——以A校为例[J].青年文学家,2014(6):182.
[2] 关于图书馆利用状况的调查报告[EB/OL].[2016-03-20].http://www.docin.com/p-570050019.html.
[3] Anderson?Rick. The Crisis in Research Librarianship[J].Journal of Academic Librarianship,2011,37(4):290.
[4] RJ It. Ten years on from the Budapest Open Access Initiative: setting the default to open (BOAI10, 2012) Dieci anni dopo la Budapest Open Access Initiative (BOAI1...0) [J].Jlis It,2012,3(2):20.
[5] 开放获取期刊目录DOAJ剔除近3300本期刊[EB/OL].[2016-06-12].http://blog.sina.com.cn/s/blog_12c7d197e0102wocp.html.
[6] DOAJ的开放获取新进展[EB/OL].[2016-06-12]. http://blog.sciencenet.cn/blog-1035376-898149.html.
[7] 大数据时代,我们应该具有怎样的思维方式?[EB/OL].[2016-03-20].http://mt.sohu.com/20160303/n439227782.shtml.
[8] 大数据思维的十大核心原理[EB/OL].[2016-06-12]. http://www.raincent.com/content-10-4235-7.html.
[9] ACRL.2012 top ten trends in academic librariesh[EB/OL].[2016-03-20].ttp://crln.acrl.org/content/73/6/311.full.
[10] ACRL.Top trends in academic libraries:A review of the trends and issues affecting academic libraries in higher education[J].College&Research; Libraries News,2014(6):294 -302.
[11] ACRL.2016 top ten trends in academic librariesh[EB/OL].[2016-06-10]. http://crln.acrl.org/content/77/6/274.full.
作者简介:谭影虹(1978-),女,广东江门新会景堂图书馆馆员。