APP下载

大数据时代数字图书馆信息服务研究与发展*

2016-07-26徐升华

图书馆学刊 2016年4期
关键词:数字图书馆资源

徐升华 王 琪

(江西财经大学信息管理学院,江西 南昌 330000)



大数据时代数字图书馆信息服务研究与发展*

徐升华1王琪2

(江西财经大学信息管理学院,江西 南昌 330000)

[摘要]基于大数据时代的视角,叙述了大数据背景下数字图书馆信息服务的概念与内涵,说明将大数据和数字图书馆有机结合的必要性,梳理国内外大数据背景下数字图书馆信息服务的相关研究和发展脉络,采用SWOT分析法总结国内数字图书馆信息服务领域的优劣势以及所面临的外部机遇和挑战,指出大数据技术应用于数字图书馆的发展方向以及值得进一步探讨和研究的领域。

[关键词]大数据数字图书馆信息服务发展方向

云计算、物联网、社交网络等新兴技术的发展引发数据的爆炸式增长,为了描述和定义信息爆炸时代产生的海量数据,“大数据”一词应运而生。知名咨询公司麦肯锡最先提出大数据时代已经到来,庞大的数据量成为企业和社会重要的战略资源,促使各个领域都开始了量化进程,2013年更是被称为“大数据元年”。在图书馆领域,迅速发展的数字图书馆实现跨越区域、面向对象的网络查询和传播,使人们在任何时间和地点通过网络获取所需的信息变为现实,扩展了传统图书馆面向读者最重要的功能——信息服务功能,所以在大数据时代,数字图书馆相较传统图书馆其信息服务功能更加突出,极大地促进了资源的共享与利用,甚至有观点认为未来数字图书馆将会全面替代传统图书馆,因此大数据时代的数字图书馆信息服务成为学者研究的新热点。

1 大数据时代的数字图书馆信息服务概念与内涵

1.1大数据时代的概念与内涵

2008年,在Google成立10周年之际,《自然》杂志出版的专刊中首次提到“Big Data”的概念,讨论了未来大数据处理相关的一系列技术问题和挑战。2013年美国互联网数据中心指出,互联网上的数据每年以50%的速度增长,每两年便将翻倍,而目前世界上九成以上的数据是近几年才产生的,所以信息爆炸时代关于大数据难以有一个定量的定义,麦肯锡公司给出的定性描述是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

进一步来说,当今“大数据”一词的重点不仅仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。麦肯锡表示“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。

1.2数字图书馆信息服务的概念与内涵

数字图书馆是传统图书馆在信息时代的产物,它不但包含了传统图书馆的功能——向社会公众提供相应的服务,还融合了其他信息资源(如博物馆、档案馆等)的一些功能,提供综合的公共信息访问服务[1]。通俗地说,数字图书馆就是虚拟的、没有围墙的图书馆,是基于网络环境下共建共享的可扩展的知识网络系统,是超大规模的、分布式的、便于使用的、没有时空限制的、可以实现跨库无缝链接与智能检索的知识中心。数字图书馆信息服务是指利用各种技术对信息资源进行采集、组织、检索和传播等业务进行处理的一种活动[2],其服务内容是提供电子出版物、数据库、Internet上的各种信息。

1.3大数据应用于数字图书馆信息服务的必要性

随着信息技术的飞速发展和数字图书馆信息服务研究的深入,用户对数字图书馆信息服务需求也从传统服务转向“大数据”信息服务。数字图书馆馆藏资源丰富,不仅有结构化数据,如数目信息、声像数据等,还有用户信息、访问信息等半结构化数据和非结构化数据,可以说数字图书馆本身就带有大数据特征。大数据时代使数字图书馆面临信息存储量的大数据化,其信息资源的管理、存储需要建立全新的模式[3]。用户使用数字图书馆的信息服务功能时,都期望反馈到相关且个性化的信息,而传统图书馆提供的信息服务是有什么就提供什么”,数字图书馆信息服务则是愈加趋于强调个性化,满足用户需求的同时主动推荐相关信息,这是一种主动服务,为了满足用户个性化信息服务的需要,将大数据的数据处理技术应用于数字图书馆可谓水到渠成。

总而言之,大数据时代中科学数据的产生和积累呈指数级增长,大数据信息服务体系的开发和利用将会是数字图书馆发展必不可少的前提条件[4],大数据时代数字图书馆信息服务的研究与发展均大有可为。

2 国外大数据时代的数字图书馆信息服务研究与发展

2.1国外大数据时代的数字图书馆信息服务研究

国外对数字图书馆研究起步较早,目前已渐趋成熟。对大数据的研究也处在领先水平,将大数据和数字图书馆联系在一起研究主要集中在网络计量学和文献计量学[5]。美国加州大学伯克利分校图书馆的Huwe[6]指出:大数据与数字图书馆是完美搭档,大数据十分有益于图书馆员对用户进行研究的项目,数字图书馆对用户行为信息采集的领域十分值得探索。2003年于哥本哈根举办的第五届世界图书馆联盟欧洲会议讨论了联盟建立、成本分配、评估等联盟内部管理问题以及Elsevier Science的“Big Deals”和未来发展问题[7], 2011年第三次世界图书馆联盟欧洲会议,电子信息资源的采购问题以及如何更好地提供数字图书馆信息服务成为会议重点[8]。由此看出如何从大数据时代海量的信息资源中提取有用信息以提供更好的信息服务成为国外数字图书馆的重要发展方向。加州大学尔湾分校的Renaud、麻省理工学院的Britton等人[9]借助大数据技术分析挖掘数字图书馆的用户行为信息,进而辅助学校关联分析学生的阅读行为。加州大学洛杉矶分校的Christine等人[10]利用嵌入式技术,在数字图书馆系统中嵌入传感器,采集有关数据,为研究人员开展研究提供数据,为数字图书馆增添了新功能。还有其他众多学者将研究触角伸向数字图书馆对大数据中学术信息的采集、处理、关联[11],从而帮助数字图书馆通过利用大数据提供更人性化的信息服务。

2.2国外大数据时代的数字图书馆信息服务发展

美国是信息技术领域的领先国家,其非常重视数字图书馆资源的开发、利用、共享和信息服务能力的提升。1967年美国成立总部位于俄亥俄州的联机计算机图书馆中心OCLC (Online Computer Library Center),作为提供数字资源信息服务的机构之一,不仅面向国内开放信息资源,更将世界范围内的数字资源加以共享,时至今日该中心仍是世界上最大的图书情报服务机构之一。20世纪90年代美国实行数字图书馆先导计划,该计划由美国国家科学基金会负责,其一期计划为1994~1998年,实现了推动收集、存储、组织数字化资源的技术手段的发展,使数字化信息能够通过网络进行查询、存储和管理的目标。1999~2004的二期计划参与计划的大学数量由一期的6所增加到二期的20所,并进行了以人文和系统为中心的信息服务研究。其他国家如德国、澳大利亚、新西兰、日本等也纷纷效仿开展了本国的数字图书馆信息服务发展计划。由此看出,政府的支持力度是影响数字图书馆发展的重要因素之一。

除政府引导的项目之外,国外数字图书馆推进信息服务的大数据实践主要还有以下几种方式:一是传统图书馆建立信息服务社区实体行为智能分析引擎。例如20世纪90年代数字图书馆的个性化信息服务功能开始兴起,美国康奈尔大学图书馆、弗吉尼亚公共健康大学、华盛顿大学图书馆以及亚洲的新加坡国立图书馆等都逐渐提供此项服务,其中比较具有代表性的数字图书馆个性化信息服务系统是MyLibrary[12],该系统通过采集用户数据分析挖掘用户行为习惯,建立实体行为智能分析数据库引擎。二是数据资源服务公司积极利用大数据技术拓展业务。美国俄亥俄州OverDrive公司和大量不同类型的图书馆有长期合作进而收集大量相关数据,并将这些数据提供给出版商和其他跟自己图书馆有合作关系的图书馆。与此同时,OverDrive公司还通过其他途径如Buy ItNow网上商店为图书馆提供图书馆不具备的读者浏览下载书目信息,也为读者提供了新的发现图书的渠道。三是众多研究机构积极开展大数据项目的研究与实践。如美国Library Journal举办的“Future of the Academic Library Symposium:E-Text Big Data and Access”学术研讨会[13];2009年8月,约翰霍普金斯大学图书馆构建一座数据研究基础设施,用来管理过去从教学和科研中产生的海量增长的数字资源。部分高校数字图书馆对于大数据的侧重点在“数据监护”上,如2012年初,巴斯大学成功完成Research360项目的研发,该项目定义了基于终端对终端的360机构科研生命周期的概念,并列出了图书馆在科学数据管理的不同操作过程中能够提供什么样的信息服务[14],最终实现了图书馆内部对数据的高效管理。

3 国内大数据时代的数字图书馆信息服务研究与发展

3.1国内大数据时代的数字图书馆信息服务研究

在中国知网中以关键词“大数据”检索2010年1月至2015年12月期间的文献,共有8520篇,以关键词“数字图书馆”检索,共有10433篇,将“大数据”“数字图书馆”作为关键词中间用检索逻辑词“and”连接进行检索,只有78篇,并且全部为2013年之后发表。由此可见,目前国内在数字图书馆或大数据领域取得的研究成果很多,而大数据环境下数字图书馆信息服务的研究处于萌芽状态,进一步研究的空间巨大。经过检索、分析前人研究成果,发现在数字图书馆研究兴起的前期国内关于图书馆信息服务的文献内容主要集中在图书馆信息服务能力的评价和提升方面,如黄晓菁[15]分析了信息服务能力评价的意义,在建立评价信息系统的指标体系模型的基础上提出了一个评价图书馆信息服务能力的方案。

大数据的兴起带给数字图书馆的机遇是多方面的,大数据技术的应用可以辅助图书馆进行信息资源管理、读者管理、个性化信息服务等,同时,大数据时代数字图书馆信息服务面临的挑战同样严峻。未来数字图书馆的核心资产将是对大数据的综合掌握,图书馆管理者们应充分考虑到用户利用信息服务的便利性,实现数据资源、信息技术、信息内容的集成,根据用户特定的信息需求打造个性化特点的全方位信息服务[16],国内多位学者为实现此目标进行了相关研究。李蓓蕾[4]指出电子图书馆的信息服务需要进行多方面创新,实现实时信息查询、个性化信息定制、实时参考咨询等,陈臣等[17]则设计了基于大数据的数字图书馆高效搜索引擎,突出了搜索引擎的用户个性化信息服务功能。大数据也从用户群的整合、数据的重构以及服务模式的挖掘等方面深度影响了图书馆传统的移动信息服务,数字图书馆的信息服务应结合大数据背景进行数据信息资源整合、个性化服务展示、“一站式”全功能检索等多方面的服务创新[18]。而杨颖等[19]则一针见血地指出大数据对数字图书馆信息服务带来巨大冲击,数字图书馆必须利用大数据原理和技术来创新信息服务方式。通过分析比较数字图书馆与大数据研究范式的结果,张兴旺等[20]认为二者的有机融合需要从方法论创新、信息检索模式创新、知识服务模型创新、系统论视角创新和数据分析方法创新5个方面入手。可以发现国内学者均认可大数据将会给数字图书馆信息服务领域带来巨大的变革,但如何抓住机遇在大数据时代进行数字图书馆信息服务的创新仍然需要不断研究与探索。

3.2国内大数据时代的数字图书馆信息服务发展

根据国家数字图书馆统计2007年国家数字图书馆数字资源发布总量为14.774TB,2009年为251.33TB,2011年为378.6TB,截至2013年底,国家数字图书馆数字资源总量已达到874.5TB,其中自建数字资源量为737.9TB,网络信息采集量达45.7TB,外购中外文数据库共计273个,文津搜索汇集的元数据已达2.9亿条。随着信息服务扩展至计算机、数字电视、手机、手持阅读器、平板电脑、电子触摸屏等多种服务终端,服务量不断增加,各业务系统每天都会产生大量的日志数据。在大数据环境下面对信息“快速、简单、准确”的要求,国家图书馆计算机与网络系统部主任魏大威表示未来数字图书馆会加大资源的揭示力度,全面提升信息服务能力。国家数字图书馆将主要从两方面发展,首先是将建立超大型元数据仓储,结合大数据特点和资源现状,以用户需求为导向,突出特色,通过异构数字资源的融合、聚类和重组使资源从数据层的揭示与展现转向信息层、知识层的深度服务;其次是将知识图谱可视化展示给读者,依托融合的物联网、移动通信网以及互联网络进行传播,最终实现为用户提供电视、电脑、手机等多种终端的接收,加强用户数据分析,实现个性服务,促进业界合作,实现共知共享。同时国内很多地方或高校图书馆致力于数字图书馆个性化信息服务方面的发展。汕头市图书馆、佛山市图书馆、厦门大学图书馆、武汉科技学院图书馆等采用深圳市图书馆开发的ILAS系统开通“我的图书馆”服务项目,该系统是文化部于1988年作为国家重点科技项目下达、由深圳图书馆承担并组织开发出来的一套能适应国内外不同层次、多种规模、各种类型图书馆使用的图书馆自动化集成系统,能够实现信息查询、联合目录以及感兴趣的新书等功能,极大提升了数字图书馆信息服务的能力。

大数据时代传统图书馆纷纷在数字图书馆信息服务领域发力的同时,国内的学术资源建设商发展同样迅猛。例如,中国最大的学术资源建设商中国知网,已由中国期刊论文资源建设逐步拓展到国内外期刊论文、会议论文、学位论文、报纸文章、专利等,同时收录大量图书,提供年鉴、工具书的查询服务[21],其他资源建设商,如万方数据知识服务平台、超星数字图书馆、维普期刊服务平台以及中国社会科学文库等也提供了众多学术资源。这些资源建设商提供的海量学术资源对传统数字图书馆形成了很大的冲击,是我国普通高校数字图书馆信息服务不可或缺的部分。同时一些网络资源服务商也开始涉足学术资源领域。以百度为例,除了百度文库、百度百科等学术资源,还有百度知道这类基于搜索的互动式知识问答分享信息服务平台,此外百度学术搜索也于2014年06月初上线,可检索到收费和免费的学术论文,并通过时间筛选、标题、关键字、摘要、作者、被引用次数等细化指标提高检索的精准性,百度文献检索功能的用户体验越来越优质。根据公开信息,百度每天响应来自138个国家和地区的数十亿次请求,每日新增数据10TB,处理超过100PB的数据,从浩如烟海的信息中精确抓取约10亿网页,同时索引库还拥有千亿级在线索引能力,以帮助用户完成搜索过程[23]。面对海量的大数据,百度自建数据中心,开发自己的大数据存储系统,并使用了多项新技术,百度云计算(阳泉)中心数据存储量将超过4000PB,可存储的信息量相当于20多万个中国国家图书馆的藏书总量[22]。

4 总结与展望

伴随着云计算、移动互联网、物联网等信息技术的成熟,大数据技术将会给数字图书馆带来深远的影响和创造性的变化,将大数据技术应用于数字图书馆信息服务是图书情报领域无法回避的未来技术发展形态,也是数字图书馆实现信息服务模式转变和创新的必然发展方向。分析大数据时代的数字图书馆信息服务研究和发展历程,可以发现目前国外相关研究和发展已有一定的成果,国内相关领域也正在迎头赶上,利用SWOT分析法分析大数据时代与国外对比后国内数字图书馆信息服务研究和发展优势的内部优势、劣势以及全球信息化形式下面临的机遇和挑战,总结如图1所示。

图1 国内大数据时代数字图书馆信息服务研究与发展的SWOT分析

根据SWOT分析,未来我国数字图书馆如何更好地将大数据技术应用于信息服务需要从以下几个方面着手:

①建立数字图书馆联盟,共享信息资源,通过合作提高整体效益;

②加强技术创新,解决大数据技术在数字图书馆应用中的网络环境适应问题;

③整合系统信息资源,提供集成检索服务。将不同来源、不同格式和类型的信息资源通过联盟方式无缝连接后,提供强大的集成检索功能,使用户能够通过一种检索策略查询到不同数据源的反馈结果;

④进一步加强数字图书馆信息服务的移动化和可视化功能。在移动互联网时代人们阅读方式和习惯均发生改变,数字图书馆需要改变自身信息服务模式迎合用户习惯;

⑤提升个性化信息服务体验。增强数据分析思维,以用户为导向,根据数据分析用户的特点和偏好主动推荐用户需要的个性化信息;

⑥完善信息安全体系。加强网络安全防护措施,增强网络安全感知能力,防止信息泄露和信息破坏。

信息技术发展所带来的机会总是稍纵即逝的,如何利用大数据技术更好地推进以上问题的解决是未来数字图书馆信息服务研究和发展的重点,在赶超国外的过程中需要善于抓住信息技术应用领域的前沿技术,学习、研究大数据思维,在实际研究和应用中加以创新数字图书馆信息服务,提升图书馆的核心竞争力,以期在未来实现图书馆服务的跨越。

参考文献:

[1]陆颖隽.虚拟现实技术在数字图书馆的应用研究[D].武汉:武汉大学,2013.

[2]孙坦.开放信息环境:学术图书馆信息资源建设的重定义与再造[J].中国图书馆学报,2013(3):9-17.

[3]李翠萍,常娥.大数据时代数字图书馆发展浅析[J].江苏技术师范学院学报,2013(5):30-132.

[4]李蓓蕾,王映花,刘海.浅析大数据时代高校图书馆的信息服务[J].科技风,2014(12):239.

[5]杜晖.基于耦合关系的学术信息资源深度聚合研究[D].武汉:武汉大学,2013.

[6]Huwe TK.Buliding digital libraries:big data and the library:a natural fit[J].Computers in Libraries,2014(2):17-18.

[7]Yamamoto,Kazuo.2004.Report of the International Coalition of Library Consortiain Europe Meeting.Joumal of ColIegeand University Libraries;(71)Mar,pp.56-62.

[8] Holmstroem,J.2002.International Coalition of Library Consortia in Europe Nordinfo Nytt;(2~3),pp.21-27.

[9]Renaud J,Britton S,Wang D,et al.Mining library and university data to understand library use patterns[J].The Electronic Library,2015(3):355-372.

[10]Borgman CL,Wallis JC,Mayernik M S,etal.Drowning in data:digital library architecture to support scientific useof embedded sensor networks[C]//JCDL 07:Proceedings of the7th ACM/IEEE-CSJointConference on Digital Libraries,2007.

[11]W illiams K,Wu J,Choudhury SR,er al.Scholarly big data information extration and integration in the CiteSeerx digital library[C]//Data Engineering Workshops(ICDEW),2014 IEEE 30th InternationalConference,2014:68-73.

[12]杨晓湘,孙坦.中美图书馆MyLibrary个性化服务系统的比较研究[J].现代情报,2005(10):220-223.

[13]Watters A.StrataWeek:Harvard Library releasesbig data for itsbool[EB/OL].[2016-01-02]http//strata.oreilly.com/ 2012/04/harvard-book-data-clouder-a-hadoop-splunkipo.html.

[14]Spolanka.Over Drive announces a series of“Big Data”reports[EB/OL][2016-01-06].http://www.libraries.wright. edu/noshelfrequired/2012/04/11/overdrive-an-nounces-a -series-of-big-data-reports.

[15]黄晓菁.基于AHP方法的图书馆信息服务能力研究[J].情报杂志,2007(9):149-151.

[16]邓媛.大数据形势下图书馆建设的机遇与挑战[J].内蒙古科技与经济,2015(7):105-106.

[17]陈臣,陈双飞.一种基于大数据的数字图书馆高效搜索引擎[J].现代情报,2014(1):49-51.

[18]陈茫,周力青,吕艳娥.大数据时代下的图书馆移动服务创新研究[J].图书与情报,2014(1):117-121.

[19]杨颖,崔雷,郭继军.大数据时代图书馆知识服务的创新[J].医学信息学杂志,2014(4):63-66.

[20]张兴旺,李晨晖.数字图书馆与大数据:研究范式的分析、比较与融合[J].情报理论与实践,2015(12):37-42.

[21]中国知网资源总库[EB/OL].[2015-07-01].http://epub. cnki.net/kns/subPage/Total.aspx.(China national know ledge infrastructure[EB/OL].[2015-07-01].http://epub. cnki.net/kns/subPage/Total.aspx.)

[22]大数据史记:盘点中国2013行业数据量[EB/OL].[2016-01-01].http://www.aliyun.com/zixun/content/2_11_473021. html.

徐升华男,1952年生。教授,博士生导师。研究方向:知识管理。

王琪女,1992年生,硕士研究生。研究方向:图书馆管理、知识管理。

[分类号]G252

*本文系国家自然科学基金项目“企业协同创新过程中知识互动机制研究”(项目编号:71561010);江西省研究生创新专项基金项目“社交媒体环境下企业知识互动影响因素研究”(项目编号:YC2015-B052)成果。

收稿日期:(2016-01-22;责编:王天泥。)

猜你喜欢

数字图书馆资源
基础教育资源展示
一样的资源,不一样的收获
资源回收
图书馆
答数字
资源再生 欢迎订阅
数字看G20
去图书馆
成双成对
数字变变变