国内外图书馆大数据研究现状分析*
2015-05-10邹慧玲
任 湘 ,邹慧玲
(湖南农业大学图书馆,湖南 长 沙 4 10128)
有关“大数据”最早的引用可追溯到apache org的开源项目Nutch,当时,它用来描述更新网络搜索索引需要同时进行批量处理或分析的大量数据集。短短几年时间,“大数据”悄然兴起,并给各行各业带来了数据存储及使用方式的根本性变革。面临着转型的图书馆,必然在传统的服务运作模式之外寻求一种全新的发展方向。其中,服务模式的变革是图书馆转型的重要内容,而大数据时代的来临正好给图书馆的转型发展提供了契机。
由于大数据对各行各业的渗透和影响,其研究也日益受到专家、学者的广泛关注,尤其是近几年,继计算机科学、医学、工程学、经济学等领域之后,图书情报领域也开始关注大数据研究,有关大数据时代图书馆的研究论文呈“井喷”态势竞相出现。这些研究成果对图书馆未来的发展究竟有何价值?研究的主流方向和特点又是什么?笔者试图对国内外已有的相关文献进行梳理和评析,以进一步推动和深化大数据时代下的图书馆研究,探寻图书馆发展如何更好地利用大数据。
1 国内外图书馆与大数据的研究概述
1.1 国外图书馆与大数据的研究概况
笔者利用Web of knowledge数据库检索平台对图书馆与大数据相关文献进行了检索,检索日期为2014年11月9日,通过标题=(big data)或(age of big data)的检索式共检索到期刊论文446篇,主要分布在计算机科学、科学技术其他主题、卫生保健科学服务、医学信息学、工程学、信息科学与图书馆学等学科中,最早的论文发表于2008年。通过对研究方向进行限定,即在上一个检索式后通过“研究方向=INFORMATION SCIENCE&LIBRARY SCIENCE”进行精练,可检索到期刊论文39篇,均涉及科学技术研究领域,其中17篇文献为科技技术与社会科学的跨学科研究领域。
表1国外大数据研究文献学科分布
从表1可知,在国外图书馆与大数据研究的文献中,信息科学与图书馆学的研究文献仅占8.74%。以大数据背景下图书馆为直接研究对象的文献没有,也就是说,在大数据研究文献量排前十的学科中,无图书馆与大数据为直接研究对象的外文文献。
从年载文量看,2008年发表论文3篇,2009~2010年没有相关论文公开发表,2011年发表1篇,之后三年的载文量呈直线上升趋势,2012~2014年分别发表论文8篇、10篇、17篇。
从被引频次看,在信息科学与图书馆学的39篇相关论文中,被引次数最高的为2008年Howe Doug、Costanzo Maria、Fey Petra等人发表在Nature上的Big data:The future of biocuration一文,被引频次达146次。在同年同期刊上,Lynch Clifford发表的Big data:How do your data grow?一文被引频次为56次。另外,在39篇文献中,有25篇文献被其他文献引用。其中,被引50次以上的论文2篇,被引21~49次的论文6篇,被引11~20次的论文1篇,被引1~10次的论文16篇。
从载文期刊看,在39篇文献中,载文最多的期刊为Nature,载文8篇。大部分文献发表在医学类、计算机科学类、科学技术类杂志上,只有1篇文献发表在PLOSMEDICINE上。
1.2 国内图书馆与大数据的研究概况
笔者通过CNKI数据库检索平台,采用“题名=图书馆或图书 and题名=大数据”的检索策略,检索时间为2014年11月9日,共检索到相关文献237篇。其中:期刊论文235篇,硕士论文1篇,会议论文1篇。最早的论文发表于2012年,晚于国外。从年载文量来看,2012年度发表论文4篇,2013年发表论文60篇,2014年已发表论文173篇。
图1图书馆与大数据国内研究论文篇数及被引频次
从图1可知,只有23.63%的论文被引用,且被引频次较低。究其原因,一是在大数据背景下,国内图书馆界的研究比较晚,论文的关注度和影响力还不高;二是高影响力论文数量少,缺乏权威性研究成果。尽管如此,仍然有极少量论文获得了较高的被引频次,受到业界的较高关注。这也说明短短几年时间,图书馆大数据的研究小有成绩并受到一定程度的关注。如:兰州商学院图书馆韩翠峰发表的《大数据带给图书馆的影响与挑战》[1]37-40、《大数据时代的图书馆服务浅析》[2]121-122短短两年不到的时间内被引频次分别高达 63 次、38 次;樊伟红等发表的《图书馆需要怎样的“大数据”》[3]63-68,77被引达 54 次。
从国内图书馆大数据研究文献数量占国内大数据研究文献总量的比例看,图书情报与数字图书馆学科的大数据研究成果占比仅4.34%。如表2所示,国内大数据研究文献大多分布在计算机软件及计算机应用、信息经济与邮政经济、新闻与传媒、经济学等学科里。
表2 国内大数据研究文献的学科分布
从来源刊物级别看,发表在图书情报领域核心期刊上的论文只有38篇,仅占检索文献的16.03%,涵盖图书馆需要的大数据类型、对图书馆服务模式与管理模式的变革、对数字图书馆建设及资源建设的冲击、对图书采购与销售的影响、用户服务与信息服务的挑战等研究内容。
从核心作者(以第一作者或独著作者统计)看,兰州商学院的马晓亭为发文量最多的作者(发文9篇)。根据普赖斯理论核心作者的计算公式m≌0.749*□Nmax(式中Nmax为发文量多的作者论文数,m为核心作者最低发文量),即m≌0.749*□9=2.247。因此,发文3篇及以上的作者都可界定为核心作者,统计得到的核心作者有3名,分别为兰州商学院的马晓亭(9篇)、陈臣(5篇),辽宁省图书馆的王天泥(3篇)。
从上述统计分析看,国内图书馆与大数据的研究主要表现出如下特点:①短短3年不到的时间里,相关研究论文的数量从零开始迅猛增长,越来越成为国内研究的热点;②近1/5的论文发表在图书情报领域核心期刊,个别论文短时间内的被引频次高达50多次、60多次。这说明相关研究取得了一定成绩并受到广泛关注;③从论文总数与被引论文数量不多、被引频次普遍较低的情况看,国内的相关研究尚处于起步阶段,还缺乏较多的权威性研究成果;④相关研究还未达到系统、深入的程度,硕士学位论文只有1篇,没有相关著作和博士学位论文出现。
综上所述,国外与国内的大数据与图书馆的研究都还处于初步发展但欲不断深入的阶段,相关的研究文献会越来越多。
2 国内外图书馆大数据研究的主要内容
2.1 大数据的概念与特点
最早提出“大数据”时代到来的全球知名咨询公司麦肯锡认为:“数据已经渗透到当今的每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”[4]
百度百科认为大数据技术或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯,具有大量、高速、多样、价值的 4V 特点[5]。
维基百科对大数据(Big data或Megadata)的定义是:大数据或称巨量数据、海量数据、大数据,是指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理,并整理成为人类所能解读的信息[6]。
张文彦[7]认为大数据之“大”跟数量这一维度密不可分,但定义大数据需指明4V(即多样性、大容量、高速度及时效性)和1C(即通过新的方法来满足异构数据统一接入和实时数据处理的需求)。
孟小峰[8]借鉴云计算的发展特点,从字面上看,认为大数据是一个抽象的概念,它表示数据规模庞大,但仅仅数量上的庞大显然无法看出“大数据”和以往的“海量数据”“超大规模数据”等概念之间的区别,只能从它的特点中归纳其定义,比较有代表性的是3V定义(规模性、多样性和高速性)、4V定义(在3V的基础上增加价值性)。
Lee,Chung-Hong[9]认为大数据的名噪一时不仅是因为它数据的大小,而是它引起的复杂性。
马晓亭[10]认为大数据除了具有数量巨大、处理快速等特点外,还表现为数据结构呈现异构和低价值密度性,同时,图书馆大数据环境数据“清洗”难度大,表现为垃圾数据多、污染重和利用难的特点。
从以上定义可知,大数据概念的文字表述虽然有所差别,但本质上的区别不大,大多数定义强调的是大数据的特点,即大量(规模)、多样(复杂)、高速和价值(高或低)。
2.2 大数据对图书馆的挑战与机遇
樊伟红[3]64-65认为图书馆要正视大数据带来的几个挑战:数据量增长所带来的存储能力及计算能力的挑战,由传统常规分析向广度、深度分析所带来的挑战,基础设施挑战。
韩翠峰[1]38-39认为大数据时代的到来对作为社会中储存信息知识、提供信息服务的载体——图书馆形成冲击与挑战,主要挑战来自以下几个方面:复杂数据的处理、图书馆的数据存储能力、高标准的信息服务。
姜山[11]认为大数据对图书馆实现针对不同读者的个性化服务、提供研究动向以及研究热点的变化、为本馆的采编部门和数据库采购部门提供资源评价意见带来了机遇,但同时,图书馆也面临成本问题与隐私保护问题的挑战。周加艺[12]持相同观点。
朱静薇[13]分析了大数据给图书馆的数据管理、数据存储等方面带来的挑战,认为图书馆应从数据管理、数据技术及数据队伍建设上抓住机遇。
2.3 大数据在图书馆的应用领域
国内外研究图书馆如何利用大数据的论文很多,各家观点不尽相同。总体而言,图书馆利用大数据的领域及具体运作方式可以概括为以下七个方面:
(1)信息服务。王捷[14]、和婷[15]都认为图书馆的信息服务工作主要须做好以下几个方面:增强主动服务意识、搭建交互式共享平台、信息检索简便化、有针对性地开展个性化推送服务、加强馆员素质建设。
(2)学科服务。杨亮[16]75-76认为大数据分析平台能够通过图书馆现有数字资源及用户访问记录,分析相关学科领域的科研热点,形成分析报告,为科研人员服务,使他们及时了解本学科的最新科研动态与研究进展。
(3)参考咨询。大数据分析平台能够根据用户以往的咨询记录以及用户的个人信息、浏览记录,预判用户需求,并随着用户提问的不断深入,在后台为咨询馆员提供精确的参考答案[16]75。
(4)个性化信息推送服务。大数据分析平台通过分析用户使用记录就能够推测出其信息需求,改善信息推送的针对性。当用户登录时,系统会自动为其推送其可能感兴趣的信息,如数据库、知识结构、新书采购、兴趣爱好、研究习惯等[16]75,[17]。 李建伟认为大数据给图书馆个性化读者决策采购带来发展机遇[18]。
(5)信息营销。通过大数据分析和处理,图书馆可以准确把握不同用户的信息需求偏好后进行资源配置,设计营销策略、匹配营销渠道,以有限的营销成本实现营销效率的最大化[19]。
(6)信息营销、信息情报的预测性分析。不仅可以通过数据了解用户的行为、意愿、业务需求、知识应用能力及知识服务需求等需要,更可以利用数据对用户将要发生的行为进行分析和预测,从而应对图书馆未来所面对的各种生存危机[20-21]。
(7)新型知识服务。数据挖掘、语义分析等技术可以使海量异构信息置换为更易使用的知识,构建知识网络将有效助力科研[17]64。袁红军[22]则认为要在强化人才因素、优化整合资源的基础上提升知识服务能力,提供知识服务。
2.4 图书馆大数据的发展策略
(1)信息的集成服务与新型资源的收集。毛晓燕[23]74认为要通过工具和手段将现有数据信息集合,并按一定的逻辑关系进行统一组织,建立各类数据仓库。
(2)提高对大数据的分析和处理(挖掘)能力。 韩翠峰[2]122、容春琳[24]94、王天泥[25]43、Qian,H[26]都持该观点。
(3)确立与大数据分析和处理能力相关的知识服务高标准[24]94。张兴旺持这一观点,并将标准具体细化:图书馆员除了掌握传统的图书馆学、情报学、信息管理学等专业理论外,还要熟练掌握信息科学、心理学、教育学、管理学等其他学科知识,特别是大数据、云计算、物联网、移动互联网、数据密集型计算等基础理论和技术思想[27]。毛晓燕[23]74认为还要注重服务内容的时效性。
(4)关注和重视大数据的隐私问题[24]94。王天泥、刘飞也持同样观点,王天泥[25]44认为图书馆在面对数据安全问题时,要以良好的职业形象、完善的保障机制、优异的专业服务、合理合法的数据利用和传播做到发挥大数据的技术优势与不侵犯用户隐私的双赢目的,刘飞[28]也认为图书馆人要树立职业操守和起码的道德底线。
(5)数据服务模式。张国杰[29]认为,在大数据环境下,图书馆的服务模式要做一系列的改变,如改量变到质量同变,改管理信息化到管理数据化,改人找数据到数据找人,改资源整合到智慧传播。杨海亚[30]认为要通过大数据技术打造智慧图书馆,此乃图书馆服务模式创新的方向。
3 国内外图书馆大数据研究的总结与建议
3.1 国内外图书馆大数据研究总结
综上所述,国内外图书馆大数据研究特点可以概括为以下几点:①国内外图书馆大数据研究体系正在逐渐形成,主要表现为图书馆大数据研究论文占整个大数据研究论文的比重较低,但近几年的研究论文呈现递增趋势;论文被引频次普遍较低,权威研究成果匮乏;尚无系统、全面且深入的研究;②国内外图书馆大数据的研究还处在初步发展并不断加强的阶段,主要表现为呈现递增趋势的一定数量学术论文的发表、图书馆界对大数据越来越高的关注度;③图书馆大数据的研究过于单一,大部分研究成果集中在概念、特点、优势、机遇与挑战、应用领域与发展策略等方面。这些研究虽然推动了相关研究领域的发展,但也使得图书馆大数据的研究视野相对狭窄;④图书馆大数据的研究缺乏核心作者群;⑤国内外图书馆大数据的研究缺乏权威成果,国内图书馆学、情报学的权威期刊[31]《中国图书馆学报》《大学图书馆学报》上没有相关研究成果,《图书情报工作》上的相关论文只有4篇,尚不足以形成图书馆大数据研究的完整理论支撑体系;⑥图书馆大数据缺乏案例研究与实证研究,应用研究薄弱;⑦国内外图书馆大数据的文献研究不足,目前只有陆静[32]、薛文静[33]等对国内图书馆大数据的研究进行了文献综述或述评。
3.2 国内外图书馆大数据研究展望
一是从图书馆大数据的研究概况看,未来的横向研究广度还需要进一步拓宽,纵向研究深度还需要进一步深入,图书馆还有一些研究领域如科技查新、专家服务、外文编译、阅览区密集时段分析等尚未有人涉足。二是图书馆大数据的相关理论还有待探索和系统化,应该在现有研究成果的基础上增加权威性、实用性成果。三是借鉴其他领域的大数据相对成熟的研究成果,指导图书馆的大数据研究。总之,图书馆大数据的研究尚处在初步并不断加强的阶段,这一特性说明了现阶段研究的不足,同时也为未来的研究提供了广阔空间,填补研究空白、深化相关理论、强化实践应用应该且可能成为图书馆大数据未来发展的目标之一。
[1]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.
[2]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.
[3]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68,77.
[4]百度百科.大数据时代[EB/OL].[2014-08-22].http://baike.baidu.com/subview/9424571/15364100.htm.
[5]百度百科.大数据[EB/OL].[2014-10-28].http://baike.baidu.com/subview/6954399/13647476.htm?fr=aladdin.
[6]维基百科.大数据[EB/OL].[2014-08-08].http://en.wikipedia.org/wiki/Big_data.
[7]张文彦,武瑞原,于洁.大数据时代的图书馆初探[J].图书与情报,2012(6):15-21.
[8]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-169.
[9]Lee,Chung-Hong,Chien Tzan-Feng.Leveraging microblogging big data with a modified density-based clustering approach for event awareness and topic ranking[J].JOURNAL OF INFORMATION SCIENCE,AUG 2013(39):523-543.
[10]马晓亭.大数据时代图书馆数据可用性:价值、挑战和保障[J].图书馆理论与实践,2014(10):5-8.
[11]姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013(4):52-54,79.
[12]周加艺.大数据与图书馆服务创新[J].情报探索,2014(6):114-116.
[13]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5):9-13.
[14]王捷.大数据时代下图书馆开展信息服务的对策[J].现代情报,2013(3):81-83.
[15]和婷.大数据思维对图书馆信息服务工作的启示[J].图书馆建设,2014(1):64-68.
[16]杨亮,雷智雁.大数据环境下图书馆个性化服务研究[J].现代情报,2014,04:74-77.
[17]杨颖,崔雷,郭继军.大数据时代图书馆知识服务的创新[J].医学信息学杂志,2014(4):63-66.
[18]李建伟.论图书馆大数据在读者决策采购中的应用[J].情报探索,2014(6):76-79.
[19]李业根.基于大数据的图书馆信息营销策略[J].图书馆学刊,2014(10):7-9.
[20]郭振桥,王新玲.浅论大数据在未来图书馆服务中的应用[J].内蒙古科技与经济,2013(16):69-70.
[21]王素凌.浅析大数据在图书馆管理中的应用[J].军民两用技术与产品,2014(7):251-252.
[22]袁红军,宁光芳.大数据时代数字图书馆知识咨询能力研究框架构[J].现代情报,2013(11):25-28.
[23]毛晓燕.大数据环境下图书馆信息服务走向分析[J].图书馆工作与研究,2014(3):72-75.
[24]容春琳.公共图书馆应用大数据的策略研究[J].图书馆建设,2013(7):91-95.
[25]王天泥.大数据视角下图书馆的发展对策[J].图书馆学刊,2013(3):42-44.
[26]Qian,H.PivotalR:A Package for Machine Learning on Big Data[J].R JOURNAL,2014(6):57-67.
[27]张兴旺.图书馆大数据体系构建的学术环境和战略思考[J].情报资料工作,2013(2):12-17.
[28]刘飞.大数据启示下图书馆的服务发展策略[J].农业图书情报学刊,2014(8):175-177.
[29]张国杰.大数据视角下图书馆服务发展走向及策略研究[J].图书馆工作与研究,2014(6):8-12.
[30]杨海亚.提供公共智慧服务:大数据时代图书馆服务模式创新[J].新世纪图书馆,2014(3):10-14.
[31]中国社会科学评价中心.中国人文社会科学期刊评价报告 (2014)[EB/OL].[2014-11-25].http://news.cssn.cn/zx/bwyc/201411/t20141125_1415295_16.shtml.
[32]陆静.我国图书馆界大数据研究评述与展望[J].图书馆杂志,2014(1):20-25.
[33]薛文静,孔岩.基于文献分析的国内图书馆大数据应用研究述评[J].农业图书情报学刊,2014(11):65-69.