APP下载

大数据与图书馆信息服务工作的变革

2015-02-12浙江中医药大学图书馆杭州310053

图书馆 2015年9期
关键词:信息服务大数据技术大数据

沈 杰(浙江中医药大学图书馆 杭州 310053)

大数据与图书馆信息服务工作的变革

沈 杰
(浙江中医药大学图书馆 杭州 310053)

〔摘 要〕文章通过对大数据相关概念和特点的概括,分析图书馆大数据的类型、用户使用数据的内涵和层次结构,论述国内外图书馆应用大数据技术开展信息服务的基本情况,指出大数据可以提升图书馆信息服务的核心竞争力,并从战略规划、标准化与规范化、数据门户建设和用户隐私保护等方面对图书馆大数据提出了建议和要求。

〔关键词〕大数据 大数据技术 用户使用数据 关联文献推荐 信息服务

数字化、移动化、智能化和大数据化已经成为当今社会的主要特征。同时,开放获取运动的蓬勃发展,语义技术的不断成熟则使信息知识化以及知识关联、重组和计算成为可能。[1]移动互联网、传感网络、社交网络等的广泛应用和普及,催生了数据资产的爆炸式增长,将人类社会迅速推进到大数据(big data)时代。目前,对数据的识别、管理、计算和应用已经引起各行各业的关注。世界著名企业,如IBM、oracle、惠普、腾讯、百度、阿里等都纷纷加入到大数据应用研究的行列,通过收购与大数据相关的软硬技术实现大数据的技术整合,力求在大数据时代取得更加有利的竞争地位。同理,大数据技术也为图书馆服务的转型与提升提供了前所未有的机遇和挑战。近年来,国内外图书馆都在转变观念,逐渐重视图书馆各类数据的收集、存储和管理,在用户数据管理软件开发,开展数据创意服务,运用用户数据实现关联文献推荐服务等方面取得了一定的进展。为此,本文结合图书馆大数据的特点,对大数据在图书馆的应用以及存在的问题进行探讨。

1 图书馆大数据的内涵

随着数字化、网络化技术的发展,图书馆的资源类型日益丰富,数据类型日益繁多,用户的使用数据迅猛增长。尤其是随着RFID技术在图书馆的运用,图书馆虚拟咨询和交互平台的开放,免费WIFI在图书馆的开通使用,使得图书馆的数据资产迅速增长,如何科学有效地收集、存储、管理这些数据就显得日益迫切。

1.1 大数据的特点

大数据是继云计算、物联网之后信息技术融合应用的新焦点。2008年9月,Nature推出《大数据》专刊,全方位介绍了大数据问题的产生及对各个领域的影响。大数据的研究机构Gartner认为:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。[2]大数据具有四个特点:① 数据量巨大(Volume), 从TB 跃升到PB、EB 或ZB 级别;② 数据处理速度快(Velocity),数据处理遵循1秒钟定律原则,可从各种类型的数据中高速度地获取高价值的信息,这和传统的数据处理技术有着本质的不同;③ 数据种类繁多(Variety),大数据既包括结构化数据、半结构化数据,也包括非结构化数据,例如:视频、音频、图片、地理位置信息等;④ 价值密度低(Value),价值密度的高低与数据总量的大小成反比。

1.2 图书馆大数据的类型

一般而言,图书馆通常包含图书馆业务数据、文献数据和用户数据三大基本类型数据。图书馆业务数据指图书馆各个业务部门和图书馆人员、经费、馆藏和服务等日常业务工作的管理数据。图书馆的采访、编目、数字化资源建设、参考咨询等业务活动产生的数据首先是工作状态数据,如每个馆员的业务量、业务内容、业务质量;其次是相关业务交流产生的数据。再次是对外服务时产生的数据,比如图书馆各个业务中心的工作日志就是一项数据。这种数据可以是文本、音频、视频,收集这种数据可以分析图书馆各项工作情况,从而获得改进内部业务工作的决策参考依据,强化自身建设。图书馆文献数据包括图书馆历年购置的各类文献资源(包括数字的、纸本的)、图书馆自建的书目数据库和文献数据库、各类网站、网页等。用户数据包括用户的个人信息、个人网站、个人博客、微博、微信和用户对图书馆各类文献资源的使用数据等内容。从数据角度而言,用户数据应是图书馆大数据的核心部分,也是目前难以全面有效的搜集、管理的部分。

用户使用数据通常可以划分为三类[3]:一是用户对图书馆资源的访问数据;二是用户的注意力数据,如系统的导航记录,页面的浏览记录,菜单的选择与检索等相关数据;三是用户与图书馆的互动数据,用户对图书馆资源的评价、标签、注解、评分、推荐、下载、借阅等活动的数据,这些数据一定程度上反映用户的兴趣、爱好和使用意愿。

随着网络科技的发展与图书馆创新服务的开展,用户使用数据的来源越来越多数据种类日益复杂,且大多是非结构化和半结构化的数据,搜集、存储、管理和分析存在诸多困难。在大数据环境下,图书馆能否全方位、多途径地采集、存储、加工和整合用户数据,已成为图书馆管理与服务效率提升的关键因素。

图书馆用户使用数据的采集,通常应该做好如下工作:首先,应进行顶层设计,建立图书馆大数据管理的科学架构,考虑业务工作和未来发展的要求,建设图书采访辅助决策支持子系统、学科服务支持子系统、电子资源使用统一统计分析子系统、网络安全运行与应用监控子系统等;其次,根据本单位的实际情况,选择主流的技术进行自主开放,或者引进影响较大、使用面广的成熟系统,形成包括数据采集、数据存储、数据管理、数据分析和应用的基础体系,为各类数据的整合、关联、重用和共享提供保障;再次,要创建或引进从网络底层获取统一数据的关键技术,例如,从图书馆流通日志和OPAC日志中采集数据,通过“日志文件”、“数据转换”等步骤整数据;或者,利用数据商提供的日志数据,运用从网络底层获取统一数据的关键技术,解决不同数据库商提供的数据异构问题,通过数据采集流程、数据发送流程、数据接收流程、数据解析入库流程等步骤,解决不同来源异构数据的整合问题。

2 大数据在图书馆的应用现状

随着数字化、网络化、智能化和大数据时代的来临,人书相关、人人相联、文献关联、自动推送、智慧服务的模式应运而生。[4]人们获取信息、阅读信息、科学研究的行为和实验操作过程以及由此产生的信息和数据等都将被数字化记录,通过个体或团体信息行为、信息习惯的搜集、分析与研究等大数据的工作,将重构图书馆信息服务的模式。近年来,国内外图书馆已经通过数据分析、挖掘等工作,开展了用户使用数据的文献关联推荐服务、用户使用数据的创意服务,使部分用户对图书馆的数据创新服务有了一定的体验。

2.1 国内图书馆大数据应用进展

大数据创新图书馆服务工作的内容是广泛而又深刻的,但是,目前我国图书馆在大数据技术的运用上尚处于尝试阶段,有的只是在管理与服务理念上有了一定的转变,或者只是在局部的工作上对大数据的技术进行开发与运用,离真正的大数据技术的要求还存在差距,但是这些尝试值得我们去肯定,具体的应用表现在以下几个方面:

(1)收集用户使用数据,开展数据创意服务。2013年,厦门大学图书馆提取毕业生的借阅历史、入馆记录、论文题目等,通过创意图文设计与ROR敏捷开发,有针对性地开展个性化服务。这份“小清新”毕业贺礼——“圕·时光”[5],给毕业生一份难忘的记忆,受到了热捧,在国内图书馆和网络界产生了轰动。与之类似,华东师范大学图书馆也开展“图书馆记忆”的数据创意服务。还有,2012年春节上海图书馆的拜年邮件:一份个性化的年度阅读账单“我的悦读2012”,展示了每位上图读者的阅读足迹。[6]

(2)大数据管理软件的开发。据报道,国内已有图书馆正在开展大数据管理软件的开发工作,并取得了一定的进展。复旦大学图书馆自2010年起开始研究如何有效整合利用图书馆采购的大量数字资源、用户访问信息行为数据、各类系统日志数据等,挖掘有价值的信息,提升图书馆的服务水平和能力。[7]武汉市图书馆已开发了一项新的读者管理软件,该软件可以分析每位读者的阅读习惯、潜在需求、馆藏图书与读者需求差距等信息,还能通过每一位读者的阅读需求,推送个性化的阅读书目,让读者享受“淘宝式”的阅读体验。[8]大数据管理平台和管理软件的开发并非易事,有个逐步提升、改进、发展和完善的过程。大数据管理软件应该提供包括实时数据的采集、处理、反馈、传输、存储、展示、分析等多项功能,并具有一体化、标准化的解决方案。

(3) BX与关联文献推荐服务。BX是Exlibris公司开发的学术推荐工具——依据洛斯阿拉莫斯试验室(LANL)的研究成果和全球典型SFX用户的使用日志提供文章级别的学术推荐和关联。BX推荐的文章列表会在读者点击SFX菜单时显示,无须安装插件。目前全球有250多家使用SFX的图书馆应用了 BX服务。BX服务商创建了大量的用户使用数据信息库,以增强其BX的文章推荐服务。在我国,CNKI全文数据库已经初步实现了基于用户使用数据的关联文献推荐功能或类似技术,该数据库的检索平台中已经提供类似“同行关注文献”、“引证文献”的关联推荐;在CADAL数字图书馆则给用户呈现“搜索TOP10”、“点击TOP10”之类的推荐。但是,这些技术还没有商业化,我国图书馆对于基于用户使用数据实现关联文献推荐服务的软件工具主要是通过引进实现的。目前,我国主要有清华大学图书馆和上海交通大学图书馆开展BX服务。[9]

(4)图书采访辅助决策支持。图书馆文献资源的规划、决策需要科学的数据支持,若能掌握读者对本馆各类数字资源的检索、浏览、下载、引用等使用数据,比较分析不同学科、不同数据库的篇(本)均或人均使用成本,就能为数据库资源的增减、续订、调整等工作提供依据,为图书馆文献资源建设的优化配置提供方案,提高有限经费的使用效益。复旦大学图书馆通过树立大数据理念,运用数据获取、数据建模、数据分析等大数据驱动的关键技术,利用关联分析、聚类分析、社会网络分析等方法,率先开发出大数据管理系统,为图书采访辅助决策、学科服务等工作提供支持,提高了图书馆的管理水平和服务能力。

2.2 国外图书馆大数据应用进展

国外图书馆对学术用户使用数据的研究和学术文献的推送服务,用户数据的标准、规范、共享和交换等工作都开展得比较系统,对于用户数据的管理和服务意识都比较强。

(1)基于检索和流通数据的关联文献推荐。2002-2007年间,德国卡尔斯鲁厄大学图书馆将重复购买理论成功地应用于图书馆OPAC,以统计分析用户不同时段内的检索需求行为,并成功开发出BibTip推荐系统。[10]2005年,英国Huddersfield大学Dave Pattern基于图书馆集成系统中的流通数据,在OPAC中按照图书的借阅次数高低向用户进行阅读推荐服务。

(2)利用用户与图书馆互动数据开展关联文献推荐服务。在Web2.0的环境下,用户会对感兴趣的文献通过标签对其进行标注,或是对其发表个人评论。这种标注行为通常被认为用户对相关内容具有个人偏好,可以此为线索进行个人推荐。由此,在图书馆领域就出现了一个个人图书分享的典型网站(Library Thing for Libraries,LTFL)。LTFL是Library Thing于2007年 针对图书馆提出的一项服务,该服务利用存储在Library Thing中的数据,通过标签实现阅读的社会化关联,并获得导读与推荐服务。Library Thing标签以标签云或者标签列表的形式呈现在图书馆OPAC中。[11]通过标签浏览,用户可以看到使用同一标签的所有图书,这就通过共有标签这一用户共同行为实现了相关图书的推荐服务。

(3)基于SFX使用数据实现关联文献推荐。2000年,美国Exlibris公司推出的SFX是实现不同来源、不同类型的数据库以及这些数据库与图书馆OPAC之间有机联系的电子信息资源整合技术。Exlibris公司研发的BX推荐系统,就是基于SFX中所记录的用户数据,通过数据的整合和挖掘实现单一用户社区和信息服务所不能实现的增值服务。我国图书馆有关用户使用数据的管理起步较晚,很多图书馆还没有起步,即使已经开展用户数据存储的图书馆,也处在单一机构单兵作战的摸索阶段,缺乏国家层面的整体行为和战略规划,标准化、规范化还没有提上议事日程,跨机构、跨媒体、跨行业的共享与合作无从谈起,用户隐私权的保护缺乏基本的法律意识,相关用户使用数据的处理技术也处在引进和消化阶段。

3 大数据提升图书馆的核心竞争力

3.1 大数据提升图书馆的管理效能

随着数字技术、网络技术的快速发展,图书馆要确立以互联网思维、大数据理念和智能化发展为核心的战略思路,打造知识管理的平台,拥有智能分析的能力。尤其是随着关联数据、语义网、本体和云计算等技术的发展以及科学数据、科学资源共享制度的建立,一种由开放的科学资源和数据以及与之相关的技术和协议组成的新的科学研究支撑方式和交流方式正在形成[12],对现有图书馆的管理和服务方式提出了前所未有的挑战。为此,图书馆必须确立新思维,树立新观念,运用新技术,以适应快速发展变化的信息生态环境。

大数据技术是提升图书馆自身的洞察力和管理决策科学性的关键技术。图书馆通过对系统管理数据、服务系统运营数据和用户服务数据,以及社交网络数据、移动互联数据、传感设备数据、科研共享数据等用户大数据的存储、管理和挖掘与分析,可以发现图书馆在人员安排、空间布局、资源配置与运营模式中存在的问题,可以发现数据资源之间、用户与数据库之间、不同数据库之间的相关性和融合性,可以发现现有文献配置与文献经费使用中存在的不足,发现用户需求、阅读方式和阅读取向的变化,为图书馆科学决策,及时调整人员、经费、文献、空间、技术、服务等方面存在的问题提供依据,为图书馆系统运营、资源分配和用户服务过程的准确分析、预测和评估提供数据保障,从而提升图书馆管理和服务的效能。

3.2 大数据提升图书馆的服务水平

随着大数据分析与应用体系的建立,图书馆将真正完成以“用户为中心”的理念向以“用户服务为中心”的能力转变,将建立以个性化推送为模式,以自动、智能、快速、精准服务为标准的有效体系。图书馆在大数据的管理与应用中,其重点是考虑对大数据资源的分析、判断、评估、决策和应用,其核心是考虑大数据资源的流动性、融合性、关联性和共享性。图书馆大数据的价值转化主要分为“数据——信息——知识——智慧”四个层面[13],智慧管理和智慧服务是图书馆大数据应用的最高层次和最终目的。

图书馆通过利用大数据资源的信息分析和价值挖掘,一方面,可以准确掌握读者的阅读行为、阅读个性、阅读兴趣、阅读社会关系等信息,从而制定符合读者阅读兴趣、阅读需求的服务模式,实现有效的个性化推送服务、跟踪服务,并进行个性化服务有效性的评估和管理;另一方面,可以对读者群进行分群、分层的管理与分析,通过读者群资源、研究团队的阅读行为、阅读模式、阅读终端类型、阅读社会关系和位置信息等数据资源,利用数据挖掘、聚类分析和相关分析等技术,对用户进行精准的分群,并根据分析结果对用户群进行信息资源的精准推送服务,同时优化图书馆信息资源的配置,改变资源购买的决策模式,从而提升图书馆服务的能力和水平。

4 我国图书馆开展大数据技术应用的建议

我国图书馆的大数据应用与发达国家图书馆是存在明显的差距的。跨机构、跨数据库、跨系统、跨区域的共享、管理与积累缺少应有的基础和条件,这对长远的发展很不利,必须学习发达国家的先进经验,进行顶层设计,解决用户使用数据的标准化和规范化描述和管理问题。

(1)必须立足长远,确立大数据的合作发展战略。大数据是关于全媒体、全产业链、全样本的数据收集和分析的技术性工作,收集、拥有或掌握数据处于非常重要的地位。打通产业链,实现跨机构、跨数据库、跨平台、跨系统、跨区域的共享、联合、合作处于非常核心的环节。单一的机构、或者单个的图书馆将很难生存,只有与信息的生产者、信息管理者(平台)、信息集成商或供应商、信息搜集者、信息服务机构、信息消费者等行为主体形成共生、共享、共融、一体的信息生态体系,图书馆才会有未来,才会有生命力和竞争力。

(2)必须建立标准,实现用户数据的标准化和规范化。对于开展大数据服务工作来说,单一机构的用户数据是存在很大的局限性的,而对于多种渠道多种来源的用户数据要实现统一的存储和管理,实现数据的可用性,达到一致性、精确性、完整性、时效性和实体同一性[14],标准化和规范化是最基本的要求。国外研究用户使用数据的一系列项目,无论是全球性出版商、机构库等联机期刊使用统计的COURTER(Counting Online Usage of Networked Electronic Resources)计划,还是响应、收集电子资源用户使用数据的SUSHI(The Standardized Usage Statistics Harvesting Initiative) 项目[15],都非常注重数据标准的制定和规范,这就为数据共享、交换、管理、挖掘奠定了良好的基础。

(3)必须转变观念,建立共享的数据门户网站。今后图书馆之间的竞争不只是服务人员的意识、技术和能力的竞争,更是服务模式、服务手段、服务的有效性和精准性的竞争。只有实现用户数据的开放,建立数据门户网站面向研究和应用收集和共享用户数据集,提高用户数据的再利用程度,降低数据获取门槛,开发对用户数据标准化描述的方案,使数据门户中的数据具有可用性,才能将学术资源推荐从原型系统走向实际应用。

(4)必须遵守法律,保护用户数据的个人隐私。用户数据事关用户的个人隐私,图书馆对用户浏览、访问、阅读、检索、下载、标注、评论、推荐、购买等使用数据的存储既要遵守法律,保护个人的基本权益,保护用户的个人隐私,同时也不能影响数据的关联、统计、分析等工作,这直接关系到图书馆大数据应用的成败和未来的发展。

5 结语

大数据是未来图书馆理想的技术发展形态,也是图书馆提高自身服务能力,实现由信息服务向知识服务和智慧服务转型的必然选择。就目前的情况看,大数据技术的研究尚处于起步阶段,面临的困难、问题和挑战很多,要走的路还很长,但是,只要图书情报界同仁共同努力,梦想总有实现的一天。

(来稿时间:2015年6月)

参考文献:

1. 孙坦. 开放信息环境:学术图书馆信息资源建设的重定义与再造.中国图书馆学报,2013(39):9-17

2.陈宏.大数据时代的无线电管理信息化创新之路. [2015- 02-13].http://www.ce.cn/culture/gd/201501/21/t20150121_ 4395005.shtml

3. 樊伟红等.图书馆需要怎样的“大数据”.图书馆杂志,2012(11):63-68

4. 乌恩.智慧图书馆及其服务模式的构建.情报资料工作,2012(5):102-104

5. 厦大“圕·时光”上线 众毕业生留恋大学时光.[2015-02-11].http://news.xmnn.cn/a/xmxw/201306/t20130618_3373012.htm

6. 上海图书馆推出“年度阅读对账单”.[2015-02-13]. http://www.foods1.com/content/2008858/

7.张计龙.大数据驱动图书馆业务应用与服务创新.上海高校图书情报工作与研究,2013(3):1-6

8. 武汉市图书馆调研日志.[2015-02-11].http://www.whxc.org. cn/2014/ 0623/8278.shtml

9. 施晓华等.基于用户使用数据分析的图书馆学术推荐服务.图书馆杂志,2011(9):21-25

10. 王丹丹.基于用户使用实现文献推荐的实践与启示.情报资料工作,2014(3):80-84

11.Carmagnola F,Cena F,Cortassa O,et al. Towards a tagbased user model:How can user model benefit from tags?.Lecture Notes in Computer Science,2007(4511):445-449

12. 唐义,肖希明.关联科学:一种全新的科研支撑方式.图书馆杂志,2013(8):4-10

13. 马晓亭.基于用户服务价值的图书馆大数据价值分析与服务质量保证研究.图书馆,2014(5):95-98

14. 李建中,刘显敏.大数据的一个重要方面:数据可用性.计算机研究与发展,2013,50(6):1147-1162

15. 闫晓弟,李娟.SUSHI——网络电子资源利用与统计数据获取协议.大学图书馆学报,2009(2):50-54

〔分类号〕G252

〔作者简介〕沈杰(1963-),女,本科,浙江中医药大学图书馆馆员,研究方向:图书情报信息与期刊工作。

The Big Data and the Reform of Information Service of Library

Shen Jie
( Library of Zhejiang Chinese Medical University )

〔Abstract 〕Through the generalization of the definitions and characteristics of big data, the paper analyzes the type of big data, and the connotation and hierarchy when the user used, and the situation of the application of big data in the information service of the library at home and abroad and the content how the big data did promote core competencies in the information service of the library and the pathway how the big data did realize personalized information push service of the library are also discussed. Some suggestions and requirements from the strategic planning, standardization, normalization, data construction and protection in user privacy of library big data are raised at the same time.

〔Keywords〕Big data Big data technologies User data Recommendation for related literatures Information service

猜你喜欢

信息服务大数据技术大数据
公共图书馆科技创新服务探析
农业高校图书馆专利信息服务研究
基于价值共创共享的信息服务生态系统协同机制研究
大数据技术在电气工程中的应用探讨
大数据技术在商业银行中的应用分析
微信公众平台在高校图书馆信息服务中的应用研究
基于大数据背景下的智慧城市建设研究