APP下载

大数据驱动图书馆业务应用与服务创新

2013-08-13张计龙

上海高校图书情报工作研究 2013年3期
关键词:日志馆藏图书

张计龙

(复旦大学图书馆 上海 200433)

1 大数据环境下图书馆面临的挑战与机遇

随着信息技术的发展,泛在知识环境下数据呈现爆发式的增长并体现出社会化趋势。根据国际数据公司(IDC)的研究结果,2008年全球产生的数据量为0.49ZB(1ZB等于 10亿个 TB),2009年的数据量为0.8ZB,2010年增长为1.4ZB,2011年的数据更是高达1.8ZB,相当于全球每人产生200GB以上的数据[1]。到2020年,全世界所产生的数据规模将达到今天的44倍[2]。一般认为数据量达到PB级(1000个TB)的数据可称为大数据(Big Data)。今天大数据已经成为一种自然资源,业界普遍认为大数据不被利用就是资源浪费。面对大数据的规模和复杂性,现有技术在大数据的获取、存储、搜索、分享、分析和可视化方面显得无能为力,需要对不同业务领域的大数据研究有效处理技术加以应对。

大数据时代的图书馆面临更加巨大的环境压力。从内部资源和服务角度看,图书馆馆藏资源纸本增量不断减少,更多的数字资源可在网上直接获取,例如Google Scholar的海量数字资源。与此同时,商业搜索引擎提供的服务正迅速吞噬图书馆提供的OPAC服务,而无处不在的社会化网络交流服务平台也使得传统的参考咨询服务优势不断减少。从外部需求来看,互联网信息环境发生了巨大变化,如Google与图书馆合作数字化馆藏、原生数字资源开放获取、新技术的渗透影响等,加上经济环境的衰退造成的采访经费压力加大以及大数据环境下教学、科研活动对图书馆资源和服务提出了更高的新要求。

大数据环境下图书馆受到挑战的同时,也面临了新的发展机遇,例如,图书馆各类系统中存在大量的用户访问图书馆资源时留存下来的日志和信息行为数据,包括以下几类:

(1)用户查询书目产生的OPAC日志,存在于图书馆OPAC系统中。

(2)用户借还书产生的流通日志,存在于图书馆集成管理系统中,如Aleph500、汇文等。

(3)用户检索、浏览、下载电子资源产生的日志,广泛存在于不同数据库商的系统中。

(4)用户访问产生的流量数据(包括交换机、服务器、存储阵列),包括:

(a)交换机的出入口流量、上下行组包数、CPU、内存占用率等等,缓存在不同交换机中。

(b)服务器的占用内存、进程数、CPU负载、当前用户数、硬盘卷占用情况,缓存在不同服务器设备中。

对于这些海量的、转眼即逝的数据,图书馆应从中进行有效的数据价值挖掘,以应对解决图书馆面临的各种困难和问题,如:

(1)图书馆各类管理系统、电子资源数据库数量众多,如何保障这些软件系统、网络设备正常运行,提升服务质量?

(2)图书馆购买了大量电子资源数据库,如何实现对这些由不同厂商提供的电子资源使用情况进行统一统计、分析和评估?如何解决应用异构和数据异构?如何应对日益频繁的恶意下载行为?

(3)图书馆采访工作是非常具有挑战性、技术性的核心工作,能否利用不同系统提供的用户访问信息行为数据为采访工作提供辅助决策支持?

(4)对于学术图书馆来讲,如何有效挖掘用户信息行为数据,摆脱目前学科服务重要而又走不出的困境?

2 我国图书馆界大数据研究进展

大数据最近两年来成为IT界、金融投资界的热门关键词,围绕如何解决大数据环境下数据的获取、存储、传输、分析以及可视化应用等关键技术进行了大量研究。2013年3月29日,美国政府推出的“大数据的研究和发展计划”[3],承诺通过提升大数据利用能力,加快科学与工程研究步伐,加强国家安全,改变教学研究工作,从政府层面全面推进大数据研究应用。

我国图书馆界围绕着大数据也开展了一些研究探索,主要成果包括:杨海燕等[4]分析了大数据时代的图书馆数据处理与服务,认为从大量的数据中去分析、挖掘潜在的价值,以便图书馆决策层及时做出决定将成为图书馆的一大主要业务,同时图书馆服务策略也将随之改变;韩翠峰[5,6]从大数据带给图书馆的影响与挑战角度,认为大数据将使图书馆在数据存储、数据挖掘、数据分析等方面面临巨大挑战与考验,通过挖掘隐藏在大数据背后的隐性知识可为图书馆分析与预测未来发展趋势提供支持。同时分析了大数据时代图书馆的服务创新与发展,指出大数据,如用户信息行为数据,将成为图书馆的核心资产;王天泥[7,8]分析了大数据视角下图书馆的定位,提出拓展数据分析与处理业务、重视用户隐私保护等图书馆的发展策略,并阐述知识咨询是图书馆未来咨询服务的新模式,重点讨论了大数据时代的数据资源与人才建设两大知识咨询服务发展驱动因素;张文彦等[9]指出大数据在图书馆事业中的应用由于技术的成熟与完善尚需时日,可能产生一些问题,包括大数据技术可能加深信息鸿沟、个人隐私泄露、大数据人才瓶颈等;朱静薇等[10]分析了图书馆在大数据环境下的挑战,探讨了大数据驱动下的图书馆服务新模式,如基于数据整合的一站式资源服务、基于数据处理的学科知识服务、信息可视化服务以及基于数据挖掘的个性化智慧服务等。

总体说来,我国图书馆界对大数据时代图书馆面临的挑战和机遇进行了比较充分的研究,并从理论上提出了解决思路和新服务模式,但尚没有发现有相关的应用实践案例。

3 大数据驱动的关键技术

为应对大数据环境下图书馆面临的挑战和机遇,需重点研究大数据如何驱动图书馆业务应用和服务创新,并通过实际案例进行实证研究。研究内容包括图书采访辅助决策支持、学科服务支持、电子资源使用的统一统计分析及恶意下载监控、图书馆网络与应用系统运行服务监控四个方面,大数据驱动的关键技术包括数据获取、数据建模、数据分析与展示三个步骤。

图书采访辅助决策支持的数据获取思路包括两部分:首先从图书馆的流通日志和OPAC日志采集用户信息行为数据,然后整合利用从图书馆网络底层获取的统一的用户访问行为数据。其数据处理步骤如图1所示:

图1 图书采访辅助决策支持系统数据获取流程

为了解决不同数据库厂商系统提供的访问日志数据异构和查询统计程序的应用异构问题,学科服务支持系统、电子资源使用统一统计分析及恶意下载监控的数据获取采取从网络底层获取统一访问数据的关键技术,其关键技术包括四个流程:数据采集流程、数据发送流程、数据接收流程、数据解析入库流程。具体见图2。

图2 网络层数据获取关键技术流程框架图

图书馆网络与应用系统运行服务监控在数据获取上主要从系统层面实时获取用户访问数据,技术上采取对有管理权限的应用系统和网络设备安装管理程序代理,可管理到进程级别;对没有管理权限的远程数据库等,采用模拟访问方法获取系统服务状态并进行判断是否有效。在此基础上,采用隐马尔科夫模型(HMM)对访问异常数据进行异常行为报警、预警监控,并通过电子邮件、短信方式通知到相应的系统管理员。这些数据主要为各类系统日志文件,包括服务器操作系统日志、交换机数据交换数据以及所有硬件设备的状态信息等,如CPU使用率、内存使用率等数据。

4 复旦大学图书馆的探索与实践

从2010年起,复旦大学图书馆逐步开始研究如何有效整合利用图书馆采购的大量数字资源、用户访问信息行为数据、各类系统日志数据等来有效应对大数据环境下图书馆面临的日益加大的各种环境压力,挖掘有用的价值信息,提升服务水平和能力。

4.1 图书采访辅助决策支持系统

为了使图书采访决策具备科学的数据支持,系统通过从网络底层、图书馆集成管理系统、数据库厂商等多途径获取图书馆的现有馆藏数据、流通数据和OPAC检索日志数据,构建基于图书馆流通日志的图书借阅数据仓库维度模型和基于OPAC日志的点击流数据仓库,实现对不同类型的数据进行多维度统计分析,目前实现的功能包括:

⑴馆藏分析。目前系统可对学科大类以及大类之下每个二级学科的各种图书数量和比率进行统计分析,并使用表格、饼图和直方图等方式加以可视化显示。能够按照年份、分馆、学科、语种、出版社、作者等多维度组合,对图书馆馆藏书目和馆藏单册进行统计分析。在这些数据分析的基础上,结合图书馆馆藏发展策略和业务需求,可制定进一步优化馆藏的方案。

⑵流通数据分析。系统可对流通数据从读者借阅、读者续借、读者预约和零借阅图书等不同细化层面进行分析。对读者借阅图书情况还可根据需求从学科、出版社、分馆、作者、读者院系等多维度进行组合统计分析;读者续借分析,可根据年月、分馆、院系、学科等维度进行组合统计分析;读者预约的数量和比率可根据年月、分馆、院系、学科等维度进行组合统计分析;零借阅分析是指对当年入库的新书,且在当年借阅量为零的图书按照学科、借阅日期、入库时间、分馆进行分析。以上多维度组合可帮助采访人员更清楚地了解馆藏利用状况,有助于图书馆制定更为合理的馆藏建设政策。

⑶OPAC检索日志分析。这类数据能够反映读者的资源利用趋势和馆藏资源之间的匹配度。目前系统包括两大功能模块,即无结果查询和关键字频次查询,可做关键词、出版年、题名、中图分类号、出版者和著者等角度的频次统计分析。比如,系统可对统计检索返回结果为零而检索频率较高的情况进行分析,一方面可反映馆藏文献未能满足读者需求的情况,另一方面也有可能是读者不了解编目数据而误检,这些可为馆藏建设及用户培训目标提供精准的线索和依据。

另外系统还提供了电子图书使用统计分析、中西文印本和电子图书比照分析以及各类输出报表个性化定制和综合检索功能。

4.2 学科服务支持

利用大数据能更好驱动图书馆学科服务支持,可利用网络底层数据获取关键技术取得以学科为基础的用户检索、浏览、下载电子资源所产生的日志数据。然后分析用户检索、浏览、下载的文献的特征(全文、摘要、关键词),加入时间纬度,归纳出某个学科某一时期用户感兴趣的主题;再利用关联分析、聚类分析、社会网络分析等方法进行学科热点预测和交叉学科分析研究。

以复旦大学图书馆对法学学科的支持为例,对搜集到的2011年4月15日至2011年5月15日期间复旦大学法学专业师生访问中国期刊网的日志数据,运用关联分析、聚类分析和社会网络分析等方法,得出复旦法学师生关注的法学学科排名前三的学科热点包括:

种姓制度、《摩奴法典》、殖民法

当代价值、历史考察、永佃制、永佃权、一田两主

日本能源政策、日本能源法律制度、中国能源立法

通过学科分析并将结论提供给用户,可以为用户的学习和研究提供重要参考,帮助其厘清当前的学科热点。

4.3 电子资源使用统一统计分析及恶意下载监控平台

复旦大学图书馆每年花费大量经费采购电子资源,如2012年电子资源采购经费为1565.17万元[11],每年图书馆都要就续订和新增数据库与数据库商进行艰苦的谈判,而数据库使用统计报告是图书馆谈判的一个重要依据。但目前使用报告均由数据库商提供,数据真实性和统计口径无法判定。同时,复旦大学图书馆订购了230多种数据库,近两年来的年度全文下载量都超过了一千万篇。在电子资源的使用过程中,极少数用户恶意批量下载的行为也时有发生,一旦数据库商的系统监测到类似行为,即自动封禁复旦大学全部用户的访问权,造成复旦大学其他合法用户一段时间内都无法使用该数据库。

复旦大学图书馆通过开发电子资源使用统一统计分析及恶意下载监控平台,解决了图书馆界资源使用统计存在的数据异构和应用异构难题,实现了电子资源统一统计标准,并实现基于内容级进行恶意下载控制。其功能包括:

(1)资源管理 首先对资源本身进行了配置,将资源分成平台、网站、数据库、电子期刊、电子图书等类别,并根据学科分类列表对数据库、期刊进行了分类,具体分为:电子期刊和图书管理(有批量导入和导出功能),平台、网站和数据库管理,学科分类管理,读者分组管理。

(2)读者使用统计分析 本模块以读者视角产生统计报表,包括:读者使用行为查询、读者访问文献信息查询、读者分组管理、读者分组使用资源统计、读者分组使用数据库统计、读者使用行为统计、读者原始访问统计、读者原始访问查询。

(3)资源使用统计 资源使用统计以数据库被访问视角生成报表,包括数据库使用报告、期刊使用报告、图书使用报告等报表。可按照日期维度对数据库和期刊的访问量、下载量进行统计;实现对数据库、电子期刊、电子图书、文摘的使用统计,还可进行读者分组使用数据库和电子资源的统计。

(4)Counter统计报告 提供基于Counter Release 4版本的统计报告,包括期刊使用报告、图书使用报告、数据库使用报告和平台使用报告。

(5)流量监控和用户行为监控 可监测一个或多个IP的实际网络流量信息和用户访问行为数据(包括检索、浏览、下载)并以列表形式显示;若流量或单位时间内某种类型访问次数超过配置的阀值,界面提供报警显示,对指定电子资源进行过量下载判别、预警通知和控制。

复旦大学图书馆自2012年9月开始应用该平台。2013年3月初,某公司通过爬虫软件对复旦图书馆的馆藏书目数据进行非法下载,系统部的工作人员通过该平台及时封禁非法IP,保证了馆藏书目系统的正常使用。

4.4 图书馆网络与应用系统运行服务监控

复旦大学图书馆网络与应用系统服务监控平台包括6个功能模块:交换机管理、服务器管理、模拟访问管理、数据库管理、特定进程管理和检测项管理;4个管理模块:用户登录、用户管理、组管理、在线用户列表;5个显示模块:查看服务状态、拓扑图显示、MAC地址、算法分析和帮助。其功能模块结构图见图3。

目前该系统已于2011年9月份在复旦大学图书馆部署运行,已对18台网络交换机、5台具有管理权限的服务器及运行的特定进程、100TB容量存储阵列、200多个远程数据库资源进行模拟访问监测,基本达到预期效果,例如复旦图书馆的Aleph 500自动化系统,其服务器硬盘有一卷曾因系统数据不断增大,空间被用完,导致系统服务停止,影响到读者的使用,此问题出现后,花费了大量时间紧急进行数据和索引恢复,重新清理出空间后方解决问题。监测平台部署后,对该服务器的硬盘卷的剩余空间实施实时监测,设定剩余空间小于20%时自动发送预警通知,有效避免了问题再次发生。

5 总结

信息技术的发展给图书馆带来的不仅仅是挑战,有效利用大数据技术可驱动图书馆业务更好地发展,通过大数据技术实现对图书馆海量非结构化数据的获取、数据建模和数据可视化分析利用,如各种类型的数字资源、用户信息行为数据、系统日志记录等,能对图书馆馆藏建设和用户服务实现数据支持级别的精准科学决策,建立图书采访辅助决策支持、学科服务支持、电子资源使用统一统计分析、恶意下载监控、图书馆网络与应用系统运行服务实时监控等,由此逐步达到科学管理、深化服务,提升用户体验的目的。进一步的研究将探索整合来自图书馆外部的用户信息行为数据,如科学数据,并尝试通过联合多个学校共享用户信息行为数据等,实现更大范围、更深层次的大数据价值挖掘和服务。

1 IDC.The Digital Universe.[2013-06-16].http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.

2 IDC.The Digital Universe Decade-Are You Ready?[2013-06-16].http://www.emc.com/collateral/analyst-reports/idc-digital-universe-are-you-ready.pdf.

3 The White house.Big Data is a Big Deal.[2013-06-16].http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.

4 杨海燕.大数据时代的图书馆服务浅析[J].图书与情报,2012(4):120-122.

5 韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.

6 韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.

7 王天泥.大数据视角下图书馆的发展对策[J].图书馆学刊,2013(3):42-44.

8 王天泥.知识咨询:大数据时代图书馆的知识服务增长点[J].图书与情报,2013(2):74-77.

9 张文彦,武瑞原,于洁.大数据时代的图书馆初探[J].图书与情报,2012(6):15-21.

10 朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5):9-13.

11 复旦大学图书馆.2012年度图书馆经费使用情况表.[2013-05-18].http://www.library.fudan.edu.cn/main/info/3291.htm

猜你喜欢

日志馆藏图书
馆藏
一名老党员的工作日志
图书推荐
扶贫日志
博物馆的生存之道:馆藏能否变卖?
欢迎来到图书借阅角
知还印馆藏印选——古印篇
班里有个图书角
游学日志
介绍两件馆藏青铜器