基于网络行为的图书馆数字资源评价方法研究
2015-01-08刘慧
刘 慧
(南京晓庄学院图书馆,江苏 南京211171)
1 研究背景与意义
1.1 研究相关概念
数字资源也称电子资源,是文献信息表现的形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布、存取、利用的信息资源的总和。主要是由图书馆购买的非纸本的各种参考资源,包括电子期刊、电子图书及各种类型的专业数据库和其他各种电子参考资源[1]。图书馆数字资源的使用统计分析是图书馆数字资源建设的重要组成部分,其目的是检测图书馆数字资源建设和利用的情况与水平。目前,数字资源越来越多,并且价格也呈逐年上涨趋势,而购买资源的经费是相对有限的。在这种矛盾日益加剧的情况下,在数字资源的购买和使用过程中,就需要有一套比较合理的评价和分析体系。通过一系列评估指标的评定,为图书馆数字资源的购买、成本计算、数字资源的利用及相关服务提供科学合理的依据[2]。以此来作为图书馆在数字资源建设和使用方面的决策参考。因此,定期开展数字资源的使用统计分析,对图书馆数字资源建设有着重大意义。
1.2 数字资源的使用统计标准化
国内研究分为两个方面:一是数字资源使用数据的获取方式;二是统计数据的分析和利用[3]。徐革[4]将国外数字资源利用统计数据的获得模式归结为基于数据库商提供的利用统计数据获得模式、基于Web 调查的利用统计数据获得模式、基于图书馆基础架构的利用统计数据获得模式3 种。陈陶等[5]以大连理工大学图书馆数字资源的采购和利用情况为例,分析了全年访问数字资源总量统计、数字资源月统计数据、外文期刊全文数据库全年下载量统计、利用率最高的期刊统计等统计项目的含义。
随着高校图书馆有限经费与学校教学、科研的数字资源需求矛盾的日益增加,数字资源绩效评价成为保证图书馆采访工作公平和效率的重要措施[6-7]。目前,我国高校图书馆数字资源绩效评价还没有一个系统的理论框架,缺乏适用的绩效评价和绩效分析的实践方法[8-9]。高校图书馆所购买的数字资源,具有访问的有效范围,抓住这个有效范围为突破点,从读者访问的网络行为进行统计,这样可以更加客观地反映出数字资源的使用。
当前数字资源的利用率统计存在一系列的问题:通过数据商的访问量统计,出于利益的考虑,数据不准确乃至弄虚作假。访问量统计不准确,不符合标准。统计数据不规范,数据不完整等情况时有发生。本文通过对数据统计的问题进行客观研究,分析出各自的利弊。
2 研究方法
2.1 数字资源数据收集研究
数字资源数据收集,现在一般的方式是通过数据商提供的后台进行统计,例如通过中国知网管理平台可以进行使用情况统计,如图1 所示:
图1 中国知网年度统计
从图1 中可以看出登录次数、检索次数、浏览次数和下载次数这几个基本的使用方式的具体数据。针对中国知网的数据收集的方式比较容易,但是还不全面,由于本地镜像登陆检索和浏览下载不在此统计范围之内。数据的收集是数字资源评价的基础,收集到客观的数据是评价的关键。高校的数字化校园建设,提供了一个数据收集的平台。通过统计网关的方法,对各个用户的使用情况进行分析,提取所需要的数据,可以得到我们所需要的数据收集信息。通过校园的网络结构,加载网关统计服务器的方式,用以统计相关数据,如图2 所示。
通过网关统计系统,统计校园网络中的相关访问数据,例如登陆次数、检索次数、浏览次数和下载次数等等。其应用原理在于通过对整个校园网络中访问数据网关进行收集,筛选出我们所需要的网关信息,可以得出访问量和下载量的数据。这样做,可以避免人为的干扰,得出的数据较为准确。对图书馆而言,可以参考这些数据,为下一年的数字资源采购做决策支持。
数字资源数据的收集,国外通过数据关系系统的开发来尝试解决使用数据的获取性问题。这种方式符合国际的数字资源的评价标准,但是不符合中国的国情。国内对这个方面的研究比较薄弱,仅有少数学者对这个领域进行了相关的研究。例如香港科技大学图书馆自行开发了一套用以整理、分析纸本和电子期刊使用状况的开放源代码软件JURO 系统[10]。迄今为止,成功具体的应用较欠缺。
2.2 数字资源数据分析研究
数字资源数据是否有效,需要进行数据分析,数据分析的意义就是甄别数据的真实性。数据分析在高校中,最可靠的办法就是依托高校数字化校园的身份认证系统,例如通过EZProxy 的认证方法提供URL 外置认证,设置认证网址,发送读者账号和密码,返回正确的结果,这种方式理论支持LDAP、Radius、数据库多种方式。与图书馆管理系统的集成,可以直接修改读者密码等操作。
数字资源使用数据的收集,通过建设校园网络的网关服务器即可进行统计。数据的真实有效性原则,要深入进行详细的读者群分析,通过校园网络的实名认证系统对相关读者的使用信息进行分析。部分高校采用数字资源访问管理与控制系统,对数字资源使用进行规范管理,同时对数字资源的使用进行一定的监控与分析功能。例如[11]清华大学图书馆与信息网络工程研究中心合作开发了电子资源访问管理 与控制系统,对用户访问电子资源进行管理和控制。
图2 数字资源校园网络内分析结构图
3 数字资源统计与分析管理功能的实现
数字资源的访问管理,是系统对用户实时监控的过程,基于用户的访问流量信息以及访问频率来判断用户行为是否合理,对用户的访问数字资源行为进行记录。一般的记录行为是通过访问日志进行。分析系统通过调取日志信息,完成对数字资源的访问统计,通过日志分析模块,完成对各个数字资源使用频率行为分析。如图3 所示,用户访问网络的时候,必须通过认证系统,才能够正常访问网络资源,而通过访问网络的网关数据统计模块,可以对用户的访问行为进行有效的统计分析,从而客观的得出数字资源使用率数据。
图3 用户访问的过程
3.1 日志的写入
日志是数据写入的痕迹,通过对日志的来源数据进行规范化写入,可以得到更加详细的数据用以分析。日志信息是每个用户在使用网络的过程中留下的网络痕迹,通过对这些痕迹数据中有效数据的获取,可以得到原始的数据。
3.2 数据采集
数据采集,即采集有效的数据,采集设备就是网内的服务器,只是各个服务器的功能不同,对于不同的服务器,采取的监控参数也不一致。采集设备的类型根据其功能类型可以分为三类:linux 设备(监控类服务器)、Oracle 设备(存储数据服务器)以及WAP GW 设备 (网关服务器)。数据采集功能通过对服务器的访问日志采集,收集有效的访问记录信息,达到采集的功能。
3.3 实时监控管理
实时监控主要是展示接口服务器的基本属性,其中可用性是指当前是否有响应。健康状况是展示某个级别的告警信息。实时监控管理,主要是对统计分析系统的各个模块进行监控和告警。同时保证在出故障以后能够正常工作,主要有两种方式:一种是系统自我修复;一种是人工修复。该功能是使系统能够正常运行的必要模块之一。
3.4 统计分析功能
统计分析功能是网关统计的重要组成部分,对所采集的用户网络数据进行统计分析后,以设计好的模式展现出来,例如图表形式等。它可以让图书馆管理者和资源建设部门了解数字资源使用的实际情况,以至于更好的规划好下一年度的数字资源的采购计划等。同时,对这些数据要有备份的功能,这样可以与不同时间段的数据相互对比,产生的结果是数字资源使用的最新状况,以便于资源建设的实时调控。
统计的数据来源就是用户的上网日志记录,是来自于LogParser 解析后的文件入到数据库后形成的24 小时原始日志表。
3.5 系统管理功能
系统管理功能模块提供系统的所有管理功能,包括各种配置功能、统计功能以及各种实用工具,除了上述介绍的日志写入、数据采集、实时监控管理和统计分析功能以外,还包括用户权限的管理、角色权限的管理等。
4 系统的综述
高校图书馆的服务对象为教师和学生,由于现有的高校都进行数字化校园的建设,身份认证方式上一般采用实名认证的方式,即教师使用工号,学生使用学号进行认证登陆数字化校园系统进行相关服务功能,图书馆系统的相关功能是支持认证系统的基础。高校数字资源的评价,主要难点在于真实使用数据的获取,如何获取到真实的使用数据是图书馆管理者和资源建设部门最关心的一个问题之一。结合以上所述,本文研究的方法主要是与学校数字化校园配合起来,对读者(教师和学生)的网络行为进行分析,通过网关服务器以及相关的软件,统计出与图书馆所购买或者即将购买的数字资源统一网关地址信息,得出可靠的使用信息的方法。
其中,现在高校数字化校园的平台已经逐步实施,身份认证系统是对读者上网的一种实名认证方式,如图1 中的身份认证系统,可以对该读者的网络访问信息进行身份识别,通过网关统计系统可以对该读者访问图书馆所要求统计的相应数字资源网站的IP 进行统计分析,得出实时的访问数据。图中的网关统计系统的功能就是对核心交换机的出口的访问数据进行统计分析,抓取出需要统计的相应数据的功能。以上功能是对远程包库访问的数据进行相应统计的功能。除了读者使用远程数字资源以外,本地资源的使用的访问也必须计算在统计范围之内,因为有一些数字资源既提供远程资源,又提供本地安装资源,所以,为了客观公正性,必须要同时考虑到本地资源访问的统计。这部分资源的访问,应该是两者之和。所以,图中的网关统计系统,在其功能方面,必须也要包括本地资源访问统计的功能。除此以外,现在图书馆的用户使用不仅仅限制在校园之内,VPN 的广泛使用给统计的准确性也提出了一个不小的技术性的难题,由于VPN 的工作原理,给现有的网关统计系统在兼容性方面造成一定的困难。由于VPN 访问的过程中读者的网络环境各异,造成通过VPN 访问图书馆数字资源的过程中不能正常下载的现象,但是网关统计系统中,记录不能是已经下载的现象,这就造成统计的不准确的现象。
体系的建立,根据校园网络的特征,现在数字资源的访问包库用户,一般对IP 地址进行识别,也就是说,在校园网络范围之内,用户可以访问相关的数字资源。根据校园网络可控性原则进行有效用户访问甄别,在校园网络中通过专用服务器进行数据访问分析,可以得出较为真实的数据,最大限度地减少虚假数据的问题。具体方案如图4所示。
实名认证方案应用于各个高校的数字化校园的建设,在此基础上进行相关功能的拓展,技术上不太复杂,身份认证账号和密码应该统一为教师工号或者学生学号,这样便于读者记忆,不容易遗忘。实名认证上网在社会上使用已经是一种硬性的规定。高校校园内的网络管理部门也已经或者正在建设的单位也不在少数,结合网络规划部门进行数字资源的评估系统建设,对于图书馆来说,不仅可以在历年的数字资源采购过程中得到相对客观的使用数据,而且避免单独建设造成资源浪费。高校数字化校园的建设工作,图书馆属于其中的一个很重要的模块之一。所以,从校园网络出口处进行访问相关的网关信息统计,统计数据相对准确,而且在技术层面上便于控制。
5 系统存在的问题
数字资源统计分析的结构,在校园网络环境中,统计的范围和实现的技术,在现有的信息技术平台的条件下完全可以实现。在现有的平台中,如何在实现功能的同时减少对网络信息的干扰,以及降低网关统计服务器工作的压力,是统计分析方案必须要重点考虑的问题。由于统计分析所需要统计的数据量比较大,对服务器的性能要求比较高,甚至工作过程中需要增加多台服务器进行统计分析操作,对于高校图书馆来说,不仅增加了维护成本,而且对于系统建设资金方面造成了不小的压力。所以,以最小的高性能服务器,降低对网络信息的干扰,这是需要重点加强的地方。解决VPN 用户的访问统计,不仅是统计分析方案需要解决的问题,优化VPN 访问机制,对其访问数据做出客观的统计,也是我们需要注意的地方。对于学校的公共机房的访问问题,也需要建立相应的实名访问认证系统,因为学生读者相关数字资源的使用,基本上是通过学校内部的公共机房进行的。建立一个数字资源访问平台统计系统,更加全面地进行资源的访问统计,是一个需要不断改进优化的过程。当然,通过网络行为分析系统进行相关数据的统计,可能会侵犯到用户的隐私,各个行为的建立,必须建立在法律允许的范围之类。而图书馆数字资源的统计和分析要想规避这样的问题,必须预先设置好相关规则,如统计功能只针对设定好的数字资源的网关等信息等等。
6 结束语
图4 校园网络实名认证系统
数字资源的访问统计可以为数字资源评价做出一个客观的原始数据的统计,是评价的基础工作。长期以来,如何公平公正的对数字资源进行评价,是各个图书馆比较困惑的事情。本文通过互联网的结构从数据流动的方面进行分析,通过分析访问数据入手,对各个读者访问的数字资源的相应信息进行客观的统计,得出比较客观的结果,解决长期以来部分商家提供虚假数据以及通过访问量数据统计不准确的问题。数字资源的统计,采用技术的手段进行,可以减少人为因素的干扰,为来年的数字资源采购做决策性支持,同时从数据分析结果中也可以知道读者对哪些方面的资源有一定的偏好性,在资源采购过程中,适当的增加读者偏好性的资源量,可以优化资源。在网关条件下进行数字资源访问的统计功能的实现,对于图书馆资源建设工作的意义在于可以客观地将有限的资金投入到读者真正需要的资源上去,可以提高图书馆的馆藏使用率,同时可以引入竞争机制,促使数字资源提供商加大宣传培训读者的力度,正确引导读者使用数字资源,从而提高数字资源的整体使用,同时降低图书馆信息服务部门的一定的工作压力。网络行为的统计分析,是未来图书馆进行资源建设的客观依据,是图书馆通过新技术进行相应升级的动力,不远的将来,图书馆的资源建设通过这样的统计分析系统可以更加规范。
[1] 向阳. 数字资源评估调研及思考[J]. 图书情报工作,2005,(5):33-36.
[2] 段惠静. 数字资源使用统计分析——以山西大学图书馆为例[J]. 晋图学刊,2012,(5):24-27.
[3] 雷雪. 数字资源服务绩效评估研究综述[J]. 情报杂志,2010,(10):84-88.
[4] 徐革. 大学图书馆电子资源利用统计数据的获得模式评析[J]. 大学图书馆学报,2007,(1):54-58.
[5] 陈陶,夏立娟,马克芬. 图书馆电子资源利用统计与分析[J]. 图书情报工作,2005,(4):92-95.
[6] 李小平,马佳. 高校图书馆数字资源配置与优化策略[J].中华医学图书情报杂志,2012,21 (3):44-48.
[7] 赵俊颜. 国内外数字资源绩效评价研究综述[J]. 高校图书馆工作,2012,32 (2):62-66.
[8] 刘洪,邵怡,高华,等. 大学图书馆电子资源绩效评价体系的构建及应用[J]. 情报科学,2010,28 (11):1702-1705.
[9] 李栎,曹洪欣. 图书馆数字资源绩效评价研究综述[J]. 图书馆学刊,2013,(9):125-128.
[10] Journ alUsage Report Onl ine [EB/OL]. http:∥hkiug.ln.edu.hk/meetings/am2005/presentat ions/9-juro. Ppt,2014-07-14.
[11] 邹荣,张成昱,姜爱蓉,等. 电子资源访问管理与控制系统的设计及应用[J]. 图书情报工作,2010,(1):121-124.