高校图书馆数字资源统计系统建设研究
2015-12-15陆康
〔摘 要〕随着资源的数字化程度不断提高,高校图书馆数字资源建设也得到逐步重视。数字资源的真实利用率一直是图书馆管理者所希望得到的数据之一。而数字资源使用率数据一般由数字资源供应商提供,真实性和准确性有待商榷。由于高校图书馆数字资源使用范围有一定的限制性,借助于这个特点,设计与建设数字资源访问统计系统,提供图书馆数字资源使用的真实信息,为图书馆资源建设提供决策基础。本文从图书馆需求入手,引入系统需求和系统技术原理,同时介绍系统实现案例部分内容,指出数字资源统计系统建设的必要性与存在的难题。
〔关键词〕数字资源;统计系统;高校图书馆
DOI:10.3969/j.issn.1008-0821.2015.09.026
〔中图分类号〕G25074 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0140-06
〔Abstract〕With the constant improvement degree of digital resources,the university library digital resource construction also gradually attention.True utilization ratio of digital resource has been one of library managers hope to get the data.The digital resource utilization data generally by digital resource suppliers,authenticity and accuracy is up for debate.Due to the college library digital resources have certain restriction,using range by using this feature,the design and construction of digital resources access statistics system,to provide the true information,library digital resources use resources construction to provide decision-making basis for the library.This article obtained from the library demand,the introduction of system requirements and system technology theory,at the same time introduce case part of system implementation,and pointed out the necessity of statistic system of digital resources construction and the existing problems.
〔Key words〕digital resources;the statistical system;the university library
1 数字资源使用现状
11 相关研究
截至2015年1月15日为止,通过对中国知网数据库搜索关键词“数字资源使用统计”,一共搜索出5篇研究性论文。其中,学者秦鸿[1]以数字资源绩效评估为切入点,从数据分析方面进行决策,认为使用量和成本的定量评价必须结合学科相关性、用户调查等定性评价。数字资源绩效研究,主要分3个方面:第一是数字资源评价指标体系相关研究;第二是数字资源使用统计研究,包括使用数据获取方法以及数据的分析应用;第三是数据资源的评价方法选取研究等等。段惠静[2]从数字服务绩效评估相关的使用统计数据入手,进行系统的分析与阐释,从而建设相关的数字资源评估体系。而对于数字资源使用相关研究中,杜莹琦[3]从试用数字资源方面进行把关,结合下载频次等相关条件进行综合评价。吴金鹏[4]认为公共网络资源与图书馆数字资源,两者在争夺读者方面形成竞争态势。纵观以上研究,在获取数字资源使用数据方面,没有客观有效的方法。而真实使用数据的获取,是对数字资源使用情况乃至评估的基础,所以构建数字资源使用统计系统迫在眉睫。
12 评估需要
根据教育部高校图工委的相关报告指出,我国高等学校的数字资源采购经费逐年提高。同时高等学校对数字资源的投入不断加大,评估数字资源效率问题也逐步被相关图书馆所重视。而对数字资源使用的各项评估,最基础的数据就是使用率。而客观真实的使用率数据,是影响图书馆决策者们正确判断的基础。所以,客观真实使用率数据的获得,是图书馆对各种数字资源评估的关键因素。
2 研究理论现实意义
21 理论意义
对于高校而言,图书馆作为一个文献资源保障部门,提供服务效益不能与产品相同,也不能通过产值和利润进行衡量。同时,随着社会的不断发展,资源的建设成本不断提高,而图书馆的建设经费也有所增加,但是不能与资源增长费用成正比,造成了一定的图书馆经费匮乏。与此同时,读者对资源信息获取的要求也不断提高,读者群体不断增大。这些诸多因素的集合,使图书馆在资源建设过程中,必须要考虑到资源的合理化建设的问题。简单来说,用有限的资源建设经费,购买能够满足大部分读者的需求的资源。
22 现实意义
高校对图书馆进行投入,主要目的就是通过图书馆,为读者的教学与科研进行服务,从而提高读者的教学质量和科研水平。随着信息化程度的不断提高,读者对于数字资源的依赖性不断加强。随着资源成本的不断增加,使图书馆在数字资源建设中,必须要遵循一定评估机制,通过数字资源使用率这个基础数据,对数字资源进行一定的评价,同时也促使数字资源供应商不断加强对读者的宣传和培训,从而提高数字资源的使用率。做到了资源的最大化利用,避免了资源的浪费。endprint
3 数据分析方法选取
31 数据分析原理
数字资源使用的数据,是进行数据分析的基础,也是数据分析的关键。数据分析[5]是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。进行数据分析,首先要定义问题,例如数字资源使用系统数据分析等,主要目的就是对图书馆数字资源使用数据进行有效分析,向决策者提供真实有效的数据分析结果。数字资源数据分析流程可以用图1来表示:
从图1中可以看出,整个数字资源评价过程,数字资源使用数据获取关系到整个数字资源评价结论,因此,数字资源使用数据的真实性,直接影响到决策者们对数字资源建设规划与政策制定。
32 数据指标确定
根据高校图书馆数字资源的存在形式,可以分为:期刊型数据库,例如:中国知网,万方知识,维普期刊资源等等。电子书型数据库,例如:超星数字图书馆,中华数字书苑等等。文摘索引型数据库,例如中文社会科学引文索引,读秀学术搜索,方略学科导航等等,多媒体学习型数据库,例如:超星学术视频数据库,新东方多媒体学习库等等。数字资源呈现方式不径相同,所以对数据指标的确定,需要进行相应的调整。根据以上数字资源存在形式,结合各个数字资源使用方式,做出的统计数据指标如表1所示。
根据各种数字资源的类型不同,对数字资源使用的分析方式也不相同,所谓的数字资源使用,一般分为两种模式:第一,资源访问;第二,资源下载。但是对于文摘索引和多媒体学习两种类型数据库而言,不能按照上述两个模式进行统计分析。文摘索引型数据库,要从访问量以及使用文摘索引型数据库进行搜索使用量这两个方面进行统计。而多媒体学习型数据库,则同样要从访问量和在线观看学习量这两点来统计数据。
33 数据决策探究
数字资源建设过程中,需要实时调整优化整个资源体系结构,在经费一定的条件下,能够做到尽可能多的满足读者需求,同时保障学校教学科研建设的文献需求。所以,在利用数据决策时候,可以帮助决策者们做到以下几点:
(1)能够决定购买数字资源种类的问题。
(2)能够决定购买数字资源内容的问题。
(3)能够帮助决策者们对数字资源提供商进行有效督促。
(4)能够促使数字资源提供商提供有效宣传推广。
数字资源建设,对于决策层的要求,就是实时掌握数字资源使用的真实数据。从数据分析中,可以让决策者们能够获取读者对数字资源满意程度以及在资源建设过程中,可能存在的资源分配不合理的情况。
4 系统建设研究原理
数字资源评价体系中,重要的一个环节就是数字资源使用数据获取。而在高校图书馆中,数字资源使用范围一般是在高校的数字化校园环境内,所以在系统建设过程中,可以从环境限制条件入手,建设整体的数字资源使用数据统计系统。
41 系统环境研究
校园网建设[6]过程中,涉及相关技术包括局域网技术、虚拟局域网(VLAN,Virtual Local Area Network)技术、第三层交换技术、虚拟专用网络(VPN,Virtual Private Network)技术,同时涉及校园无线网络、校园网络安全方面。校园网安全内容包括隔离与访问控制、网络传输安全、网络入侵检测系统、数据存储备份系统以及病毒防护系统等等。数字资源访问统计系统,从网络传输入手,通过访问控制相关技术获取相关数据,进行网络定点监控的方法,进行数字资源使用统计。
42 系统原理分析
高校图书馆网络建设属于高校整体网络规划中,是学校校园网络管理范围。数字资源的存储分为本地资源和远程资源。本地资源,即资源存放在高校图书馆存储设备中,定期更新提供服务。远程资源,即资源存放在数字资源提供商存储设备中,提供远程访问支持。读者访问图书馆数字资源,一般需要在校园网络范围之内。有效读者不在校园网络范围之内访问,需要通过虚拟专用网络(VPN)进行连接访问。总之,读者对于资源访问、下载,需要在资源提供商规定的网络范围内进行。所以,以校园网络出口访问数据为研究对象,获取校园网路范围内访问相关数字资源的网络行为,对这些行为进行统计分析,是数字资源使用统计系统的基础工作。
43 系统功能探究
高校图书馆管理者对统计功能是非常关心的功能之一,统计数据的呈现方式是关系到管理者能否在庞大的使用数据中获得直观利用率的感官体验。所以,在统计类型中必须有以下几个方面的功能:
(1)站点统计:记录电子资源在某个时间段内被访问的次数。报表中可以清晰地看到站点名称、站点地址、访问次数和创建时间。统计视图可以直观的以柱状图、饼状图、折线图和区域图的形式进行呈现等。
(2)访问统计:记录电子资源在某个时间段内被某个IP或人员访问的次数。报表中可以清晰地看到站点名称、IP地址(对接后可以看到对应的用户信息)、站点地址、访问次数和创建时间。访问视图可以直观的以柱状图、饼状图、折线图和区域图的形式进行呈现等。
(3)热点统计:按照统计类型统计每个类型最近访问资源最多,可以统计资源热点、人员热点、图书类型热点、学院热点等;访问视图可以直观的以柱状图、饼状图、折线图和区域图的形式进行呈现等。
(4)站点统计升降视图:记录电子资源在不同的时间段被访问的一个次数的对比,是上升还是下降,直观了解资源被访问的一个趋势。
(5)访问统计升降视图:记录电子资源在不同的时间段被不同的IP(或者人员)访问的一个次数的对比,是上升还是下降,直观了解IP(或人员)访问资源的一个趋势。
5 功能实现探索研究
51 图书馆资源现状
数字资源的来源呈现多样性。图书馆在信息化程度提高,尤其是资源信息化平台逐步提升的过程中,各种方法和措施方便了读者对图书馆资源的获取,但是数字资源真实的利用数据以及数字资源提供商提供的数字资源使用率的数据准确率还有待考证。而且图书馆也忽视读者在使用数字资源过程中的真实感知程度。综上所述,图书馆通过独立平台对数字资源的利用率进行统计是十分必要的。通过对数字资源的利用情况进行统计,不仅可以让图书馆了解各种数字资源的真实使用情况,而且可以让图书馆知晓读者尤其是教师读者的研究喜好,可以对读者进行定点的资源推送提供依据。endprint
52 功能实现迫切性
数字资源建设经费逐年提高,而缺乏合理的评估体系。而评估体系中最重要的数据之一就是真实的利用率数据。建设独立的数字资源统计系统尤为重要。不仅可以为图书馆提供真实可信的数字资源利用率数据,而且可以在原始数据中进行充分的数据挖掘分析,提供给资源建设的管理者们进行资源规划的支撑数据信息。
6 系统技术原理
数字资源统计分析的原理目前采用的方法有两种:第一,是端口镜像方式;第二,是网关分析方式。两种方式各有利弊,端口镜像方式硬件投入较少,但是需要获取较高级别的网络管理权限。网关分析方式硬件投入较大,节点较多,管理较为复杂,但是网络管理权限较低。本文所选取的实验方式是端口镜像方式,并已经处于实现。
在校园网络中,采用对核心交换机端口镜像方式,获取网络中对图书馆数字资源访问的数据信息的方法。镜像数据流量采集的方法,不影响网络的原始架构、不影响网络的数据流向、不会造成网络瓶颈以及可以有选择的采集不同类型的数据信息。具体方式如图2所示:
图2 数字资源统计系统原理图
校园网络内通过核心交换机访问外网,对核心交换机的访问数据进行镜像分析,可以获取在校园网络内访问数字资源的信息,对信息进行分析处理,即可得到较为真实可靠的数字资源访问的数据。而防火墙作用是从网络安全考虑,编辑策略过滤掉与数字资源统计工作无关的信息。数字资源统计系统主要技术实现模块有以下3个方面:第一,数据包获取处理模块;第二,统计数据存储管理模块;第三,统计数据呈现模块。
61 数据包获取处理模块
该功能模块是在校园网络中,将数据包采用端口镜像的方式进行采集,通过预先设置好的过滤机制进行数据包清洗,以获得统计分析系统所需要处理的数字资源相关的数据包,用于统计分析。数据包获取模块中,一般采用目前网络分析较为成熟的Winpacap或者Libpcap函数库进行数据包捕获。数据清洗是将与数字资源不匹配的数据包进行丢弃,以减少数据分析的工作量。数据包获取处理过程中,会记录相关数据包中信息,例如访问地址、源地址,以及检索词等,同时会将行为做记录,访问页面或者下载等信息。将这些结果记录到统计数据存储管理模块中,一般是数据库中,例如MySql或者Orcal数据库中。
62 统计数据存储管理模块
统计数据存储模块,只要是由数据库组成,其主要功能是保存统计系统的相关信息。并支持对相关信息调用。而统计数据存储管理模块同时也存储着数字资源相关的数据信息,例如数字资源名称、数字资源的访问站点地址(URL)等等。
63 统计数据呈现模块
统计数据呈现模块,主要是将统计数据进行展示的作用,同时设置不同的统计归类,分析方式调取数据库信息进行呈现,例如数据库比较、访问的百分率等等。该模块主要是采用页面呈现方式,以图表的形式将数据呈现给图书馆决策者们,用于资源建设规划与调整。
总之,统计分析系统的技术原理采用的是当前比较成熟的网络管理技术方案。不管选择何种方案,其基本原理是不变的,需要解决的主要问题是如何获取更高的网络管理权限,用于数字资源统计系统建设,这才是关键的问题。
7 系统建设实际价值
71 数字资源使用的针对性
在统计分析系统中,加入资源中心模块,可以统一管理所需分析的数字资源。通过分析系统,对网络中镜像数据进行归类分析,得出各种数据资源利用率信息。所以,统计系统只针对数字资源相关信息。
72 数字资源数据的真实性
由于系统采集的镜像数据是从核心交换机中直接获取资源,统计的数据相对全面。这是由于所有网络访问外网资源都必须汇聚到核心交换机上,所以统计分析系统的统计数据较为准确。
73 数字资源采购的决策性
统计系统提供的利用率数据由于其具有针对性和真实性,可以为高校图书馆提供真实可靠的数字资源利用率数据,而在高校图书馆资源建设尤其是数字资源建设过程中,利用率信息的提供可以帮助图书馆决策者们合理规划数字资源建设方案,同时为方案的执行提供原始依据。
74 系统建设难点
统计分析系统的建设需要学校网络管理部门配合,而在核心交换机上采集网络数据,其数据的安全性令网络管理部门所担心的。如图2所示,在核心交换机和统计分析服务器之间加载硬件防火墙的目的就是进行一次数据过滤,使统计分析服务器只获取到数字资源的相关数据,减少庞大数据的分析压力,同时对其他校园网内的与数字资源不相关数据进行阻拦,打消网络管理部门的顾虑。
8 系统案例与功能解析
81 系统组成
系统是由资源管理、统计分析、预警管理、系统配置四部分组成。资源管理部分是系统管理员对高校图书馆需要统计的数字资源访问地址进行管理。统计分析部分是系统对校园网内系统管理员添加的数字资源访问地址的读者访问行为进行统计分析,得出访问次数、下载次数等相关信息功能,并对相关数据进行对比分析。预警管理主要是对分析服务器进行管理,例如磁盘空间预警等等。系统配置主要具备网卡配置功能、服务器配置功能以及相关参数配置和用户管理功能等。
82 资源管理
系统的数字资源管理,主要是将数字资源的访问地址进行添加和修改。让系统实现对涉及相关数字资源进行统计和分析的功能。如图3所示:
资源管理功能,可以随时添加删减数字资源地址,实现对资源特别是试用资源在规定时间内进行利用率统计,得出真实的利用率数据信息。资源管理功能的运用,可以让图书馆对需要统计的数字资源进行有效的管理,添加新增资源地址,删除失效资源地址。
83 统计分析
统计分析功能是系统的核心功能,需要实现对数字资源利用率数据进行有效的分析和处理,呈现详细的分析报告。(如图4所示)endprint
图4 数字资源利用率分析图
从图4中,可以看出,系统对资源访问的次数做了详细的分析统计,统计近一周的数据来看,名称为中国科学文献数据库服务系统的访问次数达到22 969次,占到总访问比例为3666%。其他的数字资源访问信息,都可以在统计分析模块中得到相应的数据结果。
84 读者资源行为分析与资源推送
读者资源行为分析,是在统计分析数据的基础上,对读者访问图书馆的数字资源以及查阅相关学科分类的信息进行归类统计,得到读者对数字资源信息偏好的数据,并对该数据加以分析后进行相关的学科信息推送。读者资源行为需求,是读者对图书馆资源与服务的满意度的佐证。获得读者需求的方法很多,采用信息技术的方法获取读者访问需求数据,已经不再是很困难的事情,例如从网站访问数据分析获取读者对图书馆网站栏目兴趣也是一种获取读者对图书馆关注的途径之一[7]。
总之,统计系统是在大数据分析的环境下,借助于网络抓取技术获取读者在校园网内对图书馆的相关数字资源利用的数据信息,对数据进行分析处理得出一系列图书馆决策者们所需的数字资源利用率信息,读者对相关学科的兴趣爱好信息[8]等,并利用该信息规划图书馆数字资源建设,对数字资源进行合理配置同时可以利用该信息对读者进行定点资源推送服务。
85 存在遗漏之处
该系统方案,主要用于桌面访问方式,而对于移动客户端访问方式不能做到有效统计,原因是多方面的,首先,移动客户端以及资源提供是数字资源商自主管理;其次,移动客户端型数字资源本身不受校园网络限制,例如超星移动图书馆等;由于以上原因,对于移动客户端型数字资源统计方式还需要关联数字资源提供商的统计平台进行数据整合。
总之,在当今数字资源还是以桌面平台为主,尤其是多媒体资源,其数据量较大,移动客户端虽然可以承载该服务,但是由于显示效果以及流量的限制,读者在当前环境下还是利用桌面访问方式较多。由于统计系统能够对数字资源提供商提供的统计平台数据进行采集,可以采用数据采集方式进行整合,实现数字资源统计平台的统一化与系统化。
9 结束语
统计系统的技术原理简单,技术实现容易。需要解决的重点问题是网络管理部门网络交换机端口镜像权限是否对数字资源统计系统的开放,而数据包分析,主要是对数据包中的日志信息进行分析。网络管理部门从网络安全维护考虑,不会同意图书馆对其管理职责范围内的数据包进行有效分析,从而影响数字资源统计数据的准确性。如何获取更高的网络管理权限,这已经不是技术能够解决的问题,需要相关法规对高校图书馆赋予一定的支持才行。对于建设数字资源统计系统,其实现的目的是多方面的,其一数字资源利用率数据统计,可以客观真实的统计出在校园网络范围内读者利用数字资源情况。其二读者利用角度,图书馆管理者可以从读者利用数字资源以及相关内容上获取读者的喜欢信息,从而提供针对性的信息资源推送,提高读者服务效率,拉近读者与图书馆之间的距离。总之,在信息技术不断进步的时代,新的信息技术与资源呈现方式逐步被图书馆所利用,例如图书馆信息门户从桌面平台向移动平台转变[9-11],移动平台也逐步实行联盟化发展[12],图书馆的信息资源推送可以利用读者资源行为的大数据分析进行定点推送等。数据包分析方法的原理和方法已经进行实践应用测试[13]。而图书馆已经从基础的硬件建设逐步向理念建设和思路建设转变,好的理念、好的想法、好的思路,运用信息技术手段实现,是未来图书馆特色服务乃至图书馆发展与进步的源动力之一。
参考文献
[1]秦鸿.决策支持视角下的数字资源使用统计分析实例研究[J].大学图书馆学报,2013,(6):60-65.
[2]段惠静.数字资源使用统计分析——以山西大学图书馆为例[J].晋图学刊,2012,(3):24-27.
[3]杜莹琦.高校图书馆试用数字资源的选择与评价策略[J].图书馆建设,2011,(7):13-15.
[4]吴金鹏.基于博弈论的高校数字图书馆发展策略研究[J].图书馆工作与研究,2011,(5):14-18.
[5]数据分析[OL].http:∥baike.haosou.com/doc/3840640.html,2015-01-20.
[6]黄炜.高校校园网架构及其安全系统的分析与设计[D].南昌:南昌大学信息工程学院,2010.
[7]陆康.网络行为读者需求分析运用探讨[J].现代情报,2015,(5):94-97,104.
[8]刘慧.基于网络行为的图书馆数字资源评价方法研究[J].现代情报,2015,(2):62-66.
[9]陆康,刘慧,王圣元.基于3G无线网络时代手机图书馆的前景与发展[J].农业图书情报学刊,2012,(7):177-179.
[10]陆康.基于4G网络环境的移动图书馆研究[J].新世纪图书馆,2013,(11):63-65.
[11]陆康.基于增值业务的图书馆移动门户建设研究[J].现代情报,2014,(11):143-146.
[12]吴静.江宁大学城高校移动图书馆联盟构建设想[J].图书馆学研究,2013,(8):86-88.
[13]王政军.电子资源统计分析系统的设计与实现[D].大连:大连理工大学,2012.
(本文责任编辑:郭沫含)endprint