图书馆数字资源访问监控系统的设计与实现
2016-09-03史克红郑州科技学院图书馆
史克红(郑州科技学院图书馆)
图书馆数字资源访问监控系统的设计与实现
史克红(郑州科技学院图书馆)
互联网和计算机的迅猛发展催生出各种数字资源,但质量参差不齐,采购单位的使用效果也不尽相同。本文针对图书馆数字馆藏评价没有统一标准、数据统计分析存在诸多问题的现状,开发了数字资源访问监控系统,运用 ASP.NET和SQL Server 2008相结合对平台进行了基础实现。本系统的研发为拥有海量数字资源的图书馆提供一个轻便、快捷、易用的软件系统,精细完整地记录用户访问与浏览行为信息,灵活易读地展现电子资源的使用统计结果,科学全面地评价数字资源的价值和质量。
数字资源;评价系统;数字资源访问监控
1 引言
近年来,国内高校先后购置了大量的数字资源供广大师生开展教学科研活动。对不断出现的种类繁多、价格不菲的数字资源,图书馆如何合理利用有限的建设经费,建立符合本校特点又具有特色的数字馆藏;如何在数字资源的建设中选用适合的、利用率高的、专业性强的、读者满意的、具有较高学术水平的数字馆藏,已经成为现代图书馆建设的首要问题,同时也是所有图书馆人在进行数字图书馆建设实践中面临的严峻挑战。
目前,数字资源使用情况的统计主要由数字资源商提供,数据不够及时、准确,馆员统计海量资源使用情况更是费时费力。通过市场调查,了解到有商家已研发出了相应的系统,但并没有真正在图书馆推广使用,原因主要有以下几点:参数和格式参差不齐,无法便捷提供丰富多彩的统一性图形、表格报告;数据库使用效果评估缺乏合理性,无法提供资源采购和应用的决策参考;用户校外访问只能通过VPN或远程,而校内IP用户的使用量根本无法统计;读者使用规律与服务绩效分析无法实现;数据库遭遇非法闯入及恶意下载,不能及时警告或阻止;如需精确数据统计,往往需要购买尖端的硬件设备并辅以复杂的部署环境;安装过程往往需要校内多部门(网络中心等)的许可及配合,增加了工作难度等。基于以上原因,我们开发了图书馆数字资源访问监控系统。它以图书馆网络建设为基础,资源整合、数据挖掘和知识发现为最终目标,能够应对上述提到的目前图书馆数字资源应用中所遇到的全部问题,为图书馆数字资源应用服务的发展提供坚实基础和有力保障。
2 系统的整体设计与实现
数字资源访问监控系统服务器与校内核心交换机连接,通过获取网络数据,解析网络数据包,分析统计并存储数据到数据库,并通过浏览器前端展示数据。本系统对大量网络数据包进行及时和完整的采集,采取有针对性的过滤,进行准确的解析和安全有效的存储;把存储数据依据用户的查询统计要求,给出表格统计结果,并通过图形直观地显示出来;通过对资源使用数据进行多维的科学分析,得出资源的具体使用情况,并提供使用报告;针对不良的数字资源访问行为以及所引起的流量异常进行实时监控、报警和记录,并可以对其访问实施链接阻断。
2.1系统的架构设计和关键技术
系统采用B/S架构,易于开发和维护。视图层采用能够将 ASP.NET应用程序的视图、模型和控制器分开的MVC设计模式。业务逻辑层将图书、借阅、读者和管理员分别抽象为实体,各自的信息和行为模式都封装在它们的类中,这种面向对象的设计方法缩短了开发周期。[1]数据访问层采用 ADO技术进行数据库访问,并与 ASP结合起来,建立提供数据库信息的网页内容,对数据库进行查询、插入、更新、删除等操作。[2]
系统使用.NET开发工具VS2013,采用MVC4+EF6.0开发方式,自动产生数据模型,使数据库的操作更加简单。当遇到多表查询和更新时,仍然是数据库的存储过程,减小对数据库的压力,处理数据时返回结果较快。后台设计主要采用SQL Server 2008作为数据库系统,SQL Server 2008中的 Declarative Management Framework(DMF)是一个新型管理框架,大多数数据库操作通过DMF定义一组简化日常维护操作的通用策略,降低总拥有成本。[3]SQL Server 2008提供存储性能数据的中央数据存储库、收集广泛的性能数据。数据库设计采用关系数据模型,将各类数据规范地存储在数据库中。[4]
2.2系统业务流程设计
系统业务流程设计内容是数据输入开始到获得输出为止,各个处理工序的逻辑过程。本系统管理员通过输入用户名和密码登录,根据该用户名和密码核实操作员的使用权限,结合授权进入系统进行操作。根据用户需求,把操作员权限分成两类:(1)系统管理员用户权限(维护人员),拥有此系统的所有权利,可增加和删除操作员,并给操作员赋予权限;(2)普通管理员权限,只拥有此系统的基本使用权限,完成资源信息的录入、查询、统计数据的查看等基本信息使用权限。系统业务流程如图1所示。
前台主页包括资源管理、统计分析和监测预警3个子系统,采用内嵌框架技术。
图 1 系统业务流程图
2.2.1资源管理子系统的实现
资源管理模块包含四个方面内容:馆藏资源管理、商务管理、读者管理和系统管理。
(1)馆藏资源管理包括三部分:馆藏资源总览、馆藏资源查看、资源属性设置。馆藏资源总览按照不同资源属性区分数据资源,给出不同属性资源的数量和所占比例。主要是数据的增、删、改,资源的录入,包括资源全称、资源简称、资源分类、资源年限(开通日期、截止日期)、资源域名、资源提供商等信息的录入。馆藏资源查看,显示现有资源列表、添加新资源、可组合筛选出符合要求的馆藏资源、编辑馆藏资源。使用Entity Framework EF 6.0.0对数据库操作,对需要操作的字段进行Model(数据对象)编写。资源属性设置,通过对数字资源分类管理,从语种、数据库类别和学科范围三个方面设置。
(2)商务管理从产品供应商和合同管理两个方面设计。产品供应商菜单中包含供应商列表、供应商编辑;合同管理中包含合同列表和合同编辑,即将到期合同可通过邮件提醒。
(3)读者管理可实现多校区管理。通过读者分组,对不同区域分配不同的IP段,可添加和编辑。
(4)系统管理包含账户管理和短信提醒管理两个方面。在系统运行出现问题的情况下,有短信提醒功能,保证24小时监测系统运行。不同级别的账号管理范围不同,针对系统问题可不定时给不同用户发送短信提醒信息。在系统不能正常运行的情况下,系统会发送给图书馆负责人短信提醒。
2.2.2统计分析子系统的实现
(1)数据采集与分析基本指标。对数字资源评价主要是对其使用情况、成本和性能等指标综合评价。评价数字资源使用情况的主要指标有登录次数、检索次数、下载次数。登录次数是一段时间内读者登录该数据库的次数。该指标反映一个读者对这个数据库是否感兴趣,但它并不能反映出读者对该数据库内容的使用效率,因此登录次数这个评价指标是一个较次要的指标,但有必要提出。
检索次数是一段时间内读者在数据库中使用检索式的次数。这项指标可从三个方面评价:一个读者一次检索时使用的检索式的个数;一段时间内对该数据库使用检索式的个数;检索时使用的检索词与学科之间的关联度。一个读者在一次检索时使用相同或相近的检索词越多,说明该数据库的检索效率越低,查全率越差。
下载次数是一段时间内读者从数据库服务器下载到本地终端上的全文或部分信息的数量,这是一个非常重要的评价指标,因为读者对非常感兴趣的文献通常要下载下来,以便将来进一步研究。
数字资源的成本包括采购价格、检索系统成本、相应的软硬件设备的投入成本和管理成本的总和。数字资源的评价要体现以读者为中心的原则,数字资源的性价比常常和资源的使用情况结合起来分析,常用评价指标主要有登录成本、检索成本、全文下载成本。登录成本是指读者登录一次数据库的成本投入。检索成本是指读者检索一次数据库的成本投入。下载成本是指读者每下载一篇全文(文摘)所需的成本投入。[5]
本系统针对图书馆每种数字资源的访问、应用、下载等行为的数据分析与评价,全都以下列四个“基本指标”的采集和分析为基础进行计算与统计。①首页访问次数统计,用户访问数据资源网站首页的次数,对于统计规则来说,是首页 URL地址在统计时间段范围内合计出现的次数。②数据库及用户应用次数统计,在统计时间段范围内,所有用户在一个数据资源站点下,产生的所有与首页 URL地址不同的页面次数。从连接进入算“首页点击”,刷新算点击一次,收藏在收藏夹里直接进去,也算一次。总之,发生网络请求的就算一次,但视频的点击暂停等是不算作点击次数的。③下载次数统计,在统计时间段范围内,所有用户在一个数据资源站点内下载、并保存生成为本地物理文件的累计操作次数。④在线活动时长统计,对一个数据资源网站的“访问活动”中,首次访问时间和最后一次访问时间之间的间隔,算作一次“活动时间”。在线活动时长,是指在统计时间范围(例如从月初到月末)内,所有用户对该资源网站各次“活动时间”的累计时长。
(2)系统统计结果。统计分析模块是通过资源使用情况、资源成本、读者使用情况来综合分析产品的性价比和受欢迎程度。统计分析模块使用COUNTER标准,对数字资源的使用情况规定了三种统计方式:报告1:每月、每种数字资源总访问量和下载量;报告2:每月、每种数字资源的被拒绝请求量;报告3:每月、每种类型数字资源总检索及会话量。
目前,本系统采用的实时统计、自定义图表等统计方式,超越了数据资源商提供的最短按照月份来提交的频次。完全满足用户任意时间点(段),甚至精确到小时来导出每个数据库使用情况的固定图表(或表格)的需求,能够更大程度地满足高校对于资源使用情况总体的把控。表现为下述三种优势:今后不用烦请每家数据商必须配合提供数据;具有双重分析标准,更有利于监控数据商提供数据的准确性;能够使用同一种标准和表格图形统计所有的电子资源。
2.2.3监测预警子系统的实现
监测预警子系统从商务和系统管理2个角度监测数据库资源。监测数字资源使用行为,对不良阅读与使用行为进行预警,保证数字资源的正常使用。不良阅读与使用行为如:某ip主机1分钟内向某电子资源数据库请求访问200次;某ip主机持续30小时对某电子资源数据库进行全文下载;某ip主机月访问某电子资源流量异于其他所有ip地址,超出下载阈值;某ip主机每天都是在凌晨2~5点对电子资源数据库进行大量访问。
针对这些可能会影响图书馆电子资源正常访问的不良使用行为都需要做监测预警。监测预警子系统通过资源监测预警以图形或列表的形式展现出异常情况比例,如图2所示。
在数据库中开启了作业,每20分钟对关键数据进行扫描,出现错误时以邮件、短信方式发送给管理者。当出现错误数据、冗余数据时能在后台查询得到。通过查看资源数据可以看到原始数据和实时数据情况,能够更直观地看到数据变化过程。
3 统计数据的准确性和公平性
数字资源访问监控系统依据对网络数据的解析推导出读者对数字资源的使用情况统计。数据统计参考标准是遵从 COUTNER的标准规范。
图2 资源无效访问比
3.1统计数据的准确性
目前,国内外许多家数据资源商的统计标准实际上是不同的,而且差异极大,以后也不可能完全实现统一,只有极少数几家外文数据库厂商遵循着COUNTER标准,所以不具备统一性。其次,绝大多数资源商的统计标准偏向于统计数据的最高值,即把一些无用链接全部计算在内。例如:在“应用次数”统计中,点击一次链接的总体使用次数为29次,但有效的次数仅为16次,绝大部分数据商都会按照29次计算,而本系统会剔除那些无效的图片链接等,仅仅计算index、css和js等有效文件。这就是为什么本系统计算得更为精确,同时统计数据会比厂商统计的数据量要略少的原因。
3.2统计数据的公平性
本系统采用人性化的、实用性的标准统计数据,所有数据库采用一个标准统计,虽然数据量会少于数据库厂商,但却是真实的、有效的数据。并且它能够提供给图书馆相对的可比较的统计量。例如:在某个图书馆,系统统计的A、B两个数据库的使用量数据比例为1:100,而A、B两家厂商提供的使用量数据比例为1:1000,显而易见有一个数据库厂商数据造假。所以统计的最终,图书馆往往关注的是各数据库的相对使用次数,而不是绝对次数。本系统能够帮助图书馆在某种程度上统计出数据库的真实使用情况。
4 结语
图书馆数字资源访问监控系统为数字资源科学评价提供依据,实现了图书馆对于数字资源服务绩效与使用状况的精确评估;帮助图书馆在数字资源购买与选择、数字资源针对性发展与建设、读者服务策略调整等方面实现科学决策。
本文顺利通过了Load-Runner的性能测试。[6]经由本馆试用,对系统所提供的功能进行了确认,系统能够帮助用户评价出哪些资源是读者欢迎的,哪些是不受欢迎的,哪些是使用效率高、质量高的数字资源,为馆藏发展决策提供大量的数据依据。
[1]李莹.山西电大图书管理信息系统的设计与实现[D].北京:北京工业大学,2012.
[2]Vivek Chopra.JSP高级程序设计[M].北京:机械工业出版社,2001:45.
[3]微软公司.SQL Server 2008数据库应用开发基础[M].北京:人民邮电出版社,2010.
[4]萨师煊,王姗.数据库系统概论[M].北京:高等教育出版社,2000:4.
[5]宋迎迎.数字馆藏评价指标体系研究[D].郑州:郑州大学,2006.
[6]车清太.软件测试方法和策略[J].山西电子技术,2003(7):10-11.
The Design and Implementation of Library Digital Resource Evaluation System
Shi Ke-hong
The rapid development of Internet and computers accelerated the birth of a variety of digital resources which are purchased by colleges,universities and research institutes.Uneven quality of the digital resources led to different use effect.This article develops a library digital resources evaluation system by investigating the operation and management mechanism of the system,which not only provides necessary purchasing information for library acquisition,but also provides valuable reference information for the readers.Research and development of library digital resource evaluation system can basically meet the demand of statistical data analysis and scientific evaluation of various digital resources in most college and university libraries.
Digital Resources;Evaluation System;Digital Resource Evaluation
G255.76
B
1005-8214(2016)07-0093-04
史克红(1975-),女,郑州科技学院图书馆馆员,研究方向:图书馆信息化。
2015-12-03[责任编辑]王钧梅