APP下载

数字资源校外访问及统计分析系统探讨

2016-03-21

中华医学图书情报杂志 2016年6期
关键词:代理服务器数字图书馆

, ,

1 研究背景

随着信息资源的多元化发展,互联网为图书馆用户提供了资源获取的多条途径,传统意义的图书馆也随着信息技术的不断发展而改变,主要表现在用户对纸质资源的需求逐渐降低,利用数字资源进行教学与科研工作的需求逐步提升。数字资源是高校资源建设的重要组成部分,各高校图书馆在资源建设时不断提高数字资源的采购经费比例[1]。

由于数字资源存在知识产权保护以及数据库的商业化性质,数据库商并不希望某一个单位购买的数据库共享给非该单位用户使用,同样数据库的购买单位也不希望自己购买的资源被无偿使用[2]。因此高校在购买数字资源时,数据库商都会明文规定数据资源的适用范围,设置IP地址访问限制[3],由专门的管理人员维护数据库的使用权限。

为了维护单位用户的使用权益,各高校图书馆也都采用各种技术实现数字资源的校外访问[4-5]。如何在尊重知识产权的前提下,既不侵害数据库商的权益,又能让合法用户随时随地方便快捷地访问数字资源,是每个图书馆都在考虑的问题。图书馆作为资源保障中心,提供信息资源保障以及相关服务功能。

如何提高数字资源的使用效率,如何对图书馆购买的这些资源的使用情况进行合理的评价,如何提高用户对资源需求的满意度,也是图书馆在资源建设时应该重点考虑的。

近几年,学者开始研究图书馆数字资源的利用统计及评价问题。西安交通大学设计了电子资源访问网关系统,通过统一的身份认证获取用户日志,对电子资源的使用情况进行评价分析[6];北京工业大学也利用电子资源的日志,设计开发了电子资源日志统计分析系统[7]。

建立高校图书馆的资源统计系统,不仅可以对资源的效益进行评估,还可以从数据系统中对用户的资源需求进行分析,利用分析数据向用户提供分类服务。

南京晓庄学院图书馆(以下简称“我馆”)数字资源校外访问及统计分析系统的建设是为了方便本校用户在校外使用图书馆的数字资源,从提高数字资源利用率和优化数字资源建设两个方面考虑,构建优化的信息环境给用户提供更好的服务。

系统使用代理服务器技术,将图书馆的资源站点地址映射到一台代理服务器上,代理服务器可以记录所有用户的访问日志信息,通过对用户日志进行统计分析,可以得到数字资源及用户的访问情况分析表,为优化数字资源建设及用户个性化服务提供基础数据保障。

用户权限的控制采用与数字化校园一卡通对接,实现用户一卡通实名认证登录,有效限制非法用户的访问。经过4个月的运行测试,系统的使用提高了数字资源的利用率,也为资源建设和信息服务部门提供了可靠的资源访问统计数据。

2 数字资源校外访问及统计分析系统的建立

2.1 系统需求分析

随着信息技术的发展,图书馆的资源逐步由纸质资源向数字资源不断转变,用户对资源的利用也逐步从到馆阅读方式向远程访问方式转变。为了满足用户远程访问数字资源的需求,图书馆都在建设本馆的远程访问系统。图书馆可以借助于远程访问系统对用户的资源行为记录进行分析,从而形成以用户为中心的资源建设目标。采用远程访问系统,可以提高图书馆数字资源的利用率,能更好地为教学和科研提供服务。国内图书馆都相继开通了数字资源访问系统,将图书馆所有的数字资源访问汇集到一个系统或者平台中管理。数字资源访问系统的一般做法是校内可以通过IP地址直接访问,而校外需要安装客户端,或者与图书馆文献服务系统进行接口对接,输入用户名和密码后可以访问图书馆的数字资源。

由于数字资源访问用户大多是非计算机专业的人员,因此用户使用的简单、方便性应该是首先要考虑的因素。系统应该能够实现用户的数据资源远程访问,方便用户在学校内外使用数据资源,实现身份统一认证。系统应具备较高的安全性和高性能的实时处理能力,实现多人并发登录使用。设置访问策略,对恶意访问或恶意下载用户及时提出预警,限制非法用户的访问。

为了实现资源的统计分析,对资源的使用情况给出合理性评价,系统要能够记录用户的资源使用情况,给出资源使用情况分析结果。

2.2 系统设计思想

系统采用代理服务器的方式,可以实现校园网用户和校外用户对图书馆资源的访问。将图书馆的所有数字资源统一到一个系统中,不仅方便用户登陆查找,也方便管理员对资源的使用情况进行查询统计和分析。通过对系统服务器上的用户访问日志进行数据搜集和处理,获取用户在电子资源系统的访问检索及下载信息。

从安全角度考虑,代理服务器使用Linux系统。用户权限的控制分为两种情况,校内用户直接通过IP认证自动登录,外部用户通过数字化校园的一卡通对接,实行用户一卡通实名认证登录,使用统一的入口访问图书馆的数字资源,有效地控制非法用户的访问。

数字资源校外访问及统计分析系统的总体构架如图1所示。将所有的数据资源放到代理服务器上,通过地址转换,将所有资源访问的出口控制在一台虚拟服务器上,代理服务器同时进行认证管理和日志记录。用户访问系统时,认证服务会先判断是否是合法用户,日志服务会记录所有访问数据库系统的行为数据,并将用户访问记录通过网页展示给管理员,可作为资源统计的依据。

图1 数字资源校外访问及统计分析系统的总体构架图

2.3 系统实现的主要功能

系统实现的主要功能为远程访问功能和统计分析功能。

2.3.1 远程访问功能

实现图书馆数字资源远程访问的功能,用户登陆系统时系统会根据用户的IP进行判断,将用户分为校内用户和校外用户。校园网内部用户可以直接访问所有数字资源,用户只要处于该IP段内,浏览器打开页面时,用户会自动以IP为当前账号免密码登录。当用户在校外访问图书馆的数字资源时,用户通过与OPAC对接,使用OPAC的账号和密码进行统一认证登陆。用户的账号信息存储用户的院系、联系方式等,方便数据的统计及消息推送。

2.3.2 统计分析功能

当用户访问图书馆数字资源访问系统时,系统会在后台记录下用户的每一步操作日志,如用户选取的是哪个数据库、输入的检索词、点击的链接、下载了文章或电子书等。通过代理服务器记录的用户访问日志,可以将这些主句按照不同的统计方法进行统计和分析,并生成相应的报表。

3 系统功能模块介绍

图书馆数字资源校外访问及统计系统分为前台资源访问页面和后台管理端,普通账户登录系统之后可以使用图书馆的授权使用资源,管理员账户同时可以登录到管理端,查看资源统计情况。资源访问页面可以根据文献类型、学科门类、中文外文等进行分类查看。系统结构如图2所示。

前台资源访问页面是所有用户都可以看到的,用户登录系统之后图书馆所购买及试用的资源均显示在页面上,资源展示将按照站点资源管理模块中设置的资源类型展示给用户。如按照文献类型分类时,可以将资源数据库分为电子图书、期刊论文、多媒体资源、学科导航等;按照学科门类分类时,可以将资源归类到各个学科下面,用户可以根据自己的学科需求访问自己需要的数字资源。下面主要介绍后台系统管理模块。

图2 系统模块结构图

3.1 站点资源管理模块

站点资源管理模块中可以设置系统中所有的站点资源,对资源站点进行添加、修改和删除,添加或修改站点信息时需要设置站点名称、站点主域名、站点端口、站点首页地址、用户组、文献类型、学科门类、中文外文、是否使用资源及试用结束日期、是否重定向、资源描述等。

用户组的设置可以将不同的资源设置为被不同组的用户访问,如可以特殊设置试用资源。试用资源在试用结束日期到期时,资源将会自动停用。地址重定向的设置是指用户通过前台导航页面访问的资源才会被本服务器托管,否则用户在前台导航页面看到的资源是没有经过服务器代理的。部分访问量大的网站或者免费的资源,例如畅想之星光盘下

载资源网址,希望通过本服务器的资源导航显示出来,但希望用户直接访问畅想之星网站,而免费的资源不需要代理服务器也可以正常访问。

3.2 认证管理模块

为了保证高校师生的合法权益及图书馆数字资源的产权保护,数字资源的管理必须进行用户登录认证。管理员在此模块还可以对用户进行分组管理,用户分组体现在站点资源管理的授权,可以设置哪些用户组可以授权访问不同的资源,同时还可以设置每种用户的最大同时登录数。用户的认证管理分为管理员帐户、内部认证用户、外部认证用户和受限制用户4种类别。

管理员账户不受范围限制,可以访问所有资源,并具有所有模块的操作权限,可以设置或修改系统的站点资源,也可以登陆统计模块进行资源使用分析。内部认证用户,管理员将校园网的IP地址输入到IP认证列表中,校园网内部用户可以直接访问所有数字资源,用户只要处于该IP地址段内,浏览器打开页面时,用户会自动以IP地址为当前账号免密码登录。外部认证用户是嵌入的外部账号系统,目前通过与汇文OPAC对接,使用OPAC的账号和密码进行统一认证登陆,也可以设置为使用邮箱账号,这样用户就不会忘记账号和密码了。如果需要禁止恶意用户登陆,可以将恶意用户的账号添加到限制用户列表里,也可以设置受限制的开始时间和结束时间。

3.3 下载统计模块

下载统计模块中的功能有数字资源统计汇总、活跃用户使用排行、热门资源访问排行、用户登入次数。“数字资源统计汇总”可以统计某时间内所有资源的下载次数并在图中显示,如图3为本校某一个月内数字资源的访问情况。从图3可以看出,2015年8月份的数字资源访问统计信息。数字资源访问的统计分析,减少了人为因素对资源利用的参与,其结果具有较高的客观性和准确性。

“活跃用户使用排行”统计某段时间内下载量为前50名的活跃用户排行榜,并自动将前10名用户排行用柱状图显示出来。“热门资源访问排行”是查询热门资源的排行榜,“用户登入次数”查询一段时间内用户登入次数统计,以折线图显示出来。

图3 2015年8月份本校数字资源统计汇总

3.4 资源统计模块

资源统计模块可以对图书馆数据库资源的访问量进行统计分析。如用户下载详细信息查询中可以根据日期、资源名称和用户账号来查询用户的下载详细信息,查询内容包括下载时间、站点、下载文件名、用户账号、客户端IP、姓名、部门等信息。

此模块还可以统计资源访问趋势、用户访问趋势、数字资源汇总、用户访问汇总等。如按月统计数字资源CNKI的下载结果(图4)。从图4可以看出,由于系统是4月份开始测试,5月份开始上线,而7、8月份是暑假期间,下载量不会增长太快,统计时间为2015年9月。

图4 2015年4-9月CNKI数字资源的下载量

4 系统使用情况反馈

我馆数字资源远程访问系统自从2015年4月上线以来,得到用户的大量好评。系统的运行方便了教职工及学生访问学校的数字资源,系统登录简单,不需要安装客户端或插件,也不需要提前登录VPN,只要有网络可就可随时随地访问资源。信息服务部的反馈是用户电话咨询资源访问情况的变少了,需要远程桌面协助的用户没有了,用户基本上都是查询或修改系统初始密码。从管理者的角度来看,系统的运行使用可以实现以下几个功能。

4.1 远程访问系统提高了数字资源的利用率

通过数字资源利用率数据信息,有针对性地对不同的数字资源进行宣传和组织培训,以达到使广大用户充分了解和利用图书馆数字资源的目的。做到资源的合理化利用,提高资源的利用率,避免数字资源的浪费;也可以根据依据资源的利用情况有针对性的对用户开展培训,提高数字资源的利用率。

以CNKI数据库为例,系统上线以来资源的下载量上升了20%。统计2015年全文下载的数据量,并与前两年同期每个月的全文下载量进行比较,结果如图5所示。由于2月份和7、8月份是寒暑假,用户的下载量有所降低,但与同期相比下载量还是上升的。

图5 CNKI数据库同期每月全文下载量比较分析

4.2 数字资源的统计分析为优化资源建设提供支持

从图书馆的统计需求出发,对用户访问数字资源的行为进行统计分析,系统实现的统计功能主要包括数字资源访问趋势、数字资源汇总、用户访问趋势、用户访问汇总、用户下载详细信息等内容。有了用户访问数字资源的原始数据,同样可以统计到某一种资源的访问趋势、某个用户的访问趋势以及数字资源的汇总统计等。对数字资源的访问情况进行统计可以直观地看出资源的利用率,可以作为优化资源的采购方案。

通过对用户检索及下载内容的分析,可以得到用户的资源需求与研究动态,结合学校重点学科发展的方向,调整数字资源建设和采购的方向,优化数字资源的建设。根据用户的下载行为统计数字资源的利用率,可以优化数字资源的建设方案,达到合理应用资源经费的目的。

4.3 防止恶意下载,维护用户权益

在电子资源使用的过程中,有用户使用代理软件批量下载的情况,被数据商视为“违规”下载,数据商会将学校的某个IP段或整个学校的使用权停止使用,这样会使学校的权益受到损害[8]。

通过系统可以直观地看到用户的下载明细,同样也可以直接统计到用户在某段时间内的下载量排行,实现网络监控和实时监控资源使用情况。服务器记录用户对数据资源的访问,如果提前设置好策略,就可记录恶意下载日志,对非法的访问或下载,服务器以邮件或短信的方式及时提醒网络管理员。对恶意用户进行控制权限,我们会将恶意用户的账号添加到限制用户列表里面,从而维护合法用户的权益。

5 存在问题

图书馆数字资源校外访问及统计系统的主要目的,是方便用户对数字资源的访问,让用户能随时随地访问图书馆的数字资源,同时对图书馆所购买的数字资源使用情况进行统计分析,了解用户的资源获取行为,从而为图书馆的数字资源建设及用户服务工作提供真实可靠的统计分析数据。系统的运行获得了较好的效果,但是也存在一些问题,需要进一步完善。

外部用户通过对OPAC授予权限统一登录,但是校园网内部通过IP登录的用户部分,数据库只能记录到其IP地址,不能与用户的工号或学号相关联,所以要想做进一步的数据挖掘开展个性化服务,需要在校内也进行实名制认证。另外,代理服务器的数据传输没有VPN那样隐秘,如果代理服务器遭到病毒入侵、被恶意攻击或者无意泄露用户名密码等都会造成安全隐患。因此校外访问需要重点关注监控日志,监测恶意用户的访问或下载,防止非法用户的使用。

6 结论

资源的多样化决定了图书馆拓展多渠道服务的必要性,图书馆的资源利用率的统计方式也需要从不同角度进行分析。如不能局限于从入馆人次,图书的借阅量分析图书馆的利用率。高校图书馆由于用户教学与科研、学习的场所不固定,用户通过网络途径访问图书馆的资源,不仅节省了用户的时间,提高了使用效率,同时提升了图书馆资源的利用率,避免了资源建设浪费,也在一定程度上提升图书馆的服务能力。

图书馆远程访问系统不仅是一个工具,更是一个拉近用户与图书馆之间的桥梁。图书馆的资源信息服务,可以通过这个桥梁源源不断地将前沿的学科信息推送给用户,并通过用户访问信息获得用户的具体需求,形成了用户与图书馆之间围绕资源的互动,可以使图书馆资源建设更加能够贴近用户的真实需求,从而提升用户的满意度。图书馆技术的创新,不仅仅是体现在纯粹技术应用方面,更加体现在基于人性化需求的技术提升方面。图书馆技术无止境,缺乏的不是技术人才,而是创新性思维。

猜你喜欢

代理服务器数字图书馆
地铁信号系统中代理服务器的设计与实现
图书馆
答数字
数字看G20
防火墙技术与校园网络安全的研究
去图书馆
成双成对
数字变变变
一种容侵系统的设计