从网站访问数据解读师生对图书馆的利用
——以西藏大学图书馆为例
2019-07-11张云洋胡志杰
张云洋,胡志杰
(西藏大学图书馆,西藏 拉萨 850000)
互联网时代,人们获取信息的方式丰富多样,信息检索在很大程度上已经不受时间和空间的限制[1]。图书馆在长期的信息服务中,缺乏对读者需求的准确定位。图书馆网站是师生读者利用图书馆在线资源的统一入口,对图书馆网站利用的分析,是图书馆研究主动服务的有效方式。笔者在网站后台增加行为记录程序,用以记录读者访问图书馆网站的日志数据,在此基础上进行数据挖掘分析,掌握读者的信息需求,提升图书馆服务水平。
一、技术原理
(一)用户群分析
西藏大学图书馆网站的用户是学校的学生、教师和其他职工。学生全部住校,教职员工大部分住在学校,少数员工住校外。在校师生员工通过学校的校园网访问图书馆网站,校外的教职员工通过VPN方式访问图书馆网站。校内用户使用校园网的固定IP段,利用校园网的IP地址分配表,可以通过来访IP确定用户操作时所在的楼宇或区域;校外用户使用VPN方式间接登录,通过识别VPN服务的主机IP,判断访问者来自校外。
(二)技术实现
1. 功能流程。在网站首页中添加触发程序,当用户访问图书馆网站时,网站记录来访事件,识别来访信息,将提取到的信息写入访问日志数据库[2]。流程如图1所示。
图1 网站日志记录流程
2. 技术细节。(1)来源IP。通过浏览器HTTP请求的REQUEST信息提取来源IP,实现时要考虑来访者可能使用了代理服务,所以要进行多轮判断。用java编写的提取来源IP地址的方法代码如下:
(2)访问时间。访问的连接时间,在网站服务器端获取当前时间。(3)其他信息。使用Web访问时,useragent字段包含有大量标识客户端浏览器、操作系统以及终端型号的信息,对后期的分析有重要意义。
二、数据存取
将网页后台获取的来访信息,写入后台日志数据库。
(一)数据格式
日志数据库的数据表字段格式设置如下:
表1 访问日志数据字段格式
(二)数据转换
由页面后台程序获得的访问信息是一些原始信息,在写入数据库之前,需要进行一些转换等预处理操作。
重点是由“IP地址”计算“楼宇网络”,这种推算是确定的。第一步,准备完整的校园网IP地址表,将全部的有线网络和无线网络IP地址分段,并将IP段地对应到某个楼宇甚至某个楼层。在对楼宇的命名上,要以“校区+功能+楼宇+楼层”的方式,如“纳金校区-教工宿舍-5#”,方便识别和精确定位。第二步,通过IP地址表推算来访IP所属的楼宇或区域。还可以由agent信息提取来访用户的操作系统、浏览器和终端类型等信息,这些推算不完全确定。因为浏览器的版本信息过于繁杂,而且有的浏览器故意修改了agent信息的情况,个别用户可能借助第三方工具修改了本机的user-agent信息[3]。
存取的访问日志数据样本如表2所示。
表2 访问日志数据样本
三、数据分析
以西藏大学图书馆为例,在2017年4月至2018年3月期间,网站共收集到10万余条访问日志数据。通过对访问日志的掌握,图书馆能直观地了解用户对资源的利用情况,并就一些关注的问题做进一步研究。
(一)访问地点&连接方式分析
目前,西藏大学有纳金、河坝林、财经学院、医学院四个校区,师生主要集中在河坝林校区和纳金校区,财经学院校区和医学院校区的人数较少,使用校园网络访问图书馆资源的用户也较少。校园网的每个IP地址可以定位到楼宇或者WIFI区域。
1. 校区分布。由表3可知,用户访问主要集中在纳金校区与河坝林校区,这与两个校区实际的常住人数是相匹配的。目前,西藏大学大部分的师生集中在纳金校区,所以有接近70%的访问来自纳金校区;而河坝林校区常住师生人数规模比医学院校区和财经学院校区大,后两个分校区的访问量与使用VPN的访问量大致相当。
表3 校园网用户校区分布统计
2. 楼宇分布。数据分析显示,IP来源访问量排名前14名的楼宇中,图书馆楼占了5名,校园网WIFI占据了3名,说明图书馆是师生读者集中学习的主要场所,校园网WIFI是联网的重要方式;图书馆电子阅览室排第7位,说明电子阅览室仍然是读者查阅资料的重要场所。
3. 网络接入来源。使用有线网络访问图书馆网站的连接占比81.10%,使用校园网WIFI访问连接占比18.90%,一方面说明校园网有线网络仍然是读者上网的主要方式,另一方面说明师生热衷于使用学校新建的校园WIFI,图书馆等公共场所的校园网WIFI取得了较好的使用效果。
(二)访问时间分析
1. 按月分析。数据分析显示,2017年9月至12月访问量较大。原因有二:一是下半年有新生入学,新生在接受图书馆的入馆教育后对图书馆有大量的访问;二是图书馆在全校范围开展了学科服务进学院活动,广泛深入地向师生推介了图书馆的各类资源,促进了师生对图书馆资源的访问利用。
2. 按小时段分析。对上述访问量较大的9月、10月、11月、12月的数据按小时段分析,发现每天的11点、15点、16点、17点读者访问最多。师生对图书馆网上资源的访问,集中在每天的10点之后,下午及晚上的访问量偏多,提示图书馆应注重保证各阅览室在下午段的开放。
更进一步,对每天的最早与最晚访问时间进行追踪发现,每天最晚的访问集中在凌晨0∶30至1∶30之间,每天最早的访问在早晨7点至7点半之间,这表明每天的凌晨2点至5点是读者利用图书馆在线资源的空闲段,技术部可以利用这段时间进行数据备份、维护等操作。每天最早访问的楼宇是纳金校区教工4栋、纳金校区学生1栋和4栋、河坝林校区教工6栋等,说明每天最早起来查阅图书馆资料的师生主要集中在这几栋楼。
四、总结与展望
通过来源IP来标识读者所在的楼宇,能够在较大程度上区分教师用户和学生用户。在信息资源的获取与需求方面,教师读者与学生读者之间存在明显的差异,希望通过主动发现来为师生提供更加个性化的服务[4]。通过搜集图书馆网站访问日志,我们用数据证明了读者对图书馆在线资源的需求与利用,这对建设图书馆网站及在线资源库的工作是一种肯定,也将激励我们更好地做好信息推送工作[5]。从网络流量数据分析读者的需求导向,进而提升图书馆的主动服务能力,是“互联网+”时代图书馆的一个重要研究方向。