基于融合信息技术的图书馆数字资源运行监测平台的设计
2019-11-02喻志娟
喻志娟, 张 颖, 徐 琼
(长沙理工大学 图书馆, 湖南 长沙 410114)
随着计算机技术、网络技术的发展,数字资源已成为文献信息的主要表现形式。在图书馆界,数字资源取代传统纸质文献成为图书馆文献资源检测建设最重要的组成部分。与此同时,数字资源购置费用在图书馆资源购置总经费中所占比例逐年攀升。高校图书馆正向着数字化、智慧化方向转型发展。因此,无论是采购新的数字资源,还是续订、维护已有的数字资源,都面临着一系列新的问题:怎样对数字资源进行采购前的遴选以及使用后的评价?怎样通过对数字资源的评价来引导数字资源合理化、科学化配置?怎样通过大数据的分析更好地为教学和科研服务,更好地为学校的学科建设、双一流大学建设提供信息资源保障,以此实现学校资金使用效益最大化?
图书馆对数字资源的监测需求由来已久,以前都是靠厂商提供访问量、下载量、检索量的数据,反馈给图书馆汇总,图书馆领导拍拍脑袋签上大名,最后递交给采购部门,该方式获得的数字资源数据不够客观,可信度不高,缺乏依据,缺少监管,师生对这种采购流程颇有微辞。随着互联网技术和大数据分析技术的发展,统计和分析工作可以利用技术的手段来实现,这样使得统计数据更加客观、合理、科学、精准。目前,在数字图书馆行业中,国外进行大数据分析和资源评价的研究已有报道,而在国内进行大数据分析和评价的理论成果也有不少,但实用成果还很稀少。可以预计在不远的将来,国内外数字图书行业,各数据提供商之间将会呈现出以平台为载体,以学科为对象,以内容为灵魂,以服务为根本的竞争格局。迫切需要对各种数字资源进行大数据的挖掘,建立起以学校为单位、以学科为纵轴、以各种内容数据、评价数据和运行数据等业务数据为维度的混合复杂数据模型。在数学模型的基础上,通过搭建网络平台自动完成数据采集、智能分析和实时展现的任务。
一、平台的架构设计
搭建云服务平台,实现跨网段的数据异步交互,实现各个客户端和云服务端的数据交互,并对各项数据的核心价值,各个学校购买情况、评价数据、运维状态以及数字资源的学科属性进行大数据挖掘和分析。云服务平台必须能支持200个(及以上)的数字资源网站监测(基于对一个省内高校数量的考虑)。能实现交换机端口10 Gbps的校园网络的数据采集和数据提取。
数字图书馆运行监测服务云平台包含云服务端和学校客户端两个部分。总体架构设计如图1所示。
图1 平台总体架构设计图
平台包含6层结构。云端服务器,实现数据的收集和分析,为各学科、资源等有价值的数据进行分析和展示。
二、平台客户端
平台客户端主要包含数字资源实时监测预警、资源统计与分析系统、数字资源评价报表系统、数字资源售后服务等子系统,其目的是为了实现对图书馆的已购数据库或试用数据库进行监测、统计、售后服务、绩效评价等功能,并完成对本地各项元数据的收集。平台客户端结构图如图2所示:
图2 平台客户端的架构
(一)数字资源实时监测预警子系统
数字资源的实时监测预警系统采用爬虫技术,实时探测各个B/S数字资源系统的运行情况,及时反馈运行结果,并通过短信和邮件的方式告知相关管理人员。有效提高了数字资源的运维和服务水平,让大量的数字资源服务器更加可靠稳定地运行。
(二)数字资源统计和分析子系统
图书馆资源统计与分析系统基于Redhat-Linux采用PFRING技术路线,通过端口镜像抓包分析技术,对核心交换机进出端口的数据进行高速采集,并提取相关TCP、HTTP协议的元数据。再采用JAVA多线程技术,对采集的数字资源元数据进行清洗,对清洗过的数据进行数据结构的建模,满足统计分析的要求。基于统计分析的元数据,可以生成图书馆按照时间维度、学科维度、资源类别的访问下载量和检索量等主要的指标性数据,为图书馆的各项资源服务提供可靠的依据。
(三)资源厂商售后服务子系统
通过对资源厂商售后服务子系统的搭建,可以为图书馆用户提供更加便捷的售后服务在线通道。以下几个方面将得到较好的改善:管理人员发生变化后第一时间通过平台进行资料更新,避免沟通脱节;数据资源的数据一旦发生变动,无论变动大小,第一时间通过平台更新相关信息,既不增加管理人员的负担,又更新了第一手资料;系统对数字资源厂商的每一次更新都有详细记录,并据此出具售后服务质量报告;图书馆的任何部门都能随时查阅相关信息,不再需要在多个部门之间来回协调。
(四)数字资源评价报表子系统
数字资源评价报表子系统基于以上4个子系统产生和收集到的大量元数据而生成,可以为图书馆管理人员和馆领导提供针对图书馆各个数字资源运行和使用情况的绩效评价报告。
三、技术创新点
图书馆运维系统的后台支撑服务基于J2EE体系架构开发;采用Quartz多线程技术、爬虫技术、Cache缓存技术、浏览器识别和模拟登陆技术,准确、高效地定位和发现各个数字资源是否正常、硬件设备运行是否正常。系统通过移动网络运行于Android、IOS等系统通信终端及时反馈故障信息给用户。后台还采用多种精密算法,其结果通过短信、邮件、微信等预警方式快捷告知用户,以免形成骚扰。系统采用了严谨合理的架构支撑体系,如图3所示:
图3 平台的架构支撑体系
上述流程实现过程中,从以下几个方面实现了技术上的创新和突破:(1)对爬虫技术进行了优化和合理的配置。不仅可以正常地识别各个资源的状态,而且需要把每一次的探测网络的流量控制到10 KB/s之内(只有这样才能支撑起几百个资源的并发探测)。(2)为保证后台多线程支撑程序7×24小时不间断的运行,对quartz框架作优化和重写。(3)由于某些数字资源采用的是https协议,爬虫程序采集的结果状态兼容https的资源网站。(4)后台支撑程序不仅支持资源网站,还兼容了服务器、交换机等硬件设备的性能监控。
四、平台运行结果
平台采用了多种信息技术,特别是利用网络爬虫技术,精确识别数字资源或者B/S系统是否正常访问、响应和下载等状态,有效实现了基于应用层的资源监控,解决了长期以来困扰图书馆的网络运维问题(目前国内公司运维系统是基于物理层或者网络链路层的监控)。
(一)较为全面地反映图书馆数字资源使用状况
该平台能记录某一个时间段内各个学院的客观下载量、访问量、检索量、访问入口等,以及最新资源介绍、最新数字资源学术价值、最新数字资源特点、最新数字资源培训资料、最新售后服务跟进情况等指标和属性数据。
(二)将大数据技术应用于图书馆数字资源监测
采用端口镜像的方式对数字资源进行高速线性采集,然后对数据进行还原和分析,分析出各个不同角色、不同院系使用数字资源的情况,最后进行统计和汇总。这样就解决了图书馆的数字资源统计问题。该技术路线在数字图书馆行业中的运用,结合了数字图书馆大数据分析技术,在国际与国内均属领先地位。平台采用云平台的方式分布式部署,对不同学校、图书馆的监测数据、资源访问数据以及评价数据等海量数据进行多线程处理,然后汇总到云平台存储,再横向挖掘出有价值的数据结果,使大数据技术在数字图书馆界变成了现实。
(三)能快速生成不同维度的分析报告
平台通过不同维度的数据的收集,然后根据图书馆的业务流程和算法,生成各种对图书馆有价值的分析报告。
五、结论
该平台通过对图书馆各种业务流程和网络运行数据进行客观、公正的采集和分析,对高校图书馆的数字资源利用情况和数据资源提供商的服务质量进行实时跟踪和展现,为图书馆数字资源遴选、采购和续订提供决策参考。特别是运用分析结果,可以督促厂商改善服务质量,提高图书馆经费使用效率,改善图书馆数字资源的使用效果,为提升图书馆运行管理和服务水平提供重要参考,为当今图书馆转型发展提供决策依据。