APP下载

大数据背景下高校图书馆个性化信息服务系统模型研究

2018-01-03赵秀静

河南图书馆学刊 2017年12期
关键词:高校图书馆大数据

赵秀静

关键词:个性化信息服务;高校图书馆;目标用户;信息挖掘;大数据

摘要:文章从高校个性化信息服务的发展瓶颈出发,进行了相关的可行性分析,进而提出高校图书馆个性化信息服务模型,同时提出高校图书馆个性化信息服务过程中需要注意用户的隐私和数据来源的约束等问题。

中图分类号:G252文献标识码:A文章编号:1003-1588(2017)12-0056-03

1构建个性化信息服务系统的可行性分析

1.1已有的系统在分析用户需求方面存在不足

高校图书馆开展个性化信息服务的一个前提条件,是需要准确获知用户实时的信息需求。目前,已有的个性化信息服务系统获取用户信息需求的途径是通过事前的各种调查问卷、网络访谈等方式获取,然后对获取的结果进行综合分析并得出结论,再由相关的学科馆员或参考馆员根据需求结果调整相应的服务内容。但是,用户的信息需求每时每刻都在发生变化,前一刻和下一刻可能都会不一样,这种明显有时间差的需求分析,已经不能满足现今高校师生在大数据环境下的信息需求[1]。

1.1.1用户建模的非实时性。已有的个性化信息服务系统以一种传统的信息需求方式获取用户的需求情况,所得的结果不可避免会存在一定的偏差,因为已有的个性化信息服务系统的信息需求获取方式不外乎问卷调查或网络访谈,这本身就受制于调查问卷的设计是否合理、用户表述是否清晰、用户是否会出于对自身隐私的保护而不愿意配合等情况。高校图书馆在获取这些存在偏差的信息需求结果的基础上实施个性化信息服务,很难达到预期的效果。

1.1.2服务针对性有所缺失。综观现今高校图书馆已有的个性化信息服务系统,普遍存在与用户需求脱节、服务精准度不高的问题,其根源在于高校图书馆已有的个性化信息服务系统无法随时获取用户的信息需求,因此也就不能根据实时的用户需求情况随时随地调整服务策略。与公共图书馆不同,高校图书馆主要服务于高校师生,很多因素导致高校图书馆无法实时获取用户的需求情况,无法根据师生的教学、学习进度和研究任务的变化而随时调整服务内容,进而直接影响高校图书馆个性化服务的针对性。

1.2建立一个对用户需求进行分析的个性化系统的必要性

1.2.1实时感知用户的信息需求。对于高校师生来说,高校图书馆充当着“信息枢纽”的角色,他们在科研、教学及学习中产生信息需求时,往往借助于图书馆和网络进行信息资源的自我服务。高校师生在借阅书籍、检索书目、下载电子资源的过程中会产生海量的信息行为数据,图书馆相关人员通过对这些行为数据进行深入的挖掘和分析,很容易获取用户的实时信息需求[2]。这些数据对于个性化系统准确分析实时的用户信息需求,具有非常重要的参考价值。

1.2.2目标群体区分度较高。高校图书馆个性化信息服务系统所面临的首要难题是识别目标用户的身份。该系统需要随时随地跟踪用户不断变化的信息需求和信息获取行为,并加以分析,进而锁定目标人群,进行精准信息推送,这就需要在技术层面上应用Web数据挖掘技术。由于经费等的限制,高校图书馆的主要服务对象是在校师生,目标人群总体上还是较容易识别的,因为在校师生大都在图书馆完成了个人登记手续,即使他们使用校内网访问馆外的网络资源,其电脑IP地址也已在校园网网络中心备案在册。因此,高校图书馆通过师生的信息记录,并联合校园网络中心提供的客户端用户名等,就可以较为精确地区分目标人群与非目标人群,轻松完成目标用户的识别。

2个性化信息服务系统构建

2.1系统构建目标和模型

个性化信息服务系统是在高校图书馆信息服务平台的基础上,通过不同数据仓库获取的用户使用痕迹、用户检索记录等,并应用Web数据挖掘技术,获取此时此刻相对准确的用户信息需求,以便有针对性地完成高校图书馆信息资源的推送服务。个性化信息服务系统模型

的目标是获取用户实时的信息需求,其功能包括整合和规范数据,数据分析和信息推送等。

2.2个性化信息服务系统模块功能

2.2.1数据集成模块。该模块主要是为下一步的数据规范化做准备。在逻辑层面上,该模块将从各种渠道获取的、格式不一、含义各异的数据记录进行系统集中。高校师生的信息行为数据分散于高校图书馆的信息系统、馆藏电子资源数据库、校园网等处,数据集成模块就是要完成对所有这些分散数据的链接工作。

2.2.2数据规范化处理模块。该模块流程图见图1,主要目的是规范处理上一步集成后的数据,使其适用于数据分析相关算法。①合成记录。高校图书馆所使用的自动化系统由各种软件开发商提供,它们各自所属的系统数据库的数据表述格式和形态都不一样,因此高校图书馆有必要进行相应的合成。该模块通过将各个自动化系统中的用户行为信息以唯一的符号格式来表示,从而实现跨系统的记录合成。针对本校师生,这个唯一的数据库表述符号可以用读者编号来表示,因为他们事前都办理过图书馆借阅证,会得到唯一的读者编号,因此其可以作为标记该用户的跨数据库标识符。②数据规约。该功能是专门对含义相同但是标识名不同的数据进行统一的规约处理,目的是最大限度地让数据管理清晰化,为准确的数据分析工作扫除障碍。所谓“含义相同但是标识名不同的数据”,举个简单的例子,就是在高校图书馆的读者信息库性别标识为“男”的,在校园网的用户日志里标识为“Male”,因此在客观上会造成歧义,也就有必要进行数据规约。③数据清理。该模块的目的是实现对噪音数据、污染数据以及错误或不一致数据的清除。用户在不同数据库的记录经过了合成以及数据规约处理后,将汇集到同一字段值中,但是这部分字段还存在属性重复的情况,这时就仅需保留一个属性值,而将其余的剔除;同時,字段值中也会出现缺漏现象,需做适当补充;对于出现错误的数据,需及时更正;对于实数形式的字段值,需做离散处理。④数据变换。该模块主要是将各种格式的数据统一转化为适用于下一步信息分析算法所需要的数据格式。不同的信息分析算法,都有其适用的数据格式。该模块通过各种方式,比如数据概化、平滑聚集等完成数据的变换。

2.2.3信息分析模块。高校师生在信息资源获取和利用的过程中,会产生三种信息的格式:结构化、半结构化以及非结构化信息。①结构化信息。用户接受高校图书馆提供的信息服务时,相应的数据库会在图书馆回复用户信息咨询,以及对用户提交的服务进行反馈的过程中,以表格化的形式,即以结构化的数据格式存储相关的记录,那么这部分数据由结构化数据分析模块负责处理。②半结构化信息。用户通过网上搜索引擎进行信息检索,会在相应的服务器日志留下使用痕迹,这部分信息由网络日志分析模塊负责处理。③非结构化信息。用户通过移动终端向微信朋友圈等社交网络发送信息请求时,这部分数据就由移动信息分析模块进行处理。结构化信息分析模块的目的是根据不同的用户信息行为,将其细化成以“粒度”为单位的数据,从而精确区分不同用户近似信息行为的信息需求的差异。考虑到结构化数据的格式规范且固定,因此该模块只需在上述步骤的基础上,即对经过合成和规约的相关数据再进行必要的聚类和分类即可完成。网络日志分析模块通过对用户访问互联网的使用痕迹进行分析,获取用户实时的信息需求。该模块的流程分为三大步骤(见图2),最终目的是提升系统的响应速度,最大限度地降低海量的数据规模,采取的途径是通过区分用户身份,过滤掉无关用户的信息需求数据。经过处理,该模式可得出如表1所示的用户访问日志。互联网的用户信息行为具有一定的特征,若用户对某一页面的访问频率较高,或者说停留的时间较长,就从一个侧面反映了该页面对该用户有十分重要的意义。因此,高校图书馆可以通过表1中访问频次字段的内容,判定该用户的信息需求。移动信息分析模块设计的初衷是通过对用户浏览移动网络的痕迹进行挖掘,获取相应的物理定位、爱好等用户信息行为特征,针对用户的爱好完成高校图书馆信息资源与用户移动终端的有效对接。目前,国内高校范围内智能移动终端设备已经普及,高校图书馆也与时俱进地推出了微信、微博等服务方式,借此吸收用户的行为痕迹,以便进行信息挖掘,为个性化信息服务打下基础。

2.2.4信息匹配模块。该模块是高校图书馆工作人员在获取实时的用户信息需求的前提下,对需求进行分类,根据不同的需求找到对应的馆藏资源和网络信息资源,采取因人而异的服务策略,实现真正的“个性化”信息服务。

2.2.5信息推送模块。该模块通过以下三种信息推送方式,因人而异地实现精准化的信息推送服务:①当用户在需要借阅或使用相关书籍、电子资源时,尚未发现对自己可能更有价值的一些信息资源,那么此时该模块就会在对其他用户信息选择的数据挖掘的基础上,自动地、有针对性地为该用户推荐一些信息资源。②在用户使用高校图书馆的微博、微信等服务时,该模块会尽快地分析出用户的需求,然后进行相关的信息资源的推荐提示。③针对用户所使用的不同移动终端的类型或者所在位置,及时地向用户推送其订阅的相关资源。

2.2.6用户使用评价模块。该模块主要通过系统后台,收集每一位用户对每次接收到的高校图书馆个性化服务推送的信息资源所反馈的评价信息。该模块可为高校图书馆工作人员修正相关的数据分析算法,为提升个性化服务效能提供重要的参考依据[3]。

3个性化信息服务系统在应用方面面临的困境

3.1用户隐私权可能受损

为了深入挖掘用户的信息需求,个性化信息服务系统通过实时监控用户的信息行为,对其进行数据集成、数据分析、聚类及分类处理等,从而挖掘出用户信息需求的特征,这本身是为了更好地提供信息服务,但在此过程中不可避免地会涉及用户的隐私,使用户的隐私存在一定的风险。因此,高校图书馆必须在充分尊重用户隐私的前提下,在征得用户本人同意后,才能对用户行为进行数据分析,并引进数据清洗步骤,过滤掉与个性化服务无关的用户行为信息数据,最大限度地保护用户隐私不受侵犯[4]。

3.2数据来源的限制

在高校范围内开展个性化服务,只有当师生在校园网内的信息行为与其在校园网外的信息行为之间达成一定的数据耦合度,才能有助于对数据的分析和信息的深入挖掘。因此,高校图书馆有必要与相关网络运营商达成一个相互协调和沟通的机制,从而打破用户行为信息来源的限制。

4结语

大数据环境下,高校图书馆信息服务产生了海量的用户信息行为数据。笔者为此设计了一套个性化信息服务系统模型,从理论上完成了前期的研究工作,但高校图书馆如何与相关网络运营商进行深入协调,并且与用户达成一个隐私保护的协议,还需要在今后的工作中多次进行实践修正,最终完善该个性化信息服务系统。

参考文献:

[1]马晓亭.大数据时代图书馆个性化服务读者隐私保护研究[J].图书馆论坛,2014(2):84-89.

[2]李善青,赵辉,宋立荣.基于大数据挖掘的科技项目查重模型研究[J].图书馆论坛,2014(2):78-83.

[3]艾春艳,游越,刘素清.读者参与的高校图书馆学科服务新模式探讨[J].大学图书馆学报,2011(5):70-72.

[4]吴新年,陈永平.关于学科化信息服务的思考与建议[J].情报科学,2007(12):1833-1837,1858.

(编校:崔萌)

猜你喜欢

高校图书馆大数据
高校图书馆阅读推广案例分析
微信公众平台在高校图书馆信息服务中的应用研究
高校图书馆阅读推广活动研究
试论高校图书馆在网络环境冲击下的人文建设
大数据环境下基于移动客户端的传统媒体转型思路
高校图书馆阅读推广实践探讨
高校图书馆电子资源的宣传与推广
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索