APP下载

大数据环境下高校图书馆个性化信息服务系统研究

2014-02-28栾旭伦

图书馆学刊 2014年8期
关键词:数据挖掘个性化图书馆

栾旭伦

(淮阴师范学院图书馆,江苏 淮安 223300)

大数据环境下高校图书馆个性化信息服务系统研究

栾旭伦

(淮阴师范学院图书馆,江苏 淮安 223300)

针对当前高校图书馆个性化信息服务的不足,分析了大数据环境下高校图书馆建立个性化信息服务系统的可行性,构建了高校图书馆个性化信息服务系统模型,并对模型的功能进行了阐述。

大数据环境 个性化信息服务 数据挖掘 高校图书馆

近年来,国内高校图书馆致力于个性化信息服务的开展,作为信息定向明确、服务针对性强、使用便捷的一种新兴服务模式,它的深入推广受到了高校师生的广泛好评。随着个性化信息服务的大范围推广,如何根据用户不断变化的信息需求情境,实时调整信息服务策略,更好地体现信息服务的“个性化”特征成为个性化信息服务发展亟待解决的问题。

1 个性化信息服务的发展瓶颈

感知用户真实的信息需求情境是开展个性化信息服务的前提。目前,在个性化信息服务过程中,各高校图书馆通行的做法是通过问卷调查、网络访谈、电话咨询等途径事前获知用户的信息需求,通过对获得的用户需求信息进行分析,进而由学科馆员或参考馆员针对相应的信息需求开展独具特色的相关服务。受用户不断变化的信息需求等因素的制约,传统的个性化信息服务模式存在明显不足。

1.1 无从感知用户真实的信息情境

传统的个性化信息服务模式在获取用户信息需求时大都以问卷调查或访谈为主,这些传统的信息需求获取模式受问卷调查表设计缺陷、用户表达不清、担忧网络访谈泄露自身隐私等因素的限制,使得高校图书馆获取的用户信息需求往往存在一定偏差,在不真实的信息需求基础上开展个性化信息服务势必难以取得理想的效果[1]。

1.2 服务针对性有所缺失

高校图书馆的服务对象主要是在校师生。受师生的教学进度、研究任务不断变化等相关因素的影响,个性化信息要取得良好的使用效益,必须及时根据用户不断变化的信息需求情境实时调整服务策略。然而受时间局限性、频繁沟通的不便等各种因素的制约,日常服务中,师生往往无法做到或不愿向图书馆员来反映自己已经变化了的信息需求,因无从实时感知用户变化了的信息需求,导致高校图书馆所提供的个性化信息服务与用户的信息需求存在严重脱节,服务针对性较差。

1.3 个性化信息服务遭遇用户流失危机

互联网环境下成长起来的“90后”大学生,自身掌握了丰富的互联网使用经验,他们对图书馆的依赖性有所降低,受图书馆信息服务针对性不强、信息使用不便等因素影响,当有信息需求时他们首先想到的是百度、谷歌、SNS、互联网好友圈等途径而非求助图书馆[2]。一方面,高校图书馆掌握了丰富的馆藏资源,希望通过个性化信息服务方式为资源找到使用者;另一方面,个性化信息服务针对性不强,用户大量流失。提高个性化信息服务针对性,强化用户使用体验满意度,成为高校图书馆个性化信息服务过程中必须解决的难题。

2 大数据环境下高校图书馆建立个性化信息服务系统的可行性

2.1 丰富的数据来源

高校图书馆作为全校的信息资源中心,积累了海量的用户行为数据,如用户查询书目产生的OPAC日志,用户借还书所产生的借阅信息,用户浏览、下载电子资源所产生的电子数据库使用痕迹,用户使用学科化信息服务中与学科馆员的互动信息,用户在图书馆微博中留下的评语,用户访问图书馆论坛停留时间等。这些海量数据从侧面真实地反映了用户变化着的信息情境,通过对这些海量数据进行有针对性的挖掘、分析,可真实反映用户当下的信息情境,进而为图书馆开展个性化信息服务提供决策参考。

2.2 较易识别的目标群体

开展个性化信息服务,需实时跟踪用户不断变化的信息行为,分析用户的信息需求,进而实现精准定位的信息推送。获取用户的信息需求离不开实时的Web数据挖掘,而Web数据挖掘的难题之一是目标用户的身份识别。对高校图书馆个性化信息服务系统而言,目标群体具有明显的区分度,较易识别。受经费、版权等因素的制约,目前高校图书馆的服务对象主要是在校师生,师生使用图书馆资源时,其信息均已在图书馆注册过,通过对师生的信息记录进行相应的识别,即可准确定位目标群体。此外,高校师生在校园内访问网络资源时,其电脑IP地址大都已经在校园网网络中心注册过,通过客户端的用户名及密码,可轻松实现目标用户的精准识别。

2.3 用户信息需求的实时感知

用户的信息需求可以通过其相关的信息行为体现出来。对高校师生而言,当他们在教学、科研或学习方面有信息需求时,大都会通过图书馆或互联网等途径进行自我服务。在自我服务过程中,后台服务器能如实记录用户的信息行为数据,通过对这些数据的深入挖掘,用户实时的信息需求显露无疑。

3 个性化信息服务系统的构建

3.1 系统构建目标

大数据环境下构建高校图书馆个性化信息服务系统,其最终目的是通过对互联网上用户使用日志、会话信息、评论信息、搜索查询记录、图书馆使用记录等进行深入挖掘,实时感知用户变化着的信息需求,进而针对用户的真实信息情境开展有针对性的个性化信息服务。基于系统的构建目的,系统的构建目标为:在图书馆已有的信息服务平台及服务模式的基础上,整合来自不同数据仓库中的相关记录,通过Web数据挖掘,感知用户实时的信息需求,并基于此开展有针对性的个性化信息服务。

3.2 高校图书馆个性化信息服务系统模型[3]

通过对用户行为数据的实时跟踪,获取用户的信息需求,涉及数据集合、数据规范化、信息分析、信息推送等功能。大数据环境下高校图书馆个性化信息服务系统应包含数据集成模块、数据规范化处理模块、信息分析模块(含结构化数据分析模块、互联网日志分析模块、移动终端位置判定模块)、信息匹配模块、信息推送模块、用户使用评价模块。系统模型如图1。

3.3 高校图书馆个性化信息服务系统模块功能[4]

3.3.1 数据集成模块

高校师生的信息行为数据分散地存储在图书馆不同的自动化系统中,数据集成模块用于将图书馆信息系统相关记录、学科化信息服务平台信息、电子资源使用记录、网络日志等多个数据源中的相关数据进行链接,将不同来源、不同格式、不同记录结构、不同含义特点的数据记录在逻辑上进行有机集中,为数据规范化处理做好准备工作。

3.3.2 数据规范化处理模块

数据规范化处理模块用于对集成后数据进行规范化处理,以使数据符合数据挖掘相关算法的需要。数据规范化处理工作流程如图2所示。

图2 数据规范化处理模块流程

合成记录。图书馆所使用的自动化系统由不同的软件开发商提供,因彼此之间缺乏沟通协调,各服务供应商的系统数据库中的数据字段其格式及含义各不相同,要对用户的信息行为进行挖掘,必须选取唯一标识用户的数据字段对来自不同系统的用户行为数据进行有机集合。对高校师生而言,他们使用图书馆的资源,须通过先前办理的图书借阅证,因读者编号具有唯一性,可以将读者编号作为连接用户存贮在不同数据库中的相关记录的连接标识符。

数据规约。不同数据库或网络日志中的信息记录具有不同的标识及记录方法,比如读者信息库中的性别记录可能为“男”或“女”;而校园网信息中心用户网络日志中的信息记录可能为“Male”或“Female”,而实际他们具有相同的含义,数据规约功能用来对具有不同属性名但含义相同的数据进行规范化处理,以达到降低数据歧义,提高数据分析准确性的目的。

数据清理。经合成记录模块、数据规约模块处理后,同一用户在不同数据库中的记录被集中到了同一字段,这些字段值中有的是重复记录的,需要保留一个属性值,剔除重复属性值;有的部分数据不全,对于遗漏的数据信息,需要进行补充;有的数据有误,需要进行更正;有的部分数值为实数值需要进行离散化处理。数据清理模块主要用于清除噪声数据、污染数据、错误数据及不一致数据。

数据变换。不同的数据分析及数据挖掘算法对数据具有不同的要求,数据变换模块主要通过平滑聚集、数据概化等方式将数据转换成适合数据挖掘算法要求的数据形式。

3.3.3 信息分析模块

高校师生有信息需求时,多通过3种途径加以解决。一是通过图书馆提供的相应服务;二是通过互联网搜索引擎进行信息搜索;三是通过移动互联网求助社交网。对于用户的这几种信息资源利用方式,分别对应产生了结构化信息、半结构化信息和非结构化信息。用户使用图书馆信息服务时,图书馆大都通过一定的技术手段对用户的咨询内容、服务反馈等进行了如实记载,这些记录大都以规范的表格存储在相应的数据仓库中,属于结构化数据分析模块处理范畴;用户利用互联网进行信息搜索时,会在服务器日志文件中留下使用痕迹,对用户的网络信息行为进行相关分析属于互联网日志分析模块功能范畴;用户使用移动互联网,利用虚拟人际关系进行信息求助时,其核心节点是人,而非网页,因此对于移动互联网日志我们需要采取特殊的信息分析策略来进行有效分析。

①结构化信息分析模块。结构化信息具有固定与规范的数据格式,该模块主要对数据聚合、数据规范化处理后的数据进行数据挖掘操作,对数据挖掘后的相关数据进行聚类与分类处理,根据用户的信息行为,将用户细分为不同的数据粒度,以识别不同用户之间相似的信息行为及相同用户在不同时间段差异性的信息需求行为。

②互联网日志分析模块。互联网日志如实地记录了用户对Web服务器的访问情况,通过对这些数据进行分析,可以快速、准确获知用户当前的信息需求。互联网日志分析模块分3个工作步骤。

图1 大数据环境下高校图书馆个性化信息服务系统模型

图3 互联网日志分析模块流程

数据处理模块主要用于对相关数据进行净化处理,识别用户身份,删除不必要信息以达到缩减数据规模、降低系统响应时延的目的。经数据处理模块对数据处理后,可形成如下用户访问日志(见表1)。

表1 用户访问日志

在进行互联网信息访问时,用户有可能不通过网页上的链接功能进行页面访问,而是通过浏览器的后退功能直接调用缓存在计算机中的历史记录来进行访问。路径补充模块用于识别用户当前页面信息的原始来源,补充缺失的用户访问路径。

网页的访问频率及停留时间对于判定用户的信息需求具有重要意义。如果用户频繁地访问某一页面或在某一页面上停留了较长时间,则可以认为该页面是用户信息需求的一个集中反映。访问统计模块用于对用户在不同时间段访问的相关页面进行频次统计,填写用户访问日志表中的“访问频次字段”,为用户信息需求判断提供决策参考。

③移动信息分析模块。随着智能手机终端、IPAD等各种移动设备的普及,高校师生通过移动终端获取信息资源已成常态,为改进服务方式,高校图书馆适时推出了微博、微信、掌上图书馆等服务模式,对这些服务模式中所积累的用户信息进行挖掘,对于个性化信息服务的开展具有重要意义。移动信息分析模块用于对用户的移动互联网浏览信息进行挖掘,以获取用户的地理位置、兴趣点等信息行为特征,根据用户的兴趣点实现信息资源与用户移动终端的精确匹配。

3.3.4 信息匹配模块

获知用户的实时信息需求后,高校图书馆工作人员在信息匹配模块针对用户不同的信息需求,利用馆藏资源及互联网信息资源制定不同的信息服务策略,满足用户的个性化信息需求。

3.3.5 信息推送模块

信息推送模块用于对不同的用户进行有针对性的信息推送。系统提供3种信息推送模式,一是用户借阅相关书籍或使用电子资源时自动给用户推荐数据挖掘中发现的其他用户的信息选择结果,有针对性地推荐用户尚未发现的信息资源;二是当用户使用图书馆微博、微信、学科服务时,第一时间根据数据分析的结果,向用户进行相关信息推荐提示;三是根据用户的移动终端位置及终端类型,及时向用户推送其订阅的相关信息。

3.3.6 用户使用评价模块

通过大量的数据挖掘与分析,个性化信息服务系统发现了用户的行为意图,并向用户推送了相关信息。为提高个性化信息服务的针对性,提高系统服务的精准度,用户在接收相关信息时,可以通过用户使用评价模块直接对接收的信息进行评价,系统自动将用户的评价信息存入后台的个性化信息服务库。个性化信息服务库中的信息积累可以为日后高校图书馆工作人员修正数据挖掘算法提供参考,以改进个性化信息服务系统的服务效果。

4 个性化信息服务系统深入应用思考

4.1 用户隐私权可能受损

个性化信息服务系统通过对用户信息行为数据的集成、分析、聚类、分类等相应处理,发现数据之间隐藏着的用户信息特质,为更好地获取用户信息需求,用户信息行为痕迹被系统实时地监控,无形中增加了用户隐私权受威胁和侵犯的概率。为保障用户的隐私权,在进行用户信息行为数据分析前必须征得用户本人的同意,同时在数据分析前必须对涉及用户隐私的相关数据进行相应的数据清洗操作,删除与个性化信息服务无关的数据,最大程度上避免用户的隐私权受损[5]。

4.2 数据来源的限制

只有当用户的信息行为数据达到一定的存储规模并具有一定的数据耦合度时,才能通过个性化信息分析系统来进行数据的深度挖掘与分析,得到具有较高价值的用户信息需求特征。个性化信息服务系统的数据来源大部分局限于校园内,对于用户在校园外的信息行为数据,必须通过与电信服务运营商和移动服务提供商进行沟通协调方能获得。数据来源的局限性,在一定程度上降低了用户信息行为特征识别的精准度。

[1]吴新年,陈永平.关于学科化信息服务的思考与建议[J].情报科学,2007(12):1834.

[2]艾春艳,游越,刘素清.读者参与的高校图书馆学科服务新模式探讨[J].大学图书馆学报,2011(5):70.

[3]李善青,赵辉,宋立荣.基于大数据挖掘的科技项目查重模型研究[J].图书馆论坛,2014(2):81.

[4]谭磊.大数据挖掘[M].北京:电子工业出版社,2014.

[5]马晓亭.大数据时代图书馆个性化服务读者隐私保护研究[J].图书馆论坛,2014(2):85-87.

栾旭伦男,1982年生,馆员。

G252

2014-04-24;责编:王天泥。)

猜你喜欢

数据挖掘个性化图书馆
探讨人工智能与数据挖掘发展趋势
坚持个性化的写作
新闻的个性化写作
图书馆
基于并行计算的大数据挖掘在电网中的应用
上汽大通:C2B个性化定制未来
飞跃图书馆
一种基于Hadoop的大数据挖掘云服务及应用
满足群众的个性化需求
去图书馆