图书馆用户行为数据挖掘分析与应用
2023-01-07乔婷
乔 婷
(中国消防救援学院,北京 102202)
随着云计算技术、大数据技术和各种传感器技术的迅猛发展,图书馆数据中心的基础设施架构及用户服务模式发生了根本性改变,数据资源已经成为图书馆信息系统重要的组成部分和图书馆服务能力的重要保障因素。如何高效利用大数据资源对用户需求、用户信息行为、用户社会关系、图书馆服务方法和图书馆业务模式进行准确感知和识别,是图书馆提高对用户需求的洞察力以及改善用户阅读体验的前提,也是图书馆开展用户精准的个性化服务和提高自身的服务竞争力的有力保证。
1 图书馆用户行为数据分析的意义
随着网络信息技术的发展,图书馆的用户服务模式与服务能力的评估标准有了根本性的变革,用户服务能力的建设重点已由以资源建设为核心,向以满足用户需求为中心的个性化服务能力建设转变。因此,图书馆在用户服务过程中,能否全面准确掌握用户的信息行为、信息获取的社会关系、信息需求和信息获取方式变化趋势等数据,已成为图书馆个性化服务安全、高效、准确和经济开展的关键。
图书馆的服务价值来源于对用户需求的实现。认知科学研究发现,用户是书馆服务的主体,图书馆仅仅是用户信息活动的外在工具之一,是用户信息需求在物理或现实世界的延伸[1];而用户信息需求过程是一种“以我为主”的自组织过程,有着内在的秩序,并独立于图书馆而存在。因而,图书馆管理者不应以专家自居,而应重视用户需求的内在规律性。图书馆具有不同的用户主体,而他们工作及学习的领域、身份、年龄等差异使他们对资源有着不同的需求及偏好[1]。把所有用户的行为转化为可度量的数据,并对原本难以捉摸的用户信息行为活动及其关系进行分析、描述、和预测,获取到的新知识,对图书馆在管理方面进一步改进服务决策、提升服务能力具有指导性意义。
2 图书馆用户行为数据的定义及获取
图书馆用户行为是指为获取图书馆信息资源而受思想支配而施行的一切活动。科学高效采集用户行为数据,是分析用户信息行为需求模式,提高图书馆用户服务满意度的关键。
根据用户资源获取方式的不同,用户数据行为可以分为纸质资源的获取和电子资源的获取。纸质资源获取方面主要涉及用户基本信息、OPAC检索记录、馆藏书目、流通历史记录;电子资源获取主要涉及读者对网站及移动客户端中数字资源的访问,具体包含用户基本信息、数字资源类型、名称、访问利用方式及所利用详细电子资源的归属分类。另外,根据用户需求还应包括用户信息咨询方面,具体包括用户线上线下的业务咨询、意见建议、纸质及电子资源荐购等方面[2]。
3 图书馆用户行为数据的处理
图书馆用户行为数据的获取渠道多样,从不同的数据库表中获取的数据包含大量的冗余和噪声,并且不同数据表中的字段格式各不相同,因此必须对采集到的数据进行数据清洗、转换集成、数据装入等工作[3]。
3.1 用户行为数据清洗
用户行为数据清洗是指对采集到的用户行为数据进行处理,核实数据的完备性,过滤掉和用户行为分析没有关联的垃圾数据,以减少数据冗余和噪音对用户行为分析的不良影响。随着对户行为探索的进一步加深,用户信息行为数据的采集范围和采集深度不断增长,这些被采集的用户行为数据中包含许多数据噪音。如果数据库中这些不良数据一直存在,会对数据分析的结果造成影响,降低用户信息行为数据的可用性和价值密度。数据清洗过程通过技术和手动操作相结进行,主要有对拼写错误的更正,对缺失数据值的补充,对不同的系统中的重复数据进行处理、删除噪声数据。
3.2 用户行为数据转换集成
由于用户行为分析的数据获取来自不同的数据库、数据表,这些数据可能会有不同的数据存储格式与类型,因此需要对某些数据表中存储的数据字段类型进行修改,实现数据字段格式、类型的统一,以便数据挖掘过程的顺利进行。数据转换的目的是将收集抽取到的不同结构的数据转换成集成的、统一标准的数据,形成一个集成的统一标准的数据集合。另外,在首次装入数据后,还需实时监测数据源的变化,将更新的所需数据加载到数据仓库中。
3.3 图书馆用户行为数据挖掘分析的模型
3.3.1 聚类模式
聚类分析模式是利用对象的不同特征,根据对象的相似性,将数据分为不同的分类的集合[2]。不同分类中的对象差别较大,而同一个类中的对象具有高度的相似性。例如,根据图书馆的用户身份不同可以分为学生类、教员类、带队干部类、教辅员类。可以通过对图书馆的用户属性进行分类来研究用户的行为习惯,如年龄、身份、专业、籍贯等,通过对用户行为数据的聚类分析,从而找出对象与对象、对象与各属性之间的关系,从而分析并获得用户的行为知识。
3.3.2 关联规则
关联规则是用来描述数据库中不同数据项之间存在的关系规则,可以根据一个对象中某些属性的出现推导出另一些属性也会属于这个对象[3]。通过关联规则可以从海量数据中发现存在于数据中的隐藏的一些关联和相互的关系,可以发现用户和其不同属性之间的关联类型,进而可以制定以用户需求为中心的服务策略,提高用户满意度。例如,通过用户数据关联规则可以实现以下应用:①通过分析某个用户的属性特征,分析用户的阅读偏好,可以将于此用户所需图书的同一类图书进行推荐。②通过分析同一类集合中的用户属性,分析用户的阅读偏好,将相同性质的图书推荐给集合用户。③通过分析得知具有相同阅读偏好和阅读方式的用户属性。
3.3.3 时间序列分析模式
时间序列分析是一组按照时间顺序发生的事件,其在多个固定时间段内的记录的集合,在这些时间序列集合中获取在一定时间间隔内某事件发生的变化、规律[4]。例如,通过分析图书馆每天固定时间段内的人数变化、借阅变化等,可以调整图书馆借阅室及阅览室的开放时间及服务策略。
3.3.4 分类模式
分类模式是在已有定义好的类的基础上,对大数据样本进行分析,得到决定数据样本属于不同类的规则和方法,进而将数据中的数据项映射到应该归属的类上。通过分类模式可以实现数据的应用与预测。
例如,通过对图书馆用户的数据样本进行分析,可以对每个用户基本进行统计分析,获取数据的分类规则,建立一个用户分类模型,将所有职别分类为学生的数据定义为学生类,所有职别分类为教员的定义为教师类,进而将所有的用户数据使用此分类规则进行分类。
3.4 图书馆用户行为数据挖掘分析的服务应用
3.4.1 基于用户行为数据挖掘分析提供个性化服务模式
用户个性化服务是指以用户为中心,利用数据挖掘技术对用户行为数据进行挖掘分析,获取图书馆用户的信息行为、习惯、偏好、特点及用户特定的需要,提供给用户满足其个性化需求的针对性、主动性服务。①针对不同的用户所提出的不同的信息需求提供有针对性的信息服务包括信息咨询、信息结果推送等。②通过对用户信息或者用户的信息需求行为进行分析而发现的用户需求偏好[5],从而实现对用户进行主动的、符合其要求的、有用的信息服务。因此,图书馆用户的行为、习惯、偏好和特点是图书馆个性化服务的基础,先进的数据挖掘技术是图书馆个性化服务的重要手段,针对性、主动性是图书馆个性化服务的特点。
图书馆个性化服务充分利用各种信息网络技术,可以实现对用户行为偏好的数据推送,对于用户个性化推荐的应用可分为以下几个方面:
(1)基于用户信息绑定规则的推荐,是指根据事先设定好的规则标准来向用户推荐的方式;比如,用户借阅的图书为丛书类,那么在用户再次进行信息获取行为时,系统会对用户未获取的剩余丛书进行推荐。
(2)基于用户偏好内容的推荐,是指通过比较信息资源与用户模型的相似程度进而向用户推荐信息的方式;比如,用户获取的信息类型为人物传记,则在用户获取信息时,会通过相似性分类推荐人物传记类型书目。
(3)基于合作推荐,是指通过用户的聚类分析,将某一用户的行为信息推荐给用户类中的用户。比如,院校中计算机系的教员为一个用户类,其中一个用户研究的文献的相似文献便可推荐给此用户类中的其他用户。
3.4.2 基于用户行为数据挖掘分析优化馆藏资源采购建设
无论是传统图书馆还是现代新型图书馆,馆藏资源是图书馆服务的基础,采购书目的确定,是图书馆建设管理的重要组成部分。然而采购书目的确定存在着以下弊端:①采购书目一般由采购人从个人角度对用户行为数据进行分析,具有个人主观性,结果并不准确。②实际用户需求调研难以开展,统计具有片面性,搜集数据并不准确。③图书馆用户信息中不明确个人对资源的需求。这造成了图书资源利用率低下,一些不被利用的图书长期压架,而某些用户却存在无书可读的情况。
利用数据挖掘技术对图书馆用户的借阅流通记录、OPAC检索数据进行分析、挖掘,通过分类模式统计资源拒借集和频繁借阅集,进而对信息资源有针对性的进行补充。并且可以以此为依据分析出资源的利用率并及时剔除过时、老化的资源信息。另外,通过信息检索数据获取“0检索”的图书文献资源,作为采购书目的备选项[6]。通过用户实际需求进行馆藏资源的采购建设使购书的质量提高了,针对性和实用性加强了,盲目性减少了,大大提高了图书的借阅率,是提高馆藏资源文献利用率,提高用户服务质量的重要环节。
3.4.3 基于用户行为数据挖掘分析调整图书馆人员服务结构
图书馆服务人员是图书馆服务整体中的重要组成部分,如何合理的安排调配图书馆服务人员的服务时间及服务类型是提高整个图书馆服务效率和用户满意度的关键。图书馆服务的对象为读者用户,通过聚类模式技术和时间序列分析技术对不同类型用户到馆的时间段进行挖掘分析,然后通过分析结果合理地调整图书馆开放时间、图书馆工作人员服务时间及服务类型,可以节省必要的资源,提高图书馆利用效率,更好地提高图书馆的服务满意度[7]。
3.4.4 基于用户行为数据挖掘分析评估服务效率
用户的行为信息可以充分体现出图书馆对用户提供服务的情况,进而可以通过对图书馆用户行为的数据进行挖掘分析,进行图书馆服务效率的评估。其中,用户对图书馆的满意度、图书的借阅量、到馆访问人次的数据量、数字图书馆访问的情况、用户的意见建议、用户的参考咨询记录等都可以反应出图书馆的服务效率[8]。用户行为数据的分析对图书馆服务效率的评估应用包含以下几个方面。
(1)通过利用时间序列分析规则对近一年的用户到馆人次数及图书借阅量进行统计分析,对比得到用户到馆人次及图书借阅数量的趋势。
(2)通过利用时间序列模型对数字图书馆文献的在线阅读量及文献数据下载量进行统计分析,进而得到数字图书馆的利用情况趋势。
(3)通过对OPAC中的检索信息进行挖掘分析,通过时间序列分类模式统计分析用户“0检索”的数据,分析资源覆盖率变化趋势[9]。
4 结束语
随着大数据挖掘技术的深入发展和图书馆用户服务需求的增加,图书馆的大数据环境和用户行为分析过程将会更加复杂。因此,对图书馆用户行为数据的挖掘分析必须从大数据视角出发,进一步获得新的应用、预测和分析能力,才能保证图书馆用户行为数据分析结果科学、全面、精确和可用,才能为图书馆用户个性化数据服务提供可靠的数据支撑。总之,图书馆用户行为数据的挖掘分析,对于提高图书馆用户的个性化服务质量,满足用户的信息需求具有极其重要的现实意义。