基于大数据分析方法的高职院校图书馆用户行为与需求挖掘
2019-08-08盛铨方嵩松
盛铨 方嵩松
摘要:以OPAC后台日志数据为基础,从中提取相关的有效字段,运用K-means法与Aprior算法等大数据分析方法,对高职院校图书馆用户行为与需求进行聚类与挖掘,揭示出高职院校的用户行为特征、规律及其关联性,这对于高职院校改进服务有重要的借鉴意义。
关键词:大数据;高职院校;图书馆;用户行为;K-means;Aprior算法
中图分类号:G434 文献标识码:A
文章编号:1009-3044(2019)18-0001-03
随着移动电话、平板电脑等移动设备以及在此基础上产生的移动社交平台等新媒体发展速度十分迅速,由此也使得高职院校图书馆服务面临着新的机遇与挑战,新媒体为所带来的移动图书馆、图书馆微信公众号以及桌面端网站,都极大地丰富了用户使用图书馆资源与服务的手段,而用户在借助于新媒体与图书馆进行交互的过程中又产生了海量的行为日志数据,对这些海量数据进行挖掘与分析,能够有效揭示用户的行为规律及其需求,进而有针对性地为用户提供更具个性化的资源与服务,以实现高职院校图书馆服务方式的创新。
1 数据获取与数据处理
本研究于2018年4月和5月期间,收集了浙江省某高职院校图书馆在该年在4月1日至5月31日的OPAC后台日志数据,所获取的数据跨越61天,数据总量共达到了3.67GB。该OPAC日志数据详细记录了用户利用图书馆OPAC从事相关活动的信息,如用户每次点击行为起始与终止时间、用户自身设备信息及其接入网络的IP地址、用户向OPAC系统提交的访问请求内容信息、用户访问请求内容以及其他相关信息等。
由于OPAC原始的日志数据包含了很多个维度,本研究在对OPAC原始的日志数据进行分析的基础上,根据研究目标确定了对数据挖掘有用的相关日志数据字段,包括:用户每次点击行为起始与终止时间、用户自身设备信息及其接入网络的IP地址、用户向OPAC系统提交的访问请求内容信息、用户访问请求内容以及其他相关信息等。我们对所获取的数据进行了更进一步的筛选和清洗,相关工作包括数据噪声的去除(包括数据中的空缺值和异常值等),去除了数据中许多字段不完整或者没有意义的数据[1],最终形成了本研究的数据基础,保留下来的数据比重占原数据的64.8%。基于这些数据,我们应用K-means算法对高职院校图书馆用户行为与需求进行了挖掘。
为进一步明确高职院校图书馆用户行为与其对图书馆资源与服务的需求,我们从中筛选了部分登陆过OPAC系统中“我的图书馆”的用户,对其利用图书馆服务的相关数据信息进行了获取与挖掘。通过对用户登陆“我的图书馆”的行为数据与其IP地址和其预留在图书馆中的个人信息进行匹配,我们获得了用户个人信息、用户点击OPAC系统的信息均具备的用户数据,这些数据约占到了总记录数的42.75%。用户通过OPAC检索系统和“我的图书馆”服务系统所能够获得的图书馆服务主要有查询服务、查看信息、借阅服务、信息修改、图书预约、图书续借、参考咨询、新书推荐、借阅排行、图书荐购等服务。
2 基于K-means方法的高職院校图书馆用户行为与需求挖掘
2.1 数据分析流程
对高职院校图书馆用户行为与需求进行挖掘和分析所采取的方法为大数据分析中常用的K-means算法,在具体执行该算法的过程中,通常需要先确定将数据聚类成多少个目标簇,聚类的簇数并没有明确的规定,数据分析要人员可以根据自身已有的知识结构以及该算法在数据挖掘过程中的具体结果进行相应的尝试[2]。但在很多情况下,K-means算法所设置的聚类簇数仍然有一个相对固定的范围,通常该数量为10个左右。考虑到高职院校图书馆的用户对象主要以本校的师生为主,用户具有比较高的同质性,因此所设置的聚类簇数不宜过多,否则会导致聚类效果较差[3]。我们根据高职院校图书馆用户的大致分类情况,将拟采用的K-means算法所获得的聚类簇数设置为6个,其具体分析过程包含原始数据获取、数据筛选、图书馆服务使用类别数量、点击次数比较、检索行为比重、系统服务操作行为比重、数据类型设置、数据过滤、K-means聚类等环节(见图1)。
2.2 聚类分析结果
本研究通过K-means聚类分析算法所得出的聚类分析结果如表1所示。由于将K-means聚类簇数设置为6个,我们可以因此获得六个聚类结果。在这六个类中,聚类3仅包含两个记录,且该聚类下的检索行为点击次数、系统服务操作行为点击次数、点击行为次数、持续时间、利用图书馆服务数量的值均要远大于其他五个类,说明聚类3所包含的两个记录存在异常的情况,因此我们不需要对该类的相关信息进行更进一步的分析。
聚类1所包含了记录数最多,记录数占所有数据总量的18.57%,该类下聚集了大量用户,共有827个用户,是包含用户数最多的类。该类下的用户使用智能终端(如智能手机、平板电脑等)在OPAC上进行相关操作的比重最高,达到了75%。该类用户在数据采集期间向图书馆OPAC系统所发起的会话数量平均值为3.025个,发起对话所包含的点击行为数量平均有55.764个,在所有类中处于中等水平,说明该类用户使用图书馆OPAC系统相关服务的行为比较正常。该类用户访问OPAC系统所实施的系统服务操作行为比重相对较低,所进行的检索行为点击次数和系统服务操作行为点击次数分别为4.578次和2.226次,也都处于比较中间的水平,用户点击行为的持续时间大约为44.357秒。在该类中,用户发起的会话包含的点击行为次数也并不多,只有25.764次,所利用的图书馆服务数量为1.542个,说明这类用户利用图书馆OPAC的目的比较统一和集中,主要利用的是图书馆某一个服务。总体来看,该类用户对图书馆OPAC的利用处于中午水平,其目的主要以检索为主,利用OPAC进行其他相关系统操作的次数并不高,因此图书馆可重点关注这类用户在系统中到底检索了什么信息,根据其检索记录,有针对性地为这些读者推荐一些图书信息,以使满足这类读者的文献信息需求。
聚类2所包含的记录数其次多,记录数占到了所有数据总量的12.42%,该类下包含的用户数量为443个,是用户数量其次多的类。在该类下使用智能设备的用户数量比较并不算高,只有26%,说明该类用户大多使用的是桌面端的设备访问图书馆OPAC。该类用户发起的会话次数平均值为2.049个,比聚类1的用户会话数量相对要少,该类用户检索行为的比重也比较高,达到了58%,该类用户的系统服务操作行为比重也不算低,达到了24.6%,要高于聚类1,说明该类用户在进行检索的同时,也会发起比较多的系统服务操作。总体来看,该类用户发起的会话数及其点击行为数量都相对较少,且系统服务操作行为所占的比重相对较高,其桌面端的用户占多数,这与本研究之前所得出的结论保持一致。针对这类用户,图书馆在进行检索结果精确推送的同时,还可在OPAC检索页面为其推荐更多的服务、资源供其选择[4]。
聚类4和聚类5所包含的记录数占所有数据记录的比重分别为6.63%和4.27%,这两类用户属于两类行为相反的用户群。其中,聚类4的用户属于以检索为主要目的,主要利用桌面端设备进行操作,会在OPAC中反复修改检索式,以获取精确的检索结果的用户群,该类用户进行其他的情况相对较少;聚类5的用户属于更愿意利用OPAC系统中其他服务的用户,这类用户以利用智能设备为主。另外,聚类6的用户在检索行为和系统服务操作行为的频次上都不算多,但其点击行为次数却达到了117.54次,说明这类用户喜欢比较喜欢漫无目的在OPAC系统进行相关无关操作,这类用户利用图书馆的需求并不明确,需要图书馆为之提供必要的指导。
3 基于Apriori的高职院校图书馆用户行为与需求挖掘
3.1 分析流程
Apriori算法的基本思想是以递归的方式反映从数据集中寻找出现频次多的项集,进而产生选项集,对达到最小支持度要求的候选项集进行保留,而删除那些不满足要求的数据。在该算法执行的过程中,通常将最大前项数据的阈值设置为1,而小最置信度数据设置为10%,其具体流程如图2所示。
3.2 关联规则分析结果
表2显示了基于Apriori算法的高職院校图书馆用户数据聚类结果。可以看出通过数据聚类,OPAC系统各项服务之间的关联规则被揭示出来。新书推荐和借阅服务两项服务之间的关联性最强,其次是借阅排行和查询服务两项服务,说明图书馆的新书推荐和借阅排行两项服务还是起到了相应的作用,但这两项结果的置信度并不算高。置信度最高的关联规则是查询服务与借阅服务之间关联规则,说明高职院校的大部分用户在OPAC系统进行相关查询操作后,主要还是会选择将该书从图书馆借出来。此外,我们还发出了查询服务、查看信息服务与图书预约、信息修改、参考咨询、图书荐购和图书续借等服务之间关联性,这些关联规则的揭示,都有利于高职院校图书馆对当前的OPAC系统进行改进,更好地提升用户对图书馆服务与资源的利用率。
4 讨论
本研究运用K-means算法和Apriori算法,对高职院校图书馆用户行为与需求进行了挖掘。通过K-means算法进行聚类分析,我们得出了六个类:第1类用户对图书馆OPAC的利用处于中午水平,其目的主要以检索为主,利用OPAC进行其他相关系统操作的次数并不高,因此图书馆可重点关注这类用户在系统中到底检索了什么信息,根据其检索记录,有针对性地为这些读者推荐一些图书信息,以使满足这类读者的文献信息需求;第2类用户发起的会话数及其点击行为数量都相对较少,且系统服务操作行为所占的比重相对较高,其桌面端的用户占多数,这与本研究之前所得出的结论保持一致。针对这类用户,图书馆在进行检索结果精确推送的同时,还可在OPAC检索页面为其推荐更多的服务、资源供其选择;第3类仅包含两个记录,且该聚类下的检索行为点击次数、系统服务操作行为点击次数、点击行为次数、持续时间、利用图书馆服务数量的值均要远大于其他五个类,该类存在异常的情况,故而舍去;第4类和第5类用户属于两类行为相反的用户群,第4类的用户属于以检索为主要目的,主要利用桌面端设备进行操作,会在OPAC中反复修改检索式,以获取精确的检索结果的用户群,该类用户进行其他的情况相对较少,而第5类的用户属于更愿意利用OPAC系统中其他服务的用户,这类用户以利用智能设备为主;第6类用户在检索行为和系统服务操作行为的频次上都不算,但其点击行为次数却达到了117.54次,说明这类用户喜欢比较喜欢漫无目的在OPAC系统进行相关无关操作,这类用户利用图书馆的需求并不明确,需要图书馆为之提供必要的指导。
另外,从基于Apriori算法的高职院校图书馆用户数据聚类结果揭示的各项服务之间的关联规则来看,新书推荐和借阅服务两项服务之间的关联性最强,其次是借阅排行和查询服务两项服务,说明图书馆的新书推荐和借阅排行两项服务还是起到了相应的作用,但这两项结果的置信度并不算高。置信度最高的关联规则是查询服务与借阅服务之间关联规则,说明高职院校的大部分用户在OPAC系统进行相关查询操作后,主要还是会选择将该书从图书馆借出来。高职院校图书馆可基于这些关联规则,对现有的图书馆OPAC系统及其相关服务进行改进,以提升图书馆资源与服务的利用率。
参考文献:
[1] 刘鲁川, 王菲. 移动浏览器用户的感知匹配与持续使用意向研究[J]. 情报科学, 2014(2):106-111.
[2] 陈臣. 基于大数据的图书馆个性化服务用户行为分析研究[J]. 图书馆工作与研究, 2015, 1(2):28-31.
[3] 何胜, 冯新翎, 武群辉,等. 基于用户行为建模和大数据挖掘的图书馆个性化服务研究[J]. 图书情报工作, 2017(1):40-46.
[4] 陈廉芳. 大数据环境下图书馆用户小数据的采集、分析与应用[J]. 国家图书馆学刊, 2016, 25(3):069-074.
【通联编辑:王力】