APP下载

基于改进RFM聚类的高校图书馆用户画像研究

2020-04-09乐承毅华东交通大学经济管理学院

图书馆理论与实践 2020年2期
关键词:册数借书画像

乐承毅,王 曦(华东交通大学经济管理学院)

近年来,用户画像方法不断被应用于营销服务研究领域,成为精准描述用户行为特征的有利工具之一,[1]通过构建高校图书馆用户画像,可以准确描述用户的兴趣和行为偏好,为读者个性化地推送信息,帮助高校图书馆优化用户体验,提供更深层次的服务。

本文以某一高校图书馆的真实行为数据为例,首先尝试引入客户细分领域的RFM模型和思想,并对其进行改进,设计高校图书馆读者用户的细分指标;其次采用两步聚类方法,确定高校图书馆的不同细分群体。在此基础上,绘制不同读者群体的用户画像。

1 相关研究

用户画像(Persona)由美国交互设计之父Cooper A提出,他将用户画像描述为“在用户真实数据基础上集成的虚拟象征”,是对用户的定性勾画,通过对用户数据的挖掘和提炼,将用户信息全貌最大程度地展现出来。[2]还有学者将用户画像描述为从海量数据中获取的、由用户信息组成的图像聚合,这个聚集体能够阐述用户的需求、兴趣、性格偏好等。[3-4]目前,针对用户画像的构建方法主要有传统统计方法、贝叶斯网络、神经网络、聚类分析、主题模型等。

也有很多学者对用户画像在图书馆领域的应用进行了研究。刘海鸥等梳理了国内外关于用户画像建模方法的最新研究成果,对其在图书馆领域中的具体应用进行了阐述,提出用户画像方法可以在个性化推荐、提高满意度、规范失信行为方面起到作用。[5]胡媛等对数字图书馆用户画像进行建模分析,并构建综合服务能力评价指标体系,为数字图书馆社区用户描述提供参考。[6]潘宇光建立了高校图书馆个体用户画像的指标体系,构建了读者关系图谱,但其建立的指标体系较为粗糙,还有待进一步地完善。[7]赵岩提出了大数据环境下图书馆用户画像构建方法,并研究了阅读资源推荐流程,但没有进行实例分析。[8]刘速以天津图书馆为例,使用交叉分析及知识图谱等方法建立了公共图书馆的用户画像及基于画像的用户关系图谱。[9]杨帆以国家图书馆大数据项目为例,提出了一种基于读者画像及资源画像为基础的构建图书馆大数据分析平台的方法。[10]

综上,近年来用户画像领域的研究快速增长,但总体而言,图书馆领域对用户画像的研究仍滞后于其他行业。[11]在建立用户画像时,综合用户的注册信息、偏爱数据等特征,同时考虑时间和外部情景影响的较为全面的用户画像体系还未健全,尤其在高校图书馆领域的研究甚少。除此之外,关于用户画像的研究大多集中在对个体间差异进行勾勒,鲜少在用户群体划分基础上对不同群体用户形象进行描摹。本文结合相关研究,以某高校图书馆用户为例,基于改进的RFM模型对用户进行细分,分析该高校图书馆读者的行为特征和需求特征,建立用户画像指标体系与模型,最终形成不同群集的用户画像。

2 基于改进RFM模型的高校图书馆用户细分

2.1 高校图书馆RFM模型改进及指标选取

在客户关系管理和市场营销领域,RFM模型[12]已被广泛应用于客户评级、细分、提供客户维护策略等方面,该模型通过R(Recency,最近一次消费时间)、F(Frequency,消费频率)、M(Monetary,消费金额)三个指标来描述某一位客户的价值状况并对客户进行细分。高校图书馆的读者细分需要考虑读者行为与客户行为的一致性。综合图书馆用户行为的特性,建立适用于高校图书馆读者细分的RFM模型体系,以提升读者对图书馆的满意度。[13]

用户在高校图书馆借阅图书时会产生借书、还书、续借三种行为。借书的用户不一定是优质用户,有部分用户是借完图书马上就还,其知识获取的情况并不好。而低借书频率的用户也不一定是劣质用户,有部分用户经常续借,其知识利用率较高,因此将读者续借行为也考虑在RFM模型之内。同时,读者在某一学期内借阅图书的数量能在一定程度上代表读者借阅书籍的情况,故建立改进的RFM模型(见图1)。R代表最近一次借阅的时间,R越小说明读者越活跃,对图书馆的价值越大;RF代表一段时间内还书次数, RF越小说明读者在本学年内较少产生还书行为,持有书籍的时间较长,对知识的掌握情况较好;IF代表一段时间内的续借次数,IF越大说明读者对图书的兴趣值较大,读者较活跃;BF代表一段时间内借书次数,BF越大说明读者对图书的粘性较高,对知识的需求较为旺盛,读者较活跃;B代表一段时间内该读者的平均借阅册数,由读者借阅的总册数除以读者借阅的总次数,则B越大代表读者阅读的书籍越多。

图1 改进后的RFM模型

2.2 高校图书馆用户的聚类分析

(1)某高校图书馆的数据描述。本文选取了2017-2018学年的读者行为数据,包括借书卡号、姓名、学院、读者级别、题名、出版社、出版日期、馆藏地址、索书号、借阅时间、还书数据、借阅类型等。由于数据量较大,因此在采集数据时对集成的数据进行了清理,清理后共有13,072人。其中,男性5,699人(43.6%),女性7,373人(56.4%);本科生10,601人(81.1%),研究生1,556人(11.9%),教师681人(4.5%),其他人员327人(2.5%)。从图书借阅情况来看,所有用户借阅次数分布在1-114次之间,平均值为8次,借阅次数在5次以下的有6,869人(53.5%),在10次以下的有9,807人(75%)。

(2)两步聚类分析。由于高校图书馆的读者数据量大、对聚类个数要求不高,且两步聚类算法在算法效率、准确率和噪声敏感性三个方面都比常见的k-means聚类和基于层次划分的算法情况要好。因此,本文选取两步聚类算法对13,072个样本进行聚类分析。聚类变量选取一段时间内续借频次(IF)、一段时间内还书频次(RF)、一段时间内借书频次(BF)、平均借阅册数(B)和最近一次借书时间(R,取数据采集日期减去用户最近的一次借书日期的差值)五个维度指标,使用对数似然估计方法和施瓦茨贝叶斯(BIC)准则,通过SPSS Modeler软件对指标进行处理,得到两步聚类的聚类结果(见图2)。

图2 两步聚类的分类结果

通过两步聚类分析得出三类读者群体五个变量的对比情况(见图3)。结合对聚类变量特征的描述及RFM理论,将聚类1、聚类2、聚类3分别描述为流失用户、回流用户和活跃用户。

图3 三类读者群体五个变量对比

(3)图书馆用户细分类别。① 活跃用户(聚类3):聚类3的续借次数(IF)、还书次数(RF)、借书次数(BF)、平均借阅册数(B)较总体平均值大,最近一次借书时间(R)较总体平均值小。说明聚类3的用户发生借阅行为的次数较多,借书册数较大,且近期发生过借阅行为,总体来看较为活跃,故将其定义为活跃用户。② 回流用户(聚类2):聚类2的续借次数(IF)、还书次数(RF)、借书次数(BF)、平均借阅册数(B)、最近一次借书时间(R)较总体平均值小。说明聚类2的用户从整段时间上来看发生借阅行为次数较少,借书册数较少,但在近期开始有借阅行为发生,故将其定义为回流用户。③ 流失用户(聚类1):聚类1的续借次数(IF)、还书次数(RF)、借书次数(BF)、平均借阅册数(B)较总体平均值小,最近一次借书时间(R)较总体平均值大。说明聚类1的用户发生借阅行为次数较少,借阅册数较少,最近一次借阅时间距今久远,故将其定义为流失用户。

3 用户画像的建立

3.1 用户画像指标体系建立

根据高校图书馆的用户行为特征,围绕用户的基本信息标签、行为偏好标签、互动标签、情景标签、活跃度标签5个维度的信息对高校图书馆用户构建用户画像指标体系,并将用户画像按照UC={User,Behavior,Interact,Scene,Activity}的方式进行描述,以此构建高校图书馆用户画像。

3.1.1 用户基本信息标签

用户基本信息标签主要对用户的基本情况进行勾勒,如用户的卡号(Id)、姓名(Name)、性别(Sex)、年龄 (Age)、年级 (Grade)、专业 (Major)、学院(College)、身份级别 (Id_Grade)、籍贯 (Native_Place)、联系方式 (Tel)、住址 (Address) 等。用户基本信息标签表示为:

User={Id,Name,Sex,Age,Grade,Major,College,Id_Grade,Native_Place,Tel,Address}。

其中,Id为数据的唯一标识符,用于用户身份的识别及检索,Id_Grade包含大学生、研究生、教职工和其他四种。

3.1.2 用户行为偏好标签

用户行为偏好标签主要描述用户的行为偏好,体现高校图书馆用户的检索、浏览、阅读、预约、收藏、关注等行为。用户行为偏好标签表示为:

Behavior={Search,Browse,Read,Order,Collect,Point}。

Search为用户使用图书馆系统进行检索时输入的关键字,该关键字体现了用户的兴趣所在;Browse为用户在浏览图书馆页面时的时间节点和页面停留长度;Read为用户阅读的内容,体现用户兴趣及其所属的类别范畴;Order为用户的预约内容,体现用户的需求,也从侧面反映馆藏资料的不足;Collect为用户的收藏内容,体现用户的兴趣点;Point为用户的关注点分为喜欢借阅的图书类别和经常阅读的出版社。

3.1.3 用户互动标签

用户互动标签是对用户进行内容分享、评论及回复、情感态度等互动行为时的特征进行刻画。图书馆用户互动属性标签表示为:

Interact={Share,Comment,Attitude}。

Share为用户分享的内容,该标签体现了用户主动与其他用户的互动情况;Comment为用户评论,即用户在社交平台及相关网站进行评论、回复的内容;Attitude为用户态度,即用户在社交平台及相关网站进行评论、回复时的情感特点。用户评论和用户态度体现了用户在浏览了他人发布的内容后所产生的情感倾向或行为态度。

3.1.4 情景标签

用户情境属性标签主要包括可以反映用户所在位置、事发时间以及周边环境的信息,其表示为:

Scene={Time,Position,Weather_Con}。

Time是用户时间信息标签,主要通过时间属性记录用户访问图书馆或发生借阅行为时的时间情况;Position是用户位置信息标签,用于描摹读者所处位置的相关情况,如读者所在的地理位置、读者的位置类型、周围人群情况、社会关系等;Weather_Con是外界环境信息标签,主要指气候、光照、噪音等外界环境因素变化对读者操作行为带来的影响。

(1)用户时间标签表示为:

Time={TID,Datetime,Month,Part_time}。

TID为时间的唯一标识;Datetime为当前用户浏览的绝对时间;Month为用户发现操作行为时的月份;Part_time为时间段,如中午、晚上等。

(2)用户位置标签表示为:

Position={City,PosType,Colleague}。

City为用户在进行操作时所处的地理位置,如城市、学校等信息;PosType为用户发送操作行为时所在位置,如图书馆阅览室、宿舍、机房等;Colleague为用户发生操作时旁边存在的人际关系,如单独一个人、与同学一起等。

(3)用户外界环境标签表示为:

Weather_Con={Weather,Humidity,Noise}。

Weather为用户发生操作行为时的天气情况,如晴朗、雨、霜;Humidity表示用户发生操作行为时的温度,将其划分为 0℃以下、0-10℃、10-20℃、20-30℃、30℃以上;Noise为用户发生操作行为时的附近的噪声状况。

3.1.5 用户活跃度标签

用户活跃度标签主要描述用户访问图书馆的活跃度,用于反映读者对书籍的借阅情况,该维度在一定程度上反映出读者的知识需求和学习情况。用户活跃度标签表示为:

Activity= {Visit_Num,Borrowing_Num,Renew_Num,Return_Num,LastTime_Visit,Visit_Time}。

Visit_Num为用户累计登陆高校图书馆或进馆访问的次数,可进一步将其细化为电子访问次数和实体访问次数;Borrowing_Num为用户的借书次数,统计每位读者当前学期借书总次数;Renew_Num为用户的续借次数;Return_Num为用户的还书次数;Last-Time_Visit为用户的最近一次到访时间;Visit_Time为读者借阅时长,统计出还书日期与借书日期间的差值,求和后计算出当前学期的总借阅时长,形成读者借阅时长的维度指标。

3.2 用户画像模型建立

笔者利用本体建模法构建了高校图书馆用户画像的概念模型,将用户特征直观展现出来(见图4)。

图4 用户画像概念模型的构建

以某一用户为例,用户画像指标体系和模型建立的用户个体画像见图5。在构建过程中从用户数据入手,将用户的特征标签化,直观展示实现用户画像,使图书管理员可以清晰掌握用户特征及需求,从而使图书馆的各项服务活动更有针对性和目的性。

图5 高校图书馆个体画像展示

3.3 不同群体的用户画像特征及建议

3.3.1 活跃用户的用户画像

活跃用户对知识的渴望程度高,主动学习能力强。以卡号为201607*****7000的读者为例,建立用户画像(见图6),由用户画像可知,该读者学年内借书、还书、续借次数较多,活动较为频繁。为了更好地服务于这部分用户,图书馆可以对其到馆访问时间、访问方式、借阅图书的类别等进行分析,把握活跃用户的兴趣爱好,了解其需求,有针对性地进行图书推荐。此外,由于活跃用户借阅书籍较多,为节约用户时间,可开通手机App服务,提供预约到馆、即到即取等服务。

图6 活跃用户的用户画像

3.3.2 回流用户的用户画像

总体来看,回流用户的借阅量不大、借阅频次较低,但在近段时间有回流的趋势。该类型用户主动性较弱,需要加强引导和挖掘兴趣,将其转变为活跃用户。以卡号为201509******0200的读者为例,建立用户画像(见图7),由用户画像可知,该读者学年内借书、还书、续借次数较少,但最近一次到馆日期较近,说明其活动有回流趋势。为了留住这部分用户,可以分析其需求量增加的原因,针对其近期的兴趣、关注点主动推送图书及服务。同时,对这部分用户进行追踪调查,探索其回流背后的潜在原因,如近期科研任务的加重、兴趣爱好的改变、图书馆的某项服务或活动吸引了其回流。

图7 回流用户的用户画像

3.3.3 流失用户的用户画像

流失用户一般长时间没有到访记录及借阅记录,图书馆在逐渐失去对该类用户的吸引力。图书馆可针对这部分用户开通绿色通道,如流失用户可优先借阅新书,以期唤醒该部分用户,使其转化为回流用户。以卡号为201313******0325的读者为例,建立用户画像(见图8),由用户画像可知,其学年内借书、还书、续借次数较少,已长期沉寂。由于其长时间没有到访记录及借阅记录,图书馆可根据其以往的借阅情况及兴趣爱好点主动开展推荐服务。同时,分析其长期未进行借阅的原因,如因为图书馆馆藏无法满足其需求,则图书馆可以有针对性地进行图书采购,并在采购后及时推荐给这部分用户。

图8 流失用户的用户画像

4 结语

本文围绕高校图书馆的用户画像构建进行研究,提出了基于改进RFM聚类的高校图书馆用户细分方法。希望本文能为高校图书馆开展精准服务和个性化推荐等服务提供借鉴,未来将会继续收集更广泛的高校用户数据,采用数据挖掘等方法深入了解用户需求,不断丰富和完善高校图书馆用户画像实践研究。

猜你喜欢

册数借书画像
图图借书
威猛的画像
“00后”画像
借书去
画像
求比一个数多或少百分之几的数是多少的应用题教学设计
借书
理解意义掌握方法
图图借书
高校图书馆藏书分析与评价
——以沈阳理工大学图书馆为例