APP下载

用户画像模型及其在图书馆领域中的应用

2018-01-29刘海鸥孙晶晶张亚明

图书馆理论与实践 2018年10期
关键词:画像图书馆用户

刘海鸥,孙晶晶,陈 晶,张亚明△

(1.燕山大学经济管理学院;2.燕山大学互联网+与产业发展研究中心)

用户画像也称为用户角色,是基于一系列真实数据建立的目标用户模型,同时也是最能描述用户特征(如年龄、性别、居住地、工作地点等)的形象集合。[1]最早提出用户画像概念的是交互设计之父Alan Cooper,其将用户画像定义为“基于用户真实数据的虚拟代表”,通过搜集用户数据分析用户的不同特征,形成他们的个性化标签,这样便构成了此类群体的用户画像。Amato[2]、Quintana等[3]将用户画像描述为“一个从海量数据中获取的、由用户信息构成的形象集合”,通过这个集合,可以描述用户的需求、兴趣以及个性化偏好等。将用户画像引至图书馆领域可更好地了解读者需求,从而协助图书馆重新审视其服务系统,改进服务质量。[4]

1 用户画像建模方法

鉴于用户画像的表示方式、关注点各不相同,用户画像建模方法可分为以下几大类,即面向用户行为的用户画像模型、基于本体的用户画像模型、融合用户兴趣的画像模型等。

1.1 面向用户行为的画像模型

用户行为分析是用户画像的一个重要内容,关于网络用户行为的早期研究可追溯到2005年,国外学者Barabdsi[5]基于复杂网络理论对用户的行为规律进行探讨,通过统计用户发送和回复普通邮件及电子邮件的时间间隔,发现人类行为并不服从泊松分布,而是服从具有胖尾特征的幂律分布,并在今后的研究中进一步指出93%的人类活动都是可预测的。Fawcett等[6]提出了通讯欺诈指数这一概念,通过分析若干起诈骗案得出电话记录中的欺诈指数,然后基于诈骗指数构建用户行为画像,最后将其应用于实际的欺诈检测中,得到良了好的实验结果。Nasraoui等[7]在研究过程中引入了数据挖掘技术,并对Web站点的日志数据进行分析,根据用户的行为模式进行聚类分析,由此对不同用户群体进行画像,从而得到特定集群的用户画像。Iglesias等[8]也进行了相关研究,他们获取了用户在Unix Shell上的命令日志,该日志包含了用户的部分行为信息,由此来获得计算机用户的行为画像。在此基础上,Nasraoui等[9]通过分析动态网站上的网络日志,提出一种动态的、可演化的日志挖掘框架,由此构建基于动态网络日志的用户行为画像模型,该模型不仅可以挖掘并且分析用户的日志信息,同时还可以多方面对用户画像信息进行实时跟踪与动态验证。Adomavicius等[10]在研究中根据统计用户的阅读时间和重访问行为等来构建了用户档案信息,同时还对基于行为的用户画像技术进行了探讨,研究结果表明,用户画像可以很好地挖掘用户档案信息,从而揭示更深层面的用户消费行为规律。

国内学者郝增勇[11]系统梳理了目前关于用户行为分析的主要方法,并对用户流量统计、用户分布、网站排行、关注热点等用户相关的网站数据进行了可视化分析。但是,该研究重点集中于分析用户行为的系统构建和数据展现,未基于用户数据挖掘用户价值和用户需求。肖云鹏等[12]通过对用户真实数据进行分析,设计了用户行为的表征量表,将之作为驱动用户行为的动力学指标,提出一种兴趣和节点间交互的个体行为动力学模型,由此分析用户的个体行为以及个体行为如何对其他用户产生影响;需要指出的是,该研究仅从个体数据出发,并没有实现对用户行为未来的预测。张小可等[13]通过收集移动互联网用户的行为历史数据来进行多元回归分析,构建了一个贝叶斯网络模型,根据用户的实时行为数据来对模型参数进行更改,从而获得每一个移动用户的用户画像。黄文彬等[14,15]利用移动网络基站数据从用户周期性活动规律、用户频繁活动规律以及用户移动速度三个方面构建了移动用户的用户画像,由此较为清晰地展示用户每天的生活规律和移动情况,同时揭示与用户地理位置相关的具体行为。需要指出的是,该研究对移动用户微观行为的刻画较为有限,用户画像模型应进一步与用户网络访问记录以及用户的移动属性相结合,这样才能获取准确度更高、粒度更为细致的用户移动行为与用户偏好。

综上,对用户行为的研究是用户画像研究的重中之重,不仅可以发现某一用户属于什么群体分布,而且可以从用户聚集的用户人群中发现人群之间的差异。基于此,我们可以构建完善的用户画像,然后针对不同用户人群提供精准化的优质服务。需要指出的是,当前面向数据体量有限的用户行为分析与用户画像研究已积累了不少研究成果,但在大数据环境下,用户行为数据增长迅速、类型众多且价值密度低,如何基于大数据技术对用户行为进行深入挖掘,从而构建基于用户行为大数据分析的用户画像,是关系大数据时代用户画像服务真正落地的关键问题。

1.2 基于本体的用户画像模型

本体是一种形式化的说明,通过形式化表达特定领域中的对象类型、概念、属性以及相互关系,主要包括概念模型、明确、形式化和共享四层含义。国外学者Razmerita等[16]提出了基于本体(Ontology)的用户模型架构,并将该框架模型应用于知识管理系统的上下文处理中,取得了良好的效果。Tao等[17]在研究中引入医疗知识库建立用户本体概念模型,同时结合用户兴趣建立个性化本体知识库,为构建医疗用户画像奠定了基础。Shehata等[18]在用户画像建模过程中引入本体的概念,使用本体概念图来探讨语句间的语义联系,从而挖掘出用户兴趣并基于此建立了与之相对应的用户画像模型。Tang等[19]主要对学术圈中的用户画像进行了探讨,通过拓展FOAF(Friendof aFriend)Ontology构建了学者的用户画像。

郑建兴等[20]以微博为例,结合其文本短、信息少、更新速度快等特点,在本体用户模型基础上提出了友邻—用户模型的实现方法。姜建武等[21]利用用户描述和计算机处理等方法,提出了信息本体的概念,同时运用基于“行为-主题”,“主题-词汇”及“行为-词汇”三位一体的模型,抽象出体现用户行为的具体标签,由此构建用户画像的数学模型。此外,还针对传统信息推送服务未考虑用户个人综合因素、针对性差和推广转化率低等问题,结合大数据理论提出基于用户画像的智能信息推送方法。

综上,基于本体的用户画像方法不仅可以更多考虑信息源包含的具体语义,而且有着相较于其他用户画像方法语义表达能力更强,且具有较好的逻辑推理能力,将之应用于个性化信息推荐、信息检索领域可显著提升准确率与查全率。但是,相较于其他用户画像模型,基于本体的用户画像模型较为复杂,这是因为本体库的建立需要领域专家参与制定,即在运用基于本体的用户画像模型创建用户画像时,需要专业领域的权威专家的参与才能实现,增加了用户画像的难度。

1.3 融合用户兴趣的画像模型

为了更好地描绘用户特征与偏好,如何在用户画像过程中融合用户兴趣成为研究的一大主题。Godoy等[22]使用聚类算法对网页文档进行分类,以此来确定用户的兴趣偏好。Pazani等[23]根据用户生成的标签对用户的兴趣档案进行追踪,总结了各种用户兴趣档案的构建方法,其中,用户兴趣档案的信息内容主要包括描述用户喜爱的商品信息、购买特定商品的交互信息等。Kim等[24]针对社交网络中的留言等充满噪声和新词的问题,提出了将基于频率的方法和基于翻译的方法相结合的词提取方法,这种方法在专业领域词聚类方面有较好的效果。Liu等[25]指出,学者在挖掘微博用户兴趣时,一般是将词袋模型(Bag of Word)建立在用户发表内容或者用户粉丝的基础上,在这个过程中他们通常忽略了一个重要事实,即用户发表的内容在很大概率上仅是他们所从事的行业或者他们所擅长的事情,但是这并不一定是他们的真正兴趣。基于此,采用关键词抽取算法对用户在社交网络中的回复和留言进行挖掘,通过隐含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)计算用户感兴趣的话题,然后对用户进行画像。虽然该方法能够在一定程度上发现用户的潜在兴趣,但是当用户粉丝量很少或者发表的内容较少时,该方法的挖掘效果不佳。

王庆福[26]采用贝叶斯网络构建用户兴趣模型,构建用户画像并将之应用于内容推送领域。研究指出用户画像的兴趣标签主要依赖于3类数据:① 用户数据,主要包括静态和动态数据;② 商品数据即客观商品属性,包括商品功能、颜色、尺寸等具体数据;③ 平台数据,其中平台包括用户和商品交互的平台、用户获取信息的平台、用户购买商品的平台以及用户发布评论的平台等。研究结果表明,贝叶斯网络不仅能够实现数据全局合理优化,还能将用户行为特征映射为网格中各个节点间的转换权值,从而有利于用户兴趣标签的提取和画像模型的实验。李冰等[27]建立了基于K-means算法的用户画像,通过采集历史数据样本建立聚类模型,深入分析卷烟零售客户的特征并对其进行画像,在此基础上为零售客户提供智能推荐服务。

总体来看,国内外学者在探讨融合用户兴趣的画像方法方面取得了一定的研究成果,当前融合用户兴趣的画像方法主要有两种思路,一是使用显性的用户兴趣数据(如用户网站、社交平台注册信息)对用户画像进行构建,二是采用隐性方式来收集用户的喜好信息。需要指出的是,用户对某一资源的关注度或兴趣度会随着时间的推移而产生变化,虽然其长期行为具有一定的稳定性,但是在短期可能发生兴趣迁移的情况。此外,用户兴趣与偏好受外界情境(如地理位置、天气状况、社交关系等)的影响较大,由此也会导致用户兴趣的变化。而当前融合用户兴趣的画像方法却很少考虑时间以及周边情境等影响因素,因此,在考虑用户兴趣的前提下,如何进一步融合时间、地理位置、天气状况、社交关系等标签信息,从而更精准地反映用户兴趣迁移的时间变化、情境敏感等特点,成为用户画像领域亟待解决的问题。

2 用户画像在图书馆领域中的应用

通过融合用户的基本信息、兴趣偏好与其他行为信息,图书馆系统运用聚类、关联规则以及分类等数据挖掘方法将其抽象化,由此绘制出读者的“用户画像”。“用户画像”可以较为深刻地描述读者用户的群体行为特征,从而为图书馆个性化内容推荐、读者满意度管理及信用评价等提供借鉴。

2.1 个性化内容推荐与精准营销

图书馆的个性化内容推荐是将读者兴趣、知识领域等关联信息加工为能够生动描述读者偏好的知识元,由此来支持数字图书馆各种推荐服务,最终能够为用户提供满足其个性化需求的知识资源。目前,国内外有少量学者基于用户画像对个性化推荐系统进行了优化。Mao等[28]基于扩散理论减少了画像过程中的用户冗余标签,然后利用社会网络探讨密集用户标签之间的网络关系,由此提高用户画像的准确度和个性化内容推荐的精度。Ravi等[29]根据用户的兴趣点、用户评分等信息对用户进行画像,为读者制定个性化的旅游出行方案。Geyer-Schulz等[30]构建了基于用户行为画像的数字图书馆信息推荐系统,通过计算图书馆用户共用文献的出现频率,为用户提供出现次数频繁的文献,并成功将该技术应用于德国卡尔斯鲁厄大学OPAC推荐系统中。目前,我国基于用户画像视角对图书馆个性化内容推荐问题进行探讨的研究还很少,仅有几篇与之相关的文献。陈慧香等[31]在研究中指出,面向海量的数据资源和庞大的用户群体,用户画像为图书馆提供精准服务奠定了基础,论文探讨了用户画像在图书馆领域中的应用现状,归纳了我国图书馆应用用户画像的借鉴经验。刘速[4]以天津图书馆为例,对构建图书馆用户画像的数据来源、信息分析、模型构建等问题进行了探讨。胡媛等[1]将用户画像技术应用于图书馆知识社区的建设之中,通过提炼用户兴趣标签构建读者用户画像,使得读者用户的特征更为生动、具体,不仅减少了用户的信息搜索时间、提高了知识传播效率,同时还改善了图书馆社区的个性化服务质量,提升了用户忠诚度。

2.2 用户流失与满意度管理

对流失用户进行画像可以帮助企业明晰哪些用户流失了以及用户流失的原因等,从而为优化产品与服务提供参考。Shawn Steward[32]最早对用户流失问题进行了研究,主要探讨了电信客户及其流失问题。我国较早进行该方面研究的为柳炳祥等,[33]他们结合中国行业背景对客户流失问题做了细致的研究。随后,盛昭瀚等[34]提出了基于加权熵的ID3决策树客户流失预测算法。随着建模技术和模型精度的不断提高,新的用户流失预测系统框架层出不穷,且成功应用于图书馆等领域。张洪艳[35]分析了图书馆界传统用户调查工作的局限性,构建了图书馆联盟用户管理系统用户满意度测评模块的框架,同时提出了基于维基技术的用户满意度信息采集方式,倡导用户参与图书馆的满意度测评。李映坤[36]采用标签集合构建了用户画像,并通过生存分析、支持向量机方法对用户一段时间内的使用行为数据进行分析,由此构建了用户流失预测模型,并提出了相应对策。戴桓宇[37]从用户投诉入手,利用投诉文本提出了构造用户画像训练集的方法,最后基于决策树算法绘制了投诉类别用户的画像,该画像模型能够对投诉用户特征进行定量刻画,并进行用户的满意度管理。对于图书馆而言,满意度管理至关重要,它关系到图书馆的服务质量,通过读者满意度管理可以得知图书馆改进方向,提升用户满意度。当前,大多图书馆都关注读者满意度管理,但是并没有充分利用用户反馈来改善馆区建设与管理,相关信息挖掘技术也不完善,有用户流失原因不明的情况出现。[38]因此,利用用户画像进行读者满意度管理将会是今后图书馆发展管理的重点与难点。

2.3 读者信用评价与征信管理

对读者进行信用管理是抑制图书馆读者失信现象的一个有效途径,而建立相应的指标体系则是信用管理的首要工作。成永娟[39]对图书馆用户的信用积分以及信用评价问题进行了研究,利用加权方法与神经网络对用户信用进行评价,并通过样本测试证明用户信用评价方法的有效性。陈少华等[40]利用云模型建立图书馆用户信用评价模型,通过特定的算法来实现定性概念和定量表示的转换,且具有很强的可操作性,利用云模型评价方法能大大减少人为判断的主观性。郭强等[41]根据读者的借阅情况分析大学图书馆读者失信现象,给出了评价图书馆读者个人信用的指标体系,以此对读者个人信用等级进行评价。林汉川等[42]在研究中引入了Logistic回归模型与随机森林方法,通过构建用户画像模型与风险计量模型探讨了海量数据环境下的个人信用风险评估问题,研究结果表明,作为用户画像的重要组成部分,用户信用画像在精准测评用户信用等级以及实施风险管控方面具有重要作用。丁伟等[43]以手机用户画像为例,分析了手机用户画像的数据来源以及与之相关的个人隐私保护方法,并探讨了手机用户画像在个人征信应用中的有效性。当前,我国图书馆行业还普遍面临着较为严重的用户失信行为,仍需加强对读者信用评级与征信的管理,用户画像方法为加强图书馆用户的信用管理提供了借鉴。

3 对我国图书馆行业的启示

3.1 利用信息过滤技术,实现个性化内容推荐

综上所述,对读者进行画像可以协助图书馆进行信息过滤,从而为用户推荐与之相匹配的信息服务资源。图书馆数据库资源种类繁多,数据类型多样,传统的信息检索方式难以在短期内对数据进行有效的信息查询。[44]通过对图书馆海量数据资源的挖掘,利用用户画像相关技术对数据进行过滤,消除冗余数据,由此得出的用户画像模型能够较为清晰地体现读者的信息全貌,从而将图书馆大数据转换为有用的知识和价值。因此,图书馆要善于利用用户画像技术挖掘出用户的需求特征,过滤掉海量数据中的不相关信息,为图书馆信息查询系统降噪;同时,基于用户画像模型进行聚类分析与关联挖掘,由此构建图书馆个性化内容推荐系统,为广大用户提供精准的信息推送服务。此外,图书馆还可以在具有相似知识需求、兴趣偏好、阅读习惯、科研领域的用户间建立关联关系,由此构建基于用户画像的读者关系图谱、科研关系图谱等,从而揭示深层次的知识服务规律。

3.2 重视用户需求变化,提升用户满意度

海量数据标签化的图书馆用户画像模型相比于传统的用户模型更具柔性,更注重用户需求的变化。需要指出的是,在对图书馆进行用户画像时,要注意建设相应的评估测试方案以及用户满意度反馈机制,从而及时根据用户需求变化做出调整,利用反馈机制对用户画像进行实时更新和完善。此外,图书馆还要重视用户流失问题,基于用户画像建立用户流失预测模型,找出读者流失的根源所在,着力提高用户满意度,从而为每位用户提供更好的个性化服务,更好地实现知识的共享与流通。

3.3 规范用户失信行为,强化公共图书馆信用服务

当前,在图书馆还普遍存在图书超期未还、故意毁坏图书、破坏图书馆公共设施等失信行为。究其原因,主要是大多数图书馆还缺乏读者信用管理的理念,对于读者的失信行为仍采取简单的经济处罚方式,当读者失信行为导致的经济损失足够大时,就可能出现借书不还、经济惩罚失效等现象。图书馆信用服务是读者通过其社会信用指数,免证、免押金地使用图书馆相关服务资源,是图书馆领域开展的一种全新服务模式。通过对用户的信用行为进行记录,可以构建用户的信用画像;当用户出现失信行为时,则可基于用户画像对读者的失信行为进行分类管理,同时还可以将读者在图书馆的失信行为信用纳入个人征信系统,通过社会监督使其遵守图书馆相关规定,防范用户在图书馆资源使用过程中的信用风险,规范用户失信行为,强化公共图书馆信用服务。

猜你喜欢

画像图书馆用户
威猛的画像
“00后”画像
画像
图书馆
关注用户
关注用户
关注用户
如何获取一亿海外用户
去图书馆
潜行与画像