用户画像在图书馆个性化服务应用中的问题及对策*
2021-01-30王丽谭凯波黄云
王丽 谭凯波 黄云
(1. 吉首大学旅游管理与工程学院,张家界 427000;2. 吉首大学软件学院,张家界 427000;3. 吉首大学图书馆,张家界 427000)
1998年,交互设计之父Cooper[1]提出了用户画像的概念,用户画像是目标用户的具体表示,即“建立在一系列属性数据之上的目标用户模型”。此后,关于用户画像的概念、特性、构建及应用等研究广泛开展,取得了丰硕成果。在图书情报领域,研究者尝试引入用户画像技术以帮助图书馆更好地提供个性化服务。裘惠麟等[2]从大数据利用状况、图书馆服务转型需要以及技术发展3个层面分析了基于用户画像技术的高校图书馆个性化精准服务的可行性。也有研究者开始构建适用于图书馆个性化服务的高精度用户画像模型,例如:陈臣等[3]建立了基于读者小数据的用户精准画像;刘海鸥等[4]利用图书馆用户的基本信息、内容偏好数据、互动数据、会话数据、情境数据构建用户画像;蒋弘毅[5]基于用户的阅读行为建立用户画像;赵杨等[6]利用用户移动大数据构建用户画像。还有一些研究者重点研究了基于用户画像的图书馆个性化服务的具体应用:王顺箐[7]将用户画像和观点分析方法应用于个性化阅读推荐服务;李书宁[8]构建文史学科用户画像用以分析学科忠诚用户和关键用户,实现文史学科研究服务的个性化;何娟[9]提出基于用户个人和群体画像结合的图书个性化推荐服务;刘海鸥等[10]提出应用深度学习技术实现基于深度画像的个性化学习服务;陈丹等[11]从知识服务、阅读推广、场景推荐、主动定制等方面提出图书馆个性化智慧服务策略;李宝[12]提出基于冷启动用户画像和阅读过程用户画像的个性化阅读资源推送。
许多公共图书馆、高校图书馆在智慧图书馆建设过程中,利用图书馆用户的属性、行为、状态等相关数据,结合大数据、人工智能等技术,深度挖掘用户信息,构建用户画像模型,将其应用于图书馆个性化服务中,实现了图书推荐、知识推送等部分业务的个性化服务,产生了一定的应用成效。然而,笔者在阅读相关文献和对图书馆用户进行调研的基础上,发现当前基于用户画像的图书馆个性化服务中存在一些典型问题,通过对这些问题的分析,继而提出相应的改进策略,以期提高基于用户画像的图书馆个性化服务的质量、效率和用户满意度。
1 基于用户画像的图书馆个性化服务存在的问题
1.1 发现问题的方法与途径
首先,通过对相关领域文献的调研初步发现基于用户画像的图书馆个性化服务可能存在的问题,如郝雨[13]、周东波[14]、韩志超[15]、任秋菊[16]、李春生[17]等学者指出基于用户画像的个性化服务中存在价值迷失、促进坏习惯养成、群体极化、形成信息茧房等问题。董哲瑾[18]、吴树芳[19]等学者研究了基于微博用户画像的个体成长路径预测和关注主题变化的规律,其成果可借鉴并引入到基于用户画像的个性化成长路径规划和个性化学习进度规划之中。
其次,分别于2019年12月、2020年12月和2021年7月针对吉首大学软件学院学生接受基于用户画像的图书馆个性化服务的情况开展问卷调查。3次调查分别发放了542份、828份和711份问卷,回收有效答卷486份、711份和304份。第一次调查问题包括“是否了解图书馆个性化服务功能”“是否接收过个性化推送”等问题;第二次调查问题包括“你认为吉首大学的个性化服务是否存在过度推送”“有哪些需要改进的服务”等问题;第三次调查针对智慧校园下的个性化资源服务进行调研,包括对超星平台、云资源平台的个性化功能评价及期望等。此外,2021年6月在2个班级中开展了个性化服务改进建议的专题座谈,学生建议增加适应个人能力和学习进度的数字资源推送,并在接受个性化服务时能获得专业老师对前沿知识的指导。
最后,针对学生接受基于用户画像的个性化服务的数据进行统计分析,包括学生接受服务的频次、人群分布,以及学生对推送服务的认可(如点击率)等。
1.2 问题描述及分析
1.2.1 过度服务与不当服务
用户画像的构建利用了用户兴趣偏好、行为习惯、社交关系等特征信息,能真实反映用户需求。利用用户画像模型中的用户喜好特征标签集合,基于用户画像的个性化服务通过匹配关联性知识资源,为用户提供个性化阅读推广[3,7,11,12,20]、个性化图书推荐[21-22]、个性化知识推送[23]等服务。
基于用户喜好的个性化服务有利于获得用户较高的满意度,有利于服务的推广,然而,一方面,对用户喜好不进行辨识的个性化服务可能产生不当服务。张慧敏等[24]认为,基于用户画像的服务应具有价值取向维度,须有利于用户个人价值和社会价值提升。郝雨等[13]研究表明,许多基于用户画像的个性化服务可能导致价值迷失:“由于用户兴趣中充斥着大量的低级趣味,仅以用户兴趣为内容衡量标准往往会造成隐含负面价值取向的内容被大量推送。”另一方面,对用户喜好不加限制地提供服务可能导致过度服务,让爱好变成一种嗜好。课题组针对吉首大学软件学院18~20级学生的问卷调查发现:22.6%的学生认为在电子阅览和图书借阅中存在过度推送;对42名多门课程不及格学生的图书借阅和推送记录进一步调查发现,45.2%的学生在借阅小说等图书后,系统连续为其推送了大量相关图书。例如,2020年10月,某学生持续借阅了《星辰变》等小说,图书借阅系统为其推荐了《斗罗大陆》《酒神》等相关图书,该学生花费了大量时间和精力阅读系统推荐的图书,而系统基于该学生的行为反馈逐渐加强了对同一类型小说的推送。这种不加分析的个性化服务推送对于自我控制能力较差的学生学业发展及身心健康成长都极为不利。
此外,蒋弘毅[5]、孙守强[25]利用用户行为习惯数据建立标签,并基于用户行为提出了满足个体习惯的图书馆个性化服务,例如按用户阅读周期、就座习惯等标签安排服务时间、自习位置等。周东波等[14]认为,部分不加区分的个性化服务会促进坏习惯的养成,“坏习惯将阻碍个人发展与成才”。笔者经调研发现:基于学生作息习惯,校园云资源平台在晚上11点后为超过50%的同学提供平台最新咨询;基于学生阅读位置习惯,选座系统为15%的学生推荐灯光昏暗的角落。对个体行为习惯提供非正确方式的个性化服务,可能带来学生身体素质下降、人格扭曲等不良结果。
此外,基于用户画像开展团队分析,在进行进行个性化阅读好友、学习好友推荐时,基于社交关系标签的推荐算法让交互频繁或者兴趣、习惯等相似的用户聚类成簇,然而这种个性化好友推荐可能会导致少量与社会发展不协调的团队形成,产生信息同质激荡风险,造成用户价值观念的群体极化[15],如放弃学业的群体、悲观抑郁群体等。
1.2.2 服务“内卷”严重
“内卷”(Involution)是指事物发展到一定状态之后无法继续向上、向前发展,而是向内卷曲,呈现停滞或倒退趋势的现象。曾建勋[26]认为,在文献情报领域存在“内卷化”现象,主要表现在资源建设、平台建设、服务质量等方面。同样,基于用户画像的个性化服务也存在“内卷化”的现象。
(1)逐渐形成“信息茧房”。“信息茧房”的概念最早由凯斯·桑斯坦[27]提出,是指受到个体兴趣引导,用户被动接收与其兴趣相关的信息,长此以往,个人接触到的信息深度与广度受限,从而将自己禁锢在蚕茧一样的封闭空间。任秋菊等[16]认为,个性化推荐技术充分迎合了用户的兴趣偏好,在帮助用户解决信息获取成本与质量等问题的同时,让用户对固化的信息交流渠道形成依赖,无意识地陷入以个体为中心的“信息茧房”中。通过对校园云资源平台个性化推送的点击反馈情况统计,有70%的浏览为推送的前10条记录,而这10条记录主要覆盖了用户的前3个兴趣偏好相关的主题。由此可见,基于用户兴趣的个性化服务易促使“信息茧房”的形成,导致信息服务的广度变得越来越小,信息交流的圈子越来越窄,信息获得的方式越来越单一。
(2)个性化服务的知识总体缺乏结构化设计。为提升学习的效率,充分利用碎片化时间[28],基于用户画像的个性化服务更加注重微阅读、微视频、微课程等服务方式。然而,个性化服务的知识堆积、断裂,快餐式、碎片化、重叠型的知识服务让个性化服务“内卷”严重[17]。一方面,基于用户画像的图书馆个性化服务强调资源标签与用户标签的匹配,以匹配度高低排列知识推送、个性搜索顺序。然而多个资源之间的关联关系、资源与知识之间的覆盖关系、用户不同兴趣之间的主题结构关系等诸多因素考虑不足,导致个性化服务的质量难以提高。另一方面,对同一用户前后多次服务之间的知识类别、知识衔接、知识互补等分析不足,不同时间的推送知识之间重复知识过多,导致用户对服务的满意度逐渐下降。在对吉首大学软件学院18级专业成绩排名前100的学生接受图书馆数字资源推送服务情况的调查显示,知识与专业相关度超过90%,但连续5次推送存在重复内容超过70%,知识相关且知识点连贯的不足10%,知识简单但注重展现形式的超过75%,知识讲解深入的不足20%,学生亟需注重知识连贯、知识深度和知识拓展的个性化服务。
1.2.3 忽略成长过程
基于用户画像的图书馆个性化服务依据用户当前属性、兴趣、能力、习惯、活动等信息,虽能正确反映用户当前需求,却忽略了用户成长过程的差异,忽略了对用户成长规律的挖掘,忽略了用户追求梦想和达成目标的深刻分析等,一方面造成服务的个性化和准确性下降,另一方面让历史数据失去了应有的价值。
(1)缺乏用户成长路径的挖掘。许多基于动态用户画像的个性化服务强调了用户标签的即时更新,按用户最新形象进行精准服务[29-31]。然而,董哲瑾等[18]在基于微博用户画像的研究中发现,即使当前兴趣爱好、行为习惯完全相同的不同个体,其历史信息仍可能存在较大差异。由于用户历史标签虽有部分被记录,但并未利用其对用户成长过程进行关联、分类、聚类等运算,导致用户成长经历不能真实还原和可视化呈现,进而无法根据其成长特征进行更精准、更具个性化的知识服务。
(2)缺少用户学习进度的分析。在针对微博用户的个性化推送中,吴树芳等[19]利用兴趣转移衰减函数实现用户关注词条变化的预测,进而建立基于用户画像的个体兴趣变化分析模型。但在基于用户画像的图书馆个性化服务中,目前还缺少针对用户学习进度的分析。由于未对历史画像进行详细的分析和处理,用户历史标签变化规律、模式等未被分析与利用,不能充分了解用户的学习进度,也就无法掌握用户的学习进展规律、关键节点,不能深入分析用户间学习进度产生差异的原因,以及促进学生学习进度迅速提升的核心因素等,也就无法基于用户知识增长的速度适应性地调整为用户推送知识的数量与难度,无法让用户进行高效且有成就感的学习。在对吉首大学软件学院18级3班、5班学生接受专业知识推送的分析中发现,当前学习状态相似的学生收到的推送知识基本一致,当某学生连续关注和其他学生同样的知识点后,其推送的内容也趋于一致,而未考虑该学生以前兴趣的影响。
(3)缺少用户知识获取目标及达成度的分析。基于用户画像的图书馆个性化服务往往通过用户对推送知识的采纳程度预测服务的质量,前文已经分析由此可能导致“信息茧房”的产生。现实中,即使用户未获得希望推送的知识资源,往往也愿意被动接受个性化服务为其提供的资源。由此可见,仅以信息使用率评价服务的满意度,无法真实反映用户需求的达成度,也无法证实用户知识获取目标。因为基于现实数据的用户画像构建,缺少对用户知识获取目标的分析,进而无法提供基于用户真实目标的个性化服务。在吉首大学软件学院18~20级828名学生中关于云资源平台知识个性化推送的满意度调查结果显示,其满意度仅为65.1%;针对学生对个性化推送知识的点击信息反馈情况分析,有89.4%的推送信息被用户点击,有83.3%的推送信息被浏览或下载。
2 基于用户画像的图书馆个性化服务的改进策略
余孟杰[32]认为用户画像是以大数据环境提供数据基础,抽象出能完美呈现用户全貌的标签信息集合;余传明等[33]认为用户画像是依据用户的人口统计学特征、社交关系和行为模式等抽象构造出的标签化的用户模型。本文基于上述定义,通过优化并合理利用代表真实用户的标签信息集合,在此基础上提出基于用户画像的个性化服务的改进策略。
课题组认为,为了提高个性化服务质量,首先需要优化用户画像质量,然后在此基础上提升个性化服务水平。在用户画像构建阶段,首先需要对用户标签集进行辨识、区分,确保用户画像蕴含正确的价值取向;其次,将个体用户标签与群体标签集进行关联,并通过关联主题知识图谱,确保用户画像标签集不被束缚在狭窄的主题领域内;最后,还需要利用序列挖掘、回归分析等算法对用户历史画像建模,确保用户的成长规律能动态呈现。在个性化服务阶段,首先需要利用用户标签的标识信息,对个性化服务内容进行分级,以确保最有利于用户发展的个体兴趣被优先服务;其次,除了最大限度考虑服务内容、方式与用户兴趣、习惯相匹配,还需考虑群体兴趣、知识关联领域等知识服务,有效预测用户在其他领域的潜在兴趣,避免服务“内卷”;此外,也可借助用户成长路径和学习进度分析,为用户定制个性化阅读计划、个性化知识推送时间进度安排等;最后,还需多方接受用户反馈,形成客观全面的个性化服务评价,并以此为依据不断改善个性化服务质量。
2.1 标签辨识与服务分级
在进行个性化服务前,首先可对用户画像的标签进行识别与标记,包括不利于用户发展的兴趣偏好和行为习惯的判定与标识、需进一步细化挖掘的标签集合等,然后根据标签的标记信息,提供更有利于用户健康发展的个性化服务。
(1)识别可能阻碍用户成长的标签,遏制与其相关的个性化服务。利用聚类及关联分析算法等对用户兴趣偏好标签及其权重分析,找出与其身份标签不相符但权重特别大的兴趣标签,以及影响青少年成长的兴趣偏好如赌博、暴力、悲观厌世等相关标签,在个性化服务时过滤相关服务内容,给出终止相关服务提醒,用户仅在特别授权后方可获得相关服务。在识别用户具有上述兴趣后,可进一步联系学生工作辅导员及心理疏导教师等,对学生进行特别关注;也可提供对遏制相关兴趣有帮助的知识服务,如发放赌博危害宣传资料等。
(2)识别影响个体持续健康发展的标签,抑制与其相关的个性化服务。结合用户能力特长标签及兴趣偏好标签信息,以及用户对提供个性化知识服务的接收情况,运用主题发现及关联分析方法,识别与能力特长不相匹配、权重加大且大量接收相关知识服务的兴趣偏好,在个性化服务中减少相关内容、拖后服务顺序、降低服务频率。将用户行为习惯特征中的访问周期标签等与用户的身份类别、作息时间进行匹配,对于影响用户正常作息的习惯标签,在个性化服务时随机调整到空闲时间,并基于用户使用反馈情况,最终确定服务时间。
(3)识别与能力特长及发展目标相符的标签,增加服务的深度与广度。通过对专业标签、兴趣标签、能力标签的整理,结合用户发展愿景调研,利用时间序列分析及回归预测算法等,建立用户成长路径规划图,依照用户成长模式分析,识别有能力基础、与目标方向一致的标签主题,结合知识图谱中的主题匹配,提供更系统、更深入、更全面的个性化主题服务,包括提供基于能力标签初选和兴趣标签二次筛选的个性化信息检索,基于用户兴趣、能力、个体发展愿景的知识推送服务,基于知识图谱与个性标签结合的个性化知识问答服务等。
2.2 标签关联与服务迁移
为防止图书馆个性化服务的“内卷”,将用户兴趣标签与专业属性及能力特长标签进行关联,将用户标签与群体标签进行关联,引入知识图谱,将资源的内容与主题关联,将资源的应用领域进行关联,实现领域内知识的体系化服务,实现不同领域知识的跨界迁移服务。
(1)生成包含用户个体信息的知识子图。将用户个体兴趣标签、专业标签及能力标签与知识图谱中的相应主题进行映射,并在知识图谱中将映射的主题进行关联扩展,构建包含用户标签映射主题的极小子图。
(2)建立面向用户群体的知识关联子图。通过对用户所在的群体用户挖掘,以群体用户画像中的兴趣标签为中心并结合用户密接好友的兴趣标签,将其映射到相应的知识图谱之中,然后以映射的主题为中心进行主题关联扩展,建立包含群体画像标签映射的群体用户知识关联子图。
(3)领域内知识体系化服务和多学科知识跨界迁移服务。基于用户兴趣标签和专业属性标签,结合包含用户个体信息的知识子图,并通过与知识资源库的主题匹配,为用户提供覆盖用户领域知识关联子图、层层深入、紧密关联的知识服务,以保证用户获得知识的连贯和深度,包括为用户提供基于领域知识和个体兴趣的个性化信息检索服务,基于领域知识上下文分析的个性化知识群系列化推送服务,个体知识体系可视化建模服务等。为防止“信息茧房”的形成,可在用户关联子图、群体知识关联子图中,找出跨学科的相关知识主题,并进行跨界迁移学习,如随机迁移、主题相关迁移等,为用户提供非其关注领域的相关知识,包括基于主题周期性迁移的知识推送服务、基于反向排序规则的知识检索服务、基于应用领域随机迁移的知识应答服务等。
2.3 标签演化与服务拓展
为了深入分析用户成长过程,挖掘学习用户画像发展演化规律,需要将用户标签的变化信息详细记录,通过时间序列挖掘算法,找出标签变化的关键节点,然后通过因果关系的解释学习算法,找出发展变化的内在关键因素,可通过Logistics回归(对数几率回归)分析等对用户变化规律进行预测,进而提供更符合用户持续发展需要的个性化服务。
(1)用户历史标签记录与历史画像形成。通过记录用户画像标签变化的时间,并通过关键时间节点的用户画像生成与存储,形成基于时间轴的用户历史画像集合。
(2)历史画像演化模式构建。运用序列挖掘算法,发现对全体用户历史画像演化规律,并运用K-means算法、增强学习算法等,聚类、抽象得到用户历史画像常规演化模式集合。
(3)用户成长路径生成及学习进度分析。通过回归分析及路径规划算法等,将用户个体成长数据与历史画像演化模式相对比,找出用户个体知识发展规律。
(4)基于用户成长的个性化服务。通过对用户个体发展特征分析,结合全体用户发展演化的普遍规律和模式,利用演化推荐算法和基于时间序列的推荐算法等,为用户提供个性化知识推送服务。例如,通过对用户兴趣标签变化的路径拟合,预测用户兴趣未来发展,并结合知识发展前沿,为其推送符合个人发展和时代发展需要的知识。
2.4 多路反馈与服务评价
基于用户对个性化服务的采纳程度,无法实现对服务质量的全面评价。一方面,需要多方位获取用户对服务的反馈信息,进而建立综合性评价指标体系;另一方面,也可改变服务部门自身评价或系统自动评价的方式,采用第三方评价、部门互评等多种评价方式。基于全面客观的服务评价,针对个性化知识服务中的不足之处进行改进,进而实现用户真实满意度的有效提升。
用户的反馈方式可包括调查问卷反馈、平台点赞/拍砖反馈、平台留言反馈、平台打分反馈等显性反馈方式;也可通过智慧图书馆对用户表情、情绪及留言等分析,挖掘用户接受服务时的真实心情,进而计算用户对个性化服务质量的打分;此外,基于对用户能力增长幅度与服务内容关联度分析,计算服务对用户成长的弱影响力,也可适当用于服务质量评价。
基于多路反馈和多方评价,图书馆个性化服务体系可逐步优化服务方式和服务内容,包括实行基于优先改进最差评价的个性化服务方式调整策略、提供基于优先满足用户当前愿景实现的个性化知识推送服务等。
3 结论
基于用户画像的标签统计、关联、聚类、演化分析等,深入发掘用户对知识的个性化需求以及获取知识的习惯特征,结合语义分析、主题发现算法等为其提供极大满足个体需要的精准服务,提升了个性化服务的质量,提高了知识服务的效率。然而,基于用户画像的图书馆个性化服务仍在研究改进中,研究发现,由于未对用户画像标签进行有效分析,图书馆个性化服务中出现了助长负面喜好、放任不良习惯问题;由于大量研究与应用以用户的点击浏览率等相关反馈作为服务质量衡量的标准,导致服务主题紧缩,进而形成“信息茧房”,同时过度注重服务形式,以碎片化、重叠性、浅层次服务代替体系化、多形式、深度服务,让图书馆个性化服务“内卷”;由于放弃对用户历史画像的建模挖掘,未对用户的学习演化规律进行深入研究,无法对其知识成长轨迹和学习进度等情况加以分析利用,无法提供更有利于个体成长的知识服务。针对这些不可忽视的问题,本文从标签辨识、标签关联分析和标签演化规律发现入手,提出进行服务分级、服务迁移和服务拓展的个性化服务策略。在后续的研究中,还可分析不同用户间的相似度,实现基于用户差异的兴趣迁移服务;可通过个性化服务中的第三方评价,辅助调整服务方式和服务内容。