基于用户画像的个性化电子资源推荐服务初探
2024-06-24王懿松张雪蕾
王懿松 张雪蕾
摘要随着信息过载时代的到来,海量的电子资源使用户身处“知识迷航”的困境。同时,用来刻画用户行为的用户画像已在各领域广泛应用。通过对用户数据的分析挖掘,可构建出高精度的用户画像,这对面向用户开展电子资源推荐服务具有重要作用。论文构建的用户画像是基于用户与资源维度,结合了用户的基本属性、兴趣属性及社交属性构建了用户相似度模型来发现相似用户,并对用户与相似用户的阅读偏好进行相似度计算,最后将相似用户阅读偏好中相似度值较高的电子资源进行推荐服务。实验结果表明基于用户画像的个性化电子资源推荐服务可较为精确地实现个性化推荐服务,这是对智慧图书馆提供相应智慧服务的有效探索,更加便利用户的数据获取。
关键词用户画像;电子资源;访问行为;推荐服务
分类号 G250.7
Preliminary Exploration of Personalized Electronic Resource Recommendation Service Based on User Personas
Wang Yisong, Zhang Xuelei
AbstractWith the advent of the era of information overload, the use of massive electronic resources has placed users in a dilemma of “knowledge loss”. At the same time, user personas, which are used to characterize user behavior, have been widely applied in various fields. Through the analysis and mining of user data, a highly accurate user persona can be constructed, which plays an important role in providing electronic resource recommendation services to users. The user persona constructed in this paper is based on the dimensions of users and resources, and combines the basic attributes, interest attributes, and social attributes of users to construct a user similarity model to discover similar users. The similarity calculation is performed on the reading preferences of users and similar users, and finally, the electronic resources with high similarity values in the reading preferences of similar users are recommended for service. The experimental results show that personalized electronic resource recommendation services based on user personas can achieve personalized recommendation services more accurately. This is an effective exploration of providing corresponding smart services for smart libraries, which is more convenient for users to obtain data.
Keywords User profiles. Electronic resources. Access behaviors. Recommendation services.
0引言
随着社会智慧化进程的加快,及“全国智慧图书馆体系建设”项目的正式启动,智慧图书馆建设已由“将来时”逐步发展到了“现在时”[1],智慧图书馆更强调在智慧技术加持下通过创新智慧服务来赋能用户。现阶段,知识爆炸时代引发了海量资源信息,使得用户深陷“知识迷航”困境,搜索所需资源需要耗费更多的时间成本,因此如何减轻信息过载困境,面向用户提供便捷的数据获取途径,进而提升文献精准服务能力,满足用户个性化阅读需求,就更需要精确地刻画出用户信息需求并据此开展智慧推荐服务。
目前,解决信息过载的主要方式是搜索引擎与推荐系统,二者对于用户来说是互补工具。搜索引擎满足了明确目的用户的主动查找需求,推荐系统帮助用户发现无明确目的时的感兴趣内容。推荐系统是将用户与物品联系,更好地发掘出物品的长尾,这正是个性化推荐系统的主要目标。个性化推荐需要依赖于用户的行为数据,通过解析大量的用户行为日志,给不同用户添加标签来实现。而用户画像技术是对真实用户的抽象描述,通过构建多维度标签属性勾画用户特征、行为、兴趣或偏好,从而为个性化服务、精准推送提供了数据支持。
常见电子资源的推荐算法有基于图的推荐、基于内容推荐和协同过滤推荐等,但前两者未考虑影响推荐结果的其他重要因素,且在小数据集上表现良好却难以处理大规模在线数据,而协同过滤容易受到冷启动及稀疏数据问题的影响。本文提出的基于用户画像的电子资源推荐方法,可对传统推荐效能给予补充和效应增强。
综上,基于用户画像的个性化电子资源推荐系统会主动面向用户推荐相似文献,进而建立系统与用户间的密切联系,形成“用户-系统-用户”的良性循环。本文在用户画像框架下,提出了结合用户的基本属性、兴趣属性及社交属性构建用户相似度模型发现相似用户,并对用户与相似用户的阅读偏好进行相似度计算,最后将相似用户阅读偏好中相似度值较高的电子资源进行推荐服务。该方法是以平台建设为抓手,是对设计、探索图书馆开展创新智慧服务的有效探索。
1相关研究概述
1.1用户画像
传统的用户画像最初多应用于计算机及电子商务领域,作为精准营销、个性化推荐推荐及用户拓展等业务的数据支撑。近年来,用户画像也逐步应用到图书馆服务领域。早在1985年,英国国家书目和Blaise-line通过访谈及电话采访方式调查用户对英国国家书目和Blaise-line的使用情况进行分析,以满足用户多元化信息需求[2]。P., Jomsri[3]通过用户数据构建用户画像,并应用关联规则建立图书推荐模型;Kumar[4]等使用奇异值分解方法为每个用户构建用户兴趣画像,并标注用户感兴趣的资源,并将其应用于用户的个性化搜索。Abri等[5]通过主题模型构建用户主题特征,并使用主题模型根据用户配置文件对用户进行分组实现群体用户兴趣画像的刻画。
国内相关研究起步较晚,李业根[6]在2014年首次提出了使用用户画像实现图书馆精准营销策略;张钧[7]构建了基于用户画像的图书馆知识发现服务模型。刘速[8]以天津图书馆为例,阐述了用户画像的构建方法及可视化、多维度交叉分析、关系图谱等分析方法。徐海玲等[9]借鉴概念格方法,对不同群体用户进行关联规则挖掘,并实现群体用户兴趣画像的刻画。王庆等[10]整合图书馆各个系统的用户数据,通过聚类等数据挖掘分析方式形成用户标签体系并建立用户画像模型,从单用户及群体用户角度开展了资源的精准推荐。何娟[11]、李晓敏等[12]、王大阜等[13]从用户多属性维度出发构建用户画像,并实现智慧图书馆的图书个性化。于兴尚等、陈丹等、徐鹏程等基于用户画像,构建图书馆精准服务模型[14],为用户提供个性化服务[15],促进数字图书馆的知识服务升级[16]。
1.2电子资源推荐
电子资源推荐技术是根据用户在平台内的检索、阅读习惯主动向用户推送其感兴趣的资源,旨在帮助用户从海量资源中迅速找到所需文献,满足其个性化需求。随着电子文献数量激增及用户对电子资源利用率的提高,越来越多的学者开始关注电子资源的推荐方式。传统的电子资源推荐方式主要分为三类:基于图的推荐、基于内容的推荐和协同过滤推荐[17]。
基于图的推荐算法不考虑到用户的背景信息及资源的内容,而是通过将用户或物品的联系抽象成网络中的节点,通过度量节点间的相关性进行推荐。例如Chakraborty等[18]使用关键词构建引文图表并通过顶点增强的随机游走算法进行推荐;Cai等[19]构建了一个地点层、作者层与论文层的三层图,并结合书目网络模型实现了个性化论文推荐。
基于内容的推荐方式是从资源内容本身提取特征构建推荐模型,如R., Nagori等[20]通过LDA对语料库进行主题分析,并通过相似度模型实现基于内容的推荐方法;曾子明[21]等通过基于内容的个性化过滤方法识别用户主题偏好,再利用社会网络分析方法识别文献并进行推荐。
协同过滤算法是电子资源推荐中应用较为普遍的算法,其理论是通过用户对资源的反馈构建评分矩阵,从中筛选出目标用户可能感兴趣的信息。如李默等[22]提出了在协同过滤算法的基础上融合了相似性评价、信任度与社会网络的学术资源推荐方法;王刚[23]通过挖掘用户行为对其兴趣量化,并建立随时间而变的自适应用户兴趣模型,结合基于用户与基于项目的协同过滤算法实现电子资源推荐服务;杨辰等[24]在基于用户的协同过滤算法基础上,使用非监督的融合策略整合了文本相似度及用户相似度,构建了个性化的电子文献资源推荐系统。
综合已有研究可知,现用推荐算法不能很好地获取及挖掘用户的特征及隐显兴趣,但综合考虑用户与资源特征是有效提高电子资源推荐准确性的关键要素,基于此,本文通过构建用户画像,结合用户相似度与资源相似度算法,可以从多维度为不同背景、不同知识需求的用户提供差异化的个性化电子资源推送,有效实现服务定位精准化与资源利用高效化。
2 用户画像的构建
用户画像的构建可分为3个步骤:数据采集、数据预处理及用户画像生成。在数据采集时,需尽可能从多维角度收集详尽的原始数据,预处理繁杂冗余的原始数并提炼有效信息,并利用自然语言处理、标签等方式生成多维度的用户画像。
2.1数据收集
为更精准地描述用户全貌,需要采集多来源数据构建不同维度的用户画像模型。用户画像数据多分为静态数据与动态数据。静态数据多是用户基本属性,如姓名、性别、院系、年级等;动态数据多指户行为数据,如用户不断变化的行为类型。
本文利用西安交通大学电子资源使用统计分析系统作为用户画像采集数据源,并以西安交通大学2023年CNKI数据库为例完成画像构建及资源推荐。静态数据为校园统一身份认证接入的信息传递及图书馆管理系统中的相关读者信息;动态信息为用户访问数据库时的点击、访问操作数据。
2.2数据预处理
数据预处理阶段是将有效数据从原始数据中提炼并分离,转换为合理的存储结构,便于后续数据挖掘及画像构建。在预处理过程中,除对所需字段的日志解析外,还需判断用户行为,防止用户误操作或网络导致的重复、错误数据。如:在处理检索日志时,在1分钟内发生的多次相同词检索记为1次检索。本文设置时间参数为T,T取值1分钟,将1分钟内重复行为删除。预处理数据后,本文选择了在CNKI数据库均存在检索、阅读及下载行为,且阅读下载记录总和大于20条记录的用户作为用户数据源。并从每位用户的阅读下载记录中选择时间排序最近的20条文献放入电子资源推荐数据池。
2.3用户画像生成
为更深层地体现用户差异,需从多维度刻画用户特征,为个性化推荐服务奠定数据基础。本文以电子访问行为作为数据特征,从用户维度及资源维度刻画用户画像。其中,用户维度分为基本属性、兴趣属性及社交属性3个维度。详细的用户画像见图1所示 。
2.3.1用户维度
(1)基本属性
基本属性用于描述用户基础的特征,为静态数据,包括学号、姓名、性别、院系、专业、年级、身份类型等数据。
(2)兴趣属性
兴趣属性维度是反映用户偏好和需求的核心属性,是用于挖掘用户隐性兴趣的重要维度。通过对用户电子资源使用行为的采集与挖掘,分析出用户的对不同主题内容的兴趣度。一般认为,检索行为表现出用户感兴趣的研究方向,阅读和下载行为能更体现出用户对资源的喜好。
本文使用Jieba分词库分别对用户的检索内容、阅读及下载文献分词并去除停用词。检索内容分词结果频次赋值1,阅读及下载文献分词结果频次赋值2,统计所有特征词及词频作为用户兴趣属性的基础数据。选择每位用户词频大于5的特征词类标注用户兴趣属性维度。部分用户兴趣属性维度的特征词如表1所示。
(3)社交属性维度
社交属性是描述用户间的交互行为,可反映出用户在资源阅读方面的兴趣关联。通过对电子资源的使用行为可挖掘分析用户潜在社交关系,即用户访问或阅读下载同一类电子资源时,表征其存在隐性交互关系,可借助中图分类号识别文献学科属性与特征。当不同用户访问的资源属于中图分类法相同二级类目时,默认其有资源的兴趣关联,相同二级类目资源访问行为越多,证明其关联性越强,用户间相似度更高。因此社交属性维度可表示为S=(N1,N2,……,N),其中i表示中图分类号二级类目,Ni表示用户对i类电子资源的访问次数。
2.3.2资源维度
资源维度是描述电子资源属性,反映电子资源文献的基本信息,包括了题名、摘要、作者、中图分类法、关键词、出版期刊等数据。用户画像的资源维度是用户阅读下载文献的记录。部分资源及其维度特征如表2。
2.3.3用户画像示例
通过以上的用户画像构建方式,构建出用户ID3的用户画像构成如图2所示。
3基于用户画像的电子资源推荐
本文构建的用户画像是从用户及资源两个维度进行探讨,因此在电子资源推荐时也分为基于相似用户与基于相似资源两个维度。为了提高推荐效率,降低用户等待时间,本文先通过用户相似模型生成相似用户集,再从相似用户的电子资源推荐池中,利用资源模型向用户推荐相似度较高的电子资源,实现个性化推荐服务。
3.1相似用户集的生成
相似用户集的生成时,需要基于用户画像中的3个用户维度分别寻求最相似用户群体,线性拟合后选出相似度最高的用户群体作为相似用户集。
3.1.1用户基本属性相似度
用户的基本属性包括学号、姓名、性别、院系、专业、年级、身份类型等数据,本文计算除编号和姓名外的定量标签,计算相似度公式为
用户性别使用0或1代指男女,院系、专业、年级、身份类型使用数字编码进行换算,相似度计算采取差额绝对值方式,并对所有定量标签数据归一化处理,将不同取值范围的数据统一映射到[0,1]区间内。采取线性函数转换为:
3.1.2用户兴趣属性相似度
用户的兴趣属性相似度需通过计算用户特征词的相似度实现。本文采用Word2Vec[25]训练语料获取词向量计算特征词相似度。首先先选取了基于Hierarchical Softmax结构的Skip-Gram模型完成语料训练,训练语料为电子资源推荐池内文献的摘要及全文;再利用gensim库语料训练来获取特征词的词向量,词向量维度为300。训练后的词向量通过余弦相似度模型计算特征词相似度,余弦值越大,两个向量之间的夹角就越小,其相似性越高。计算公式如下:
最后将结果集记为用户兴趣属性相似度集合B。
3.1.3用户社交属性相似度
由用户共同阅读下载同一二级类目下的文献记录越多,说明用户的社交属性相似度越高。为了减少不同用户对同一二级类目下文献的阅读量差异过大带来的影响,考虑采用修正余弦相似度计算,计算公式如下:
最后将结果集记为用户社交属性相似度集合??。
3.2基于相似资源的电子资源推荐
本文选择题名、作者、关键词、出版期刊作为联合特征词,通过短文本相似度计算选择出最相似的电子资源。由于联合特征词较长, Word2Vec已无法精准描述词向量,本文使用Sentence-BERT(SBERT)模型[26]计算短文本相似度。SBERT是使用孪生网络和对三级网络结构的权重更新,生成语义句向量,通过距离度量计算发现相似语义文本,其模型如图 3所示。
SBERT在BERT的输出上添加一个pooling操作产生等长的句子向量,本文选择了效果更好的平均池化(MEAN pooling)操作。SBERT模型的子网络为2个共享参数的BERT模型。在模型中, ??????????????????与??????????????????两个句子进入BERT模型后,分别得到对应句子向量??、??,将??、??和两者求差向量进行拼接,拼接结果与权重系数()进行softmax函数进行分类训练。公式如下所示:
3.3基于用户画像的电子资源推荐结果生成
在生成相似用户集后,根据相似用户集中用户电子资源与目标用户电子资源集,进行资源的相似度模型比较后,选择相似度最高的topN电子资源,并将其推荐给目标用户。具体步骤如下:
以上文提到的某用户ID3举例,根据相似用户集生成与用户3最相似的Top5用户,分别为用户ID55、73、102、31和17,计算结果如下:
其用户代表特征(部分)如表3:
在得到5位相似用户后,分别通过资源相似度模型计算出电子资源推荐池内相似度值较高的电子资源与,将Top10电子资源推荐给目标用户ID3,其推荐结果如表 4所示。
用户ID3的研究方向聚焦于“人口老龄化、医疗保障、老龄化 …医养结合、医疗保障体系、社会救助”等方向,最终的推荐结果与其研究方向重合度较高,验证了推荐算法的合理性,表明此算法能够较好地完成个性化推荐服务。
4 结语
电子资源的个性化推荐是有效缓解信息过载,最大化满足用户文献检索时效性需求,提高文献资源利用率的有效方法。因此,构建电子资源推荐系统对满足用户个性化阅读需求具有重要意义。本文提出了一种基于用户画像的个性化电子资源推荐服务思路,旨在通过构建用户画像准确、全面地把握用户阅读偏好,通过对用户静态、动态数据采集、挖掘构建出用户画像,并在此基础上以某一用户为例,测评电子资源个性化推荐算法,结果表明该算法与传统推荐算法相较更为准确可靠。个性化电子资源服务初探,是智慧图书馆中智能技术的实践探索。在未来研究中,可与各类云服务平台打通,打破各平台信息壁垒,获得更多的用户数据源,提升推荐效果,增强用户与图书馆黏性。
参考文献:
[1] 吴汉华,王波. 2020年中国高校图书馆基本统计数据报告[J]. 大学图书馆学报, 2021, 39(4): 5-11.
[2] 库珀著. 交互设计之路 [M]. 北京:电子工业出版社, 2006:10.
[3] 刘漫. 基于用户画像的高校图书馆阅读推广模式构建[J]. 图书馆理论与实践, 2019(7): 21-26.
[4] 李业根. 基于大数据的图书馆信息营销策略[J]. 图书馆学刊, 2014, 36(10): 7-9.
[5] 张钧. 基于用户画像的图书馆知识发现服务研究[J]. 图书与情报, 2017(6): 60-63.
[6] 刘速. 浅议数字图书馆知识发现系统中的用户画像:以天津图书馆为例[J]. 图书馆理论与实践, 2017(6): 103-106.
[7] 徐海玲,张海涛,张枭慧,等. 基于概念格的高校图书馆群体用户兴趣画像研究[J]. 情报科学, 2019, 37(9): 153-158.
[8] 尤明辉,殷亚凤,谢磊,等. 基于行为感知的用户画像技术[J]. 浙江大学学报(工学版), 2021, 55(4): 608-614.
[9] 王庆,赵发珍. 基于“用户画像”的图书馆资源推荐模式设计与分析[J]. 现代情报, 2018, 38(3): 105-109.
[10] 何娟. 基于用户个人及群体画像相结合的图书个性化推荐应用研究[J]. 情报理论与实践, 2019, 42(1): 129-133.
[11] 李晓敏,熊回香,杜瑾,等. 智慧图书馆中基于用户画像的图书推荐研究[J]. 情报科学, 2021, 39(7): 15-22.
[12] 王大阜,邓志文,贾志勇,等. 基于用户画像的高校图书馆个性化图书推荐研究[J]. 河南师范大学学报(自然科学版), 2022, 50(3): 95-103.
[13] 陈丹,罗烨,吴智勤. 基于大数据挖掘和用户画像的高校图书馆个性化服务研究[J]. 图书馆研究与工作, 2019(4): 50-53.
[14] 许鹏程,毕强,张晗,等. 数据驱动下数字图书馆用户画像模型构建[J]. 图书情报工作, 2019, 63(3): 30-37.
[15] 于兴尚,王迎胜. 面向精准化服务的图书馆用户画像模型构建[J]. 图书情报工作, 2019, 63(22): 41-48.
[16] BEEL J, GIPP B, LANGER S, et al. Research-paper recommender systems: a literature survey.[J]. International Journal on Digital Libraries, 2016, 17(4): 305-338.
[17] CHAKRABORTY T, MODANI N, NARAYANAM R, et al. DiSCern: A diversified citation recommendation system for scientific queries[J].IEEE, 2015:555-566.
[18] XIAOYAN C, YU Z, LIBIN Y, et al. Bibliographic Network Representation Based Personalized Citation Recommendation[J]. IEEE Access, 2019, 7: 457-467.
[19] R. N, G. A. LDA based integrated document recommendation model for e-learning systems[C] Emerging Trends in Networks and Computer Communications (ETNCC), 2011 International Conference on IEEE,2011: 230-233.
[20] 曾子明,周红. 科技文献中基于主题的社会化推荐研究[J]. 情报理论与实践, 2015, 38(3): 71-76.
[21] 李默,梁永全,赵建立. 融合相似性评价、信任度与社会网络的学术资源推荐方法研究[J]. 情报理论与实践, 2015, 38(5): 77-81.
[22] 王刚. 自适应用户兴趣偏好的电子资源协同过滤推荐研究[J]. 情报探索, 2018(9): 18-22.
[23] 杨辰,刘婷婷,刘雷,等. 融合语义和社交特征的电子文献资源推荐方法研究[J]. 情报学报, 2019, 38(6): 632-640.
[24] 张慧敏,辛向阳.构建动态用户画像的四个维度[J]. 工业设计, 2018(04): 59-61.
[25] 范晓玉,窦永香,赵捧未,等. 融合多源数据的科研人员画像构建方法研究[J]. 图书情报工作, 2018, 62(15): 31-40.
[26] 胡媛,毛宁. 基于用户画像的数字图书馆知识社区用户模型构建[J]. 图书馆理论与实践, 2017(4): 82-85.
[27] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013: 1301-3781. http://arxiv.org/abs/1301.3781.
[28] REIMERS N, GUREVYCH I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks[J]. Computer Science, 2019: 1908-10084. http://arxiv.org/abs/1908.10084.
王懿松 西安交通大学图书馆馆员。陕西西安。710049。
张雪蕾 西安交通大学图书馆信息技术部主任,副研究馆员。陕西西安。710049。
(收稿时间: 2023-12-18 编校:左静远)