融合话题多维特征和用户兴趣偏好的微博话题推荐研究
2022-06-06单晓红崔凤艳刘晓燕
单晓红 崔凤艳 刘晓燕
摘 要:[目的/意义]为了防止微博话题推荐引发信息茧房效应,提出融合微博话题特征和目标用户兴趣偏好的话题推荐方法,实现了在不降低推荐精确率的同时提高话题推荐结果的多样性,进而达到提高用户满意度的目的。[方法/过程]首先根据用户历史微博内容获取用户兴趣偏好,进一步以协同过滤算法为基础,计算目标用户相似性,然后计算话题新鲜度、重要度、信任度指标并进行线性加和,得到目标用户对微博话题的综合兴趣度,最后,根据用户偏好和综合兴趣度计算目标用户对微博话题的兴趣度并降序排列,得到Top-N个话题推荐结果。[结果/结论]在真实微博数据上的实验结果表明,该方法取得了理想的预期效果,推荐效果既能保證准确性,又能体现多样性,并且有效缓解了推荐结果单一、容易引发信息茧房的问题。
关键词:微博话题推荐;协同过滤;话题新鲜度;话题多维特征
DOI:10.3969/j.issn.1008-0821.2022.05.007
〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2022)05-0069-08
Abstract:[Purpose/Significance]In order to prevent microblog topic recommendation from causing information cocoon effect,a topic recommendation method combining microblog topic characteristics and target users interest preferences was proposed to improve the diversity of topic recommendation results without reducing the recommendation accuracy,so as to improve user satisfaction.[Method/Process]Firstly,the users interest preferences were obtained according to the users historical microblog content.Further,based on the collaborative filtering algorithm,the similarity of target users was calculated.Then,the topic freshness,importance and trust indexes were calculated and linear sum was performed to obtain the comprehensive interest degree of target users on microblog topics.According to user preferences and comprehensive interest degree,the interest degree of target users on microblog topics was calculated and arranged in descending order,and top-N topic recommendation results were obtained.[Result/Conclusion]The experimental results on real microblog data show that the proposed method achieves the desired effect.The recommendation effect can not only ensure the accuracy,but also reflect the diversity,and effectively alleviate the problem of single recommendation result,which is easy to cause information cocoon.
Key words:microblog topic recommendation;collaborative filtering;topic freshness;topic multidimensional features
微博平台以其丰富的内容和实时性吸引了大量用户,用户获得的信息随时都在变化,信息碎片化会影响用户的判断[1],将微博内容以话题的粒度利用LDA话题模型[2]进行聚合,可以帮助用户获得微博内容的重点。话题推荐作为信息检索领域研究的热点问题,可以提高用户获取信息的效率,而微博个性化推荐系统主要是根据用户的需求、兴趣等为用户推荐其感兴趣的微博内容[3]。现有的微博话题推荐算法在满足用户个性化需求、提升准确度方面做了大量研究,如鲁燃等结合用户偏好特征、时间信息和话题热度,基于人工蜂群的思想对用户进行微博话题推荐[4],同时协同过滤算法的应用进一步增强了相似话题推荐的准确度,如张世尧等利用协同过滤算法,通过提取用户历史微博话题特征,为同一聚类簇内的用户推荐相似的微博话题[5]。推荐准确性的提高在某种程度上解决了信息泛滥的困扰,但并不意味着用户满意度的提升[6],单一话题的重复推荐,使用户更不易接触到与自己想法相左的话题,容易陷入“信息茧房”,即用户自身的信息需求并非全方位的,用户会不自觉地陷入只浏览推荐的话题,对推荐内容感到高度满意并且很难感知到自身信息受限,用户只能看到自己想看的话题内容,只听到自己认同的观点。长期处于信息茧房中的用户,第一,由于他们所接触的话题单一,缺乏与异质化的人或观点接触的机会,用户容易从单一角度去了解事物的本质;第二,重复观念性话题的推荐,会强化用户对于某种意见的认知,这种认知一旦形成群体效应,很容易增加群体极化的可能,此外,通过用户聚类算法,为相似用户群推荐相似话题,加剧了群体偏见的传播,提高了群体极化的隐患。因此可以看出,单一化的话题推荐不仅抑制了用户认知的全面发展,而且容易造成群体化负面舆论的形成。8715E4DC-A70E-4B11-AE8C-8E41406CF042
微博作为信息和意见交流的重要场所,提高微博话题推荐的多样性,是拓展用户信息的多样性、提升用户满意度的关键。因此,在维持一定准确度的基础上,提高推荐话题的多样性,不仅能够优化用户的个性化体验,提升用户的满意度,而且有助于用户提升自我,缓解微博极化观点的形成。本文提出的融合话题多维特征和用户兴趣偏好的微博话题推荐方法,不仅能够为用户推荐可能感兴趣的话题,还能突破信息茧房效应,实现个性与共性推荐相结合,从而提高用户满意度。
1 相关研究工作概述
众多微博内容的汇聚、观点的融合形成了各种不同的微博话题[7],作为用户兴趣的表现之一,为用户推荐微博话题,可以更好地挖掘用戶需求,提升用户满意度。与微博个性化推荐相比,微博话题推荐在推荐效果评估上有较大不同,微博个性化推荐主要是考虑推荐精准度,为用户推荐与其兴趣偏好最为相关的微博集合,而话题推荐主要考虑在牺牲较小准确度或者不降低准确度的基础上提升推荐结果的多样性,实现准确性和多样性的兼顾。因此,现有的话题推荐主要从话题推荐准确性和推荐多样性两个研究方向展开。
目前,话题推荐研究的重点是提高推荐结果的准确性,现有研究主要从两个方面展开,一是基于话题的协同过滤算法,直接找寻与目标用户历史话题偏好相似度较高的其他话题,推荐给目标用户。如蒋超根据微博内容,结合TF-IDF算法构建用户兴趣模型,根据模型向用户推荐相似的微博内容,不仅提高了推荐的准确性,也形成了推荐微博的话题性[8];Zhang S X等根据用户历史数据,利用K-means对用户聚类,结合用户在微博主题知识流中的位置向用户推荐微博内容[9];史存会等引入层次化的知识信息,同时嵌入用户兴趣和话题,从而预测用户点击,生成推荐列表[1];韩康康等融合用户兴趣和多维信任度,改进传统的基于内容的推荐方法,为目标用户实现更精准的微博推荐[10]。二是基于用户的协同过滤算法,通过挖掘用户的历史兴趣偏好特征,发现与其兴趣偏好相似的邻居用户,为目标用户推荐邻居用户感兴趣但目标用户之前没有参与的微博话题,在准确确定用户兴趣偏好的基础上,融合用户特征指标以提高邻居用户确定的准确性,从而提高推荐结果的准确性。如范洪博等根据用户历史信息对用户进行人格特质预测,以此分析用户的潜在兴趣,融合用户背景信息和潜在兴趣,结合协同过滤算法对用户进行话题推荐[11];王战平等利用HDP进行主题挖掘获取目标用户的个体兴趣偏好,通过计算目标用户和关注用户的多重信任关系得到目标用户感兴趣的群体用户,实现群体用户兴趣偏好表达,将个体和群体兴趣偏好线性加和得到目标用户对微博主题的综合兴趣度,从而进行更准确的新微博主题推荐[12];除了考虑融合用户特征指标外,研究人员还考虑为用户进行精准画像以进行推荐研究,如汪强兵等通过收集用户的手势行为数据及手势对应的内容挖掘用户兴趣,根据数据构建用户兴趣画像,基于用户兴趣画像进行微博推荐[13];张炎亮等定期挖掘用户对产品的评论信息,预测用户的兴趣以及变化趋势,以此构建动态用户画像模型,从而为用户进行推荐[14]。
随着推荐应用的不断拓展和深化,用户对推荐结果的要求也越来越高,推荐的多样性受到了更多关注。提高推荐结果的多样性不仅能提高用户对推荐结果的满意度,增加用户粘性,还能拉动长尾物品的潜在价值,增加商家的收益[15],因此,具有较大的研究意义。在社交网络方面,Yokoyama M等提出新鲜度的概念,结合信息新鲜度和历史兴趣偏好为用户推荐多样化的信息[16];王战平等利用k-means算法中聚类簇的差异性对微博内容进行多样性划分,结合用户历史偏好进行多样性微博内容推荐,提高用户满意度[17];荀亚玲等根据用户之间的信任值获取用户间的弱关系,基于弱关系传递多样化信息的能力,结合目标用户自身偏好为其推荐多样化项目,从而改善推荐的单一性和冗余性[18]。在电子商务领域,杜巍等以传统预测算法为基础,将新鲜度得分作为调节长尾项目所占比例的参数融入初始推荐列表,有助于提高最终推荐列表的多样性,促进商品的销售[6];王茜等借鉴网络信息扩散原理,将消费者购买商品记录二部图转换为商品购买关系网络,分析关键商品节点的重要性,利用关联规则算法计算与预测商品具有关联关系的关键节点,以关键节点作为多样性商品推荐的依据[19];刘莉将根据用户项目评分的差异性获取的用户项目多样性偏好矩阵和融入用户隐形反馈和显性评分的项目相似性评分矩阵结合起来,提高推荐结果的多样性和用户满意度[20];张富国等提出基于社会网络信任的推荐多样性算法,通过选择用户基于产品评分的信任邻居来增加推荐的候选项目数,以提高推荐结果在推荐列表中的覆盖率,从而提升推荐的多样性[21]。
综上所述,话题推荐虽然已经积累了一定的研究成果,一定程度上解决了用户的信息超载问题,但是仍然存在一些不足。首先,基于协同过滤算法的推荐提高了推荐内容的准确度,然而仅考虑推荐准确性会加速信息茧房效应的形成,不利于社交媒体的多元化、全面化发展。因此,在话题推荐中,准确性和多样性是相辅相成的,推荐的多样性提高要以推荐的准确性为基础。其次,现有推荐多样性的研究往往集中于电子商务领域,通过识别用户间信任关系、考虑主题多样性以及识别商品购买网络等达到提高推荐多样性的目的,在话题推荐领域的研究并不多见。最后,用户对推荐话题的满意程度不仅受到推荐话题与用户兴趣的相关性影响,还受到推荐话题本身的特征,如话题的新颖性、可信度和重要性的影响,单纯根据用户兴趣偏好为其推荐话题会影响用户的体验,难以得到用户满意度的提升。基于此,本文提出结合用户兴趣和话题新鲜度、信任度和重要度的微博话题推荐算法,在提高推荐结果多样性的基础上兼顾准确度,以提高用户浏览话题的体验。
2 融合用户兴趣偏好和话题多维特征的微博话题推荐
2.1 研究框架
本文基于协同过滤算法,提出了融合话题多维特征和用户兴趣偏好的微博话题推荐方法,总体框架如图1所示。首先,采集微博用户及其历史微博内容数据,经数据筛选和预处理后得到具有m个用户的用户数据集作为后续步骤的基础;其次,利用LDA主题模型[2]进行用户—话题偏好的提取,得到n个话题,实现用户—话题偏好的表达;根据微博信息和用户信息分别计算话题新鲜度、信任度和重要度,构建话题多维特征模型;最后,根据修正余弦相似性计算相似用户集,与话题多维特征模型结合形成混合推荐算法,预测用户对话题的偏好并按预测得分排序,从而为用户推荐新颖且感兴趣的话题。8715E4DC-A70E-4B11-AE8C-8E41406CF042
2.2 用户话题兴趣偏好模型
用户话题兴趣偏好描述的是用户对微博话题内容感兴趣的程度,由于用户兴趣具有多样性[8],本文采用LDA话题模型[2]对用户已发布和转发的历史微博内容进行主题提取,从而确定用户对微博话题的兴趣偏好得分,首先对每条微博文本进行Jieba分词和去停用词处理,然后对经预处理后的微博文本进行LDA主题模型训练,得到用户u对微博话题t的偏好概率矩阵P:
其中,TL表示推荐列表中用户实际感兴趣的微博话题集合,T表示训练集中的微博话题集合,S表示测试集中的微博话题集合,L表示为用户推荐的微博话题集合,TS表示所有的微博话题集合,TL、T、S、L、TS分别为集合中微博话题的数量。
3.3 实验结果分析
本文按照话题特征进行组合设置5组实验,比较用户兴趣融入不同话题指标之后的推荐性能。实验所涉及的方法简写及其解释如表1所示。
设定N是推荐主题个数,K是相似用户个数,当固定N值,发现推荐正确率、召回率、F1值以及覆盖率随K的变化不明显,基于杜巍等[6]对于推荐结果的分析,本文考虑固定K值,观察精度随N的变化,因此设置对比试验,固定K=10,观察推荐性能随推荐话题数N的变化,推荐话题数对推荐效果的影响如图2所示。
图2中的(a)~(c)通过正确率、召回率、F1值表现了不同推荐算法在不同推荐话题数下的推荐准确性结果,推荐的话题数越多,推荐的准确性越低,召回率越高,F1值越高,除仅考虑用户偏好和新鲜度的UPF算法有较明显的准确性降低外,其余融合话题特征的推荐算法正确率都没有明显的降低,表明仅考虑为用户推荐新鲜话题不能较好地满足用户的兴趣偏好,话题信任度和话题重要度与用户兴趣较为契合,对推荐结果准确性影响较小。此外,融入话题重要度特征的UPI方法正确率相对较低,而加入话题信任度的UPT方法相对较高,说明用户对影响力大的用户发布的微博话题更感兴趣,而微博话题的点赞、评论数对推荐结果的准确性影响不大。融合话题多维特征的推荐算法UPTIF准确性在两者之间,并且在15图2(d)中的覆盖率表示不同推荐方法的多样性对比结果,未考虑话题指标特征的传统协同过滤推荐方法覆盖率较低,推荐的多样性最低,而加入不同指标的推荐方法随推荐话题数的增加,覆盖率提高,推荐的多样性提高,N>15后,融合话题多维特征的推荐算法UPTIF覆盖率达到1,表明推荐的话题覆盖了所有基于用户历史数据提取得到的用户感兴趣的话题,覆盖率最高,推荐的多样性最高。
综上所述,融合话题多维特征和用户偏好的话题推荐算法UPTIF在推荐话题数N>15时,虽然相较融合信任度的推荐算法牺牲了一部分推荐的准确性,但是推荐的多样性较高,缓解了推荐结果单一化的问题,实际推荐性能最好。
4 结 语
本文提出了一种融合话题多维特征和用户兴趣偏好的微博话题推荐方法,该方法可以更有效地为用户推荐微博话题内容,实现在不降低推荐准确性的基础上提高了推荐的多样性,有效缓解了传统基于用户历史兴趣的话题推荐算法推荐结果单一、容易引发信息茧房的问题。实验表明,本文提出的融合话题新鲜度、信任度、重要度和用户兴趣偏好的话题推荐方法,在综合正确率、召回率、F1值和覆盖率方面相较于其他方法都取得了较好的效果,说明了所提方法的有效性。
本文提出的推荐方法对企业和政府都有一定的价值和意义,企业通过挖掘用户需求,发布用户感兴趣并且新颖的内容,实现精准营销,提升用户满意度;政府及相关管理人员可以根据用户兴趣偏好,进行舆论话题引导。本文的研究方法不仅适合应用于微博话题推荐,还可以应用到新闻话题推送、电子商务领域的购物产品信息推送等。不足之处在于,提取用户话题偏好采用传统的LDA方法,准确性较低,未来可以考虑其他改进的话题提取方法,还可进一步研究微博话题特征和用户兴趣偏好的动态性对推荐的影响,为用户带来更好的使用体验。
参考文献
[1]史存会,胡耀康,冯彬,等.舆情场景下基于层次知识的话题推荐方法[J].计算机研究与发展,2021,58(8):1811-1819.
[2]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(4-5):993-1022.
[3]魯骁,李鹏,王斌,等.一种基于用户互动话题的微博推荐算法[J].中文信息学报,2016,30(3):187-195.
[4]鲁燃,李情情,王智昊,等.融合人工蜂群的微博话题推荐算法[J].山西大学学报:自然科学版,2015,38(4):601-607.
[5]张世尧,张顺香.基于用户聚类的微博话题推荐算法[J].阜阳师范学院学报:自然科学版,2016,33(2):74-79.
[6]杜巍,高长元,翟丽丽.基于新鲜度度量的多样性推荐模型研究[J].情报理论与实践,2018,41(8):127-131.
[7]杜诗雨,齐佳音.基于主成分分析的微博话题影响指数评价研究[J].情报杂志,2014,33(5):129-135.
[8]蒋超.基于用户聚类和语义词典的微博推荐系统[D].杭州:浙江大学,2013.
[9]Zhang S X,Liu W J,Deng X L,et al.Micro-blog Topic Recommendation Based on Knowledge Flow and User Selection[J].Journal of Computational Science,2018,26:512-521.
[10]韩康康,徐建民,张彬.融合用户兴趣和多维信任度的微博推荐[J].数据分析与知识发现,2020,4(12):95-104.
[11]范洪博,杨笑锋,张晶.融合用户背景和用户人格的话题推荐方法[J].计算机应用与软件,2018,35(7):309-312,333.
[12]王战平,夏榕.基于主题和多重信任关系的微博推荐方法研究[J].现代情报,2021,41(2):3-9,54.
[13]汪强兵,章成志.基于手势行为的社交网络用户兴趣画像构建及应用[J].图书与情报,2019,(2):114-119,132.
[14]张炎亮,张超,李静.基于动态用户画像标签的KNN分类推荐算法研究[J].情报科学,2020,38(8):11-15.
[15]王嫣妮.个性化推荐系统的多样性研究进展[J].中国集体经济,2020,(27):84-85.
[16]Yokoyama M,Ma Q.Topic Model-based Freshness Estimation Towards Diverse Tweet Recommendation[J].2019 IEEE International Conference on Big Data and Smart Computing(BigComp),2019:1-8.
[17]王战平,夏榕.融合语义和交互关系的多样性与个性化微博推荐研究[J].现代情报,2021,41(5):3-9,32.
[18]荀亚玲,毕慧敏,张继福.基于弱关系的异质社交网络推荐[J].计算机工程与设计,2021,42(6):1526-1534.
[19]王茜,喻继军.基于商品购买关系网络的多样性推荐[J].系统管理学报,2020,29(1):61-72.
[20]刘莉.基于用户多样性偏好的Top-N推荐算法[J].计算机工程与应用,2021,57(17):116-121.
[21]张富国,徐升华.基于信任的电子商务推荐多样性研究[J].情报学报,2010,29(2):350-355.
[22]姜婷婷,许艳闰.国外过滤气泡研究:基础、脉络与展望[J].情报学报,2021,40(10):1108-1117.
[23]张梦瑶,朱广丽,张顺香,等.基于情感分析的微博热点话题用户群体划分模型[J].数据分析与知识发现,2021,5(2):43-49.
[24]张文汐.新浪微博热门话题的特点与规律研究[D].沈阳:辽宁大学,2014.
[25]Park L A,Simoff S.Second Order Probabilistic Models for Within-Document Novelty Detection in Academic Articles[J].Research & Development in Information Retrieval,2014:1103-1106.
[26]Kotkov D,Wang S Q,Veijalainen J.A Survey of Serendipity in Recommender Systems[J].Knowledge-Based Systems,2016,111:180-192.
[27]Li L,Peng W,Kataria S,et al.Recommending Users and Communities in Social Media[J].Acm Transactions on Knowledge Discovery from Data,2015,10(2):1-27.
[28]Zhang S X,Zhang S Y,Yen N Y,et al.The Recommendation System of Micro-Blog Topic Based on User Clustering[J].Mobile Networks & Applications,2017,22(2):228-239.
[29]李情情.基于話题热度的微博推荐算法研究[D].济南:山东师范大学,2016.
[30]马倩,王新,郑承宇,等.基于社区专家用户权威度的微博推荐算法研究[J].云南民族大学学报:自然科学版,2020,29(6):628-634.
[31]Zhu G L,Pan Z Z,Wang Q Y,et al.Building Multi-subtopic Bi-level Network for Micro-blog Hot Topic Based on Feature Co-Occurrence and Semantic Community Division[J].Journal of Network and Computer Applications,2020,170(1):102815.
[32]Sarwar B,Karypis G,Konstan J,et al.Item-Based Collaborative Filtering Recommendation Algorithms[C]//Proc of the 10th International World Wide Web Conference(WWW10).New York:ACM,2001:285-295.
(责任编辑:陈 媛)8715E4DC-A70E-4B11-AE8C-8E41406CF042