APP下载

融合语义和交互关系的多样性与个性化微博推荐研究

2021-06-07王战平夏榕

现代情报 2021年5期
关键词:多样性个性化

王战平 夏榕

关键词:语义关系;主题一交互关系;微博推荐;多样性:个性化

web2.0技术的日趋成熟与快速发展,推动着全球互联网进入网络交互时代。微博作为web2.0时代的典型代表,它的发展和应用给互联网信息传播和社会生产生活方式带来巨大的影响,逐渐成为社会信息共享和情感表达的交流互动平台。用户可以通过微博平台获取海量实时信息,满足信息需求,同时可以拓展社交网络,扩大人际交往范围,建立新的社会关系。根据2019年3月15日微博数据中心发布的《2018微博用户发展报告》显示,截至2018年12月,微博月活跃用户已达4.62亿,日活跃用户增至2亿。随着微博用户和微博信息爆炸性增长,少量有用关键信息淹没在海量信息海洋中,信息过载和知识缺乏现象越加突出,用户在海量微博信息中找到自己感兴趣的内容变得越发困难。如何在海量微博信息中为用户推荐高质量的信息内容,降低用户获取有用信息的时间成本,有效解决“信息迷航”问题,满足用户信息需求,提高信息消费和利用效率,成为当前微博平台运营管理面临的首要问题。

1相关研究工作概述

推荐系统作为缓解“信息迷航”的有效手段,目前已被广泛应用于各商业网络及互联网相关领域。当前针对微博的个性化推荐方法主要是利用博文内容、或用户标签、社交关系等进行用户兴趣偏好挖掘,获取用户兴趣偏好,进而推荐与用户兴趣偏好最为相关的微博资源集合。姚彬修等提出综合利用微博内容、交互关系和社交信息等多源信息进行用户兴趣偏好建模和相似度计算,在此基础上进行微博用户个性化推荐:Jain A等通过挖掘用户在Twitter上的社交行为特征进行用户兴趣偏好分析和相似度聚类,在此基础上进行个性化应用推荐:王刚等通过将基于时间信息的用户兴趣序列引入推荐方法之中进行用户兴趣偏好的动态获取,结合用户行为分析,提出了融合用户行为分析和兴趣序列相似性的个性化推荐方法:汪强兵等通过收集用户手势行为数据及手势对应的内容进行用户兴趣挖掘,形成用户兴趣画像,在此基础上实现基于用户兴趣画像的个性化推荐。高明等提出的微博系统上用户感兴趣微博的实时推荐方法,利用LDA主题模型进行微博主题和用户兴趣取向的推断分析,实现了实时个性化服务。蔡淑琴等针对微博用户创造内容和社会网络两要素,从关键词层面人手,利用VSM模型进行用户偏好表达,设计社会网络修订系数进行用户相似矩阵修订,实现了基于社会网络关系驱动的协同过滤推荐模型。综合现有研究可知,目前的推荐方法大多以提高推荐准确性为目标,虽然具有较高的推荐准确性.但推荐结果通常比较相似,不具备多样性.推荐准确性的提高也并不意味着用户满意度的提升,实际上用户更需要推荐与其兴趣偏好相关但彼此之间又有一定差异性的推荐结果,即满足多样性和个性化要求。

实际上,针对推荐结果的多样性与个性化问题.国内外学者已开始考虑通过牺牲较小程度的推荐准确性为代价进行推荐结果多样性的提升,例如,JingD等提出的兼顾多样性与个性化的搜索引擎查询推荐方法,通过在查询条件中嵌入多样性要求进行推荐结果的多样性与准确性调节:Adomavicius G等提出的基于重排序的多样性推荐方法,利用项目预测平均值与项目流行度对推荐列表进行重排序,实现推荐结果的多样性;张国富等提出的融合信任機制的推荐多样性算法.通过在候选集中选择多样性较好的信任邻居作为推荐代表,实现推荐结果的多样性与准确性的调节:杜巍等提出的基于新鲜度度量的多样性推荐模型,通过在候选推荐项目集合中增加新鲜度参数进行长尾项目所占比例的调节,实现推荐结果的多样性。

本文在上述研究的基础上,针对当前微博推荐结果缺乏多样性与个性化的问题.提出了综合考虑博文间语义关系和浏览博文的用户间交互关系的多样性与个性化推荐方法。首先,根据博文之间的语义关系和浏览博文的用户之间的交互关系,构建博文主题一交互关系相关度矩阵,实现博文语义与用户间交互关系的融合.使得用户兴趣偏好得到准确表达;其次,在博文主题一交互关系相关度矩阵的基础上,利用k-means聚类方法进行博文多样性划分.使得不同主题的博文之间具有较远的主题一交互关系距离;最后,利用矩阵分解类算法中的概率因子模型对每个聚类簇中的博文进行用户满意度评分,选出每个聚类簇中用户满意度最高的博文并降序排序,从而形成多样性与个性化推荐列表。其中.博文语义是指博文内容之间的语义相似度,主要是针对目前博文相似度计算仅仅考虑了关键词之间的语法关系,忽视了关键词之间的语义关系而提出的,目的是提取更能反映用户兴趣偏好的特征概念。交互关系是指用户浏览博文时的多种且重复的交互行为所形成的关系,例如评论、转发、点赞和@某条微博等。

2融合语义和交互关系的多样性与个性化推荐

融合语义和交互关系的多样性与个性化微博推荐方法(Diversified and Personalized Microblog Rec.ommendation Method Combining Semantic and Interac。tion Relationship.DPMRM-CSIR)总体架构如图1所示,主要分为3个模块:融合语义和交互关系的用户兴趣表达模块、基于k-means的博文多样性划分模块、基于概率因子模型的博文多样性选取与个性化排序模块。

1)融合语义和交互关系的用户兴趣表达模块。实现多样性与个性化的微博推荐,准确把握和理解用户兴趣偏好是关键。已有的微博用户兴趣挖掘方法主要是基于用户背景信息或微博内容,由于很多情况下用户背景信息不完善且难以全面反映用户兴趣,致使基于用户背景信息的用户兴趣偏好挖掘的效果很不理想;而微博内容形式多样,随立性和碎片化严重,使得仅依靠微博内容进行用户兴趣偏好挖掘的实际效果也不理想,主要不足在于深层次的用户兴趣偏好难以被表达,同时忽略了交互关系对用户兴趣偏好的影响。基于上述不足,本文提出了融合博文语义和浏览博文的用户间交互关系的用户兴趣表达方法,通过计算博文之间的语义相似度和浏览博文的用户之间的交互关系强度,综合加权得到博文主题一交互关系距离,形成博文主题一交互关系相关度矩阵进行用户兴趣偏好的表达。该过程主要分为3步:

Step1:计算博文之间的语义相似度。首先,采用NLPIR分词软件对微博内容进行分词和词性标注,提取关键词;再利用哈尔滨工业大学实验室提出的停用词表和新浪微博提供的1 208个停用词对微博内容中的“&”“@”“*”“#”等特殊符号和“啊”“哦”“哎”等语气词进行去除,并过滤掉“可以”“有”“等于”等意义表达不明确、不能表达用户兴趣的词。其次,利用Mihalcea R等2004年提出TextRank排序算法进行微博内容的特征概念提取。由于利用TextRank排序算法进行特征概念抽取时,仅仅考虑了关键词之间的语法关系,忽视了关键词之间的语义关系,为提取更能反映用户兴趣偏好的特征概念,再利用Word2vec词向量工具中的Skip-gram模型进行特征关键词之间的语义关系计算.即将每个用户的博文作为Skip-gram模型的训练集,形成训练结果,通过计算训练结果与利用TextRank排序算法得到的特征概念之间的相似度,取相似度最高的前Ⅳ个特征概念作为博文的主题特征概念。最后,利用余弦相似度计算公式计算博文之间的语义相似度,假设用户u的博文算方法可表示为:

Step2:计算浏览博文的用户间交互关系距离。不同用户在相同时间段浏览过的博文集合越相同,浏览博文时的交互行为越频繁,表明这些用户的兴趣偏好越相似,他们之间的社交关系强度也就越紧密。因此,可以通过计算浏览博文的用户间交互关系强度进行用户间交互关系距离的评估。用户浏览博文时可以有多种且重复的交互行为,例如评论、转发、点赞和@某条微博(at)等,这些行为动作在一定程度上表明用户对该博文的兴趣偏好程度,因此可以根据用户浏览博文时的行为动作计算用户对该博文的兴趣度,再依据不同用户对博文的兴趣度计算用户之间的交互关系强度,从而得到浏览博文的用户间交互关系距离,计算方法为:

2)基于k-means的博文多样性划分模块。根据融合语义和交互关系的用户兴趣表达模块得到的博文主题一交互关系矩阵.可形成博文主题一交互关系网络图,其中图中顶点表示博文,边表示主题一交互关系,边的权重表示主题一交互关系相关度。基于k-means的博文多样性划分模块的主要功能是利用k-means算法对博文主题一交互关系网络图进行聚类,使得主题一交互关系相关度较高的博文聚成一类且不同聚类之间具有较低的相关度。本文采用k-means聚类算法,即圖中每个顶点只能归于一个类簇中。由于k-means聚类算法需要预先设置簇数K值,但由于个人微博内容分散程度不同,K值难以预先准确确定,因此本文采取自动确定K值方法进行聚类,即随机选择一个顶点作为第1个初始类簇中心点,然后选择距离该点最远的一个顶点作为第2个初始类簇中心点,然后再选择距离前两个顶点的最近距离最大的点作为第3个初始类簇的中心点,以此类推,直至选出K个初始类簇中心点。该过程主要分为4步:

3)基于概率因子模型的博文多样性选取与个性化排序模块。根据基于k-means的博文多样性划分模块得到的聚类结果.博文被划分为多个具有差异性的博文集合。基于概率因子模型的博文多样性选取与个性化排序模块的主要功能是利用概率因子模型预测微博用户浏览博文的次数,以此评估该用户对各博文的兴趣偏好程度,形成用户满意度矩阵.再从博文聚类簇中分别选取一个当前用户满意度最高的博文,形成博文推荐列表并按用户满意度降序排列,实现兼顾多样性与个性化的博文推荐。该过程主要分为两步:

Step1:预测微博用户浏览博文的次数。预测微博用户的兴趣偏好的基本思想是:如果用户对某个博文的浏览次数越多,表明该用户对该博文的兴趣偏好程度越高,则将该博文推荐给用户的价值也越高。由于用户浏览博文的行为动作在很大程度上符合随机且独立出现的特点,因此.本文采取矩阵分解类算法中的概率因子模型进行用户浏览博文的次数预测。假设F(mXn)表示用户浏览博文的

再采用随机梯度下降法进行迭代,最终得到拟合矩阵y用来预测用户浏览博文的次数。

Step2:根据上述拟合矩阵y预测给定用户浏览博文的次数,获取其兴趣偏好,进而从各博文聚类簇中分别选取一个用户浏览次数最多的博文.并根据浏览次数进行降序排序.形成多样性与个性化推荐列表。

3实验结果与分析

3.1实验数据

本文采用的数据集为新浪微博数据集。从新浪用户u推荐结果中所覆盖的主题数。

3.3实验结果与分析

将微博数据集按照9:1划分为训练集和测试微博的最近更新列表中下载15 432位用户2017年6月1日-8月30日发布的微博,存储到数据库中作为数据集。采集到的数据包括用户ID、用户名、性别、账号等级、地点信息、标签、博文内容、关注用户数、转发数、点赞数、评论数、@用户名等信息。

实验数据预处理主要分为3步:首先,过滤微博文本中的地址链接、其他无意义字符等噪声信息后,利用NLPIR分词软件进行分词和词性标注,根据哈尔滨工业大学实验室提出的停用词表和新浪微博提供的1208个停用词进行停用词去除;其次,随机选择10000名用户,从中选择微博超过50篇和微博词汇超过5个的用户.最终得到8743名用户,微博内容549834条,实验数据描述如表1所示。

3.2实验环境与评测指标

实验环境为Windows 10操作系统,Intel Core(TM)2 Duo CPU 2.66GHz,4GB内存。测评指标选择信息检索和推荐领域常用的准确率(P)、召回率(R)、F1值进行评测,同时,增加平均主题覆盖数进行推荐结果的多样性测评。由于用户更关注博文推荐的前K个结果,因此,本文采用前K条结果的准确率(P@K)、前K条结果的召回率、前K条结果的F1值(F1@K)、前K条结果的平均主题覆数(AvgD@K)进行博文推荐结果的评价.相关计算方法为:

根据表2~表5可知,无论是最好情况(K=10)还是最坏情况(K=20),本文提出的DPMRM-CSIR方法的P@K、R@K、F1@K性能明显优于MUIM-PC方法和MR-TCUSR方法,略好于MISUR方法;AvgD@K明显优于MUIM-PC方法、MR-TCUSR方法和MISUR方法。这是因为本文提出的DPMRM-CSIR方法不仅融合博文语义内容和浏览博文的用户间交互关系进行用户兴趣偏好表达,使得深层次的用户兴趣偏好得到表达,同时还利用k-means聚类方法进行博文多样性划分,利用矩阵分解类算法进行博文选取与个性化排序,因此能够更加体现用户兴趣偏好.得到用户较满意的推荐结果:MUIM-PC方法结合用户背景和内容进行用户兴趣偏好挖掘,对用户间的社交关系利用不够.故而得到的推荐结果较差:MR-TCUSR方法利用标签关联关系和社交关系进行用户兴趣偏好建模,针对用户标签缺乏问题,采用微博内容进行填充,能够较好地表达用户兴趣偏好.故而得到的推荐结果优于MUIM-PC方法:MISUR方法综合利用微博内容、交互关系和社交信息进行用户兴趣偏好挖掘,并引入时间权重和丰富度权重进行多源信息的权重调节,故而得到的推荐结果在P@K、R@K、F1@K性能上和本文提出的DPMRM—CSIR方法相当,明显优于MUIM-PC方法和MR-TCUSR方法。由于该方法未考虑推荐结果的多样性问题,因此在AvgD@K性能上明显低于本文提出的DPMRM-CSIR方法。

为进一步验证博文语义和交互关系对实验结果的贡献,分别进行仅利用博文语义进行推荐和仅基于交互关系进行推荐,实验结果如表6~表8所示。

根据表6~表8可知.无论是最好情况(K=10)还是最坏情况(K=20),仅利用博文语义的推荐方法的P@K、R@K、F1@K性能明确优于仅利用交互关系的推荐方法,说明博文语义在反映深层次的用户兴趣偏好方面优于交互关系,交互关系对用户兴趣偏好的影响弱于博文语义,综合博文语义和交互关系的推荐方法更能精准表达用户兴趣偏好。

由于k-means聚类方法本身存在聚类结果不确定的特征,为进一步增强论文说服力,本文选择LDA主题模型进行聚类方法对比实验。实验结果如表9~表11所示。

根据表9~表11可知,无论是最好情况(K=10)还是最坏情况(K=20),利用k means方法的P@K、R@K、F1@K性能略优于基于LDA主题模型的聚类方法。这是因为本文的主要亮点是融合语义和交互关系的用户兴趣表达,既考虑博文之间的语义关系.又考虑交互关系对用户兴趣偏好的影响.因此,采用k-means聚类或采用LDA主题模型方法进行聚类的效果差别不大。

4总结与展望

随着移动互联网的快速发展和微博用户群体规模的不断增大,微博推荐受到越来越多的关注和青睐。面对海量复杂的微博信息,针对当前推荐结果缺乏多样性与个性化的问题.提出了综合考虑博文间语义关系和浏览博文的用户间交互关系的多样性与个性化推荐方法。首先,根据博文之间的语义关系和浏览博文的用户之间的交互关系,构建博文主题一交互关系相关度矩阵,实现博文语义与用户间交互关系的融合.使得用户兴趣偏好得到准确表达;其次,在博文主题一交互关系相关度矩阵的基础上,利用k-means聚类方法进行博文多样性划分.使得不同主题的博文之间具有较远的主题一交互关系距离;最后,利用矩阵分解类算法中的概率因子模型对每个聚类簇中的博文进行用户满意度评分.选出每个聚类簇中用户满意度最高的博文并降序排序,从而形成多样性与个性化推荐列表。实验结果表明.本文方法不仅使得博文推荐列表具有多样性,同时也具有更高的推荐准确性,实现了博文多样性与个性化推荐的有机融合。后续将重点研究用户间社交关系对微博推荐的影响,探索融合用户社交关系的微博推荐方法,实现更加精准的推荐。

猜你喜欢

多样性个性化
新闻的个性化写作
上汽大通:C2B个性化定制未来
利用网络教学多样性 开展有效教学
海洋微生物次生代谢的生物合成机制
舞蹈表演的表现形式多样性研究
满足群众的个性化需求
《寒风吹彻》的个性化解读
高考议论文的个性化写作