基于用户兴趣度的微博混合推荐算法研究
2023-10-07张兴宇
张兴宇
(淮南职业技术学院, 安徽 淮南 232001)
随着社交网络的迅速发展,微博作为一种重要的社交媒体平台,已成为人们获取信息、分享观点和交流互动的重要途径。然而,微博平台上信息的海量和多样性也给用户带来了挑战,如何从众多的微博中筛选出用户感兴趣的内容,成为了亟待解决的问题。推荐系统作为一种有效的信息过滤和个性化服务技术,已成为改善用户体验、提升平台活跃度的重要手段。
一、微博常用推荐算法存在的问题
在过去的几年里,推荐系统的研究取得了长足的进展。协同过滤、基于内容的推荐以及深度学习等技术被广泛应用于推荐系统中,取得了一定的成果。然而,针对微博这样特殊的社交媒体平台,传统的推荐算法在面对一些挑战时仍然存在一定的局限性。
(一) 推荐准确度不高
首先,微博的内容呈现高度的实时性和时效性,用户感兴趣的话题可能发生改变。传统算法往往无法有效地捕捉到这种动态变化,导致推荐结果落后于用户兴趣的实时变化。其次,微博内容的特点在于信息短小、碎片化,很多内容并没有明确的关键词或标签。这给推荐算法带来了语义理解和推荐准确度的挑战。再者,微博平台上用户之间的社交关系复杂多样,用户的兴趣和行为受到多个因素的影响,包括关注的好友、话题、地理位置等。传统的推荐算法往往未能充分利用这些社交关系信息,影响了推荐效果的精准性。
(二) 推荐的个性化和多样性不足
传统的协同过滤算法虽然广泛应用于各种推荐系统中,但也存在一些缺点和局限性,这可能对推荐的个性化和多样性产生重要影响。首先,数据稀疏性问题。 在大多数推荐系统中,用户-物品评分矩阵是非常稀疏的,即大部分用户只评分了少数物品。这导致很难找到足够数量的相似用户或物品,从而影响了推荐的准确性和覆盖度。其次,冷启动问题[1]。当推荐系统面对新用户或新物品时,由于缺乏历史行为数据,传统的协同过滤算法很难准确推荐给这些用户或物品。第三,长尾物品问题[2]。在真实世界的推荐系统中,有很多物品被称为“长尾物品”,即它们受欢迎程度较低,用户评分较少。传统的协同过滤算法往往对这些长尾物品推荐效果较差,因为缺乏足够的相似性信息。最后,灵活性限制。传统协同过滤算法主要依赖于用户行为数据或物品特征信息,而很少考虑其他因素如时间、地理位置等。
二、微博常用推荐算法简介
(一) 协同过滤的推荐算法
协同过滤是一种常用的推荐算法,它属于协作式过滤技术的一种[3]。协同过滤算法主要用于个性化推荐系统,旨在预测用户对未知物品的喜好或评分,并根据预测结果向用户推荐他们可能感兴趣的物品。协同过滤算法基于用户行为数据或物品特征数据进行推荐。其核心思想是利用用户——物品之间的相互作用,找到用户之间或物品之间的相似性,从而推荐给用户他们可能感兴趣的物品。该算法的核心优势在于它不需要对用户和物品进行显式的特征工程,而是从用户的历史行为数据中学习到用户兴趣和物品特性。在基于用户的协同过滤中,首先构建一个用户——物品评分矩阵,其中每个元素表示用户对物品的评分或行为(如购买、点击等)。然后,根据用户之间的相似度,找到兴趣最相近的用户。最后,通过这些相似用户对未评分物品的评分进行加权平均或其他预测方法,为目标用户生成推荐列表。协同过滤算法简单直观,适用于推荐系统中的冷启动问题,但也存在一些限制,比如稀疏性问题、冷启动问题、可扩展性等[4]。因此,研究者们在实践中不断改进和优化协同过滤算法,同时结合其他技术如深度学习等,以提高推荐系统的性能和用户体验。
(二) TF-IDF算法
TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本特征提取方法,广泛应用于信息检索、文本挖掘和自然语言处理等领域,它用于衡量一次词语在文本中的重要程度[5]。其中,TF(Term Frequency)指的是某个词语在文档中出现的频率,表示一个词在单个文档中的重要性。
IDF(Inverse Document Frequency)指的是逆文档频率,衡量了一个词语在整个文档集合中的普遍重要性。
TF-IDF的计算方式为将TF与IDF相乘,得到一个词语在文档中的TF-IDF值,TF-IDF值高表示该词在该文档中频繁出现,且在整个文档集合中较为罕见,因此具有较高的区分度和重要性。TF-IDF算法的优点在于简单有效,不需要复杂的训练过程,直接从文本中提取重要特征。它常被用于文本相似度计算、关键词提取、文本分类、信息检索等任务。在信息检索领域,TF-IDF算法常用于对用户输入的关键词进行加权排序,从而返回相关度较高的文档。
(三) 相似度计算
推荐系统中的相似度计算是一个关键步骤,用于衡量用户、物品或其他实体之间的相似性[6]。相似度计算在协同过滤、内容推荐以及混合推荐等推荐算法中起着重要作用。在协同过滤中,相似度计算用于寻找与目标用户兴趣相似的其他用户或与目标物品相似的其他物品。常用度量相似度的方法有:余弦相似度、皮尔逊相关系数、欧氏距离等。余弦相似度是基于用户或物品的特征向量,衡量它们之间的夹角,值越接近1表示越相似。皮尔逊相关系数则考虑了用户或物品评分的均值,用于消除用户之间评分尺度的不同,值越接近1表示越相关。在内容推荐中,相似度计算用于衡量不同物品之间的相似性,通常是通过比较它们的特征向量或文本表示。对于文本数据,常用的相似度度量方法包括TF-IDF算法、Word2Vec等,它们可以计算文本之间的相似程度,从而为用户推荐具有相似内容的物品。余弦相似度计算算法如下:
三、基于用户兴趣度的微博混合推荐算法构建
(一) 构建微博特征词向量和用户兴趣度向量
通过爬取收集用户微博的历史数据可以获取用户的话题偏好,在对用户的微博数据进行数据分析的时候,会发现微博本文用包含重复高频的无意义词和各种符号,例如:“的”、等,需要对这些无意义的词进行过滤,留下有意义的微博特征词。第一,微博特征词向量(Weibo feature word Vector)。定义微博特征词向量(Weibo feature word Vector)来表示微博话题的数据特征,使用TF-IDF公式来计算每一个特征词的值,当大于一定的阈值,特征词保留并将计算结果加入微博特征词向量。WFWV={ω1,ω2,ω3,…ωm} 。计算微博特征词向量里每一项,使用TF-IDF公式进行计算。话题a中第i个词的TF-IDF值为:
第二,用户兴趣度向量(User interest vector)。为了表征微博话题特征词在推荐用户历史数据的偏好程度,使用用户兴趣度系数来进行衡量。下面为用户兴趣度系数的公式:
UIV={γ1,γ2,γ3,…,γm}
式中N表示特征词为用户微博文本中出现的个数,根据数学公式用户兴趣度系数的取值范围在区间(0.5,1)中。
(二) 微博混合推荐算法构建
融合协同推荐和用户兴趣度的微博混合推荐算法
输入:微博话题j
输出:混合推荐话题集合RX
1:计算Wi,a;
2:if (Wi,a>K1);
3:将该话题加入推荐话题集合Rc;
4:else删除该话题;
5:end if;
6:for(i=1;i 7:计算 NER oftopicc的Wi,a; 8:if (Wi,a>K2) 10:else 删除该特征词; 11:end if; 12:}; 13:end for; 14:for(i=0;i 15:计算NER oftopicc对于用户兴趣度系数γi 16:if(γi>K3) 18:else删除该系数; 19:end if; 20:}; 21:end for; 22: for( i = 1; i <=n; i++ ) 25:将话题加入待推荐话题集合Rx; 26:else删除该话题;} 27:end if; 28:将Rx中内容推荐给用户; 构建融合协同推荐和用户兴趣度的微博混合推荐算法的目的,旨在克服传统推荐算法的局限性,提高微博推荐的准确性和多样性。对比融合算法与传统的单一推荐算法,改进算法在微博推荐效果表现较好。第一,提高了推荐准确性。通过融合协同推荐和用户兴趣度,能够更全面地挖掘用户的兴趣偏好和社交关系,从而生成更准确的推荐结果。在实验中,混合推荐算法的准确率明显高于传统的协同推荐算法。这表明混合推荐算法能够更好地理解用户的需求和兴趣,提供更符合用户实际喜好的推荐内容。第二,扩大了推荐覆盖率。传统的协同推荐算法往往存在冷启动问题,即对于新用户或新微博的推荐效果较差。而混合推荐算法通过结合用户兴趣度向量,能够更好地处理冷启动问题,扩大推荐的覆盖范围。对比发现,混合推荐算法的覆盖率明显高于传统算法,为新用户提供了更多的推荐话题。第三,增加了推荐多样性。用户在社交网络中具有多样的兴趣和关系,因此推荐算法应该能够提供丰富多样的推荐内容。混合推荐算法通过综合用户的兴趣偏好,能够为用户提供更多样化的推荐结果。对比发现,混合推荐算法的推荐内容更具多样性,用户能够看到更丰富的微博内容,增强了用户的满意度和粘性。第四,改进了算法的适用性。融合协同推荐和用户兴趣度的混合算法在不同场景下都表现出了良好的适用性。不论是针对新用户、活跃用户还是长尾用户,混合推荐算法都能够提供个性化、准确的推荐服务。第五,加强了算法的实时性。在微博平台上,用户产生的数据和微博内容更新非常迅速,因此推荐算法的实时性是至关重要的。对混合推荐算法进行了实时性测试,结果显示混合推荐算法能够在较短的时间内为用户生成推荐结果,满足了实时推荐的要求。 融合协同推荐和用户兴趣度的混合推荐算法在微博平台上,为用户提供了更个性化、多样化的内容推荐服务,对于推荐系统在利用协同推荐和用户兴趣度方面具有一定的创新和实践价值,为推荐系统的优化和发展提供了有益的启示。未来的研究可以进一步探索其他融合方法和深度学习技术,以进一步提高推荐系统的性能、改善用户体验。四、混合推荐算法改进效果
五、结语