APP下载

基于融合偏好的新闻推荐算法研究

2021-01-27琳,王

辽宁科技大学学报 2020年6期
关键词:特征词协同因子

李 琳,王 莉

(辽宁科技大学 计算机与软件工程学院,辽宁 鞍山 114051)

信息技术的快速发展使信息快速传播,如何更快、更好地获取到对自己有价值的信息至关重要。当前,推荐系统作为处理这一问题最重要的方式之一,遍及各个领域。协同过滤推荐是当前使用频率最高的推荐技术。新闻推荐与电影和音乐推荐等最大的差异是注重时效性。黄贤英等[1]在传统协同过滤的基础上提出了时间窗的概念,使兴趣被及时捕获。冯文杰等[2]通过协同过滤进行新闻推荐时,针对时效性提出改进,提高了推荐的准确性。Jiang等[3]提出一种即时算法和系统架构以满足实时性要求。协同过滤方法目前尚未解决的问题冷启动问题,新进入系统的用户或者对新闻缺乏足够点击量的用户,系统无法对其兴趣进行推测,只有获得足够点击量时,系统才可以向他们进行推荐,这个过程通常需要一定的时间[4]。与协同过滤相比,基于内容推荐可以缓解这一问题。韩东冉[5]改进了基于内容的推荐系统,从多个方面对文本进行处理。Hamed 等[6]使用统计语言建模框架开发了一个基于内容的过滤系统。尽管基于内容推荐可以缓解冷启动问题,但是长期使用会产生信息茧房。将协同过滤与基于内容的推荐相融合,既可以保证多样化又可以缓解冷启动问题,广泛应用在新闻相关的推荐领域[7]。毕曦文等[8]将多种方法进行融合,根据需求进行个性化推荐。Yan 等[9]根据用户偏好提出一种结合用户偏好的协同过滤算法。本文提出一种基于融合偏好的新闻推荐算法。相对于传统方式,改进后的方法权衡用户浏览多样化和个性化的需求,降低时间对兴趣变化的影响。

1 常用推荐算法

1.1 基于内容的推荐算法

基于内容的推荐常用于文本领域,尤其是新闻推荐。通过文本的内容可以直接明了地发现用户的偏好。此方法通过分析用户已阅读新闻的内容特征,用内容特征表示自身偏好,通过匹配内容特征相似的新闻进行推荐。该方法主要包括三个步骤:(1)提取新闻的内容特征,用内容特征表示新闻;(2)利用适合的方法,将已阅读新闻的内容特征归并,构建用户偏好模型;(3)根据候选新闻的特征与用户兴趣特性的相似性推荐。

1.2 文本向量化

在新闻文本中,同一个特征词在不同的新闻里重要程度存在差异,计算特征词在向量空间中的权值可以体现这种差异。常用的权值计算方法是 TF-IDF(Term frequency-inverse document frequency)表示法,此外还有布尔表示法以及词频表示法。本文选择TF-IDF表示法。由于新闻文本的长度存在差异,为权衡长、短文本之间词项的权重,引入权重计算式

式中:wij为特征词j在新闻i中的权重;f(i,j)是在新闻i中呈现特征词j的次数;maxOhters(i,j)是新闻i中呈现最频繁的特征词;N为所有新闻的数目;N(j)是存在特征词j的新闻数目。

当所有特征词在新闻中的权重计算完成后,定义新闻集D的权值矩阵DM

1.3 基于用户的协同过滤算法

协同过滤算法是当前使用频率最高的推荐技术。在新闻推荐领域,用户量的变化比新闻的更新速度缓慢,所以,新闻推荐通常利用基于用户的协同过滤。此方法以用户间相似性为依据,构建最近邻,根据最近邻的偏好预测目标用户可能感兴趣的新闻。该方法主要包括两个步骤:(1)通过用户的行为日志数据,发现兴趣一致的用户,称其为最近邻;(2)计算目标用户喜欢其最近邻感兴趣的新闻的可能性,推荐可能性高的新闻。

常用的相似度计算方式为余弦相似度

式中:S(u)和S(v)分别表示用户u和v已产生浏览记录的项目数目;sim(u,v)=1时说明两个用户的浏览记录完全相同,计算的结果越接近1,说明两个用户间的浏览记录相似程度越大,用户间的相似度越大。

2 融合偏好算法

2.1 用户自身偏好

通过对特征值的权值计算,将所有用户点击过的新闻表示为特征词对应的特征向量。权值矩阵DMu表示为

式中:wuij为特征词j在用户阅读过的新闻i中的权重。

用户兴趣会随时间而改变,所以目标用户近期的行为数据对于该用户将要发生的行为具有很强的影响力,而相隔时间较长的行为数据影响力相对较小。结合用户点击时间,定义时间影响因子为

式中;Du为用户u阅读的新闻集;duj为用户u阅读的新闻;tnow为当前时间;ti和tj为点击新闻i和新闻j的时间。

如果一个用户长期没有浏览记录,那么式(5)并不能很好地反映出用户兴趣变化的可能性。为了更好地反应用户兴趣随时间的变化,提取目标用户的最后一条浏览记录的点击时间tn,根据tn与当前时间tnow的时间间隔设定分区系数,对时间因子改进。改进后的时间影响因子为

式中:ηi为时间影响因子;ηu为用户分区系数;tnow为设定当前时间;tn为用户最后一条浏览记录的点击时间。

将用户自身偏好模型定义为EMu,具体表示为EMu=(w1u1,w1u2,…,w1uj,…,w1uk),权值w1uj表示为

式中:Du为用户u浏览过的新闻集;dui为用户浏览过的新闻i;wuij为特征词j在用户阅读过的新闻i中的权重;DMu为用户自身偏好权值矩阵;μui为改进后的时间影响因子。

2.2 用户潜在偏好

2.2.1 混合相似度 在传统协同过滤中,只通过点击行为判断用户是否存在相同兴趣。但是在新闻推荐中,由于新闻报道的多样性,在寻找最近邻时,只通过点击行为判断,会错过因为点击不同新闻关注的却是同一事件的用户。针对这一问题,提出了基于内容与行为的混合相似度,将用户相似度分为行为相似度和内容相似度两个部分。

时间是新闻推荐必须考虑的因素,用户产生行为的时刻距当前时刻越远,用户行为对推测的作用越有限。时间衰减有很多表现形式,定义时间衰减项为

式中:α为时间衰减因子;tuj和tvj代表用户u和v阅读同一篇新闻j的时刻;代表用户u和v对新闻j产生操作的时间差越小,则其受时间影响越小,从而u和v的相似度越大,反之则越小。

行为相似度一般使用余弦相似度计算。现实应用中,热点事件会对用户兴趣的评估造成影响,余弦相似度无法体现新闻热度对用户行为相似度的影响。为表示两个用户同时阅读不同热度新闻的相似度差异,定义热门惩罚因子为

式中:N(j)为浏览过新闻j的用户集。

根据新闻推荐的特性,对式(3)进行了改进,同时考虑热度和时间对相似度的影响。改进后的行为相似度表示为

式中:D(u)和D(v)分别为用户u和用户v的阅读新闻集;m为调节因子,m值越大,时间影响的程度越大,新闻热度影响的程度越小。

通过用户的自身偏好模型计算用户间的内容相似度。用户u的自身偏好模型为EMu,用户v的自身偏好模型为EMv,用户间的内容相似度表示为

结合式(11)和式(12),混合相似度表示为

其中:β为加权因子,β∈[0,1];β=0 时,仅考虑内容特征;β=1时,仅考虑行为特征。

2.2.2 用户潜在偏好矩阵 利用混合相似度找到最近邻,预测用户对特征词的兴趣,得到目标用户的潜在偏好模型。将用户的潜在偏好模型定义为PMu,PMu=(w2u1,w2u2,…,w2uj,…,w2uk) ,权 值w2uj表示为

式中:N(u)为用户u的最近邻;sim(u,v)为用户u与其最近邻的相似度。

2.3 融合偏好

推荐算法的目标是最大化用户对个性化和多样性的需求。新闻推荐系统通常利用混合推荐在个性化与多样性之间进行权衡,但是传统的加权混合算法过于粗糙,所以,选取max()函数作为融合函数。根据用户自身偏好模型EMu和潜在偏好模型PMu,将两个模型中权值较大的特征作为用户最终兴趣特征,将用户的融合偏好模型定义为

其中,w3uj表示为

2.4 生成推荐

通过融合后的偏好模型,计算用户之间的相似度,选择相似度最大的K用户作为目标用户的最近邻,根据最近邻的阅读行为对候选新闻的偏好程度进行预测,将偏好程度最大的N条新闻推荐给目标用户。偏好程度预测表达式为

式中:N(u)为用户u的最近邻集合;v为用户的最近邻;sim(u,v)为用户u与最近邻用户v的相似度;rvi反映用户的点击行为,倘若用户v对新闻i存在浏览记录,则rvi=1,反之rvi=0。

3 实验结果及分析

3.1 数据集

使用DataCastle提供的用户日志数据集,该数据集从财新网随机选取10 000 名用户在2014年3月的全部新闻浏览日志,包括用户编号、新闻编号、用户点击时间、新闻发布时间和新闻内容。选取数据集中浏览新闻数目多于40条的用户数据进行测试,将每个用户浏览日志中最后25 条数据作为本次实验的测试集,其余数据作为训练集。

3.2 评价标准

选择平均绝对误差指标(Mean absolute error,MAE)、推荐准确率(Precision)、推荐召回率(Recall)与推荐多样性(Diversity)作为实验的评价指标。将基于内容的推荐算法(Content-Based,CB)、协同过滤推荐算法(Collaborative filtering,CF)与本文提出的融合偏好算法(Mixed preference,MP)所得到的评价指标结果进行比较,评判算法性能。

MAE根据用户真实的喜好程度和系统给出的用户u对新闻i的偏好程度的差值判断推荐质量。MAE的表达式为

MAE值越小,推荐质量越高,反之亦然。

系统推荐准确率的定义是用户喜欢系统所推荐的项目的可能性。召回率定义为用户真实喜欢的项目被系统推荐的可能性。表达式分别为

式中:R(u)是系统给出的推荐列表;T(u)是用户在测试集中有过记录的项目集合。

当系统为用户推荐时,仅仅准确率高并不能代表结果对用户是有意义的。推荐系统应当帮助用户发现那些很难主动找到但是感兴趣的潜在项目。所以推荐结果的多样性越来越受到重视。

设sim(i,j)表示新闻i和j的余弦相似度,U为全部用户的集合。系统整体的多样性表示为

3.3 实验结果

(1)参数确定。存在三个未知参数,即时间衰减因子α、调节因子m和混合相似度加权因子β。

参数测试结果如图1所示。在m和β固定的情况下,α=0.3 时推荐的准确率达到峰值。在α和β固定的情况下,m=0.2 时推荐的准确率达到峰值。在α=0.3,m=0.2的情况下,β=0.6时推荐的准确率达到峰值。

经过实验对比分析,最终取α=0.3,m=0.2,β=0.6。

(2)平均绝对误差指标。MAE对比结果如图2所示。MP的MAE值小于两种传统推荐算法,最大提高了9.13%。说明MP 得到的结果差异值最小,质量最高。

(3)推荐准确率。Precision对比结果如图3所示。推荐的新闻数目越多,结果的准确性越低。MP与CB和CF相比,推荐准确性有所提高。相对于CB准确率最大提高了6.94%,相对于CF算法最大提高了9.80%。

(4)推荐召回率。Recall 对比结果如图4 所示。推荐的新闻数目越多,召回率越高。MP 与CB和CF相比,召回率有所提高。相对于CB召回率最大提高了7.39%,相对于CF 最大提高了10.12%。

(5)推荐多样性。图5 展示了Diversity 对比结果。MP 的多样性始终高于CB 和CF。相对于CB多样性最大提高了3.44%,相对于CF最大提高了1.35%。尽管相对于CF提高较小,但是MP缓解了冷启动问题,实际推荐性能优于CF。

4 结 论

本文提出一种基于融合偏好的新闻推荐算法。首先在构造用户自身偏好模型时引入时间因子并进行改进,降低时间对兴趣变化的影响。其次,针对协同过滤算法在进行新闻推荐过程中,由于新闻报道的多样性,相似用户归类不准确的问题,提出一种混合相似度计算方法,更准确地寻找相似用户,在计算行为相似度时考虑时间变化和新闻热度对用户兴趣变化的影响,对行为相似度进行改进,构建潜在偏好模型。最后将用户自身偏好与潜在偏好进行融合,根据融合模型进行新闻推荐。实验表明,提出的算法在平均绝对误差指标、推荐准确率、推荐召回率以及推荐多样性方面相对于传统推荐算法都取得了更好的效果,说明了所提出算法的有效性。

猜你喜欢

特征词协同因子
我刊2021年影响因子年报
基于Simhash改进的文本去重算法
我刊2021年影响因子年报
输入受限下多无人机三维协同路径跟踪控制
家校社协同育人 共赢美好未来
基于类信息的TF-IDF权重分析与改进①
一种面向财务文本分类的TF-IDF改进算法
“四化”协同才有出路
山药被称“长寿因子”
京津冀协同发展