APP下载

个性化新闻推荐系统中的“过滤气泡”研究

2021-07-27潘旭伟王瑞奇

新媒体研究 2021年5期
关键词:推荐系统新闻

潘旭伟 王瑞奇

关键词 过滤气泡;新闻;推荐系统;用户视野

中图分类号 G2 文献标识码 A 文章编号 2096-0360(2021)05-0030-03

随着个性化推荐系统的发展与应用,人们开始担心推荐系统对用户带来的负面作用。其中一个越来越受人关注的便是“过滤气泡”问题[1],即推荐系统是否会因为总是推荐相似内容而使得用户视野被窄化。如Poulain通过对音乐平台的研究发现了内容多样性的缺失[2]。然而也有研究对该问题进行了否定,如moller通过数据科学实验更进一步地提出推荐系统不仅无负面影响,反而增加了用户推荐集的主题多样性[3]。如今,随着“今日头条”等新闻平台不断使用推荐系统,更多的学者也将“过滤气泡”问题聚焦到在线新闻平台,本文则针对新闻领域探究推荐系统是否导致“过滤气泡”现象。

1 研究方案与指标设计

为探究个体用户过滤气泡现象基于时间的变化,本文采用改进的三分图作为研究框架,如图1所示,底层v表示单个用户,中间层为该用户按时间顺序排列的浏览记录,上层为所有新闻所涵盖的主题。其中,所有文章所涵盖的主题以及单个文章所涉及的主题采用LDA建模算法得出。

最终可得到单个用户v与主题之间的权重关系为

其中,ω(v,Ti)为用户在主题Ti下的权重,表示对该主题的喜爱程度;ω(v,Nj)为用户对所浏览新闻的喜好程度,根据该用户对新闻项目采取的行为决定,如浏览记1分,点赞记2分,转发记3分;ω(Nj,Ti)为新闻j在主题i下的权重,由LDA算法得出;J为该用户浏览的所有新闻项的个数。

另外,为刻画用户“过滤气泡”本文采用基尼系数和信息熵作为测量指标,计算公式分别为

其中,I为LDA所划分的所有主题的个数。

2 实证研究

本研究选取平台DeskDrop产生的新闻数据集,包含对2 000个用户为期一年的取样(2016.3—2017.2),且清晰记录了所浏览文章的项目特征(如文章原始URL、标题、内容)、项目上下文特征(用户浏览时间、点赞分享等行为)。

2.1 数据预处理

对所选取的数据进行预处理,包括:对原始数据内容进行整理;时间戳转换;筛选英文数据;交互记录数量筛选。

2.2 LDA主题建模

为计算不同新闻所涵盖的主题,以及单个新闻所设计的主题及权重,本文采用LDA算法进行主题建模。其中主题数Ktopic的选取十分重要,为保证建模质量,采用困惑度指标进行评估,并按照困惑度最小的Ktopic进行主题划分。

圖2展示了主题个数与困惑度之间的关系,当主题个数选取55时困惑度最低,因而将所有新闻划分为55个主题。表1呈现了主题建模后所得到的结果,汇总了每篇新闻在每个主题下的权重。

3 “过滤气泡”的测量

为按照时间顺序观测所有用户熵和基尼系数的变化,需要将每个用户的浏览记录进行分块处理,以月为单位,计算每个月内用户的基尼系数和熵,并统计所有用户的指标值。图3和图4分别展示了不同月份下基尼系数和熵的分布图。首先,我们统计了1013个用户初始(首月)、中间时期(7月和11月)和最终时期基尼多样性和熵多样性的密度分布。我们发现在初期用户指标普遍较小,而随着时间推移,指标值分布开始出现出一种分化的趋势:即部分用户更小,而部分用户更大,这一现象在基尼系数指标下反应为尾部突起越加明显,而在熵指标下表现更明显,从形状上由原来的近似倒U形逐渐变为近似M形。

这反映了在推荐系统参与下,所存在的分化作用使得原先集中在较小视野范围的用户慢慢分为两类:一类视野更加开阔,而另一类则趋于狭窄。然而这一结果只针对了分布的变化,未能明确表明个体用户视野的纵向变化,如无法解释原先视野较宽的用户后期视野是更大还是更小,是更加狭窄还是更加开阔。因此我们测试了所有用户从起始阶段到最终阶段基于时间的纵向指标变化,并基于不同时间段对所有用户求均值,绘制出用户平均视野随时间的变化曲线,如图5所示,可以发现平均用户指标变化表现为“S”形上升的变化规律,即平均用户视野虽然在前期有轻微下降,但是从整个时间上看最终视野是比初始视野更高的,即用户的视野并非被窄化,反而得到了一定程度的拓展。

4 总结与讨论

通过上述实证分析,发现在推荐系统参与下的新闻平台中,指标表现出了与“用户被陷进过滤气泡”相反的趋势。图5结果表现出用户“视野”总体上出现被扩展的情形,而非下降的情形。因此我们认为,新闻推荐系统产生的副作用或许被过分夸大了,用户视野在推荐系统参与下不仅没有出现视野上的缩减,反而出现很大程度的拓展。该结果表示,在新闻平台浏览新闻时,可以较放心地使用推荐算法所列举的项目以提升自己的视野。

该结论与我们直觉上认为的“推荐算法会因为推荐相似项目而窄化用户视野”不同,其原因存在如下几种可能:首先,每天所发生的事件存在很大的随机性,这导致平台每日提供的新闻项目之间往往存在很大的差异性,推荐算法虽致力于推荐与用户偏好相似的项目,但由于不同项目之间固有的差异性和随机性[4],导致所推荐的项目也只能时尽可能相似。另外,用户在心理上存在“幸存者偏差”[5]可解释这一现象,用户所浏览的新闻内容中往往或多或少存在与自身认知相近的信息片段,这些重复的信息片段会使用户在结束浏览后产生一种“仍在原有知识体系中徘徊”的错觉,而与用户原有知识体系不接近或用户原先不关注的信息片段却在潜移默化中提升了用户视野,只不过用户“视而不见”并将这一误解归咎于推荐系统。

参考文献

[1]薛堯云.算法推荐机制下的短视频“过滤气泡”问题研究:以抖音为例[J].新媒体研究,2019,5(14):21-22.

[2]Poulain,R.,F.Tarissan.Investigating the lack of diversity in user behavior:The case of musical content on online platforms:Information Processing & Management,2020,57:102169.

[3]M?ller,J.,D.Trilling,N.Helberger,B. van Es.Do not blame it on the algorithm:an empirical assessment of multiple recommender systems and their impact on content diversity:Information,Communication & Society,2018,21:959-977.

[4]黃昌林.新闻叙事:确定性与随机性[J].成都大学学报(社会科学版),2011(4):68-71.

[5]常江.互联网与幸存者偏差[J].青年记者,2019(19):92.

猜你喜欢

推荐系统新闻
数据挖掘在选课推荐中的研究
基于用户偏好的信任网络随机游走推荐模型
基于个性化的协同过滤图书推荐算法研究
个性化推荐系统关键算法探讨
浅谈Mahout在个性化推荐系统中的应用
“互联网+”时代新闻采访教学的困境与出路
关于协同过滤推荐算法的研究文献综述
新闻版权合理使用制度的反思与重构
解构口语化新闻的语言特征