APP下载

个性化新闻推荐技术研究

2023-01-11胡箐妍

中国传媒科技 2022年7期
关键词:协同算法用户

胡箐妍

(河南日报报业集团,河南 郑州 450001)

导语

20年以来,报业经历了一场巨大的变革。计算机和互联网技术的发展允许出版商实时发布新的内容,从而提高发布速度。移动互联网的迅速普及,读者可以通过便捷的移动设备获得各种新闻信息,由此导致各种在线新闻平台的用户数量不断增加。万维网无处不在的特性导致了在线新闻文章的激增,越来越多的人习惯于阅读在线新闻,访问他们喜欢的报纸网站或浏览新闻聚合网站。

然而,不断产生的大量新闻信息和不断提高的更新频率可能会使用户越来越难以找到他们真正感兴趣的内容。网络新闻媒体顺应时代发展需要,不断创新报道形式和推送方法,为用户带来更加直观、翔实的新闻。于是新闻推荐系统就应运而生了,其目标是以个性化的方式向用户推荐新闻,在合适的时间推荐合适的新闻文章。[1]由于其实用性,在过去20年中,研究者提出了各种方法来构建此类推荐系统。

1.新闻推荐概述

信息过载,面对互联网上海量的新闻信息,用户难以获得自己真正感兴趣的信息,新闻推荐系统的研究正是为了解决用户的这一痛点。依据个人的兴趣偏好而量身定制的个性化新闻推荐系统则更好地改善了用户的使用体验,成为新闻推荐的主流技术。

推荐系统主要由三部分构成,它们分别是用户、项目(即推荐对象)和推荐算法。收集整理用户和项目数据是推荐系统的第一步工作,接下来通过数据挖掘算法,分析数据之间隐含的关联性,获得用户的兴趣偏好,最后推荐算法把用户真正感兴趣的项目推送给用户。如何利用用户和项目数据来为用户建立完善的兴趣模型,采用什么推荐算法来精准匹配项目和用户兴趣十分关键,在整个推荐系统中推荐算法最为重要。

不同于一般的推荐系统,新闻推荐技术有其独有的特点: 一是时效性强,更新速度快,即其生命周期短暂,可能只有几天或几个小时甚至更短;二是新闻领域的用户很容易受到流行和热点新闻的影响;三是用户兴趣一直处于不断变化之中。目前常见的新闻推荐方法包括:基于内容的推荐、协同过滤推荐、混合推荐和基于深度学习的推荐。

2.推荐方法

2.1 基于内容的推荐

基于内容的推荐算法直观易懂,推荐用户喜欢的项目。其基本原理是:首先依据用户的个人基本信息和历史点击行为,提取关键词,经过分析统计,进而获得用户的喜好,然后过滤出与用户感兴趣内容相似度较高的项目,即尝试推荐类似于给定用户过去喜欢的项目。[1]常用的方法是在同一特征空间下表示用户和项目,利用项目信息和用户个人信息,了解用户和项目的潜在特征,用户个人信息包括人口统计信息(如性别、种族、年龄、地域、收入、受教育程度、健康状况和爱好等)和用户对项目的操作行为(如评论、收藏、点赞、观看、浏览、点击等)。接下来利用上一步获得的信息计算用户和项目之间的相似度。最后基于相似度值为用户推荐相似度得分高的项目。常用的相似性度量标准有重叠系数(Overlap Coefficient)、杰卡德相似性(Jaccard Similarity)和余弦相似性(Cosine Similarity)。当用户有大量历史记录可供学习时,基于内容的过滤方法通常表现良好。通过这种方式,即使交互行为很少的用户,他的偏好仍然可以以某种方式被挖掘出来。通常基于内容的推荐算法只依赖于用户自身的行为,不涉及其他用户。最早被应用于工程项目的就是基于内容的推荐算法,并有大量的成功应用案例。

基于内容的推荐算法被大量应用是因为其具备以下三个优点:一是不存在冷启动的问题;二是提高了推荐系统工作方式的透明度,并且推荐很容易解释;三是算法不需要用户评分数据,数据稀疏性不会影响到推荐结果。因此,用户对算法提供的建议有很高的接受度。

然而,基于内容的推荐算法也有其自身的缺点,它只会推荐相同类型的项目,存在过度专业化的问题,不能适应用户兴趣的变化,推荐的新闻往往因为过于相似而缺乏进一步挖掘用户潜在兴趣的能力,这被称作泡沫效应。当访问新闻网站时,用户可能正在寻找他以前不知道的新信息,缺乏新闻多样性可能导致用户体验差。对新闻多样性进行建模是解决过度专业化问题的典型方法,为用户推荐主题多样的新闻文章。

2.2 协同过滤推荐

协同过滤推荐技术通过收集群体偏好为用户自动提供推荐结果。它使用用户过去与项目的交互行为来预测最相关的内容,而与被推荐新闻的内容无关。通过收集来自多个相关用户的交互行为,对用户兴趣进行自动预测(即过滤)。[2]

根据算法模型计算的相似性主体的不同,协同过滤推荐又可以分为两种,基于用户的协同过滤推荐和基于项目的协同过滤推荐。

一是基于用户的协同过滤推荐算法,其基本思想是:首先根据用户对项目的评价数据,发现目标用户的相似用户,然后把相似用户感兴趣的项目推荐给目标用户。由于具备挖掘用户兴趣偏好和项目间关联度的能力,该方法推荐的准确度较高。但是随着用户量的增加会导致计算量的增加,从而降低推荐的效率。另外该算法很容易忽略新闻的本身特性,如时效性,通常新闻服务中90%的文章在两天后就不再推荐给用户。

二是基于项目的协同过滤推荐算法,其基本思想是:根据目标用户所属的群体对项目的交互行为,发现相似项目,并为目标用户推荐相似度高的项目。仅仅根据用户对项目的交互行为来挖掘项目的相似性,特征维度太低,导致推荐精度不够理想。由于算法没有考虑到用户的个性特征,从而会出现把大量同一种相似的新闻推荐给用户的现象。

协同过滤方法的主要瓶颈是数据稀疏性问题和冷启动问题,这对新闻阅读场景尤其如此。在提供高质量的推荐之前,它需要相当多的交互历史数据,而对那些以前没有交互的用户,协同过滤方法往往无法生成合理的建议,于是就会出现冷启动问题和数据稀疏性问题。此外,基于协同过滤的方法不会利用用户阅读文章的顺序中存在的时间信息,而该序列对分析用户的总体兴趣以及不断变化的兴趣具有十分重要的意义。

2.3 混合推荐

混合推荐系统是随着各种推荐策略的成熟而出现的,它将两种或两种以上的推荐算法组合成复合系统,理想情况下,复合系统是基于其组件算法的优势来实现某种协同互补。[3]典型的例子是将协同过滤与基于内容的过滤相结合。

实际应用中通常不会单独使用协同过滤来推荐新闻,仅使用用户行为,而忽略文章内容。在协同过滤算法中引入基于内容的过滤技术,可以减少冷启动问题。对于新闻推荐,混合模型结合了基于内容的过滤和协同过滤各自的优势,比单纯使用协同过滤模型效果更好。

推荐系统经常面临探索和利用这两个推荐目标的权衡问题,两个相互竞争的目标必须平衡:利用用户以前的选择来提供准确的推荐,以及探索用户其他可能的兴趣,与用户以前的历史行为无关,以减少过度专业化。雅虎!研究人员将新闻推荐建模为一个上下文Bandit问题,这是一种原则性方法,其中学习算法根据用户和文章的上下文信息顺序选择文章为用户服务,同时根据用户点击反馈调整文章选择策略,以最大限度地提高长期用户点击总量。

研究者提出融合两种及以上推荐技术优势互补的方法,解决了基于内容的新闻推荐技术中存在的过度专门化的问题,但是挖掘出用户潜在兴趣的问题依然难以解决。因为用户在不同的时间和地理位置,阅读兴趣也不相同,一些研究人员通过引入时间特征[4]和位置(GPS)特征[5]来改善推荐效果。

2.4 基于深度学习推荐

近些年来,深度学习已逐渐发展成为人工智能领域解决问题的首选技术。在计算机视觉、音频、语音识别和自然语言处理等方面,深度学习都取得了巨大的成功。然而,在推荐系统中深度学习的应用尚未得到广泛研究。深度学习在推荐系统中的应用进展相对较为缓慢,直到2016年才在ACM RecSys举办第一次针对推荐系统深度学习的研讨会。近年来,许多研究人员尝试在推荐系统利用深度学习技术,利用神经网络来挖掘出潜藏在信息背后的深层特征。[6]

基于深度学习的推荐系统具有如下优势:①非线性转换——对数据中的非线性建模的能力,不同于矩阵分解、分解机和稀疏线性模型等线性技术;②表示学习——减少手工特征设计的工作量,使模型能够包含文本、图像、音频甚至视频等异构内容信息;③序列建模——RNN和CNN都可以有效地建模序列数据,如会话点击;④灵活性——神经网络可以模块化组合,形成功能强大的混合推荐模型。

递归神经网络(RNN)具有一些特性,使其特别适合用户会话序列的建模,它们能够合并来自过去新闻事件的输入,从而可以导出范围广泛的序列到序列映射。Moreira GSP[7]等基于CHAMELEON(一种用于新闻推荐的深度学习元体系结构)构建了一个混合推荐系统,支持基于会话的新闻推荐场景,使用递归神经网络对用户点击序列进行建模。系统利用新闻文章的文本内容、文章上下文(例如,最近的流行性和最近性)和用户上下文(例如,时间、位置、设备、以前的会话点击)来解决新闻领域中的用户兴趣迁移和项目冷启动问题。

3.实验方法和评价指标

3.1 数据集

公开数据集。国内常用财新网数据集。该数据集源自财新网,曾经公开用于2014 年“第二届中国大数据技术创新大赛”。包括10,000个用户一个月时间内对6,183条新闻的浏览历史行为,以及由此产生的116,228条阅读日志。日志所记录的信息包括:用户ID、新闻ID、浏览时间和该新闻的文本内容。国外常用数据集包括:UCI 知识库、Digg数据集、Plista新闻推荐数据集和Adressa 数据集。

自建数据集。根据收集数据的方法不同,又可以分为问卷调查和网上爬取两种方式。问卷调查方法采用纸质或者电子调查问卷的形式,收集研究对象的相关数据构建数据集。该方法构建的数据集具备较强的真实性,但是由于实施困难,一般来说,得到的数据集规模都比较小,再加上高昂的成本,导致该方法并不适用于大规模复杂推荐系统。如陶永才等[5]组织30名学生使用带有GPS功能的智能手机等移动设备收集并构建的自有实验数据集。网上爬取方法则是利用工具从网络上抓取数据并构建实验数据集,这些工具通常是已有的或者自编的爬虫程序或抓取软件。采用这种方式收集并构建的数据集的优点是具备较强的客观性,缺点在于其中存在的脏数据极有可能会把误差引入实验,使用前需要进行较好的数据清洗工作。

3.2 评价指标

常用的评测指标有:点击率(HR)[2,7]、准确率(Precision)[3,4,5]、召回率(Recall)[4,5]、F-score[1,5]、平均绝对误差(MAE)、均方根绝对误差(RMSE)[3]、AUC、LogLoss、Spearman相关性、Pearson相关性[1]、NDCG[3]、Success@k[7]、多样性[1]、惊喜度[1]等。

4.新闻推荐中的难点问题

虽然新闻推荐系统已经被广泛使用,并且取得了较好的效果,但是除常见的冷启动和数据稀疏性问题以外,新闻推荐系统还存在以下几个问题有待进一步研究。

项目数量增长过快的问题。网络新闻无限制地海量增长导致信息过载,与个人需求量之间产生严重失衡。人们想要从体量无比庞大的数据中快速并精准地找到所需要的信息变得特别困难。为了阅读到自己真正关心的新闻,阅读者只能浪费大量时间到新闻的海洋中去搜索,但是用户很难快速有效地从大量无关冗余信息中获取所需内容。新闻的海量增长也加剧了冷启动问题,影响到推荐系统的可扩展性和实时性,可以引入分布式计算(如MapReduce)和并行计算来解决这一问题。

项目价值加速衰减的问题。在新闻领域尤其如此,有别于一般的商品(如电影、书籍等),新闻的时效性太强,每条新闻的保质期都很短,因为大多数用户仅仅对新鲜新闻感兴趣。通常情况下,每篇新闻文章并不是彼此孤立的,正在阅读的新闻可能会影响随后的阅读,需要充分挖掘出隐藏在新闻背后的潜在关联性。针对新闻推荐的时效性,有研究人员通过增加时间衰减因子进行了改进,但效果依然不太理想。[4]

兴趣偏好易变的问题。除稳定的长期兴趣外,用户也有容易改变的短暂兴趣。当前兴趣可能受到其上下文(如位置、访问时间)或全局上下文(如突发新闻或重要事件)的影响。如果更新不及时,在为用户推荐信息或服务时仍然使用陈旧的偏好,则无法达成个性化需求,推荐系统的性能也会由此而降低,并最终导致客户流失。

安全问题。移动网络环境下进行新闻推荐时安全问题尤为重要,妥善保护好用户的个人资料,防止恶意侵入和泄露,甚至篡改伪造推荐结果,给用户带来风险以及伤害。个性化的新闻定制服务需要有用户的注册信息和网页浏览记录等个人隐私数据的支撑,但是这些敏感数据一旦被泄露出去,会对个人和社会带来灾难性的后果。

结语

随着网络新闻量的爆发式增长,如何从海量信息中为读者推荐合适的新闻成为迫切需要解决的问题。本文介绍了个性化新闻推荐技术的四种常见方法,阐述了各种方法的基本思想、分析了每种方法的优点和不足之处。当前,研究人员对新闻推荐技术的研究取得了一些成果,并在一些现实案例中得到成功应用。实践表明,一个好的新闻推荐系统可以节省读者的时间,提升读者的黏度。但随着移动互联网的迅猛发展,海量新闻信息的产生,给研究人员带来新的挑战和机遇。希望本文能够为个性化新闻推荐技术研究提供有价值的参考。

猜你喜欢

协同算法用户
蜀道难:车与路的协同进化
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
“四化”协同才有出路
进位加法的两种算法
关注用户
三医联动 协同创新
关注用户
一种改进的整周模糊度去相关算法
关注用户