基于互联网+背景下的公共信息个性化推荐
2018-04-12毕小然侯小培
高 迎,毕小然,侯小培
(首都经济贸易大学,北京 100071)
1 研究背景
“互联网+”模式是指由互联网联合不同的产业进行融合和发展,创作一种新业态。“互联网+公共信息服务”是指将开放、平等、互动等网络特性在传统公共信息服务中的运用,通过大数据的分析与整合,把得到的结果反馈到应用中,改造传统公共信息服务的运作方式、结构等内容,从而优化信息传播,提升效益,促进社会信息有序发展。众所周知,网络上的信息量是极大的,如何从中获得自己需要的信息是值得关注的问题。所以,在互联网+背景下,要做到的便是引发公共信息服务方式的变革,即从用户查找信息到信息主动服务用户的转变。产生个性化信息服务,这是一种能够主动分析用户且满足用户的信息需求的信息服务。因此,个性化信息推荐系统应势而起,它根据用户的行为和偏好对不同用户的需求进行个性化推荐,从而使合适的信息展示给需要的用户。
本文研究的是针对微博平台的公共信息个性化推荐。在2018-1-17,极光数据发布了“2017年移动互联网行业盘点APP榜单”,微博渗透率和日活跃用户数量在社交APP中排名第三位,且是前三名中唯一保持渗透率和日活跃用户数量双增长的APP,渗透率同比增长11.5%,日活跃用户数量同比涨幅高达37.6%,平均日活跃用户数量达到1.65亿,这意味着微博有着广大的用户群体,也意味着微博每天都有着庞大的信息流动。所以,对于一个想要一直处于领先状态下的网络平台而言,为用户提供一个优质的公共信息服务是必要的。在微博首页,可以看见2个信息分类,即关注人的消息和热门消息。热门消息就是微博针对不同用户的历史记录和喜好关注点而进行的不同的热点消息推荐,并且刷新页面就会出现更新的消息,达到增加用户兴趣,满足用户需求的目的。本文要探讨的便是运用何种推荐算法,从而对用户进行精准的公共消息推荐。
2 个性化推荐技术介绍
个性化推荐系统的处理流程分为3个阶段:“输入—处理—输出”。每个用户的属性和产生的活动行为都会产生一个相应的数据,个性化推荐系统首先接收这些数据,再按照使用的算法对这些数据进行分析处理和筛选,最终将相应的结果通过设定的模式推荐给用户,逐渐增加用户喜欢的信息或者信息类型的推送,减少其他领域的信息推送,使得被推送的信息更加满足用户的需求。而个性化推荐系统的核心就在中间的处理模块,在这个模块中运用什么算法进行个性化推荐会达到更好的效果呢?
目前,出现的推荐算法很多,而协同过滤推荐是现有推荐算法中最成功且应用最广泛的,这是依据其他用户对项目
的评分来预测目标用户兴趣的一种推荐算法。其主要思路为:对于具有相同或相似的兴趣爱好、价值观的用户,则他们对信息的需求也具有一定的相似性。协同过滤算法的过程可划分为三个阶段,主要包括相似度表示、最近邻搜索、产生推荐数据集。
2.1 相似度表示
这一阶段主要是基于用户对项目的评分数据来构建用户兴趣模型,利用m×n维用户—项目评分矩阵来描述。假设有用户m个,项目n项,Rij表示用户Useri对项目Itemj的评分,然后通过评分矩阵考察用户之间的相似程度。用户-项目评分矩阵如表1所示。
表1 用户-项目评分矩阵
2.2 最近邻搜索
此阶段是协同过滤推荐过程中最关键的一个步骤,先要根据相关的度量方法计算得出用户之间的相似度值,再按照数值从高到低排序,找出k个最近邻居,建立一个最近邻集合。常用的度量方法有余弦相似度、皮尔逊相关度、欧几里德距离相似度、对数似然相似度。
2.3 产生推荐数据集
在最近邻集合的基础之上,根据相似度值以及邻居用户对项目评分数据,通过计算预测目标用户对项目的评分,然后产生目标用户的推荐数据集。最后从推荐数据集中将预测评分最高的前n个项目推荐给用户。
协同过滤算法基本分为3类,即基于用户的协同过滤推荐、基于项目的协同过滤推荐和基于模型的协同过滤推荐。基于用户的协同推荐的核心是邻居查询,找到用户之间的相似性,相似性越高,用户就越相近,然后进行信息推荐;基于项目的协同推荐与用户的协同推荐类似,只不过是把用户作为考察对象变为以项目作为考察对象;基于模型的协同推荐是根据机器学习和对已有数据应用统计方法得到模型进行测试,有很高的运算效率。
协同过滤算法的优势明显,可用于复杂的非结构化的对象,可以帮助用户发现新的兴趣点,实现兴趣的跳跃式推荐,随着用户数量的增多,其性能会不断提升;其缺点在于当用户数量骤增,且彼此间的爱好有不同时,会产生用户间评分有差异,无法对新用户进行信息推荐。除此之外,历史数据集对系统推荐质量也具有重要影响。
3 协同过滤推荐算法在微博中的应用
在微博的公共信息个性化推荐中,可以将基于用户的协同过滤推荐算法运用到微博的热门消息推荐模块中,而且对于一些含有视频、图片、动画等内容的消息推荐,这个算法最适合。
计算目标用户与其他用户的相似度。何为和目标用户相似呢?他们的爱好可能与目标用户的爱好相差不大,通过他们来推荐消息给目标用户。比如,目标用户关注动漫、娱乐、摄影、跳舞相关类型的话题,A关注股票、财经、社会、国际相关类型的话题,B关注美妆、动漫、韩剧、旅游相关类型的话题,C关注美食、动漫、娱乐、摄影、旅游相关类型的话题。由此可见,C与目标用户更加相似,B部分相似,而A与目标用户根本不相似。
根据相似度的高低找出K个最近邻居。在找与目标用户兴趣爱好相似的用户时,会定义一个K,找到与目标用户最相似的K个用户。如何找出这K个最近邻居呢?最直接的办法就是把数据库中的所有用户与目标用户都进行一一比较,找出最相似的K个用户。
但当数据量特别庞大时,计算K个邻居的时间将会非常长,所以,只需要计算与目标用户有交集的用户。根据上述例子,如果将K设定为2,则得出目标用户的最近邻居是C和B,最近邻集合就是{B,C}。
在K个最近邻居所喜欢的消息类型中,根据他们与目标用户的远近程度,计算每一种消息类型的推荐度,根据推荐度的高低来判定给目标用户推荐的消息。微博会自动进行一些处理,如果计算出B与目标用户的相似度是25%,C与目标用户的相似度是75%,则例子中的话题类型的推荐度可以这样计算:美妆为1×0.25=0.25;韩剧为1×0.25=0.25;旅游为 1×0.75=0.75;美食为 1×0.25+1×0.75=1.微博会首先把美食话题推荐给目标用户,这个可能是目标用户最喜欢的,其次是旅游,最后是美妆和韩剧。
综上所述,基于用户的协同过滤算法会在微博用户的关注、转发、点赞等记录中收集用户的偏好数据,然后挖掘出一部分与目标用户爱好类似的用户,通过协同与过滤,这些用户成为目标用户的邻居,然后根据他们的爱好组织成一个排序的目录推荐给目标用户。
4 结束语
随着互联网+和大数据的的深入发展,为用户提供更加精准、高效、便捷的个性信息化服务将成为每个流量网站的必要趋势。个性化推荐技术在获取用户的偏好与历史记录等信息的基础上,帮助用户找到所需要的信息,是解决用户对信息过滤问题最好最有效的方法,也是提高公共信息服务质量的良好途径。所以,完善优化个性化推荐技术是值得深入研究的。
参考文献:
[1]武翔宇.基于网络的信息个性化服务研究[D].太原:山西财经大学,2010.
[2]吴炜.基于Web2.0的个性化信息服务模式研究[J].信息技术与信息化,2015(12):104-106.
[3]袁源.电子商务中个性化推荐系统的实现技术研究[J].山西电子技术,2016(02):89-90.
[4]吕艺,刘华东.新闻客户端“个性化服务”的发展与困惑[J].西部学刊,2015(01):10-13.
[5]刘青文.基于协同过滤的推荐算法研究[D].合肥:中国科学技术大学,2013.
[6]夏培勇.个性化推荐技术中的协同过滤算法研究[D].青岛:中国海洋大学,2011.