TextRank与用户情感倾向在推荐算法中的研究
2021-08-10齐平平
齐平平
摘 要:为了研究动态数据下的TextRank与用户情感倾向在推荐算法中的应用,本文在TextRank算法进行细致分析的基础上,结合动态数据的时效性特点进行了综合改进,结合时间衰减参数与时效性参数TL,将原本单一的PR值变为了综合PR值,实验结果证明,综合PR值相比于原PR值是更加合理的。在此基础上,利用综合PR值数据与用户自身的静态数据以及用户情感倾向进行整合,通过推荐算法的综合筛选,得出最终的推荐结果,为用户提供了一个良好的体验。
关键词:动态数据 TextRank PR值 推荐算法 情感倾向
中图分类号:TP301 文献标识码:A文章编号:1674-098X(2021)04(b)-0159-04
Research on TextRank and User Emotional Tendency in Recommendation Algorithm
QI Pingping
(School of Communication and Electronic Engineering, East China Normal University, Shanghai, 200241 China)
Abstract: In order to study the application of TextRank under dynamic data and user sentiment in the recommendation algorithm, a comprehensive improvement was made based on the detailed analysis of the TextRank algorithm, combined with the timeliness characteristics of dynamic data, combined with time attenuation parameters and timeliness parameters TL, The original single PR value is changed to a comprehensive PR value. The experimental results prove that the comprehensive PR value is more reasonable than the original PR value. On this basis, the comprehensive PR value data is integrated with the user's own static data and the user's emotional tendency, and the final recommendation result is obtained through the comprehensive screening of the recommendation algorithm, providing a good experience for the user.
Key Words: Dynamic data; TextRank; PR value; Recommendation algorithm; Emotional tendency
1 研究背景
互聯网的快速发展给全世界的人们带来极大便利的同时,也带来了一些麻烦,其中网络信息过剩的问题尤为突出:人们在网络上搜索某个信息时往往会迷失在庞大的网络数据之中,从而无法获得自己想要的信息。于是,推荐算法应运而生,其在很大程度上帮助人们解决了信息过剩的问题,但是面对互联网的实时更新的动态数据,传统的推荐算法例如协同过滤推荐、基于关联规则的推荐等都无法满足人们对于信息获取的要求,于是个性化推荐算法出现。在个性化推荐算法百家齐放的过程中,对于网络实时的动态数据的处理一直都是大问题,国内外有许多的专家学者都有深入研究,如Kim在研究中提出了通过获取用户自身的数据与网络数据进行整合为用户推荐电子商务类的个性化信[1]。Luis等通过应用语义分析的相关技术,利用已知的网络静态数据建立推荐模型,开发出了一款可以向用户推荐电影院等相关信息的系统,此系统在系统评估中取得了相对较好的结果[2]。曾子明等从情景数据采集、情景计算、情景建模、模型评估等分析情景感知模型的构建过程,搭建以用户为中心的智慧图书馆场景式服务体系框架[3]。这些研究方案中都有提及到给用户提供全新的个性化服务,但是均未考虑到动态数据的时效性,于是本文提出了一种在动态数据下采用TextRank算法与用户情感倾向分析算法,为用户提供及时有效地信息推荐。
2 动态数据与TextRank
2.1 动态数据
动态数据一般指的是在系统应用中随时间变化而改变的数据,动态数据的准备和系统切换的时间有直接关系[4]。在本文中,动态数据特用来代指用户所处情境中的网络实时数据信息。就国内网络数据热度而言,采用百度、B站、微博三大热门网站的动态数据,模拟用户处于华东师范大学“毕业花”的情境下给予及时有效的信息推荐。
动态数据的获取是相对比较难得一个点,本文采用了情景感知算法对用户所处的情境进行感知以便获取到用户所处情境下的动态信息,从而进行数据的综合分析,获得华东师范大学“毕业花”情景下的动态数据。
2.2 TextRank
TextRank是一种基于文本内容分层的排序算法,在原有的谷歌网页排序算法PageRank的基础上改进而来的[5]。区别于PageRank依赖网页之间相互链接关系构造网络,TextRank依赖于文本中词语的共现关系构造关系网络。在TextRank中,最核心的迭代过程为:
(1)
式中:S(Vi)是网页i的中重要性(即PR值)。d是阻尼系数,一般设置为0.85。In(Vi)是存在指向网页i的链接的网页集合。Out(Vj)是网页j中的链接存在的链接指向的网页的集合[6]。
TextRank算法一般较多地用于纯粹的语义分析当中,在推荐算法中还未尝试融合进去。本文中,就将借助TextRank算法对动态数据信息进行处理。在TextRank数据处理过程中也需要对动态数据中的时间进行处理以便得到时间t。
由于在处于某一情境时,不单单要考虑到所处情境的情境关键词语,也需要关注该词语的时效性问题,所以上文中将S(Vi)与TL分别推导出来了,利用S(Vi)与TL对两者进行权值的赋予可以得到符合本文系统的参数。首先,将综合PR值定义为:
(2)
式中:STL为综合PR值。P为S(Vi)的权值参数,Q为TL的权值参数,且P+Q=1。
3 综合PR值
在2阶段中,将STL与S(Vi)进行了求解,并得到了一个综合的PR值,对于选取的模拟情境下的综合PR值进行了求取,在进行综合PR值计算后,“毕业”成为这一情境下的最主要的关键词,“上海”“毕业典礼”等关键词的综合PR值相对较小原因是由于动态数据的相对不足,主要原因有:(1)该情境的热点相对较低,网络上的动态数据相比较少;(2)由于综合PR值有一个改善过程并添加了时间因素,导致对最终结果有一定的影响。
将TextRank算法下的PR值进行求解与本文所得综合PR值进行对比可以得到综合PR值与原本的PR值相比较而言,整体趋势基本一致,但是在如“上海”等关键词上有一定的区别,其主要原因为:综合PR值得求解中加入的时间参数对于最终结果带来了一些影响,模拟情境下的时间为2020年12月即T的时间,此时的各个情境关键词的TL是不一样的,例如“毕业典礼”“毕业生”等词汇与当前的时间是不相符的,此时去对“华东师范大学毕业花”这一情境求取综合PR值,很明显本文提出的综合PR值更加的合理。
4 推荐算法改进
4.1 推荐算法的简单介绍
综合PR值带来的是处于某一情境下的动态信息处理的最终结果,这样的结果对于推荐算法来说是最好的推荐原因。但同时在推荐时也得考虑到用户的静态数据即用户的所处情景的天气、季节等数据。目前已有的一些推荐算法主要分为基于内容的推荐算法、基于协同过滤的推荐算法等[7],这些算法更多的是基于用户使用数据的推荐而不是基于某一情境下的推荐,对于冷启动问题的处理相对比较差。这些推荐算法由于存在着或多或少的缺陷,因而本文将会选用组合推荐算法进行设计,主要采用了组合推荐算法中的加权推荐技术,结合PR值与用户的情感分析、用户所处情景的天气与季节因素进行综合分析然后得出推荐结果。
4.2 用户情感分析
从上文中获得的用户动态数据中,将获得的动态数据利用CBOW模型与Skip-gram模型[8]进行转换使其转换为词向量,本文采用了百度AI开方平台上的用户情感倾向分析算法,可以调用百度情感分析API的参数,再将上文所获得的用户动态数据导入,便可获得用户在该情境下的情感倾向。任意选取了用户动态文本分割后的10条数据信息进行统计,在任意选取的这10段用户动态文本中用户的positive_prob值远远大于negative_prob值,這是由于互联网上一般大都是积极的信息居多,我们平常浏览到的信息也以积极向上为主,消极的相比之下就很少。
4.3 组合推荐算法模型的建立
前3个阶段中,分别获取到了用户处于某一情境下的综合PR值与用户情绪倾向分析结果positive_prob值与negative_prob值,接下来我们需要获取用户手机数据得到天气信息与季节信息数据分别用Weather与Season表示。
传统的组合推荐中常用的有加权、变换等级别七种,结合本文所述,选用加权进行推荐的方式进行组合,将综合PR值、pp值与np值以及Weather与Season进行加权组合便可以得到推荐算法模型[10]。
(5)
(6)
(7)
式中:RER表示最终推荐指数,ZHPR表示综合PR值,Qweather与Qseason分别表示weather与season的权值,Wp,Wn分别表示positiveprob值与negativeprob值的权值,w1、w2、w3分别表示ZHPR、prob、WS的权值。在权重的配比选择时,一方面采用乐条件熵的计算方法,另一方面选择了主观赋值的方法。
在通过组合推荐算法的研究下,我们最终得到了推荐的最终结果即PR值与综合PR值下推荐算法得到的推荐指数对比。通过对比可以发现综合PR值相对于原PR值的推荐指数更高,其原因主要是增加了用户情感倾向、动态数据的时效性等因素。图中的推荐指数值这么小的原因是:推荐算法在运行过程中获得推荐信息很多,多达上千件,导致推荐指数值看起来相对较低,但是其相对于长尾信息来说其占比还是很高的。通过图1我们可以轻易的发现两种情况下的推荐指数具有一致性,但仔细观察也能发现两者存在着差别,别小看这一点的提升,对于科技日益发展的今天来说也会给用户带来巨大的体验。
5 结语
本文中就动态数据下的用户信息为基础条件,对该数据进行了用户情感倾向分析,并采用了添加时效性参数的TextRank算法与用户本身包含有的静态信息相结合得出了一种新的组合推荐算法,在算法中,我们利用不同方向的技术相互之间彼此融合,为推荐算法提供了一种新的思路。当然也有不足之处,数据集带来的局限性还是有一定的影响,我们后续的工作也会继续补足。
参考文献
[1] 袁静.国内外情景感知服务研究综述[J].国家图书馆学刊,2018,27(3):39-47.
[2] Luis Omar Colombo–Mendoza, et al. RecomMetz: A context-aware knowledge-based mobile recommender[J]. Expert Systems with Applications,2015,42(3):1202-1222.
[3] 曾子明,孙守强.基于情景感知的智慧图书馆场景式服务研究[J].图书与情报,2019(4):101-108.
[4] 乔蕊,董仕,魏强,等.基于区块链技术的动态数据存储安全机制研究[J].计算机科学,2018,45(2):57-62.
[5] 杨延娇,赵国涛,袁振强,等.融合语义特征的TextRank关键词抽取方法[J/OL].计算机工程:1-8[2021-01-04].
[6] 欧霖,赵永标.基于TextRank的新闻关键词抽取系统的设计与开发[J].现代信息科技,2020,4(18):23-25,28.
[7] 赵垒.面向eCRM的推荐系统的设计与实现[D].曲阜:曲阜师范大学,2015.
[8] 黄艳群,王妮,刘红蕾,等.基于Skip-gram词嵌入算法的结构化患者特征表示方法研究[J].北京生物医学工程,2019,38(6):568-574,604.
[9] 顾德喜,李贵霖,时祥凯,等.基于百度AI开放平台的人脸识别门禁系统[J].单片机与嵌入式系统应用,2019,19(6):33-36.
[10] 陈豪,王泽珺.个性化推荐算法综述[J].企业科技与发展,2019(2):56-57.