深度学习下的情感分析与推荐算法
2018-10-09郭慧,柳林,刘晓,程鹏
郭 慧,柳 林,刘 晓,程 鹏
(山东科技大学测绘科学与工程学院,山东 青岛 266590)
如今的餐饮越来越离不开网络,在筛选商家时历史评价起到至关重要的作用。传统的美食推荐算法只是基于用户的地理位置、历史消费及浏览记录,未充分利用用户的反馈数据。本研究利用情感分析技术将海量的评价数据作为个性化推荐的依据。情感分析(sentiment analysis,SA)是通过用户对产品的评价,判断用户情感态度的分类过程[1],主要包括语义方法与机器学习方法[2]。利用机器学习进行情感分析的结果更精准,有广阔的研究空间[3]。最早,Pang等[4]作了初步探索,此后,Mikolov等[5-6]系统性提出word2vec框架,Socher等[7-8]提出利用循环神经网络进行情感分析。基于前人的研究,本文将重点讨论利用优化循环神经网络对美食评价数据进行情感分析与推荐算法的实现。
1 传统循环神经网络的情感分析
循环神经网络是一种对序列数据建模的网络[9],其结构如图1所示。
图1 循环神经网络结构
a〈n〉=g1(Waaa〈n-1〉+WaxX〈n〉+ba)
(1)
(2)
式中,g1为tanh或Rell激励函数;g2为sigmoid激励函数;ba、by为偏重值。
2 多重属性聚类加权输出的循环神经网络
2.1 属性聚类
不同用户评价时采用的属性词不同,为避免庞大的计算量[10],本研究提出一种属性聚类的方法。首先,根据评价主题,建立n个母类属性W母类={W1,…,Wn},然后识别评价中的属性词w={w1,…,wm}(n similarity(W母类,w)= (3) 计算结果越大表示此属性词与该母类属性的含义越相似。不同于传统PMI计算表达式,本公式经试验调试引入参数,增大共现概率的准入口径以提高特定主题评价信息的权重。 传统利用循环神经网络进行情感分析的方法仅仅是多对一的RNN结构,不利于捕捉用户对店铺不同属性的情感态度。因此,本研究提出一种基于聚类属性加权输出的循环神经网络(RNN-multiple attribute clustering weighting output,RNN-MACWO)模型,如图2所示。 图2 多重属性聚类加权输出的循环神经网络结构 对第一个属性“味道”的态度词进行情感分析后,得到第一部分的分析结果,然后参数重置,分析下一个属性的情感得分,最终将每一个属性得分按照注意力机制分配得出该条评价总体的情感态度。 为了符合情感表达的一般特点,对评价内容的分析需要有所侧重,因此,引入注意力机制,提高特定词句的注意力参数,参数计算公式为 (4) 本模型的情感分类器采用多分类模型,训练分类器时选用Softmax函数[11],将交叉熵作为损失函数,L2函数作正则化(如式(5)所示),利用反向传播进行参数的修正[12]。 (5) 为了利用RNN-MACWO模型更高效地分析海量评价信息,建立商铺数据库,该数据库包含属性、好评、中评、差评4个字段,属性字段中包括环境、味道等属性词,在好、中、差评价中分别添加与更新店铺的名称。 每位用户对店铺的关注点和挑剔度不同,而这些信息往往体现在其评价中,基于这两个特征聚类相似用户并建立数据库,使之作为推荐商家的依据,具有更强的匹配度与个性化。 (6) 式中,j为店铺;i为用户,分别设定0、1、2为低、中、高挑剔度的标签。将每位用户的关注点与其挑剔度映射到某一空间,采用余弦相似度计算公式(如式(7)所示)对用户进行相似聚类并为每位用户建立数据库,包含用户名、关注点、挑剔度、相似用户4个字段。 (7) (8) 本文利用GooSeeker数据爬取工具得到美团软件中2016—2018年80家店铺的美食评价数据,总计3万条。数据涵盖:店铺名称、人均消费、评价用户、评价时间、评价内容与星级评分。综合用户的评价与评分,人工为评价的情感态度建立标签,然后引用jieba分词工具对数据进行分词操作后删除停用词,再进行文本数字化[13]。 建立属性词库。根据评价内容,确定10个关于美食店铺的母类属性词,包含环境、味道、服务等,利用本文提出的属性聚类方法,将评价数据中其他的属性词依次聚类到母类属性词中得到属性词库。强注意力词句库的建立,包含否定词、程度词、转折词,将“下次再去”等这类表示高度认可的词语纳入强注意力词库中。 本试验的主要流程如图3所示。 本试验共3万条评价数据,将其中80%作为训练数据,20%作为交叉验证数据。对训练结果评价的指标主要包括:精准率(precision)、召回率(recall)和F1-Measure[14]。 经过3项指标检测,得到RNN-MACWO模型的测试结果,见表1。 图3 情感分析与店铺推荐试验流程 标签precisionrecallF1好评0.860760.837960.84920中评0.811540.819800.81564差评0.878640.893360.88593 为更好验证本研究所提出模型作情感分析的质量,利用相同试验数据分别对多层全连接神经网络模型(multilayer fully connected neural network,MFCNN)与长短记忆神经网络模型(long short-term memory,LSTM)作试验对比[15],测评结果见表2、表3。 表2 MFCNN模型测试结果 表3 LSTM模型测试结果 为了更直观地比较分析测评结果,将其可视化,如图4、图5、图6所示。 由图可知,RNN-MACWO模型相较于另外两种模型的准确率有所提高,尤其体现在好评与差评的分类上,因为本模型结合属性多输出结果,并引入注意力参数,增强了模型对情感态度的敏感度,使情感特征更清晰。且本模型具有更高的召回率,因为本模型提高转折词与否定词后的评价内容的权重,使模型对消极情感的捕捉更精准可靠。 图4 3种模型的准确率对比图 图5 3种模型的召回率对比图 图6 3种模型的F1值对比图 为验证本文提出推荐算法的准确性,基于80%的训练数据为其余20%的用户做推荐,将得分排名前8的商铺作为最终推荐商家,利用标签中的好评商铺验证推荐效果。 根据标签信息,该20%评价数据中包含2249条好评,经测算,利用推荐算法得到的推荐商铺在好评商铺中占比高达92%,由此可见,本推荐算法具有较高的可靠性,符合用户对优质商铺快速筛选的需求。 本文利用深度学习提出了一种RNN-MACWO情感分析模型。该模型挖掘出用户潜在兴趣点,利用注意力机制得到细粒度的分析结果。综合考虑大量语料与特定主题下属性词的相似度,提出了一种属性聚类算法,实现属性词聚类更全面准确的效果,并结合商铺数据与用户偏好构建推荐算法,达到个性化推荐效果,也为商家及时得到用户反馈,提升店铺品质创造了可能。2.2模型结构
2.3 注意力机制
2.4 模型训练
3 基于店铺属性与用户聚类推荐
3.1 建立商铺数据库
3.2 用户聚类与用户数据库
3.3 构建推荐算法
4 试验过程与验证
4.1 数据预处理
4.2 建立词库
4.3 试验流程
4.4 RNN-MACWO模型试验对比分析
4.5 推荐算法试验分析
5 结 语