APP下载

基于文本和用户信息的在线评论质量检测

2019-10-21王中卿周夏冰李寿山周国栋

中文信息学报 2019年9期
关键词:注意力文本情感

吴 璠,王中卿,周夏冰,李寿山,周国栋

(苏州大学 计算机科学与技术学院,江苏 苏州 215006)

0 引言

随着互联网技术的普及,网络购物市场也迅速发展起来,网络用户规模不断扩大,在线评论网站如Yelp、Amazon等也迅速增多。对于网络购物的潜在消费者而言,其他用户的在线评论可以帮助他们做出有效的购买决策,他们通过阅读其他已购买消费的用户在线评论信息或与其他用户交流购物感受可以对商品有更深层次的了解,进而做出有效的选择,买到心仪的产品。而对于商家而言,通过挖掘大量的评论数据来了解该项产品的用户体验,发掘用户最希望提供和改善的功能,以对产品做出针对性的改进。商家合理运用这些在线评论,将会为企业带来一波生产率的增长和利润的提高。对于产生在线评论的第三方网站来说,也可以通过提供高质量的评论信息来帮助他们建立良好的口碑,获取更高的关注度。

但是随着在线评论数量的不断增长,评论质量良莠不齐,故并非所有的评论都具备参考价值。同时由于网络的匿名性,用户非面对面接触,沟通成本低,内部操作空间大,以及各大在线评论网站对评论内容的低约束性,导致一些用户随意发表评论,或提交一些与商品无关的评论,极端情况下,有的不良商家会找人撰写虚假、刻意夸大商品功能的评论。甚至一些同行竞争对手,会故意撰写诋毁对方商品或服务的恶意评论,这些评论对消费者的参考价值极低,甚至会引导消费者做出不正确的决定。在这种情况下,我们迫切地需要一个自动化的方法来辅助识别在线评论的质量。因此,科学、高效地从海量在线评论中帮助消费者抽取对决策参考价值高的评论信息就是本研究的价值所在。

目前,国内外的相关学者已经对评论质量检测做了相关研究,并取得了显著的成果。但是,以往的研究都认为每条评论是独立的,对于每条评论的质量进行单独的检测。本文与以往的研究不同,在社交媒体上,每个文本之间不是独立的,而是可以通过发表文本的用户与其他文本相关联的。我们在Yelp 2013实验数据集中随机抽取了两个用户发表在社交媒体上的两条评论,表1给出了评论示例及该评论在社交媒体上的得分。

表1 用户评论示例

从表1的例子可以看出,用户A在社交媒体上发表的评论文本信息较为单薄,只有简单的类似“最好”“很棒”等形容词,具有强烈的个人倾向性,对大多数阅读评论的消费者参考价值不大,评论的质量普遍偏低。而用户B发表的评论描述相对仔细,评论有针对性,例如,会具体到“周末有本地人才的音乐表演”“点单服务态度”等相关的描述,这种表述对阅读评论的消费者选择的可参考性较大,他们可以根据自己的爱好和需求进行选择。因此,在社交媒体上,阅读评论的消费者对用户A的评论打分普遍偏低,对用户B的评论打分普遍偏高。这说明同一个用户或相近用户,在社交媒体上发表的评论质量具有一定相关性。

在本文的研究中,我们将同时考虑文本信息以及用户信息对于评论质量的影响。本文首先基于神经网络模型构建用户和文本的表示,同时为了研究用户信息对评论质量检测的影响,考虑到在线评论网站上的评论与传统评论文本的不同,社交媒体上,每个文本之间不是相互独立的,通过用户之间关联可以找到这些评论质量之间的相关性。考虑到注意力机制在自然语言处理的其他任务上表现优异,因此,为了放大用户信息的作用,我们将基于注意力机制的用户信息融合到文本信息中。通过设计相关实验,验证在文本信息中加入针对用户信息的注意力机制,对评论的质量检测性能具有明显的提升作用。

本文组织结构安排如下: 第1节介绍了情感分类和在线评论质量检测的相关工作;第2节介绍了数据收集的过程,且重点描述了本文构建的模型;第3节是实验设置的介绍和实验结果分析;最后,是对研究工作进行总结,同时提出下一步的研究方向。

1 相关工作

评论的质量应该是以该条评论给消费者购物带来的参考价值来衡量的,评论给消费者带来的参考价值越高,评论质量就越高。所以,有很多在线评论网站会进行“有用性投票”,即通过一条评论所获得的有用投票数占总投票数的比例来定义它的质量。实际上这种方法存在一定的弊端,可能会淹没一些高质量的评论。目前,对在线评论质量检测方面的相关研究主要从以下方面展开。

1.1 情感分类

情感分类一直是自然语言处理领域的研究热点,该任务的目标是对于给定的文本,推测其对应的情感极性,如Positive、Negative和Neutral。情感分类的方法也有很多,有传统的基于支持向量机、朴素贝叶斯的分类方法,也有基于热门的深度学习分类方法。Wang等[1]提出多项朴素贝叶斯(MNB)模型和使用朴素贝叶斯特征的支持向量机模型(NBSVM)来进行情感分类。Pang等[2]以电影评论作为数据集,采用了三种机器学习方法: 朴素贝叶斯、最大熵分类和支持向量机,实验表明这三种机器学习方法在情感分类中的表现不如在主题分类中。Turney[3]提出了一种基于点互信息值来分析特定短语的情感极性,进而判断整篇文档情感倾向性的方法,该方法首先将文本进行分词和词性标注并提取出形容词或副词短语,然后使用“excellent”和“poor”两个种子词与未知词在搜索网页中的互信息来计算未知词的情感极性,并用以计算整个文本的情感极性。近年来,随着深度学习、神经网络的快速发展,很多神经网络技术也被应用到情感分类中,Cao等[4]发现卷积神经网络(CNN)与支持向量机(SVM)分类器相比,虽然情感分类的准确度得到了提升,但是不能有效地执行非线性分类,因此,他们提出了一个将CNN与SVM结合起来的模型,实验表明,该模型能达到较高的情感分类准确率。长短时记忆网络(LSTM)作为一种具有更复杂计算单元的递归神经网络,因其优良的序列信息保存能力,在各种序列建模任务中取得了很好的效果,Socher等[5]将LSTM模型应用到情感分类任务中,也取得了不错的效果。Tai等[6]将传统的LSTM结构推广到树状网络拓扑结构来进行情感分类。Qian等[7]通过损失函数将语言学规则引入到现有的句子级别情感分析的LSTM模型中,在没有增加模型复杂度的情况下,有效地利用情感词典、否定词和程度副词的信息,在实验数据集上取得了较好的效果。近年来,对情感分类的研究热度也一直不减,Songpan等[8]提出了一种新的情感分析方法—情感短语模式匹配(sentiment phrase pattern matching,SPPM),SPPM与其他算法相比较,准确率、召回率和F1值都有较大幅度的提高,该方法可以根据学生的意见来改善教学策略。Shen等[9]提出了一种基于扩展特征和动态合并的双通道卷积神经网络的文本情感分类算法,该算法比传统的单通道卷积神经网络算法具有更好的分类效果。但是以上研究都没有考虑评论质量的影响,低质量的评论会影响情感分类的准确率,因此,评论质量检测就显得尤为重要。

1.2 评论质量检测

在线评论质量检测研究,既可以看作为传统的文本分类问题,也可以看作成一个回归问题。以往的评论质量研究都主要集中在利用评论的文本信息,研究影响评论质量的不同特征。例如,Kim 等[10]研究表明,评论发表距今的时间是显著影响评论质量的元数据特征。如 Ghose 等[11]、Li 等[12]、Liu 等[13]指出影响评论质量检测主要的语言特征应包括评论字数、句子数、不同词性(名词、动词、形容词等)的词语数等。胡学钢等[14]综合评论文本属性、评论者属性和店铺属性这三个影响因素,提出了一种基于多元线性回归算法的在线评论质量预测模型。Archak等[15]指出评论的极端性、评论的深度、评论的产品类型都将会对评论的质量造成影响。Chen 等[16]强调在评论所包含的名词中,产品属性名词的频次是重要的语言特征,高质量的评论中应包含一定数量的产品属性名词。

近年来,也有一些关于发表评论的用户信息对评论质量检测影响的研究。Ghose等[11]认为,评论者相关信息是有效的评论质量检测特征,例如,评论者以往发表的评论数及有用率、评论者身份等。Cheng等[17]的研究侧重于分析评论者追随者人数、评论图片质量、评论字数以及周边路线这些社会因素对评论质量的影响。但是这些研究都是利用评论者自身的属性,例如,评论者好友的数量、注册的时间、发表的有用评论数。与上述利用评论者属性的研究不同,本文直接参考用户以往发表的在社交网站上的评论文本信息,利用同一个用户在社交网站上发表的评论质量具有一定的相似性,我们利用用户发表在社交网站上的历史评论文本信息构建用户的表示,以进一步提高评论质量检测的性能。

近几年来,注意力机制[18-20]在自然语言处理的其他任务中表现优异。Yang等[21]针对文本分类提出一个层次化的注意力机制,分别就词和句子构建两个层次的注意力机制,从而使得文本中重要性不同的句子和词被给予了不同的“注意力”能力,实验结果相比以往的模型效果有显著提升。Zhou等[22]基于注意力的双向LSTM来进行关系分类也取得了不错的效果。Sun等[23]利用层次化注意力机制权衡各种语言信息,将其应用到立场检测上也效果显著。本文受到启发,在进行评论质量检测分析模型构建时引入用户信息,并且,为了进一步放大用户信息的影响,我们将基于注意力机制的用户信息融合到文本中,经过在Yeap.com(1)www.yelp.com数据集上测试,模型的实验效果得到稳步提升。

2 基于注意力机制用户信息的评论质量检测

本文利用评论的文本信息构建LSTM模型对评论的质量进行检测,考虑到在线评论网站上的评论与以往独立的单文本不同,社交网站上,每个评论文本之间不是相互独立的,通过用户之间相关性可以找到这些评论质量之间的相关性。一般来说,拥有更多粉丝和已发表的高质量评论数越多的用户,再次发表的评论质量会更高,因为同一个用户或者相近的用户发表的评论质量也是相似的。因此,我们在模型中加入了用户信息,从而对评论的质量进行全面的预测。最近出现的注意力机制在其他自然语言处理任务上都取得了不错的效果,注意力机制可以更好地表征文本,在训练时可以自动获取更为重要的特征。例如,在情感分类任务中,地名、人名等名词没有表达情感类的形容词重要,所以,在神经网络训练时,表达情感的形容词就应该占有更大的权重。因此,引入注意力机制可以将神经网络的注意力集中在那些对当前任务更重要的向量上,以提高模型的准确率。所以,为了进一步放大用户信息的作用,我们结合注意力机制将用户信息融合到文本信息中。实验结果表明,评论质量检测分析的性能得到了进一步提高,本文的整个模型如图1所示。

图1 注意力机制模型图

2.1 文本信息的表示

在线评论是由用户针对特定产品做出的评价,我们将每条评论表示为由{W1,W2,W3,…,Wn}组成的n个单词。LSTM长短时记忆网络是RNN(Recurrent Neural Network)中一种特殊的类型,所有的RNN模型都具有一种重复神经网络模块的链式形式。与传统的RNN模型不同,1997年,Hochreiter和Schmidhuber首先提出了LSTM神经单元。将传统RNN中的隐含层以LSTM单元替代,也就是现在所说的LSTM网络。对于每一条评论,我们使用LSTM神经网络来学习评论的深层文本信息表示。首先,通过查找预训练好的词向量表将每个标记的Wi转换为实值向量Xi。然后,我们使用LSTM神经网络来生成隐藏的向量序列{h1,h2,h3,…,hn}。在LSTM神经网络的步骤t中,LSTM的隐藏向量ht=LSTM(Ht-1,Xt)均可由当前向量Xt和先前向量ht-1来获得。LSTM神经网络中的参数初始化都是随机初始化,在训练过程中调整的。

LSTM单元利用记忆细胞(Memory Cell)来传递信息,因此细胞状态是整个LSTM的关键,它类似于信息传统带,直接在整个循环网络中运行,且由它来决定该保留或遗弃哪些信息。历史信息由3个门控制,即输入门(Input Gate),遗忘门(Forget Gate)和输出门(Output Gate)。LSTM表示如式(1)~式(6)所示。

其中,it,ft,Ot,和Ct分别表示t时刻对应的三种门结构和细胞状态。LSTM是一种特殊的RNN,是为了解决RNN中长期依赖问题而专门设计出来的,同时LSTM对于大多数自然语言处理任务也确实展示了更好的性能。采用LSTM模型避免了传统机器学习模型中的特征工程,而且能取得与当前基于传统机器学习相当甚至更好的性能。并且LSTM等深度学习模型还可以借助GPU来训练,大大缩短了训练时间。

2.2 用户信息的抽取

本文的研究目的是在线评论的评论质量。根据日常经验,很容易联想到发表评论用户的相关信息会对评论质量造成影响。拥有更多粉丝数,已发表的有用评论数量越多的用户,再次发表的评论质量可能会更高,而发表评论质量一直较低的用户,再次发表的评论质量较低的可能性也比较大。与以往直接利用评论者粉丝数,和评论者发表的评论总数等用户属性的研究不同,社交媒体网站上的评论之间并不是相互独立的,而是可以通过用户之间的联系将评论联系起来。因此,在实验中,我们考虑加入了用户在社交媒体上发表的历史评论信息,利用LSTM模型学习用户评论深层的信息作为用户的表示(图2)。

图2 用户的表示示例图

在LSTM 模型中,将历史评论信息{ed(ru1),ed(ru2),ed(ru3)…,ed(run)}作为输入,令hui=LSTM(Hui-1,ed(rui)),经过LSTM神经网络得到的隐藏状态向量{hu1,hu2,hu3,…,hun},将其作为每个用户的表示。在具体实验中,我们对于每个用户,抽取其发表的n条评论,并利用LSTM模型基于这些评论构建每个用户的表示。

2.3 基于注意力机制和用户信息的评论质量检测

注意力机制用于从众多信息中选择出对当前任务目标更关键的信息。而在该任务中并不是每一个评论都对用户的表示做出了同等贡献,因此,我们在获取了文本表示和用户表示之后,为了放大用户信息对评论质量的影响,针对用户信息引入了注意力机制,用于提取用户相对重要的评论,形成基于注意力机制新的用户表示。

注意力机制将每一个输入状态{hu1,hu2,hu3,…,hun}作为用户的表示输入,从而实现为输入文本构造一个隐藏状态hui的加权和,输出引入用户注意力机制的文本表示向量v,如式(7)所示。

(7)

其中,T为输入状态的数目,∂t为输入状态hui的权重,∂i∈[0,1],并且∑i∂i=1,∂i的计算如式(8)、式(9)所示。

其中,W为模型中的权重,b为模型中的偏置。

实验表明,通过针对用户信息引入注意力机制,使得实验结果与仅引入用户信息比较得到了进一步的提高。这说明加入基于用户信息的注意力机制确实能进一步提高评论质量检测的准确度。

3 实验

3.1 实验数据集

本文使用的是Yelp Dataset Challenge 2013提供的数据。在实验中,选取随机生成的用户ID中前两千条用户ID的评论作为训练集,两千到四千条用户ID的评论作为测试集。表2反映了实验数据集的分布情况。

表2 数据集分布情况

在Yelp数据集中: 每个评论至少包括以下信息。

(1) 每个评论会有一个useful score,这是该条评论的质量指标,useful score越高,表示该条评论的质量越高,参考价值越大。在实验中,为了防止极少数useful score极端值对实验结果的影响,在实验中将useful score的上限设置为10,大于10的useful score看作10来处理,同时将useful score转化为0到1之间的数值,在评论质量检测时作为useful label。

(2) 评论的文本信息。

(3) 评论的用户ID信息。

(4) 评论的星级。最高星级为五颗星,最低为一颗星。星级用来表示评论的情感倾向,星级越高,表示用户对该产品越满意,大于三颗星的评论即为积极情感倾向的评论。

(5) 评论的对象商家或产品的ID信息。

本文采用均方误差作为评论质量检测的评价指标,因为均方误差能很好地反映预测评论质量标签和真实评论质量标签的偏离程度,评价标准MSE的公式如式(10)所示。

(10)

其中,N为整个数据集评论数,gri和pri分别为真实评论质量(useful label)和预测的评论质量(useful label)。同时,为了加速训练,我们限定每条评论最多有40个句子,每个句子不超过40个单词。均方误差比较直观且计算简单,可以评价数据的变化程度,MSE的值越小,说明预测模型的预测结果具有更好的准确度。

3.2 实验参数设置

为了获取模型的最优参数集合,需要调节的参数如表3所示。

表3 模型参数调节列表

3.3 基准系统

在前人评论质量检测研究的基础上,我们选用以下方法进行实验的对比分析。

SVM模型、Decision Tree模型: Liu 等[13]采用支持向量回归、决策树等机器学习方法进行评论质量检测比较,以得到性能最优的模型。本文以单个词Unigram作为特征,使用传统机器学习中SVM(2)http://svmlight.joachims.org/( support vector machine )模型、决策树模型进行回归分析。

LSTM模型: Bobby[24]使用深度学习模型LSTM对亚马逊网站上的评论进行质量检测。该模型不引入用户信息和注意力机制,我们直接采用LSTM模型对评论文本进行评论质量检测,作为本文的基准模型。

GRU模型: Cho等[25]提出了另一种循环神经网络的变体GRU(Gate Recurrent Unit),它的实验效果与LSTM相似,但更易于计算。

Bidirectional-GRU模型: 双向的GRU模型优于单向GRU是其可以同时利用过去时刻和未来时刻两个方向上的信息,从而进一步提高模型的准确度。

LSTM+User模型: 该模型在LSTM模型的基础上加入了评论的用户信息,实现评论质量检测。

LSTM+SelfAttention模型: 该模型在LSTM模型的基础上加入了自注意力机制,实现评论质量检测。

LSTM+User+Attention模型: 该模型在LSTM模型的基础上将基于注意力模型的用户信息融合文本中,相比以上的几种模型,实验性能得到进一步提升。

3.4 实验结果与分析

3.4.1 与传统方法对比

本文主要进行了两组实验。为了体现我们提出的结合用户信息注意力机制模型的有效性,本文的第一组实验选择与前人所使用的SVM、决策树等传统机器学习进行对比,同时也与自然语言处理领域一直表现优异的长短时记忆网络LSTM、GRU、双向GRU模型进行对比,实验结果如表4所示。

从表4可以看出,本文提出的基于神经网络LSTM、GRU模型确实能学习到文本更深层次的信息,比传统的机器学习方法在评论质量检测中性能更好,在一定程度上体现了深度学习的优势。同时,对比前人使用的模型和我们提出的结合用户注意力机制的模型,发现加入用户信息注意力机制对评论质量检测模型性能确实有一定的提升。

3.4.2 网络结构的影响

为了验证模型的有效性,考虑不同网络结构的影响,研究用户信息注意力机制的作用,我们进行了第二组实验,实验结果如表5所示。

表5 不同模型MSE值对比

从表5的实验结果来看,在LSTM模型中,直接加入用户信息模型的性能得到了提高。同时,比较“LSTM +SelfAttention”和“LSTM+User+Attention”模型性能,我们发现加入针对用户信息的注意力机制,能进一步提高评论质量检测的性能。

通过对比实验可以看出,逐步加入用户信息和针对用户信息引入注意力机制可以降低MSE值,提高评论质量检测的性能。这表明,在评论质量检测中评论者以往的评论信息是影响评论质量的一个重要因素,通过将评论的用户信息和注意力机制相结合,有效增强了模型对于文本信息的捕获能力,进而提高了评论质量检测的性能。

4 结论

互联网上日益丰富的评论信息确实给人们的生活带来了便利,为人们在购物时的决策提供了更多的参考。但互联网上的信息良莠不齐,数据庞大,信息爆炸也为消费者带来了困惑,同时也影响了评论的参考价值,降低了消费者决策的效率和效果。因此快速地筛选出对消费者决策最有帮助的高质量评论就显得尤为重要。

考虑到社交媒体上同一个用户发表评论质量的相似性,本文提出一种基于LSTM神经网络,针对用户信息引入注意力机制来预测在线评论质量的模型。该模型能帮助消费者从在线评论网站海量的评论中快速识别出有用的评论,做出正确的购买决策。

类比在模型中加入评论的用户信息,我们很容易联想到,加入评论的对象商家信息是否也会提高评论质量分析的性能。我们在分析实验语料时发现,评论者的好友信息也具备一定的参考价值,有用评论的用户好友质量普遍比较高,发表的评论数比较多,同时有用的评论也比较多,因此,可以考虑在模型中加入用户的好友信息。同时,我们受到情感分类的启发,分析评论的情感信息或许也能更好地筛选质量高的评论。以上所述都有待未来更详尽的研究工作来完成,本文以后的工作将进一步考虑加入商家信息和情感信息,并探究其对评论质量的影响。

猜你喜欢

注意力文本情感
文本联读学概括 细致观察促写作
让注意力“飞”回来
如何在情感中自我成长,保持独立
如何培养一年级学生的注意力
作为“文本链”的元电影
情感
在808DA上文本显示的改善
诗歌与情感的断想
基于doc2vec和TF-IDF的相似文本识别
如何在情感中自我成长,保持独立