APP下载

基于主题相似性的在线评论情感分析

2018-08-16崔雪莲那日萨刘晓君

系统管理学报 2018年5期
关键词:极性文档向量

崔雪莲,那日萨,刘晓君

(大连理工大学 系统工程研究所,辽宁 大连 116023)

互联网的发展带来了电子商务的发展和壮大,大部分电子商务网站提供消费者评论功能,激励用户分享消费后的体验[1]。随着文本情感分析研究的兴起,越来越多的学者从在线文本评论挖掘消费者情感信息[2-4],以期得到更加真实的消费者购买体验及其偏好。

评论情感分析又称评论挖掘或意见挖掘,是指通过自动分析某种商品评论的文本内容,发现消费者对该商品的褒贬态度和意见[5]。传统的机器学习方法在应用于情感分类时,分类效果不稳定,且大部分为有监督方法,需要一定数量的经过标注的训练样本,而人工标注过程相对耗时费力,且领域移植性差,效率相应比较低。因此,无监督学习算法成为在线评论情感分析的重要研究方向[6]。

近年来,基于主题模型的无监督情感倾向分析越来越受到学者的青睐,其中最有影响、应用效果最好的当属LDA 模型[7],该模型是一种典型的无监督生成式主题模型。为实现情感分类通常的方法是在LDA 主题模型中,加入不同的情感隐变量层,即可获得不同类型的主题情感混合模型[4,8-9]。

然而,现有的主题情感混合模型,虽然能同时抽取文档的主题和情感信息,但受主观性文档中局部否定以及主题数目的影响,模型的情感分类效果及稳定性并不理想[10]。事实上,文本情感分类本质上仍是一种文本分类问题,利用已有的文本分类方法可以有效解决情感分类问题。Pang等[11]将传统的文本分类方法SVM(Support Vector Machines)、NB (Naive Bayes)以 及ME(Maximum Entropy Classification)等应用于电影评论情感分类,取得了比较理想的结果;同时也指出,将评论的所有句子不加区分地作为同一个话题的描述,会导致评论情感极性判别错误。鉴于此,基于主题模型的文本分类方法不断涌现[12-13],该类方法通过LDA 等主题模型将文本表示为主题分布形式,通过比较两篇文本的主题得到其相似度,并基于相似度实现文本分类。该类方法有效地解决了文本分类问题中特征稀疏的问题,应用到情感分类中,张佳明等[14]通过主题模型挖掘微博文档中的隐含主题,并通过情感词典分析隐含主题的情感分布,进而获得整条微博的情感倾向。在产品评论的短文本情感分类问题上,消费者评论主题存在有限性和差异性,主题内容的差异性会导致评论情感相似性的计算误差。为了弱化主题内容对情感分类的干扰,本文引入理想评论,并构造正、负向代表评论集,通过比较评论和理想评论的主题相似性,获得评论的情感倾向。采用LDA 主题模型挖掘在线评论的隐含主题,结合情感词典计算主题的情感极性。并根据主题的情感极性构造具有强烈感情色彩的理想评论,通过计算评论和理想评论的主题相似度,构建正、负向代表评论集,进而计算得到每条评论的情感倾向值,实现在线评论的自动情感分类。

1 问题描述及定义

1.1 问题描述

给定产品评论文档集D={d1,d2,…,d M},其中:M为文档数目;d i为第i条评论。评论d i具有情感倾向,本文研究问题仅限于对文档的正、负情感极性分类。评论文档集可以进一步表示为

其中,Si表示评论d i的情感倾向,Si=1表示对应的评论d i情感极性为正向,Si=-1表示对应的评论d i情感极性为负向。本文的研究问题即是求解向量(S1,S2,…,SM),即判断每条评论的情感倾向,将评论进行情感分类。

1.2 相关定义

本文通过计算每条评论和理想评论的主题相似度获得评论的情感倾向值,为使问题更加清楚,以下给出主题、评论及理想评论的相关定义:

D——评论集

N——评论集含有的词数

R——一条评论的向量表示

z——主题

k——评论集的主题数

T——评论的主题向量

θR——评论R在k个主题上概率分布

φz——主题z的词分布

Twordszi——主题zi的代表词

Dpos,Dneg——正、负向代表评论集

λ——相似度阈值

Hennig-Thurau等[15]定义在线产品评论为:潜在的、当前的以及过去的消费者公开发布在网络上的对某个产品或企业的正向或负向的陈述。消费者在线产品评论主要围绕产品特征进行评价,包括产品属性特征,如电脑屏幕、系统等,也包含产品购买平台特征,如物流、服务等,并通常伴有情感表达。由于在线产品评论通常比较简短,所含词语较少,随意性较强,完整性较差,一条评论所评价的产品特征数目较少,导致产品特征向量稀疏。而且,由于评论巨大的数据量,产品特征提取本身已是一项艰难的任务,将对应的观点与产品特征匹配又进一步提升了对算法技术的要求,且经常需要领域本体的支持[16]。因此,本文引入主题的概念,将一条评论表示为一个主题分布向量。具体地,主题的描述性定义如下:

定义1主题。一个主题可由产品特征、特征观点及情感3个维度描述,以“电脑散热性能”主题为例,“CPU 温度高”“风扇噪声大”,包含了对不同产品特征CPU、风扇,及对应的观点的情感表达。记第i个主题为z i,对应的情感倾向为1}=1表示正向情感极性=0表示负向情感极性。

本文中,以主题作为基本情感极性单位,每个主题的情感倾向为正向或负向。基于主题情感极性构建理想评论,首先定义评论:

定义2评论。假设整个评论文档集D共包含k个主题,则一条评论R可以表示为一个多维向量R=T=(t1,t2,…,tk),其中,ti∈[0,1],表示评论R属于第i个主题z i的概率。

若两条评论的主题概率分布相似,则认为两条评论相似,而且两条评论的情感倾向值近似。因此,可以通过评论间的主题相似性判别评论情感倾向。Turney[5]在计算情感词的情感倾向值时,通过计算该情感词和正向词“excellent”的关系值及其与负向词“poor”的关系值的差值获得。借鉴此思想,本文在计算每条评论的情感倾向值时,通过计算每条评论和具有强烈正向情感的正向评论的关系值及其与具有强烈负向情感的负向评论的关系值差值获得。相比于词之间的关系,评论之间的关系更为复杂,为了突出情感维度的关系,本文构造评论文档集D上的两条理想评论和分别称为理想正向评论和理想负向评论。具体定义:

定义3理想评论。理想正向评论即为包含且仅包含所有正向情感表达的主题的评论,而理想负向评论即为包含且仅包含所有负向情感表达的主题的评论。即

其中,0<ti<1,若=1,则ti=0;

其中,0<ti<1,若=0,则ti=0。

2 基于主题相似性的情感分类模型

第1节中将评论表示为主题向量,并且引入了具有强烈情感倾向的理想评论。在此基础上,通过计算每条评论和理想评论的主题相似性,获得每条评论的情感倾向值,进而构造一种基于主题相似性的情感分类模型,自动对在线评论进行情感分类,具体的模型结构如图1所示。

图1 基于主题相似性的情感分类模型总体结构

2.1 LDA模型

为获得评论文档集的主题,采用LDA 主题模型方法训练评论集。

潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)由Blei等[7]提出,它是一个“文档-主题-词”的3层贝叶斯生成式模型,其特点是参数空间的规模与语料库大小无关,适合于处理大规模语料库,在文本分析领域应用广泛。

LDA 模型中,语料库中的每一篇文档可以表示为若干主题构成的一个概率分布,而每个主题又可表示为若干个词构成的一个概率分布。如图2 所示,各文档的主题概率分布服从参数为α的Dirichlet分布,而各主题的词分布服从参数为β的Dirichlet分布。

图2 LDA 的图模型表示

具体地,对于语料库中的每篇文档,LDA 模型的文档生成过程为:

(1)对于每篇文档d,从参数为α的Dirichlet分布中选择主题参数θd;

(2)对于文档d中的单词,从参数为θd的多项式主题分布中产生一个主题;从参数为的多项式单词分布中产生单词;

(3)重复上述步骤,直至生成整个文档。

将评论文档集D,输入LDA 模型,训练可以得到文档集D的k个主题;同时,每篇评论r∈D被表示为k个主题的概率向量分布,实现了评论的主题表示;而每个主题z也被表示为一个词向量,隐含着不同的产品特征和对应的声明及情感表达。

2.2 理想评论构造

对于给定的评论集D,其中并不包含理想评论,需要自动生成。以下给出生成该评论集上的理想评论的具体方法。

(1)以Gibbs抽样方法训练评论集D得到评论LDA 模型,产生k个主题,评论在主题上的分布为θ,主题在词上的分布为φ;θR表示评论R在k个主题上概率分布。

(2)计算主题z的情感倾向值。ϕz=(ϕz1,ϕz2,…,ϕzN)表示主题z的词分布,N是评论集D中的所有词,结合情感词典(台湾大学情感词典),主题z的情感倾向值计算公式为

其中:x i为决策变量,若第i词为褒义词,则x i=1,若为贬义词,则x i=-1,若不在词典内,则x i=0;Sz>0,表示主题z为正向情感,否则为负向情感。

(3)构造近似理想评论。ϕz为所有词属于主题z的概率,取概率值大于p0的词作为主题z的代表词,表示为;取所有正向主题zi的,所有词构成一条理想正向评论;取所有负向主题zi的,所有词构成一条理想负向评论。

(4)将理想评论输入LDA 模型,估计它们的主题分布,得到理想评论的主题表示。

2.3 情感分类模型

由LDA 模型得到每条评论以及理想评论的主题向量为:

每条评论可量化为各自的主题概率分布为:

以评论和理想评论之间的主题相似度差值作为判别评论情感倾向的依据,具体地,评论R∈D的情感倾向值可由下式计算:

由于理想评论包含主题数较多,而普通评论通常较为简短,所包含的主题数较少,即使具有相同的情感倾向,但是由于两者对应的主题概率分布的差别,由式(2)计算得到的相似度会有所降低,进而,由式(1)计算得到的评论情感倾向值也会有偏差。为了降低此偏差,分别以正、负向表示评论集Dpos、Dneg代替正、负向理想评论。给定阈值λ∈[0,1],若sim(R,>λ,则R∈Dpos;若>λ,则R∈Dneg。评论R∈D的情感倾向值可由下式计算:

若sentiment(R)>0,则评论R情感倾向为正向;若sentiment(R)≤0,则评论R情感倾向为负向。

具体地,评论集D上的情感分类算法的步骤为:

(1)对评论集D进行预处理。①采用中科院的分词系统ICTCLAS 分词;②剔除停用词,得到评论集D′。

(2)以评论集D′作为训练数据集,输入LDA模型获得评论集D的主题分布矩阵θD等,以及评论集D的LDA 模型final-model。

(4)根据式(2)计算普通评论和理想评论的相似度,取相似度阈值λ,构造正、负向代表评论集Dpos、Dneg。

(5)根据式(3)计算每条评论的情感倾向值sentiment(R),对所有评论进行情感分类。

3 实验结果分析

3.1 数据集

下载谭松波公布的关于计算机、酒店及图书的情感分类数据集,并从数据堂下载关于手机的情感分类数据集。对4个数据集进行整理:①剔除字数在10字以下以及无效评论;②删除情感标注明显不恰当的评论。整理后,共得到有效评论9 259条,每种数据集的大小和正负情感分布如表1所示。

表1 实验数据集

其中,数据集Corp1主要用于算法性能测试,而Corp2~4则主要用于验证算法的领域可移植性。

3.2 主题发现及其情感判别

首先是情感词典的构建,本文采用台湾大学情感词典,从语料中提取在线产品评论中特有的表达情感的词和短语,如“性价比高”“实惠”“节能”“退货”“烫”“噪声”“划痕”等,扩充为适用于本文研究的情感词典。

其次,以LDA 模型发现评论集主题及每条评论的主题向量表示,参数设置为:α=0.625,β=0.01,主题数k=80(依据困惑度选取),迭代次数10 000。本文所用LDA 工具包下载地址:http://jgibblda.sourceforge.net/#Griffiths04。

利用LDA 模型的文档-主题矩阵θ可以得到第i条评论的k维主题向量θi,即R i=θi,i=1,2,…,M;利用主题-词矩阵ϕ可以得到第i个主题的N维词向量ϕi,结合情感词典,得到主题zi的情感倾向,i=1,2,…,k,具体如表2所示。限于空间,只列出计算机Corp1的部分主题。

表2 主题代表评论

依据主题情感极性及其词向量分布ϕ,由2.2节理想评论构造方法分别构造了近似理想正评论和近似理想负评论,并由该评论集的LDA模型得到两条近似理想评论的主题向量:

计算向量θP和θN的皮尔逊相关相似度,值为-0.78,显著负相关,验证了本文提出的构造近似理想评论方法的有效性。

3.3 情感分类

利用基于主题相似性的情感分类模型对实验语料进行情感分类。为了检测阈值λ对最终分类结果的影响,在数据集Corp1上,取不同规模评论语料,研究了λ取值对分类结果的影响,利用F1值作为实验结果的评估标准。从评论集Corp1 中随机抽取相应规模的评论数(为简便计算,正、负向评论数相同),获得6个评论测试集,规模分别为:500、1 000、1 500、2 000、2 600和3 000。研究的λ取值范围为[0,0.3],实验结果如图3所示。

图3 不同规模评论预测结果F1值(子图为固定λ值,语料规模增大对应的F1值变化情况)

由图3可以看出,虽然评论语料规模不同,但是,随着阈值λ的增大,实验结果F1值总体呈波动下降趋势。在所研究的λ取值范围内,实验结果的F1值在[0.723,0.817],若除去规模为500条评论的小规模测试集,F1值的波动范围仅为[0.761,0.805]。可见,λ取值对具有一定规模的评论集的实验结果有影响,但是影响不大。在λ∈[0,0.03]时,F1值均在0.785 以上,正负情感倾向判别结果较好。另外,由子图可以发现,对于固定的λ值,随着评论语料规模的逐渐增大,F1值并未有明显的规律,基本上是在某个固定值上下波动。这说明,λ的取值与语料规模无明显关系。

基于上述分析,本文中λ的取值方法为随机取自区间[0,0.03]。表3所示为当λ随机取自区间[0,0.03]时,在计算机评论集Corp1的评论情感分类的实验结果,以准确率P、召回率R以及F1值作为评判实验结果的标准,结果为10次实验的平均值。

表3 实验结果

由表3可以看出,当λ在区间[0,0.03]内随机取值时,计算机类评论集Corp1 的正、负情感倾向判别结果的准确率P、召回率R以及F1值均在80%,且10次实验的结果变化幅度极小,F1值的变化幅度仅为0.001。因此,λ在区间[0,0.03]内任意取值,可以降低程序计算的复杂度,在简化实验过程的同时又不会降低算法性能。

为进一步验证本文所提模型的有效性,将本文模型与其他情感分类模型进行比较,包括ASUM 模型[4]、JST 模型[8]、Pang等[11]的方法和UTSU 模型[9],采用数据集Corp1。比较结果如图4所示。

图4 情感分类效果对比图

5种方法中,Pang方法是有监督的学习方法,其他4种均为无监督的主题情感混合模型。由图4可以看出,综合考虑准确率和召回率,效果最好的是Pang方法。但Pang方法是基于向量空间模型的有监督学习方法,需要先对标注好的样本进行训练才能测试。其他4种无监督算法中,USTU 模型、ASUM模型以及本文提出的基于主题相似性的情感分类模型中,本文的结果明显优于其他模型,综合评价指标F1值比其他模型高3%~20%,验证了本文算法的有效性。综合上述实验,本文所提出的基于主题相似性的情感分类模型,在当λ在区间[0,0.03]内任意取值时,评论的情感分类F1值可以达到比较理想的结果,能够有效地判别评论的情感倾向。

3.4 领域可移植性实验

为了进一步验证本文所提出的基于主题相似性的无监督情感分类方法具有较好的领域可移植性,分别在酒店、图书及手机3类产品的数据集(见表1 Corp2~4)上进行测试。算法参数设置与Corp1实验相同,参数λ随机取自区间[0,0.03],情感分类结果如图5所示。

图5 领域可移植性实验结果

由图5可以看出,本文方法在不同领域的评论上均展现了较好的性能,综合F1值达到80%以上,充分说明了该方法在领域可移植上的优越性。另外,在F1值表现上,酒店类评论达到85%以上,而图书类和手机类均在80%左右。这是因为,酒店类评论主题相对集中,基本围绕地理位置、房间大小及卫生、周边环境等,因而理想评论能够更全面地包含所有评论的主题;而图书类评论中,消费者大多会对图书的内容进行评价,由于图书题材及内容的广泛性,使得构造理想评论的全面性较低,进而判别结果有所降低;同样地,手机类产品的评论主题通常也较多,包括手机多样的性能及用户差异性体验等,因而F1值也在80%左右。

4 结语

针对中文在线产品评论进行情感倾向判别,即在篇章级别上判断一条评论情感极性的正负。近年来,基于主题模型的无监督情感倾向分析越来越受到学者的青睐,而现有主题情感混合模型中,由于主题分布和情感分布会有一个是局部分布,在线评论文档的情感偏移或主题数目变化会导致局部分布不确定性增加,而使最终分类效果不佳且不稳定。因此,本文在基于主题模型的文本分类方法的基础上对情感分类问题进行研究,采用最常用的LDA 主题模型,以情感词典方法获得主题的情感倾向,提出一种基于主题相似性的无监督在线评论情感分类模型。为弱化主题内容对情感分类的影响,引入理想评论并构造理想评论代表集。通过计算评论和理想评论集的主题相似度,获得在线评论的情感倾向值,实现情感分类。

为验证算法的有效性,在计算机、酒店、图书及手机4个不同领域产品的评论数据集上进行实验。实验结果表明:①利用情感词典及主题词向量能有效判别主题的情感极性;②基于主题情感极性的近似理想评论构造方法产生的理想正、负评论的相似度达-0.78,情感极性两极化明显;③在准确率、召回率及F1值表现上,本文算法比Pang等[11]的有监督算法低,但是优于其他主题情感混合模型;④本文方法具有优越的领域可移植性,在不同领域数据集上表现较好。

本文的研究结果在中文在线评论情感分类相关理论和实践应用中均具有一定的参考价值。①理论贡献。基于文本相似性的情感分类方法通常是两条评论相互比较,而本文引入理想评论并扩充为理想评论集,通过比较评论和理想评论集内所有评论的相似度得到每条评论的情感倾向值,丰富了在线评论情感分类方法和理论。②实践贡献。在线评论的情感极性反映了消费者对购物体验的综合情感,电子商务环境下,商家可以通过在线评论情感极性推测消费者的再购意愿及行为,为制定个性化营销策略提供参考依据。

以下两个方面值得深入探讨:①本文研究内容限于在线评论篇章级别的情感分类问题,而现在更多的评论则是从多方面对商品进行阐述,对在线评论进行细粒度的情感分类将是下一步的研究重点。②本文研究方法为无监督学习,当数据含有标签或部分有标签时,如何利用标签信息改进模型也是一个可行的研究方向。

猜你喜欢

极性文档向量
浅谈Matlab与Word文档的应用接口
向量的分解
有人一声不吭向你扔了个文档
聚焦“向量与三角”创新题
跟踪导练(四)
红葱不同极性提取物抑菌活性研究
Word文档 高效分合有高招
香椿子不同极性部位对糖尿病周围神经病变的保护作用
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线