APP下载

改进枢轴特征选择的跨领域情感分类

2020-11-17梁俊葛张周彬邵党国

计算机工程与设计 2020年11期
关键词:词形特征选择分类

梁俊葛,相 艳,张周彬,熊 馨,邵党国,马 磊

(昆明理工大学 信息工程与自动化学院,云南 昆明 650504)

0 引 言

在无标签数据领域中进行情感预测是一个值得研究的问题,跨领域情感分类是解决这一问题的方法之一[1-5]。近年来,深度学习方在各领域有着良好的实际表现已经逐渐取代传统的机器学习方法成为跨领域情感分类的主流[6-11]。Ziser等[12]提出了神经结构对应模型,他们的模型可以捕捉到不同领域间有着相同表征的特征,并解决不同领域间特征分布问题。Yu等[13]提出了一种基于神经网络的跨领域情感分类模型,可对文本进行多重分类。虽然跨领域情感分类的研究已经取得了诸多成果,但仍存在一定问题:①传统的跨领域情感分类中,在文本向量化工作中使用词袋模型把文本转换为向量形式,这种方法从根本上不可避免会导致特征冗余的情况。②现有工作中,枢轴特征选择方法并不完备。例如,传统的跨领域情感分类主要采用互信息算法来选择枢轴特征,该方法更多只考虑了特征与情感标签直接的关系,并未考虑特征出现在文本中的频次。而枢轴特征选择的好坏,直接影响到最终的跨领域情感分类结果。

为解决上述问题,本文提出了改进枢轴特征选择的跨领域情感分类模型:IPFS(improved pivot feature selection for cross domain sentiment classification)。该模型通过词形还原构建更稠密的文本特征,融合卡方检验算法选择出更高质量的枢轴特征,结合神经网络,得到更好的迁移特征。在亚马逊数据集上的实验结果表明,本模型相较现有传统跨领域情感分类模型具有更好的分类效果。验证了本文模型在跨领域情感分类任务中的有效性。

1 相关工作

已有的跨领域情感分类方法主要有基于跨领域词嵌入的方法、基于枢轴特征选择的方法以及基于自编码器的方法。

跨领域词嵌入的方法主要思想是约束枢轴特征在不同领域中有着相似的词嵌入表示。Bollegala等[14]提出了跨领域词嵌入表示模型,通过约束枢轴特征在不同领域之间有着相似的词嵌入表示,来解决跨领域任务中枢轴特征的词嵌入分布问题。Yang等[15]将word2vec模型的损失函数加入了新的约束项,结合源域词向量来生成目标域的词向量,实现跨领域情感分析。另一类跨领域情感分类方法是基于枢轴特征选择的模型。Li等[16]利用注意力机制网络模型自动选择出枢轴特征,通过联合训练两个参数共享的内存网络来选择出更适合情感分类的枢轴特征并完成情感分类。Ziser等[12]提出神经结构对应学习模型,利用神经网络的优势来得到非枢轴特征和枢轴特征之间的映射关系。另一类基于自动编码器的方法主要通过提取出对跨域变化具有鲁棒性的特征,来减少不同领域间的域间差。Chen等[17]提出平均深度对抗网络,通过对抗神经网络来将分类器从源域标签数据中学习到的知识迁移到无标签的目标领域中来学习跨领域中不变的特征。Ganin等[18]提出了DANN模型,利用领域对抗训练方法来使神经网络产生混淆分类器的表示。Qu等[19]提出了类别对齐对抗网络,通过增强源域和目标域的类别一致性来完成跨领域情感分类任务。

2 本文方法

2.1 问题描述

2.2 改进特征选择的神经结构对应学习模型

本文提出的改进特征选择的神经结构对应学习模型主要分为3个模块:枢轴特征选择模块、特征迁移模块、跨领域情感分类模块。

2.2.1 枢轴特征选择模块

枢轴特征是在不同领域中有着相同的表征的特征,在不同领域中充当桥梁的作用。本文提出的枢轴特征选择如图1所示。

图1 枢轴特征选择

具体步骤为:

(1)预处理

提取出源域和目标域中的文本内容,并对文本内容进行去标点符号、去停用词等预处理操作。

(2)词形还原

词形还原可以把词语转换为能够表达完整语义的一般形式,可以减少冗余特征,为文本向量化做准备。

例如“likes”和“like”都是“like”的不同词形,它们有着相同的情感极性,在枢轴特征选择中应该把它们作为同一个特征对待。

WordNet词典中对不同词性的特征有着不同的词形还原结果,因此在词形还原之前需要对文本中的每个特征进行词性标注。本文采用NLTK包中提供的词性标注器pos_tag来对词性进行标记,将对应的词性转换成WordNet词典的名形动副4种词性符号。将NN(名词)、NNS(名词复数)、NNP(名词单数)、NNPS(名词复数)转换为n(名词);将JJ(形容词),JJR(形容词比较级),JJS(形容词最高级)转换为a(形容词)。词性标注后,再使用NLTK库中基于WordNet的词形还原工具WordNLemmatizer对特征进行词形还原。

(3)文本向量化

利用Ds和Dt建立词袋模型,在此基础上进行文本向量化。文本向量的值为特征在该文本中出现的频次。步骤(2)中的词形还原可以起到文本向量特征降维的作用。例如在进行Amazon数据集Kitchen到Electronic跨领域情感分类任务时,词形还原任务前,总的特征数目为12 961,共有25 233个句子,因此总的文本向量矩阵的维度为25 233*12 961。经过词形还原后,维度降低到了25 233*12 383。

(4)选择具有最大卡方值的特征

卡方值表征了特征和标签之间的关联度,为卡方检验得到的统计值,其计算公式如下

(1)

(5)枢轴特征生成

在有着最大卡方值的特征中,选择在源域和目标域中词频均高于m的特征作为最终的枢轴特征,得到枢轴特征集合fp。

2.2.2 特征迁移模块

在特征迁移模块,通过映射矩阵将非枢轴特征降维到低维度的隐层特征,用该隐层特征来预测枢轴特征的存在。本文的特征映射如图2所示。具体过程如下。

图2 特征映射

(1)总的特征集合为f=fp∪fnp,其中fp为前文步骤得到的枢轴特征集合,fnp为非枢轴特征集合,fp∩fnp=φ。

(2)对于给定的输入文本,其枢轴特征向量表示为xp,非枢轴特征向量为xnp。为了学习到具有鲁棒性以及紧密的文本特征表示,需要学习到从非枢轴特征到枢轴特征间的非线性映射。采用神经网络结构,xnp作为神经网络的输入,通过编码得到低维度、共享的中间隐层特征表示,其计算公式为

hwh(xnp)=σ(whxnp)

(2)

其中,wh为特征映射矩阵,σ(·) 表示sigmoid非线性激活函数。

(3)之后用隐层特征hwh(xnp) 预测枢轴特征xp,计算公式为

o=σ(wrhwh(xnp))

(3)

这样得到的模型输出o是一个概率向量,其取值是[0,1]之间的数值,维度与xp维度一致,其值预测了对应枢轴特征在该输入文本中出现的概率。

(4)对于步骤(3)枢轴特征预测的结果,采用交叉熵函数作为损失函数,如式(4)所示

(4)

式中:|fp| 是枢轴特征的个数,xp是一个取值为0或1的向量,其第i个数值反映了所对应的第i个特征是否是输入文本的枢轴特征。数值为1表示该特征是输入文本的枢轴特征,为0则不是。这样,上一步正确预测的概率越高,损失函数就会越小。通过最小化总的损失函数,可以得到最优的wh和wr。

在特征迁移模块中,神经网络模型将高维度的非枢轴特征迁移到低维度、共享的隐层特征空间,在该低维的隐层空间下,源领域数据与目标域领域数据拥有相似的分布,故可以减小特征在不同领域间的域间差。

2.2.3 跨领域情感分类模块

跨领域情感分类器训练过程如图3所示。具体过程如下。

图3 IPFS的跨领域分类器

(1)利用源域和目标域标记数据,获得源域和目标域的初始文本特征。

(2)利用特征迁移模块得到映射矩阵,将源域非枢轴特征乘以特征映射矩阵得到源域的迁移特征。目标域非枢轴特征乘以特征映射矩阵得到目标域域文本向量的迁移特征。

(3)将源域标记数据的初始特征和迁移特征拼接,送入logistics分类器,训练分类器参数。

(4)将目标域的初始特征和迁移特征拼接,送入到训练好的logistics情感分类器,即可得到目标域情感分类预测结果。利用目标域标记数据进行测试,可以得到跨领域情感分类的准确率。

3 实验设置

3.1 数据集

为了验证模型的实验效果,我们进行了跨领域情感分类。采用Amazon产品评论数据的4个数据集:Books(B)、DVD(D)、Kitchen(K)、Electronics(E),每个领域包含1000条正向和1000条负向的产品评论,并且这4个数据集各有6000(B)、37471(D)、13 153(E)、16 785(K)条无标签数据。实验数据见表1。

表1 实验数据

3.2 实验对比模型

(1)No-DA:在源域训练好分类器,不做任何领域适应操作,直接进行跨领域情感分类。

(2)SCL-MI模型:该模型采用互信息筛选出枢轴特征,然后通过SVD分解将枢轴特征与非枢轴特征关联起来,为源域和目标域间提供一个桥梁,来完成跨领域情感分类。

(3)DANN模型:该模型利用对抗神经网络来完成跨领域情感分类任务。

(4)MSDA模型:该模型利用边缘化的去噪自编码器模型来完成跨领域情感分类任务。

(5)AE-SCL-SR模型:该模型在筛选出枢轴特征后,通过神经网络结构将枢轴特征和非枢轴特征关联起来,得到迁移特征,在此基础上,完成跨领域情感分类任务。

(6)IPFS-Chi2模型:是指本文所提出的枢轴特征改进方法中,只基于卡方检验选择枢轴特征的模型。

4 实验结果与分析

4.1 评价指标

本文采用准确率来评估跨领域情感分类的效果,定义如下

(5)

其中,num_correct为目标域情感分类正确的样本数,num_all为目标域数据集样本总数。

4.2 改进枢轴特征的实验

为了验证卡方检验和词形还原的有效性,本文在Amazon这4个不同领域数据集上对AE-SCL-SR、IPFS-Chi2和IPFS这3种模型进行了12组对比实验,结果如图4所示。

由图4可看出,相比AE-SCL-SR模型,IPFS-Chi2模型在12组实验中有9组取得了更好的结果,2组持平。在DVD到Book,以及Kitchen到Electronics的跨领域情感分类实验中,IPFS-Chi2模型的准确率分别高出AE-SCL-SR模型约0.8%和1.3%,验证了卡方检验对于选择枢轴特征的 有效性。进一步比较IPFS-Chi2和IPFS模型可以看到,在12组实验中IPFS模型有9组取得了高于IPFS-Chi2约0.3%的准确率,2组持平。在DVD到Kitchen的跨领域情感分类实验中,IPFS模型的准确率高出IPFS-Chi2模型约0.7%。以上结果进一步证实了词形还原的作用。

图4 改进枢轴特征选择方法的实验结果

4.3 与基线模型的比较

表2是本文方法与各基线模型的分类准确率对比结果。

表2 IPFS模型与其它模型的实验结果比较

可以看出本文提出的IPFS模型在各个情感分析任务中均取得了较好的实验结果,平均准确率达到了78.7%,优于所有的基线模型。对于跨领域情感分类任务,本文模型在12组实验全部优于SCL-MI模型,说明本文枢轴选择的质量影响着最终的实验分类准确率以及神经网络的优势性。与DANN模型相比,本文模型由11组优于DANN模型,1组持平,验证了本文模型的有效性,通过提高选择的枢轴特征质量并结合神经网络可以达到更好的分类准确率。IPFS在12组实验中有10组实验性能明显优于MSDA模型,1组实验性能与MSDA持平。与AE-SCL-SR模型相比,IPFS模型有10组实验性能优于AE-SCL-SR模型,1组实验性能与AE-SCL-SR持平,验证了本文模型可以更好选择高质量的枢轴特征,更好完成跨领域情感分类任务,达到更高的分类准确率。此外,IPFS模型相对AE-SCL-SR、DANN、MSDA、SCL-MI、No-DA跨领域情感分类的准确率在12组实验上平均提高了0.6%、2.7%、3.9%、4.4%和5.7%。实验结果表明,IPFS模型能够很好解决跨领域情感分类问题。

从表2的对比结果还可以看出,跨领域情感分类任务中,所有模型都在Kitchen和Electronic这一对迁移任务中取得了最好的结果,这说明Kitchen和Electronic领域的特征分布最相似,域间差最小,领域适应效果更佳。同时,从各个方法的平均准确率可以看出,特征迁移的模型均优于没有进行迁移的情况,这说明跨领域情感分类学习可以有效地提高分类准确率。

5 结束语

针对跨领域情感分类任务,本文提出的IFPS模型融合了词形还原和卡方检验来选择枢轴特征,在特征映射过程中结合神经结构对应学习来构建枢轴特征和非枢轴特征间的映射关系。通过词形还原来减少文本特征数目,得到更加稠密的文本向量化表示,通过卡方检验让模型能够更好得到和情感标签关联更紧密的特征作为枢轴特征,并结合神经网络完成跨领域情感分类任务。在Amazon数据集上的12组不同跨领域情感分类任务的对比实验结果表明,本文提出模型的准确率比几种较先进的跨领域情感分类模型有着进一步的提升,能够很好解决跨领域情感分类任务。

猜你喜欢

词形特征选择分类
分类算一算
韩国学校语法中副词形语尾的变迁
英语词形变异及其语义信息
分类讨论求坐标
带前置功能的词形《 в сопоставлениис 》的结构与搭配
数据分析中的分类讨论
教你一招:数的分类
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统