APP下载

基于多特征改进卷积神经网络的文本情感分析∗

2021-04-04

计算机与数字工程 2021年3期
关键词:集上卷积词典

(江南大学物联网工程学院 无锡 214000)

1 引言

当今的社会,是一个信息大爆炸的社会。随着互联网的接入,智能手机的普及,流量价格越来越低,人们每天花费在网络上的时间越来越多,而在不知不觉的上网过程中,我们一直产生着惊人的数据信息:在淘宝网上追加自己的购物评价、在美团上发表自己的美食体验、在微博上对某件社会事件发表自己的看法、在空间晒自己的旅游感受等。这些普通平常的举动,其实蕴含着丰富的商业价值。淘宝商家可以通过用户的购物体验获得用户喜好;美团通过用户对美食评价,获得用户口味偏好;微博官方通过搜集网上的评价,可以获知用户政治倾向等。如果把这些信息都搜集起来,进行情感分析,加以整理分类,那么就可以了解到整个社会的消费倾向、生活状态等。

传统的文本情感分主要采用人工方式进行情感分析,是一种基于规则的方法[1],主要是依赖专家提供的情感词典或者模板进行文本的情感分析,整个过程需要大量的人工参与,费时费力,效率低下。自从深度学习研究热潮的兴起,不断有人尝试把深度学习应用到各个领域中去解决现实中的问题,比如人脸识别、语音识别、场景识别等。同样,深度学习也已经逐渐应用到文本的情感分析中。目前,已经有诸多的学者进行了大胆的尝试,如,早期Pang[2]采用机器学习算法,支持向量机,朴素贝叶斯以及最大熵用于电影评论的情感分析,随着深度学习的发展,Kim[3]等首次尝试在单层卷积神经网络的基础上通过多种特征输入进行对比实验;Kalchbrenner等[4]设计了一个动态卷积神经网络模型进行自然语言的处理;刘龙飞[5]等提出了加入字向量以及词向量进行微博情感分析,并在COAE2014任务上取得了较好的结果;杜昌顺[6]等提出了分段卷积用于文本情感分析,其分段操作主要针对池化阶段进行操作,需要说明的是本文提出的分段卷积,主要针对卷积阶段进行操作。

本文针对端到端的卷积神经网络缺乏对罕见词的处理以及对不同领域的泛化性,提出了一种加入词典特征以及词性特征进行特征增强的卷积神经网络模型。主要包括以下三部分:1)采用字特征、词典特征以及词性特征表征句子向量,通过词典特征以及词性特征提高模型对罕见词的处理,提高模型在不同领域的泛化性;2)在卷积神经网络的卷积层,根据句子的结构采取分段卷积操作,可以最大化保存句子的情感特征;3)采用投票机制对多个模型进行判断,选择票数最多的类别作为文本的情感倾向性类别。通过大量对比实验,该模型相比其他模型而言,具有更高的准确率。

2 多特征改进卷积神经网络(MFIC⁃NN)模型

2.1 多特征向量表示

字特征是中文处理的基本单位,本文采用字特征作为模型的基本输入,字特征可以减弱未登录词带来的分词错误问题,如:苹果电脑的触控六六六,其中“六六六”为褒义词,分词的话反而会改变句子的语义信息,设句子X=c1,c2,…,cn,每个字符ci的字向量表示为αi=ec(ci),其中ec对应每个字的查找表。一个长度为n的句子的字特征矩阵描述为式(1)所示:

其中⊕表示连接操作符。

词典特征作为模型的另一输入,通过对词典构建Tree树,对句子中每个字搜索找到所有可能与词典中匹配的词进行编码,如果该词在词典中对应的标记为为POS,那么对应词典编码为1,如果该词在词典中的标记位为NEG,那么对应词典编码为-1,如果在词典中不存在,对应编码为0。如图1所示,原始句子为摄像头很不清楚,其中“清楚”在词典中的标记位为POS,“很不清楚“在词典中的标记位为NEG,那么选择句子中字的最长匹配作为最终的词典特征编码,即句子中对应字的词典编码为-1。设一个长度为n的句子,那么每个词ti对应的词典特征向量表示为βi=et(ti),其中et对应每个词典特征的查找表。一个长度为n的句子的词典特征矩阵描述为式(2)所示:

其中⊕表示连接操作符。

图1 词典特征示例图

为了捕获更多的情感信息,把每个词的词性特征转化成向量,作为句子的特征。在情感分析中,影响句子的情感极性通常是形容词、副词、动词和名词等。如:我/r很/d喜欢/v这/r本/q书/n,电脑/n太/d差/a。词性的不同搭配反映了句子的句法信息。词性不仅包括分词的词性信息,而且包含了句子的分词信息,本文采用BIOES表示每个字在分词中的位置,B表示分词的开始,I表示分词的中间位置,O表示非实体词,E表示分词的结尾,S表示单个字,如:“电脑”的词性特征可以表示为[B-n,E-n],设一个长度为n的句子中的每个字符ci的词性为si,γ=es(si)为该字的词性向量,即句子的词性向量矩阵描述为式(3)所示:

其中⊕表示连接操作符。最终模型的输入特征矩阵为X=α⊕β⊕γ。

2.2 模型构建

MFICNN模型构建主要包括以下四个部分,分别是多特征输入层、卷积层、多池层和输出层。整个模型的构建如图2,下面对每个部分做详细说明。

1)多特征输入层:输入层部分,融合了三种特征词向量矩阵,分别是字向量、词典向量以及词性词向量。那么对于长度为n的句子X=c1,c2,…,cn,其特征向量表示如式(4)所示,其中α,β,γ定义如式(1)、式(2)、式(3)所示。

图2 多特征改进卷积网络模型

2)分段卷积层:传统的卷积神经网络在卷积层部分是把输入部分作为一个整体进行卷积操作。这种卷积操作在人脸识别、语音识别等领域中都有较好的表现,但是在文本的情感分析中,尤其是在转折句式部分,对于转折句式的评论语句,在原始的数据集中占有相当大的比重,据统计至少有17.3%。可以说,转折句式的识别效果的好坏可以影响到整个模型的情感识别准确率。所以,在模型的卷积层部分加入了分段卷积机制,以实现对转折句式的准确判断:

(1)首先定义转折词词表,主要包括:“但是”、“可是”,“不过”,“然而”,“偏偏”等;

(2)判断该评论语句是否存在转折词,如果存在,那么以转折词进行句子切分,否则句子整体作为模型输入;

(3)对输入向量进行卷积操作,为了充分获取到句子中更多的上下文信息,采用不同大小的卷积核进行卷积操作,本文默认使用卷积核h=3,h=4,h=5三组不同的卷积核,卷积操作后得到特征图Chi,计算方式如下:

其中ci表示的是特征图中第i个特征值;f(·)表示的是非线性激活函数;xi:i+h-1多特征词向量矩阵;h代表的是卷积核权重的大小,b表示偏置项。

本文使用步幅s=1的卷积,当卷积核在句子长度为n的文本上操作,共得到n-h+1个输出,则卷积层提取的特征图为

若识别的句子结构是转折句式,由于模型采用的是分段卷积,则会进行分段卷积操作。卷积操作方式仍然如式(5)所示,只是p的值会根据模型的分段情况而定,一般都是分成两段,若p取“1”,代表上分段;若p取“2”,代表下分段。相应的,卷积提取的特征图也就分为C1j和C2j。若采取的是其他分段,依次类推,句子的卷积层输出为不同段位的输出结果串联,如式(7)所示:

3)多池层:传统的卷积神经网络对卷积层输出的特征矩阵采用最大池化操作,即一个特征矩阵只提取一个最大特征。这种方法的优点就是操作简单,计算的参数少,训练时间短。但是这种方法往往忽略了句子中其他隐藏的特征。一个句子中,往往有多个重要特征,而采用单一的最大池化方法,会导致其他重要特征的丢失。所以,模型中采用的是多池化操M-max,即在卷积层输出的特征矩阵上,根据特征图的长度,采取动态多池操作:

其中,M是最大池化取样窗口,Clen是特征图的长度。假设C1ji的长度为6,则采取的最大池化数量就是M=3。通过多池操作,可以获取每个特征图中多个重要的特征,进而综合考虑多种因素。

4)输出层:传统卷积神经网络的最后一层(一般是输出层)是全连接层。在最后的输出层部分,将特征向量作为sigmod的输入。在全连接层的训练过程中,模型为防止过拟合,加入Dropout,最后根据模型的情感分类标签与实际分类结果进行反向传播梯度更新,则有:

其中,y∈{0,1},Ws∈R|P|,bs为偏置项。

3 模型训练

本文提出的模型主要用于文本的情感分类,归根还是分类问题,本文把情感类别分为两类,积极情感和消极情感,所以模型的目标函数为

当Loss=0时,模型输出值与实际标签值较为接近,假设训练样本标签为y=1,可得Loss=-ln(),当模型预测值≈1时,此时Loss=0,当训练样本标签为y=0时,可得Loss=-ln(1-),当模型预测值≈0时,此时Loss=0。

为了进一步防止过拟合现象,使用L2正则[7]表达式,λ为正则化的参数。训练的过程中采用Ad⁃am[8]算法最小化目标函数,以提高模型的收敛速度,则目标函数表示为

4 实验

4.1 实验数据

为了测试模型的准确性,采用十折交叉验证的方式训练模型,数据来自中国科学院谭松波教授搜集的酒店评论语料[9]以及从数据堂等方式下载的文本情感分析语料,数据共16000条,把数据分别划分待训练集、测试集两部分,取10%作为测试集,验证集每次从待训练集中抽取。每种数据集中正面情感极性和负面情感极性都约占一半。这里需要指出的是,为了测试本文模型的优越性,待训练数据集和测试数据中都有至少20%的转折句式语料。

4.2 评价标准

本文采取两个评测指标度量文本情感分类效果:准确率(Accuracy)和F1值。对于准确率计算方法,设数据集大小为N,样本xi的真实标签为yi,实际分类标签为,则计算公式为如式(12)所示:

F1计算方式,则是结合精准率和召回率,F1是对精准率和召回率的一个综合衡量。假设精准率表示为p,召回率表示为R,则计算方式如下:

其中TP表示实际为正例,模型预测为正例的数据;TN表示实际为负例,模型预测为负例的数据;FP表示实际为负例,模型预测为正例的数据;FN表示实际为正例,模型预测为负例的数据。

4.3 实验参数设定

实验中主要参数设置如表1所示。

4.4 实验结果及分析

为了验证本文模型在性能上的优越性,根据本文提出的模型的特点具有针对性的设计了对比实验。实验一,主要针对模型中的多特征部分进行对比,采用相同的卷积神经网络模型进行测试。实验二,主要针对比MFICNN模型与当前主流情感分析模型对比,验证本文算法有效性。

表1 实验参数设置

实验一,分别采用MFICNN模型与字特征(CHAR_CNN),词特征(WORD_CNN)以及字词特征结合[5](CWCNN)模型对比,分词器采用jieba分词[10]。图3显示了模型在验证集上的十折正确率变化结果,表2显示了十折模型在测试集上情感极性判断的正确率和F1值。

表2 模型在测试集上正确率与F1值

由图3可以看出,CHAR_CNN模型在验证集上的十折结果高于基于分词特征的WORD_CNN模型,CWCNN模型较于CHAR_CNN模型提高了1%个点,MFICNN模型较于CHAR_CNN模型提高了3%个点。表2显示了不同模型在测试集上的结果,测试集上,WORD_CNN模型在测试集上的结果最低,导致出现这种情况主要原因是目前的分词器对未登录词识别效果有限,错误的分词导致句子语义信息改变;MFICNN模型取得了0.912的正确率以及0.907的F1值,通过词典以及词性进行特征增强,辅助CNN学习相邻窗口之间的语义关系,这也充分说明多特征方法是有效的。

实验二,本实验中MFICNN不仅包括多特征输入而且卷积部分采用分段多池操作,分别与支持向量机(SVM)、循环神经网络(RNN)[11]、卷积神经网络(CNN)、字词结合的卷积神经网络(CWCNN)[5]和分段卷积神经网络(PCNN)[6]对比,基于实验一结果,RNN以及CNN模型分别采用字特征作为模型输入,SVM采用向量空间模型(VSM)[12]表示特征,分别使用TF_IDF权重[13]表示以及BOOL权重[14]表示进行对比,实验结果如表3所示。

表3 实验对比结果

从表3可以看出,相比其他模型,本文提出的MFICNN模型在测试集上明显取得了更高的精确度,其中MFICNN取得了0.923的正确率和0.916的F1值,MFICNN+投票机制比MFICNN模型在两个不同指标下都提高了1%的精度。下面对实验结果对比进行详细的分析。

对于传统的机器学习方法,支持向量机在测试集上的结果低于其他深度学习算法,向量空间表示的方式,词与词之间相互独立,使得句子语义信息缺失,在规模较大的数据集上表现效果较差。RNN在句子级情感分类上效果低于CNN,其主要原因是中文评论语句较短,局部语义信息明显,CNN模型可以充分利用滑动窗口,提高局部特征识别能力。字词结合的卷积神经网络CWCNN在本次实验中达到了0.891的精确度,较于基本CNN模型提高1%左右。MFICNN模型比SVM高了12%左右,比RNN提高了8%左右,CNN提高了5%左右,比CW⁃CNN高出了4%,比PCNN模型高出了5%。这足以说明MFICNN模型相比MCCNN模型和PCNN模型更具有优势。对于CWCNN模型来说,虽然采用了多通道机制对词向量进行多特征提取,但是因过于注重输入模型词向量部分的特征提取,导致了其他一些次要特征被提取出来并放大,影响了最后情感的识别。同时CWCNN模型未对卷积层和池化层进行改进,只是改进了输入层的词向量部分,这些也影响了最终识别率。这些都说明了,MFICNN在文本情感分析上的有效性。

为了进一步提高MFICNN模型在测试集上结果,本文采用另外两组卷积核为(2,3,4)和(1,3,5)训练MFICNN模型,然后采用三个不同模型进行投票,投票类别数最多的作为最终情感分类类别,由表3可以看出,MFICNN模型+投票机制在测试集上提高了2%的效果。

通过上面的对比试验可以看出,本文提出的MFICNN模型相比其他网络模型,取得了最好的实验效果,情感识别效果最高。说明了MFICNN能够较好地捕捉多种句子隐含特征,更好地进行情感判断。

5 结语

本文提出的多特征改进卷积网络MFICNN情感分析模型,通过加入词典特征、词性特征进行特征增强以及分段多池操作提高模型领域泛化性。实验中,在数据集相同的情况下与多种情感分析网络模型的进行对比,MFSCNN模型都取得了更好的效果,体现出模型对情感分类的可行性和鲁棒性。

本文处理的句子级中文文本情感分析问题,缺乏对评价对象的情感倾向判别,这将是下一步工作内容。

猜你喜欢

集上卷积词典
基于全卷积神经网络的猪背膘厚快速准确测定
基于FPGA的卷积神经网络加速优化方法
基于图像处理与卷积神经网络的零件识别
关于短文本匹配的泛化性和迁移性的研究分析
米兰·昆德拉的A-Z词典(节选)
米沃什词典
基于深度卷积网络与空洞卷积融合的人群计数
“函数及图象”错解词典
师如明灯,清凉温润
漫画词典