基于BiGRU和胶囊网络的文本情感分类研究

2022-07-07张甜陈辉

现代信息科技 2022年4期

张甜陈辉

摘要：为了避免池化层重要特征信息的丢失以及改善CNN和RNN无法全面提取特征的局限性，文章提出一种基于BiGRU和胶囊网络的神经网络模型—BGCapNet模型，该模型使用两个不同尺寸的BiGRU进行特征提取，实现文本长距离相互依赖的特性，胶囊网络获取更丰富的特征信息并通过胶囊预测进行情感分类。为了评估模型的有效性，在电影评论IMDB和SST-2这两个数据集上进行了实验。实验结果表明，BGCapNet模型在影评数据集上的准确率和F1值优于其他传统方法，有效提高了文本情感分类的效果。

关键词：文本情感分类;BGCapNet;BiGRU;胶囊网络;深度学习

中图分类号： TP391.1 文献标识码：A 文章标号：2096-4706（2022）04-0031-04

Study on Text Sentiment Classification Based on BiGRU and Capsule Networks

ZHANG Tian， CHEN Hui

（College of Computer Science and Engineering， Anhui University of Science and Technology， Huainan 232001， China）

Abstract： In order to avoid the loss of important feature information in the pool layer and improve the limitation that CNN and RNN can not fully extract features， this paper proposes a neural network model based on BiGRU and capsule network—BGCapNet model. The model uses two BiGRU with different sizes for feature extraction to realize the characteristics of long-distance interdependence of text. The capsule network obtains richer feature information and classifies emotion through capsule prediction. In order to evaluate the effectiveness of the model， experiments are carried out on two data sets of film review IMDB and SST-2. The experimental results show that the accuracy and F1 value of BGCapNet model in film review data set are better than other traditional methods， and the effect of text emotion classification is effectively improved.

Keywords： text sentiment classification; BGCapNet; BiGRU; capsule network; deep learning

0 引言

文本情感分析是自然語言处理、文本挖掘和计算机语言学的一个重要研究领域，主要是对网络平台上存在的带有情感倾向的主观性评论文本进行抽取、整理和分类，对文本中包含的情感词进行情感判断，以便政府机关、社会团体和个人等随时掌控社会情绪动态，适时做出相应干预，促进社会和谐。

早期的情感分类任务主要基于人为规则制定。传统的文本情感分析方法主要包括基于情感词典的方法和基于机器学习的方法。基于情感词典的方法在分类时严重依赖于情感词典，通过将目标词与词典中的情感词进行比对的方式实现分类。该方法适用性差，无法广泛应用于多个领域，构造词典时过于依赖人力物力，灵活度不高，难以应对不断变化的词形词意，不能适时地将网络新词囊括其中[1，2]。而基于机器学习的方法虽然取得了良好的效果，但过于依赖训练集，需要耗费大量的人力和时间进行语料标注，成本较高，效率低下，又容易忽视句子的上下文联系和语义关联，计算复杂度大，泛化能力不强[3]。为了解决手工特征提取这一问题，学者们提出了深度学习算法。

近年来，越来越多的研究者倾向于采用深度学习（Deep Learning， DL）算法来研究情感分类问题。李慧[4]采用统计学方法抽取属性特征词，结合互信息和信息熵等方法提高了分词的准确性;李洋等[5]为避免忽略词的上下文含义，提出将CNN和BiLSTM进行特征融合，提高了特征提取能力;孙玉霞[6]为解决主流模型训练时间长且无法充分提取文本特征的问题，提出了在BiGRU层提取特征的基础上，通过添加注意力（Attention）机制来提取更重要的特征，提高了特征提取的能力，证明了该模型的有效性。2011年，Hinton等[7]提出胶囊是一小群神经元，神经元的活动用于表示一个实体的各种属性;Sabour等[8]率先将这一概念应用到神经网络中，采用一种新的动态路由算法来选择主动胶囊，CapsNet的实验表明，在图像分类领域，胶囊的鲁棒性明显优于CNN;Zhao等[9]首次在情感分类任务中采用胶囊网络进行研究，连续两个卷积层采用动态路由替代池化操作，减少了CNN在池化层上特征信息丢失的概率，分类精度更高。总之，胶囊网络在情感分类任务中的应用，改善了CNN和RNN提取特征的局限性，提高了特征提取的准确率。E8783FAC-404F-4C25-BD25-730475807DD4

为了解决CNN最大池化特征信息丢失以及RNN无法全面提取特征的问题，本文提出一种基于BiGRU和胶囊网络的神经网络模型。首先使用两个不同尺寸的BiGRU作为特征提取器，实现文本长距离相互依赖的特性，其次胶囊网络作为顶层分类器获取更丰富的特征信息，同时对向量特征进行情感预测，最后通过非线性压缩函数对特征向量的长度进行压缩，以表示实体的分类概率。

1 网络模型设计

BGCapNet网络模型经过基本的预处理步骤后，由3个模块组成：基于Word2Vec的词嵌入层、基于BiGRU的特征提取层、胶囊网络层，网络模型整体结构如图1所示。下面将对各模块进行详细阐述。

1.1 词嵌入层

利用预先训练好的Word2Vec[3]方法将每个单词表示为多维分布向量，将含有单词的句子输入到嵌入层中，将每个单词转换为多维单词向量，最终得到矩阵M=[x1，x2 ，…，xi，…，xL]∈RL×d，其中xi=[wi1，wi2，…，wij，…，wid]，对应句子中的单词向量。每个句子都可作为单词的序列，通过词嵌入层的映射，既保留了句子的语序，又可将句子表示为矩阵形式，最终得到向量表示。

1.2 BiGRU特征提取层

循环神经网络（RNN）是一种能够获取方向上时间信息的网络。与基础神经网络相比，它在同一层的神经元之间也建立了权连接，能够传输当前时间的信息。GRU是一种特殊的RNN结构，相较于LSTM结构，GRU结构简单，参数少，更容易进行训练，在需要少量样本的情况下，研究者更倾向于使用GRU。GRU单元结构如图2所示。

GRU有两个门，分别是重置门和更新门，它们能够捕捉时间序列中的长短期依赖关系。在图2中，ht和ht-1分别表示当前状态和前一时刻状态的输出，xt表示当前时刻的输入，[ht-1，xt]表示ht-1与ht进行拼接，重置门rt和更新门zt是分别通过点乘Wr & [ht-1，xt]和Wz & [ht-1，xt]得到的，σ和tanh分别为sigmoid层和tanh层。通过rt和zt，我们能够计算出t时刻的状态输出ht。计算公式为：

BiGRU是一个基于窗口的特征提取器，比BiLSTM更简单，训练速度更快。本文采用BiGRU层进行特征提取，由两个方向相反的GRU单元构成。BiGRU在t时刻的隐层状态是通过t-1时刻的正向隐层状态输和反向隐层状态输加权求和得到的，计算公式为：

1.3 胶囊网络层

胶囊网络使用胶囊作为网络的基本单元，胶囊能够表示部分实体的属性，能够使用特征向量而不是标量来表示可视实体，在语义表达方面有较大的发展空间。本文所提出的胶囊网络的输入和输出都是向量，不仅可以在BiGRU层提取到大量丰富的特征信息，而且能对语义、方位等信息进行编码，大大提升了获取深层特征信息的能力。

在胶囊网络中，最外层是主胶囊层，用胶囊输出向量取代BiGRU层的标量输出，保留了单词的局部顺序和语义表示;接下来进入连接层，采用路由协议生成下一层胶囊，这一过程代替了池化操作，减少了重要信息（如位置、语义等）的丢失;在整个过程中通过动态路由算法来自动更新耦合系数c的权值，通过计算特征向量的模长得出不同的分类概率，从而进行文本情感分类。如图3所示，u是上一层胶囊的输入向量，c称为耦合系数，是通过动态路由更新迭代得到的，u和c进行线性组合就得到向量s，s为胶囊j的输入，计算公式为：

为了使特征向量的模长能够表示實体的分类概率，使用非线性压缩函数将特征向量长度限制在0～1之间。在公式（11）中，若s非常大趋于1，vj趋于1，反之vj趋于0。

2 实验结果与分析

本文选取的数据集为已整理并标注好的IMDB和SST-2电影评论语料，对其进行数据划分，数据集分布情况如表1所示。在提出的模型上进行实验，并与其他算法模型进行实验结果对比，证明该模型的有效性和适用性。

2.1 实验环境及参数设置

本实验在Windows10系统上进行，以pycharm作为开发环境，编程语言为Python3.8，深度学习框架为keras和Tensorflow，处理器为Intel（R） Core（TM）i5-6200U CPU @ 2.40 GHz，运行内存为4 G。实验过程中，Word2Vec预训练模型将每一个单词映射为300维的向量，BiGRU1和BiGRU2的尺寸分别为256和200，dropout的值设为0.2，学习率为0.001，批次大小设为100。

2.2 评价指标

为了更好地评估BGCapNet网络模型在文本情感分类任务中的性能，本文使用准确率、F1值作为本次实验的评价指标，具体公式为：

2.3 实验结果分析

本文选取准确率和F1值作为评价指标，对比实验选择了目前情感分析任务中常用的几种深度学习网络模型，不同分类模型在数据集上的实验结果如表2所示。从表2中可以看出，相较于其他传统深度学习模型，本文提出的模型取得了较明显的效果，CNN-rand模型在两种数据集上的准确率和F1值的分类效果欠佳，这是因为在训练过程中没有考虑到词与词之间的顺序问题和上下文联系，Capsule模型相较于CNN有较高的分类效果，表示比起CNN，Capsule具有更好的特征提取能力。

通过数据结果对比可以得出，在IMDB数据集上进行情感分类时，相较于CNN-static、BiLSTM、Capsule等传统的深度神经网络，本文提出的模型具有较好的分类效果，准确率和F1值分别达到82.5%和87.3%，与其他模型最高准确率相比分别提高了0.2%和1.2%;在SST-2数据集上进行情感分类时，CNN-multichannel模型的分类效果最高，这是因为它将static与non-static联合作为两通道的词向量，提取到了更深层次的特征信息。除此之外，本文提出模型的分类效果分别达到87.6%和90.0%，相较于其他六种网络模型，准确率和F1值均有不同程度的提高。因此，本文提出的基于BiGRU和胶囊网络的模型在解决文本情感分类问题上，较之传统深度学习算法性能得到了提升。由此可见，本文提出的模型是有效的。E8783FAC-404F-4C25-BD25-730475807DD4

3 结论

本文提出一种基于BiGRU和胶囊网络、用于文本情感分类任务的模型，该模型不仅能提取到大量丰富的特征信息，而且能对语义、方位等信息进行编码，从而提高了获取深层特征的能力。通过与目前情感分析中常用的几种深度学习网络模型对比得出，本文提出的模型在准确率和F1值上有了明显的提升，证明了模型在情感分类任务中的适用性。尽管该模型在情感分类任务中有较好的分类效果，但由于胶囊网络结构复杂、参数较多、计算量大，故容易造成模型训练的时间较长。因此在以后的研究中，加强对模型的训练，优化参数，减少计算量，力求在取得较好分类效果的同时缩短训练时间;也可以将该模型应用于其他情感分析任務中，以验证模型在不同领域的性能，并对模型加以改进，以取得更好的效果。

参考文献：

[1] 洪巍，李敏.文本情感分析方法研究综述 [J].计算机工程与科学，2019，41（4）：180-187.

[2] 李然，林政，林海伦，等.文本情绪分析综述 [J].计算机研究与发展，2018，55（1）：30-52.

[3] 彭晓彬.基于word2vec的文本情感分析方法研究 [J].网络安全技术与应用，2016（7）：58-59.

[4] 李慧，柴亚青.基于卷积神经网络的细粒度情感分析方法 [J].现代图书情报技术，2019，3（1）：95-103.

[5] 李洋，董红斌.基于CNN和BiLSTM网络特征融合的文本情感分析 [J].计算机应用，2018，38（11）：3075-3080.

[6] 孙玉霞.基于BiGRU-Attention模型的文本情感分析研究 [D].阜新：辽宁工程技术大学，2019.

[7] HINTON G E，KRIZHEVSKY A，WANG S D. Transforming Auto-Encoders [C]// Artificial Neural Networks and Machine Learning - ICANN 2011. Espoo：Proceedings，2011：14-17.

[8] MALLIS G I，SCHMIDT D H，LINDENBAUM J. Superior bioavailability of digoxin solution in capsules[J]. Clinical Pharmacology & Therapeutics，1975，18（6）：761-768.

[9] ZHAO W，YE J，YANG M，et al. Investigating Capsule Networks with Dynamic Routing for Text Classification [C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels，Association for Computational Linguistics，2018：3110-3119.

作者简介：张甜（1997—），女，汉族，山东菏泽人，硕士研究生在读，主要研究方向：自然语言处理、文本情感分析;陈辉（1973—），男，汉族，安徽庐江人，副教授，硕士生导师，博士，主要研究方向：无线传感器网络、机器学习、物联网技术及应用。E8783FAC-404F-4C25-BD25-730475807DD4