融合通道特征的混合神经网络文本分类模型
2021-03-17韩永鹏
韩永鹏,陈 彩,苏 航,梁 毅
(北京工业大学 信息学部,北京 100124)
0 引言
文本分类是跨越信息检索、机器学习和自然语言处理的多领域技术,是信息处理和数据挖掘的重要研究方向,主要目标是在事先定义好类别的情况下,根据文本的内容特征或者属性特征,将要分类的文本自动分配到所属的类别[1]。根据文本的长度,文本分类分为短文本分类与长文本分类,短文本字符数通常不超过200[2]。
随着科学技术的发展,深度学习被广泛应用于文本分类,常用于文本分类的神经网络模型主要有循环神经网络(recurrent neural network,RNN)与卷积神经网络(convolutional neural network,CNN)。循环神经网络是一种对序列数据建模的网络,由于有梯度消失和梯度爆炸等问题,通常使用其变体长短时记忆网络[3](long short-term memory,LSTM)。由于LSTM只能学习文本的全局时序特征,不能学习文本中的局部空间特征,所以一般先使用CNN学习局部特征,再结合LSTM学习时序特征。然而现有混合模型使用的单通道词嵌入空间维度低,特征表示单一,导致一维卷积神经网络不能充分发挥空间特征学习能力,影响了模型的分类性能。
为了弥补现有混合模型的不足,本文提出了一种融合通道特征的混合神经网络文本分类模型,该模型使用基于预测与基于统计的方式构建文本的双通道词嵌入。相比于单通道词嵌入,双通道词嵌入能提供更为丰富的特征,并增加文本表示的空间维度。为了充分利用增加的空间维度,本文在卷积的过程中进行了通道特征融合,提高了卷积层的空间特征学习能力。为了更好地将空间特征与时序特征结合,模型在每路卷积后使用双向LSTM学习各路时序特征,避免了过早进行卷积特征融合对融合后的时序特征造成破坏。在四个数据集上进行对比实验,结果表明,该模型取得了良好的分类效果,分类准确率相较于传统卷积神经网络平均提升了1%。
1 相关工作
传统机器学习算法[4]在文本分类时往往需要进行特征选择,而深度学习算法因可以自动进行特征学习而被广泛使用,常用结构包括卷积神经网络CNN与循环神经网络RNN。RNN适合处理时间序列数据,被广泛应用于文本分类当中。Liu等人[5]提出了基于LSTM的三种模型用于处理多任务学习下的文本分类问题。Xu等人[6]使用双向LSTM结合前馈型神经网络进行情感分析。由于LSTM只能输出最后时刻的特征,不能充分利用各时刻的特征,部分学者尝试使用注意力机制优化LSTM的特征表示。Wang等人[7]使用了注意力机制对LSTM的各个时刻的特征进行加权,在情感分类任务中取得良好效果。Long等人[8]在双向LSTM中引入了Multi-head Attention进行情感分类,取得了优于双向LSTM的效果。由于RNN不能学习空间特征且训练时间长,CNN在文本领域开始使用。Kim[9]首次将CNN用于文本分类,采用多路卷积提取空间特征,使用全局最大池化保留最重要的特征,通过实验验证了CNN在文本分类领域的实用性。由于全局最大池化容易造成特征大量丢失,Kalchbrenner等人[10]提出了一种动态池化的思想,在不同池化层采取不同的K值,保留了前K个最大特征,有效解决了全局最大池化特征丢失严重的问题。Yang 等人[11]首次将胶囊神经网络用于文本分类,在部分数据集上取得了超过经典CNN的效果。王盛玉等人[12]尝试在CNN中结合注意力机制,有效提升了CNN学习局部特征的能力。
由于CNN与RNN各有侧重,许多学者结合两者优点提出混合模型。Lai等人[13]提出了循环卷积神经网络RCNN,使用双向循环结构对特征的上下文进行建模,实现了卷积的核心思想。Zhou等人[14]提出了混合模型C-LSTM,给出了CNN与RNN结合使用的模式。Hassan等人[15]提出的模型使用多路卷积学习空间特征,融合后经由LSTM学习时序特征。Chen等人[16]提出的模型在每一路通过堆叠卷积池化层提取更抽象的空间特征,融合后结合LSTM进行时序特征学习。Zhang等人[17]提出的LSTM-CNN探索了先时序后空间的特征学习方式。在此基础上,Zheng等人[18]提出的BRCAN模型使用双向LSTM学习上下文信息,然后结合CNN与注意力机制对关键的特征进行加权,在多个数据集上取得良好分类效果。江伟等人[19]探索了多种注意力机制,进行了全面的对比评估。程艳等人[20]提出的C-HAN模型将文本表示分为词—句子、句子—文档两个阶段,并对比了词向量、字向量对模型性能的影响。车蕾等人[21]提出的TSOHHAN模型结合了标题在话题分类中的作用,取得了优于传统层级注意力网络的分类准确率。不同于以上学者的小规模浅层神经网络模型,Google团队提出了预训练语言模型BERT[22],在多项NLP任务中取得了卓越的效果。
尽管学者们提出了多种混合模型,但现有混合模型仍存在以下问题: ①普遍使用单通道词嵌入,空间维度低,文本的特征表示单一,只能在单通道上使用一维卷积算法,不能充分发挥卷积的空间特征学习能力; ②现有的CNN-RNN混合模型在融合多路卷积特征时,往往对融合后的特征时序性造成破坏,影响了后续LSTM层对时序特征的学习过程。为此,本文分别使用基于预测与基于统计的方法构建双通道词嵌入,丰富文本表示,增加嵌入层空间维度。在此基础上,为了充分利用双通道特征,本文的模型先在两个通道独立学习空间特征,然后使用逐点卷积融合通道特征,增强了卷积层的空间特征学习能力。在融合多路卷积特征时,在每一路均使用结合注意力机制的双向LSTM进行时序特征学习,将每路的特征进行拼接表示文本,有效避免了在进入LSTM之前,多路卷积特征融合的过程对融合后的时序特征造成破坏的问题。实验表明,本文提出的混合模型在多个数据集上取得了良好的分类性能。
2 模型描述
融合通道特征的混合神经网络文本分类模型结构如图1所示。模型的输入为双通道词嵌入,分别由基于预测与基于统计的词向量生成模型在海量语料中预训练得到,使用预训练词嵌入将大大提高模型的泛化能力。相比于单通道词嵌入,双通道词嵌入增加了文本表示的空间维度,增加了特征的多样性,丰富了特征的表达。之后,模型使用多路卷积提取空间特征,每一路使用不同大小的卷积核提取不同感受野的局部空间特征,在提取空间特征的过程中融合了通道间特征。为了避免在进入LSTM之前,多路卷积特征融合的过程对融合后的时序特征造成破坏,在每一路均使用结合注意力机制的双向LSTM网络进行时序特征学习,最终将各路特征进行拼接,形成文档的最终表示,然后经过全连接层与Softmax层进行文本分类。
图1 融合通道特征的混合神经网络文本分类模型
2.1 融合通道特征的多粒度卷积层
以图1中的一路卷积为例,详细的卷积层设计原理如图2所示。
图2 卷积层设计原理
卷积层的输入为双通道预训练词嵌入矩阵,不受特定分类任务影响,能增加模型的泛化能力。随着神经网络的训练,对双通道嵌入层的权值进行动态调整,使得原本与分类任务无关的词向量变成与特定分类任务相关的词向量,加速整个神经网络模型收敛的过程。令词嵌入矩阵最多包含n个单词,超出n个单词的文本被截断,不足n个单词的文本用0填充。xi表示当前文本中第i个单词的预训练词向量,则词嵌入矩阵X1:n可以表示如式(1)所示。
X1:n=x1⊗x2⊗…⊗xn
(1)
其中,⊗代表词向量的拼接,卷积操作在词嵌入矩阵X1:n上进行。定义卷积核Wc,Wc为h×k的二维矩阵,h代表当前卷积核的感受野大小,而k固定为词嵌入的维度,让卷积操作只能沿着时间轴自上而下进行滑动,令ci表示滑动过程中提取到的当前位置的局部特征,f代表非线性激活函数,bc为偏置项,则卷积核形成的特征图C可以由式(2)、式(3)所示。
由于嵌入层有两个通道,所以在每一个通道上使用同一个卷积核,卷积将形成两张不同的特征图,分别记为C1与C2。此时进行逐点卷积,使用1×1,深度为2的卷积核Wf对来自两个通道的两张特征图C1与C2进行通道特征融合,形成融合通道特征之后的特征图V,计算如式(4)所示。
V=f(Wf·[C1,C2]+bf)
(4)
其中,f为非线性激活函数,bf为偏置项。
至此可以得到使用一个卷积核Wc在双通道嵌入层实施卷积后所形成的一张特征图V。由于卷积神经网络通常使用多个卷积核进行空间特征学习,令N表示卷积核个数,则使用N个相同尺寸的卷积核在双通道嵌入层实施卷积后可以形成N张特征图组成特征矩阵Mo,如式(5)所示。
Mo=[V1,V2,…,VN]
(5)
由于Mo的行维度往往较大,如果使用池化降维将导致时序特征丢失,所以模型使用步幅为K的卷积核Wp对特征矩阵进行卷积降维,形成降维之后的特征图矩阵Mk,计算如式(6)所示。
Mk=f(Wp·Mo+bp)
(6)
其中,f为激活函数,bp为偏置项。由式(6)形成特征矩阵Mk保留了时序特征,可以按行的顺序依次输入到LSTM当中,完成时序特征的学习。
2.2 融合多路特征的双向LSTM层
对于长文本而言,单词的上下文信息充足,往往存在长距离的语义关联,相比于特征少、时序信息不足的短文本,长文本对特征的时序性有着更高的要求。在特征输入LSTM之前,多路卷积先进行特征融合,并不能保证融合后特征的时序性,大大影响了LSTM对长文本的时序特征学习过程。令M1,M2分别表示不同路卷积所形成的特征图矩阵,若将M1与M2横向拼接,由于卷积核大小不同造成M1与M2在行维度上不同,只能使用0填充,让卷积后的特征图尺寸保持不变,这将导致M1与M2的时序特征不能完全保持对齐,造成整体时序特征质量下降的问题。若将M1与M2纵向拼接,则不能保证拼接后整体特征保持全局有序性。
为了避免上述融合方式的不足,本文的模型在每一路均使用双向LSTM学习时序特征,将每一路的双向时序特征进行拼接表示最终文本,避免了各路特征在进入LSTM之前就进行融合所导致的时序特征质量下降的问题。由于传统的正向LSTM只能学习特征的上文信息,忽视了特征的下文信息,本文使用了双向LSTM同时学习特征的上下文信息,极大地提高了模型的时序特征学习能力。为了充分利用LSTM所有时刻的输出特征,模型通过注意力机制对LSTM每个时刻的特征进行加权求和,提高LSTM的输出质量,本文的双向LSTM层如图3所示。
图3 双向LSTM层
令i代表第i个时刻且i∈[0,t],xi表示第i个时刻的输入向量。Mk代表一路卷积所形成的特征图矩阵,则Mk可以表示成多个行向量的拼接,如式(7)所示。
Mk=x0⊕x1⊕…⊕xt
(7)
LSTM按时间顺序接收xi作为输入向量,ct表示LSTM单元状态,ht表示LSTM单元最终输出。ft、it、ot分别表示遗忘门、输入门与输出门,σ表示Sigmoid激活函数,Wf、Wi、Wo、Wc、bf、bi、bo、bc为网络需要学习的参数,LSTM的最终输出计算如式(8)~式(13)所示。由于模型使用了双向LSTM学习时序特征,所以双向LSTM的最终输出由正向LSTM输出与反向LSTM输出拼接得到。
由于LSTM只能学习得到最后一个时刻的输出向量,不能对每个时刻的输出充分利用,本文使用注意力机制完成各个时刻输出特征的加权融合。令Hi表示第i个时刻的双向LSTM层的输出向量,ei表示Hi对整个文本语义表示的重要程度,ai表示Hi对整个文本语义表示贡献的权重。根据上述定义,双向LSTM层的注意力权重计算如式(14)、式(15)所示。
其中,uT、Wa、ba是网络需要学习的参数,tanh为非线性激活函数。在得到双向LSTM层的各个时刻的注意力权重后,使用式(16)对双向LSTM层的所有时刻的输出向量进行加权求和,最终得到的向量v就是整个双向LSTM层最终输出的特征向量。
(16)
令vi表示第i路卷积特征经由双向LSTM层之后学习得到的文档表示向量,则模型最终形成的文档表示向量vd可表示为n路卷积文档表示向量的拼接,如式(17)所示。
vd=v1⊕v2⊕…⊕vn
(17)
在得到文本的最终表示向量vd后,将vd经由全连接层与Softmax层进行最终的类别输出。令c表示某个分类,n表示分类数,d表示文档向量vd经由全连层后的输出向量,dc表示向量d中属于类别c的分量值,pc表示文本为分类c的概率,Wc与bc为全连接层网络需要学习的参数,f为非线性激活函数,则pc计算如式(18)、式(19)所示。
3 实验设置
3.1 实验环境与数据集
实验环境如表1所示,所有实验均使用科研机构或学者公开的预训练词向量,包括: Word2Vec[23-24](1)https://github.com/Embedding/Chinese-Word-Vectors(2)drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21-pQmM与GloVe[25](3)https://nlp.stanford.edu/projects/glove/。所有数据集均为公开数据集,详细信息如表2所示。
表1 实验环境
表2 数据集详细信息
各数据集均进行了预处理,去除了标点符号、特殊字符,并进行了分词,对于传统机器学习方法去除了停止词,对深度学习方法没有去除停止词,数据集基本介绍如下:
(1)IMDB(4)http://ai.stanford.edu/~amaas/data/sentiment/: 英文电影评论情感二分类数据集,分为积极评论与消极评论,情感极性较为明显,分类难度较低。
(2)20NewsGroups(20NG)(5)http://qwone.com/~jason/20Newsgroups/: 英文文本分类数据集,数据集复杂,部分分类之间相似度较高,分类难度大。
(3)复旦大学中文数据集(Fudan)(6)https://download.csdn.net/download/lee0_king/10601701: 由复旦大学自然语言处理小组公开,文本多为文献内容,噪声特征较多,文本篇幅长。
(4)THUCNews新闻数据集(THUC)(7)http://thuctc.thunlp.org/: 清华大学公开的中文新闻数据集,噪声特征少,由于数据全集样本数过多,本文从中随机抽取了42 000条样本供实验使用。
3.2 基线方法
本文对比了如下方法:
(1)SVM、NBSVM: 使用了文献[4]中结合bi-gram特征的SVM算法与NBSVM算法。
(2)AT-LSTM: 使用全局信息指导局部注意力机制对LSTM各时刻的输出加权进行情感分类,出自文献[7]。
(3)BiLSTM-MHAT: 结合Multi-head Attention的双向LSTM,出自文献[8]。
(4)CNN-non-static、CNN-multichannel: CNN首次用于文本分类的经典模型,前者为单通道,后者为双通道,出自文献[9]。
(5)Capsule: 胶囊神经网络在文本分类中的首次探索,使用了文献[11]中的Capsule-B模型。
(6)RCNN: 对每个特征使用双向RNN计算特征的前后文信息,出自文献[13]。
(7)C-LSTM: 使用的是文献[14]中三路卷积,不使用池化方式的模型。
(8)CNN-LSTM-1: 方法为文献[15]中使用两路卷积,不使用任何池化方式的模型。
(9)CNN-LSTM-2: 使用两路卷积,每一路连续使用卷积池化堆叠提取特征,出自文献[16]。
(10)BRCAN: 先用双向结构学习时序特征,再使用CNN结合注意力机制学习空间特征,出自文献[18]。
(11)NN-PA: 短语注意力机制的模型,使用了文献[19]中的NN-PA2方法。
(12)C-HAN: 结合卷积与层次注意力网络的模型,使用的是文献[20]中基于单词特征的模型。
(13)CFC-LSTM-single、CFC-LSTM-multi: 本文的混合模型,全称为Channel Fusion CNN-LSTM,single代表单路卷积,multi代表多路卷积。
3.3 参数设置
实验对所有模型的超参数进行了调参范围限定,在有限的范围内搜索出当前最优的超参数组合,中英文预训练词嵌入的维度均为300维,模型结构、卷积核大小与原论文的设定保持相同,卷积核个数范围为16~512,LSTM隐藏层神经元个数范围为16~256,全连接层神经元个数范围为16~256,取值为2的整数幂。为了防止模型过拟合,在LSTM层与全接连层均使用了Dropout正则化,Dropout取值范围为0.2~0.5,模型的初始学习率为0.001,优化算法使用Adam。模型最大训练轮数为100,数据的批尺寸大小为64,在训练样本中,80%用于训练集,20%用于验证集。
3.4 评价指标
在分类问题中通常使用精度(P)、召回率(R)、F1值、准确率(ACC)等评价模型的性能,令TP表示预测为正的正样本,FP表示预测为正的负样本,FN表示预测为负的正样本,TN表示预测为负的负样本,混淆矩阵如表3所示,指标计算如式(20)~式(23)所示。本文使用准确率ACC与综合反映分类器性能的宏平均F1值评估分类效果,宏平均F1值可以看作多个二分类F1指标值的算术平均值。
表3 混淆矩阵
4 结果与分析
4.1 模型在公开数据集上的性能对比
表4是各种分类方法在公开数据集上的分类准确率与宏平均F1值,第一栏是传统机器学习模型,第二栏是只学习空间或时序特征的单一模型,第三栏是混合模型,第四栏是本文的模型,single代表单路卷积,multi代表多路卷积。通过实验结果可以发现,本文的混合模型相比于传统机器学习模型及单一神经网络模型而言,在各个数据集上的分类性能取得了显著的提升,比传统SVM的准确率平均提升了4.3%,比经典CNN模型CNN-non-static的准确率平均提升了1%。双通道模型CNN-multichannel相比于单通道模型CNN-non-static并没有取得稳定的性能提升,甚至出现下降,这与文献[9]实验结果相同,说明通道数的简单增加,引入更多的特征并不一定有利于分类任务,而本文的混合模型即使在一路卷积的情况下,在各数据集上的分类性能明显超过了CNN-multichannel使用三路卷积的模型,原因一方面是本文的混合模型结合了LSTM层进行时序特征学习,另一个关键的原因是本文模型使用了更为合理的双通道构建方式以及更为有效的在双通道上执行卷积的方法。由于本文的混合模型使用了双通道丰富文本表示,在卷积过程中融合了跨通道的特征,并优化了空间特征与时序特征结合的方式,在IMDB、20NG、THUC三个数据集上相比于其他混合模型均取得了更好的分类性能。在Fudan数据集上所有模型的宏平均F1值明显低于准确率,这是由于Fudan数据集属于不平衡数据集,宏平均F1值受到了少数类错分的影响。在Fudan数据集上,本文的混合模型分类性能不如RCNN,主要是由于Fudan数据集噪声特征较多。因本文的混合模型没有使用池化,容易受到噪声特征的干扰,而RCNN模型模拟了卷积的核心思想,最大池化可以充分过滤噪声特征,因此分类性能更好,所以本文的混合模型在噪声特征较少的数据集上性能表现更好,更为适用。
表4 各种分类方法在公开数据集上的准确率与宏平均F1值(%)
4.2 双通道嵌入层的有效性验证
本节以CNN-multichannel验证本文双通道构建方法的有效性。CNN-multichannel使用了同种预训练词嵌入构建双通道,在训练开始时通道间的差异最小,由于权重只在一个通道更新,随着训练过程通道差异会变大,不变的通道代表了通用特征,更新的通道代表向特定任务调整;本文的双通道使用不同的词嵌入,在训练开始时通道差异最大,权重的更新经由双通道,随着训练过程通道间差异变小,均向特定任务调整。将CNN-multichannel的构建方法命名为Multi-1,本文的方法命名为Multi-2,以单通道作为基准,图4以Word2Vec构建Multi-1,图5以GloVe构建Multi-1,Multi-2则由Word2Vec与GloVe分别构成。结果表明,相比于单通道,Multi-2可以取得更为稳定的提升效果,而Multi-1并没有因为双通道而带来性能上的稳定提升,甚至出现下降,这是由于始终保持权重静止的通道既有可能为特定任务带来通用特征从而提升分类效果,也有可能因为通用特征的存在导致特定任务特征的重要程度被平均化,反而不如单通道特征。Multi-2除了引入更丰富的特征以外,在双通道上同时向特定任务调整,保证了效果提升更加稳定。图4中,相比Word2Vec,单通道最大提升0.3个百分点;图5中,相比GloVe,单通道最大提升0.53个百分点。
图4 使用Word2Vec作为单通道的对比结果
图5 使用GloVe作为单通道的对比结果
4.3 卷积模式对模型性能的影响
本节验证卷积模式对模型性能的影响,对以下两种卷积过程进行了对比: ①使用CNN-multichannel进行双通道特征学习,权重的更新在双通道同时进行; ②本文的卷积方式,在每个通道进行空间特征学习,然后进行跨通道特征融合。在实验中将CFC-LSTM-multi中的LSTM层取消,保证模型处于同一规模,实验结果如图6所示。
图6 不同卷积模式下的性能对比
可以发现方式二的卷积方式相比于方式一在各数据集上取得了稳定的提升,说明了将空间特征学习过程与通道特征学习过程进行分离,相比于混合学习空间特征与通道特征更加有效,这种设计思路借鉴了谷歌的图像模型Xception[26],说明了在多通道表示下的文本数据,将空间特征学习过程与跨通道特征融合过程分离学习是更为有效的卷积模式,在THUC数据集上准确率最大提升0.21个百分点。
4.4 时序特征结合方式对模型性能的影响
在公开数据集的对比实验中,C-LSTM并没有因为LSTM的加入,取得超越CNN-non-static的效果,关键的原因是由于多路卷积在拼接时,对特征时序性产生了不良影响,无法保证后续LSTM层的输入特征质量。本节探究了多路卷积与LSTM结合方式对混合模型最终性能的影响。方式一先进行多路卷积特征融合,融合后通过LSTM学习时序特征;方式二在每一路卷积之后直接使用LSTM学习时序特征。为了减少模型规模造成的干扰,通过堆叠方式一的LSTM以增加模型规模,然后在参数设置中指定的超参数范围内进行搜索,实验结果如图7所示。可以发现,方式一的效果在各数据集均不如方式二,最差情况下,准确率比方式二要落后0.33个百分点。
图7 两种LSTM结合方式对比
4.5 注意力机制对模型性能的影响
由于LSTM在不同时刻所形成的文本表示对最终分类任务的重要程度不同,仅利用最后时刻的输出表示最终文本并不能充分体现文本不同部分的重要程度。本节以CFC-LSTM-single为例,探索平均池化、最大池化与注意力机制对分类性能造成的影响,实验结果如图8所示。可以发现平均池化的效果甚至不如直接使用LSTM最后时刻作为输出。在主题分类任务中更能突出全局关键特征的最大池化可以取得接近,甚至超过注意力机制的效果,但是在情感分类IMDB数据集上,注意力机制优势明显,更容易捕获对全文情感极性造成重要影响的部分。总体而言,相较于原始LSTM,注意力机制的使用对模型的性能有着稳定的提升效果,平均提升了0.5个百分点。
图8 不同池化方式对模型性能的影响
4.6 模型的训练代价分析
本节对模型的训练代价进行分析,以平均特征数最多的Fudan数据集为例,各模型的每轮训练时间如图9所示。实验结果表明,传统SVM相关模型与单一卷积模型的训练代价明显低于使用了RNN结构的模型,说明了RNN在进行长文本建模时具有训练效率较低的缺点。在与其他混合模型的对比中,可以发现本文的单路模型CFC-LSTM-single的训练代价相对较低,但是多路模型CFC-LSTM-multi的训练代价较大。
图9 各模型在Fudan数据集的每轮训练时间
为了探索造成CFC-LSTM-multi模型训练代价较大的具体原因,在图10的实验中,将CFC-LSTM-single的卷积部分CFC单独分离作为对比基准,与CFC-LSTM-single、CFC-LSTM-multi进行了各数据集上每轮训练时间的对比。通过图10的实验结果可以发现,相比于单路卷积模型CFC而言,混合模型的训练时间开销主要有两个方面: 一是双向LSTM层的引入,二是卷积路数的增加。由于文本数据的特征通常较多,LSTM的时间步往往上百甚至上千,如果使用双向LSTM学习文本的上下文信息,所花费的时间将更长,这也是LSTM作为RNN系列之一在处理长文本时的固有缺点。相比于单路模型,适当增加模型并联的路数,混合模型的拟合能力更强,有助于提高模型最终的分类性能,但是模型由于并联路数的增加也带来了参数量上的明显增多,所以需要耗费更大的时间代价去训练。
图10 CFC-LSTM相关模型每轮训练时间对比
4.7 长短文本数量比例对模型性能的影响
由于THUC数据集的样本数与分类数较多,样本中的噪声特征少,故本文选取了THUC数据集10 000条样本作为训练集,10 000条样本作为测试集,训练集与测试集均为平衡数据集,在各分类下样本数量基本相同,避免不平衡因素带来的干扰。在此基础上,通过改变样本中长文本与短文本所占的数量比例,验证混合模型在不同长短文本数量比例之下的分类性能表现。在构建数据集时,短文本的最大特征数不超过100,长文本的最少特征数不低于300,实验结果如图11所示。通过实验结果可以发现,本文提出的混合模型随长文本数量的增加分类性能越来越好,说明了特征少、时序性不足的短文本分类难度要高于长文本。在完全由长文本组成的数据集中,本文的混合模型性能达到最优,因此本文的模型更偏向于长文本分类任务。
图11 长文本数量比例对模型性能的影响
5 结束语
本文提出了一种融合通道特征的混合神经网络文本分类模型,使用基于预测与基于统计的方式构建了双通道词嵌入,在卷积中进行了通道特征融合,增强了卷积层空间特征学习能力,为了更好地与时序特征结合,模型在每路卷积后使用双向LSTM学习时序特征,避免了过早进行卷积特征融合对融合后的特征时序性造成破坏。实验表明,本文的混合模型在各数据集准确率相较于传统CNN模型平均提升了1%。由于长文本特征多,时序信息足,本文模型更适用于长文本分类任务。未来工作中,我们将对各路卷积的重要程度进行研究,选择最为合适的卷积路数与感受野大小,降低模型的训练时间开销,并尝试用其他注意力机制进一步优化模型性能。