APP下载

基于深度学习的短文本分类方法研究综述

2023-02-28淦亚婷安建业

计算机工程与应用 2023年4期
关键词:短文语义卷积

淦亚婷,安建业,徐 雪

天津商业大学 理学院,天津 300134

随着互联网技术的快速发展与智能终端的不断普及,网购、网聊、网课、远程办公已是人们生活的新常态、新模式,由此产生了大量的短文本数据。如何从这些文本数据中挖掘有价值的信息,正成为广大专家、学者关注的热点课题。例如,在许多短信、邮件等文本数据中需要剔除垃圾信息,把有价值的短信或邮件自动甄别出来[1-2];在众多的评论性文本数据中需要对文本的情感特征进行分析,把有价值的评论自动挖掘出来[3];在海量的社交网络用户文本数据中需要监测谣言与舆情,把有价值的特征用户自动分析出来[4-5],等等。要解决这类问题,就需要对其中的短文本数据进行自动分类,即按照一定的分类规则或标准,对文本所属类别进行自动划分[6]。然而,由于短文本大多是用户与社交网平台交互过程中产生的语言,内容嘈杂,主题分散,往往包含许多网络用语和符号。具体如下特征:

一是篇幅短小。一般由十几个词或几个短语组成,内容稀疏,缺少上下文信息,提取有效特征困难。

二是数量庞大。用户与社交平台频繁地交互,使得短文本增长非常迅速,数据规模庞大,从而降低了文本信息的价值密度。

三是规范性差。短文本通常是口语化的语言,虽然言简意赅,但往往不遵守语法规则,有时还会包含不规则词语、拼写错误、网络流行用语以及特殊表情、符号等情况,增加了文本噪声,容易引起词汇或句法歧义。

短文本的这些特征大大增加了对其准确分类的难度。为了提高分类的效果,传统的基于机器学习的方法[7-10]主要通过改进特征工程来实现[11]。但是机器学习的特征工程构建是靠人工完成的,难以进行大规模数据处理,也无法解决特征向量高度稀疏的问题。相对于机器学习,深度学习在短文本分类方面却具有明显的优势:

其一,将文本特征提取融入模型训练过程中,无需手动构建特征工程,实现端到端的分类方式。

其二,深度学习能够获得短文本低维稠密的特征表示,且能表达足够的上下文信息以及文本更深层次的语义关系。

其三,深度学习方法不仅能够处理海量数据,而且随着数据量的增大还能够不断学习新知识。

基于此,深度学习逐渐取代了机器学习,成为短文本分类应用领域研究的热点。早期,刘琴等[12]就深度学习在短文本分类方面的应用进行了综述,但是没有涵盖近年来的相关研究成果,因此对短文本分类中的深度学习方法进行系统的梳理、归纳与总结,具有重要的应用价值。

下面以卷积神经网络(convolutional neural network,CNN)[13]、循环神经网络(recurrent neural network,RNN)[14]、图卷积神经网络(graph convolutional network,GCN)[15]三种最具代表性的深度学习方法为切入点,分析这些方法在短文本分类方法中的应用研究现状,并就分类中重要的标签数据集进行归纳与总结。

1 基于CNN的短文本分类研究

CNN 源于计算机视觉研究,后来诸多学者将其应用于短文本分类,基本结构如图1所示。

图1 典型CNN结构图Fig.1 Typical CNN architecture diagram

由图1 可知,基于CNN 的短文本分类模型,通常包括输入层、卷积层、池化层、全连接层和输出层五部分,其中卷积层和池化层是最为关键的特征提取环节。卷积层通过构造一维卷积核,并将其上下移动,在卷积窗口内与文本表示矩阵进行卷积操作,以此来提取文本特征。池化层则是对提取的特征进行选择,筛选出最为显著的特征,同时也能降低特征维度,防止过拟合。通常,在短文本分类时,需要对卷积层与池化层进行多层交替叠加,经过多次特征提取与特征选择,多角度获取文本特征信息;然后,进入全连接层,将特征信息进行整合,并将结果在输出层展示。

Kim[16]较早将CNN 运用到文本分类中,构建了TextCNN模型。该模型以词为单位,首先将短文本句子表示成矩阵(每个词矩阵的一行)后作为输入数据,并选择窗口大小分别为3、4、5的卷积核来提取文本特征;然后通过特定的池化层Max-over-time筛选出短文本的最显著特征;最后经过全连接层,利用softmax函数输出分类结果。虽然TextCNN 模型构建的卷积和池化是单层的,且调参简单,但是在进行实验验证时具有较好的分类效果,在一定程度上说明了CNN 对短文本分类的有效性。

为了进一步提高TextCNN模型的分类效果,弥补在获取短文本语义和上下文信息等方面的不足,文献[17-19]通过增加层数,增大了卷积核获取信息的视野,构建了深度CNN 模型。为验证模型的改进效果,将文本的字符向量表示、词向量表示分别作为输入,并与参数相同的其他浅层模型进行对比,结果表明:以字符向量表示作为输入的深层模型比浅层模型具有更好的性能,但差别并不显著;以词向量表示作为输入的深层模型效果还不及浅层模型,并且浅层模型效果优于以字符向量表示作为输入的深层模型。总体来说,从纵向增加层数构建的深度CNN模型,对提高短文本分类效果并不明显。

为此,诸多学者另辟蹊径,从横向改变模型的卷积层、池化层的结构,提取更多的短文本特征,优化TextCNN模型。Guo 等[20]借助于跳跃卷积、K-Max 池化操作,构建了增强CNN 模型,细化了短文本特征提取;同时,在池化层保留前K个最大特征值,从多个维度获取短文本特征。Wang H 等[21]从构建N-gram 不连续滑动窗口、K-Max 平均池化两方面改进了TextCNN 模型。该模型基于N-gram机制建立了卷积窗口的非线性组合,使得卷积核在提取特征时,既关注了相邻词间的依赖关系,又学习到了不相邻词间的语义关系;在构建池化层时,将前K个最大特征的平均值作为输出,综合了最大池化与平均池化的优势;在筛选主要特征时,也关注到了其他的必要特征。这类改进模型,在一定程度上提高了CNN 获取短文本特征的效率,拥有更丰富的特征表达。但是由于短文本自身内容的稀疏性,使得改进后的模型在获取短文本特征方面仍存在信息不足的问题。

近年来,在深度学习中引入外部知识来扩展短文本信息,成为短文本分类方法研究的重点。Wang P 等[22]通过引入外部训练好的词嵌入,在利用密度峰值快速聚类得到相应语义团系的基础上,将分类文本语义单元与语义团系之间的欧氏距离和特定的阈值进行比较,找出语义团系中最近的词嵌入作为短文本拓展矩阵,对CNN 模型进行了优化。Sotthisopha 等[23]考虑到大规模词嵌入聚类的计算成本以及外部预训练词嵌入建模的特点,在Wang P等工作的基础上,通过相似度匹配法扩大了词的预训练嵌入覆盖,巧妙利用了词的分布式表示所具有的“相邻词语义相关”特点,提出了基于小批量K-Means++聚类算法。因此,这种通过找出空间内最相近的词嵌入作为拓展特征的建模方法,虽然丰富了短文本语义信息,但严重依赖于大规模词嵌入模型,而且对词嵌入质量要求较高,在某种程度上影响了模型的应用效果。

另外,诸多研究则引入了字符、概念等文本相关特征。Wang J等[24]首次通过连接一个大的外部知识库获取短文本的一组相关概念,并将这组概念嵌入进行线性组合,作为文本的概念嵌入表示,与词向量进行连接,输入到卷积层和池化层来提取特征;另外考虑到新词嵌入无法识别造成的语义信息遗漏,将字符嵌入带入新的卷积层和池化层来获取字符特征,最后通过融合获取特征来进行分类。Wang H等[25]基于概念信息在文本层面和相关词层面对短文本语义进行扩展。研究认为在短文本中,通常只有几个词能代表句子的语义,于是通过注意力机制提取出最能体现短文本语义的几个相关词;然后连接外部知识库获取相关词的概念以及短文本的一组概念,并进行拼接来作为输入。

上述模型将字符、概念、词和文档等显性特征表示与深度学习获取的隐式特征表示进行结合,极大地拓展短文本信息,较好地解决了短文本内容稀疏、缺乏上下文信息的问题,是目前运用比较多的短文本分类框架。但是这些模型所依赖的外部知识库,其构建方法仍在研究过程中,且存在引入信息有效性难以解释的问题,后续研究需予以关注。

2 基于RNN的短文本分类研究

RNN 是传统前馈神经网络的扩展,是一类通过使用带有自反馈功能的神经元,处理任意长度时序数据的神经网络,相比于前馈神经网络,RNN的输出不仅依赖于当前的输入,还与其过去一段时间的输出有关。RNN应用于不同的任务时具有不同的模式,对于短文本分类任务,是多个输入对应一个输出的模式,具体结构如图2所示。

图2 典型RNN结构图Fig.2 Typical RNN architecture diagram

由图2 可知,在利用RNN 进行分类时,按照短文本序列的顺序,将长度为t的样本序列X1:t={x1,x2,…,xt-1,xt}依次输入到RNN中,并通过反向传播得到不同时刻的隐藏状态{h1,h2,…,ht-1,ht},将ht作为短文本序列最终的特征表示,带入分类函数实现分类。以时刻t为例,不同时刻隐藏状态的更新如下:

式中,U是上一个时刻t-1 输出到下一个时刻t输入的权重,W是时刻t输入的权重,b为偏置,σ是激活函数。RNN这种自反馈串联结构特别适合于文本这类具有顺序结构的数据,能有效地获取上下文信息。在实际应用中,RNN逆时间顺序逐步反向传播,当文本序列较长时,容易出现梯度消失或梯度爆炸问题,难以建立文本间的长期依赖关系。基于此,许多研究者进行了改进,其中最为有效的是引入门控机制。Hochreiter等[26]、Gers 等[27]提出长短期记忆网(long short-term memory,LSTM),其循环单元结构如图3所示。

图3 LSTM循环单元结构图Fig.3 LSTM recurrent unit structure diagram

由图3可知,此单元结构是通过引入一个新的内部状态Ct来记录当前状态的历史信息,并进行内部信息传递。首先,利用当前状态xt和上一时刻隐藏状态ht-1计算输入门it、遗忘门ft和输出门ot;然后,通过输入门it、遗忘门ft分别控制保留多少历史信息和当前状态信息,得到新的Ct;最后,再利用输出门ot将内部状态信息传递给隐藏状态ht。

Cho 等[28]则将输入门与遗忘门合并成一个更新门,提出门控循环单元(gated recurrent unit,GRU)。LSTM和GRU通过门控机制有选择地学习文本历史信息和当前状态信息,不仅可以有效地解决梯度消失或爆炸问题,而且细化了内部处理单元,能更有效地存储和更新上下文信息,在许多任务上表现优于RNN。

CNN 进行短文本分类时,要求其输入具有固定维数,且捕获文本特征时卷积核的窗口大小也是固定的,这无疑限制了文本序列信息表达,难以学到文本序列间长距离依赖关系。尽管可以通过增加CNN模型的深度来获取文本更长距离的依赖关系,但很大程度上提高了计算成本。而RNN 以可变长度的文本序列作为输入,能够利用具有自反馈功能神经元来获取序列间长期依赖关系[29],有效地捕获短文本上下文信息,较好地解决了基于CNN短文本方法存在的问题。

Liu P等[30]将RNN集成到多任务框架中,利用信息共享机制改进LSTM 方法,建立了经典的TextRNN 模型。该模型将所有相关任务都集成到一个联合训练的系统,特定任务层学习单任务信息,共享层则是多任务进行信息共享。此外,该研究还引入Tree-LSTM[31]作为对比模型,在SST-1 数据集上优于TextRNN,取得了较好的分类效果。这是因为短文本具有一定的结构,而LSTM是一种按照时序进行线性信息传递的网络,难以学习短文本内部依存关系以及语法等结构信息。Tai等[31]将文本拓扑结构信息引入LSTM模型中,分别构建了基于依存树和短语结构树的LSTM模型,在网络结构上使得门向量与内部状态的更新依赖于所有与之相关的多个子单元的状态,从而能够有效地结合短文本的依存关系、短语构成等语法特性,来获得更准确的短文本语义表达。Zhang 等[32]基于短文本的结构信息来进行分类。该方法通过关系解析学习单词间的结构关系,先将句子用三元组表示,然后依赖三元组得到单词新的表示,并与原始表示相连接作为Bi-LSTM 的输入来进行分类。此方法依赖三元组对词向量进行训练,在语义、语法层面上对短文本进行表征,能同时获取短文本语义和语法信息。

上述基于短文本句法结构信息进行分类的方法,均需要通过外部解析器来获取句子的拓扑结构,模型构建比较复杂,影响了模型的应用推广。

Zhou 等[33]从字符级和词级层面建立了特征混合短文本分类模型。该模型通过预训练得到词和字符的低维向量表示,运用LSTM或Bi-LSTM提取字符和词的特征进行拼接生成句子表示,然后输入到分类函数来进行分类。此方法将字符特征和单词特征相结合,并利用语义上的补充性,减少了中文分词错误导致的语义缺失。该研究还探索了预训练词嵌入、字符嵌入对LSTM分类的有效性,结果表明预训练词嵌入和字符嵌入能提高LSTM的分类性能,且词嵌入起主导作用。另外,众多学者[34-36]研究基于Word2Vec、GloVe 和BERT 等预训练模型,研究了LSTM短文本分类方法,也取得了不错的效果。

在短文本序列中,并非所有信息都同等重要,一般只有部分关键信息对分类起着重要作用,因此赋予关键信息更高的权值能提高短文本分类效果。而注意力机制[37]能给RNN 中每个单元的输出向量赋予不同的权值,并将加权结果作为文本特征表示,使模型更加关注有利于分类的关键信息。Yang Z等[38]结合分层注意网络和Bi-GRU对英文短文本进行分类。该模型首先通过预训练模型得到词的向量表示,将其输入到融合Attention机制的Bi-GRU网络中,得到句子向量的表示;然后将句子向量表示也输入到融合Attention 机制的Bi-GRU 网络中,得到整篇文档的向量表示来进行分类。此方法将文本划分为词、句子、文档三个层次,并在每个层次间引入Atention 机制赋予不同的词、句子以不同的权值,逐层选出关键信息。Zhou 等[39]在Yang 的启发下,提出结合词和字符的混合注意网络对中文短文本进行分类。模型通过融合注意力机制的Bi-LSTM来获取短文本词嵌入表示和字符嵌入表示,进而提取出最关键的词信息和字符信息。实验结果表明:融合注意力的Bi-LSTM具有更好的性能;相比之下,融合注意力机制的CNN模型则没有明显性能上的提升,甚至分类性能有所下降。这可能是因为文本关键信息间的距离较长,CNN 只能捕捉窗口范围内的语义信息。此外,陶志勇等[40]利用Bi-LSTM 进行语义特征提取,然后利用注意力机制将Bi-LSTM获取的正向与反向特征进行融合,得到更深语义特征的短文本向量表示。吴小华等[41]、陈立潮等[42]则是利用自注意力机制来动态调整由Bi-LSTM获取的特征权值。石磊等[43]则是通过自注意力机制来关注对分类贡献较大的文本部分,然后再利用LSTM进行特征提取。

3 基于CNN、RNN融合的短文本分类研究

CNN 的最大优势在于提取短文本的局部特征,而RNN 则能有效获取短文本的长距离依赖关系,因此诸多研究综合二者的优势,构建了CNN与RNN的融合模型来提高短文本的分类效果。

Lai 等[44]提出RCNN 模型,通过Bi-LSTM 学习中心左侧和右侧的单词表示,拼接后作为中心词表示,然后将中心词表示输入到CNN中提取特征来进行分类。Xu等[45]则是在文献[24]的基础上进行了改进。该研究引入Bi-GRU 来提取词的上下文信息,然后利用注意力机制来动态提取与上下文相关的一组概念,再经过聚合来获得概念表示。与文献[24]相比,该方法减少了一般概念对CNN提取特征的影响。Hao等[46]、Chen等[47]则引入了字符信息。Hao等利用Bi-LSTM分别获取词和字符表示,并通过注意力机制将两者整合,输入到CNN 中提取特征进行分类。Chen 等进一步引入了概念信息,并建立了双重注意力机制。首先利用Bi-LSTM获取文本的字符、词和概念表示,然后分别在概念-短文本以及概念-概念间建立注意力机制,提取概念集层面和文本层面上较为主要的概念信息。上述研究均是将LSTM 的输出作为CNN 的输入类来提取特诊进行分类。She 等[48]则是先运用CNN获取文本的局部特征来作为LSTM的输入,也获得了较好的分类性能。另外,也有研究引入集成学习的思想,将多种基于CNN、RNN的分类模型作为基分类器,然后通过多个模型表决进行分类。如郑承宇等[49]将TextCNN、DPCNN[50]、RNN 和RCNN 等作为基学习器,通过Stacking 集成不同的特征信息表达用于分类,增强了模型的场景适应性和泛化能力。关于CNN、RNN融合的短文本分类方法研究,大多数是利用RNN 对短文本及其外部特征进行向量表示来获取相关的上下文信息,在此基础上再利用CNN进一步提取特征,不过这样构建的模型通常比较复杂。

在短文本分类中,针对短文本语义稀疏性问题,引入外部知识进行语义扩充是主要的解决方法。另外,短文本的嵌入表示,基本上是直接匹配基于大规模语料知识库训练好的词向量;或者是通过引入基于大规模语料知识库的预训练模型来进行微调,以此获得短文本嵌入表示。由此可知,大规模知识库对短文本分类具有极其重要的意义。目前,经过诸多学者的不断努力,已研发了许多大规模的知识库。如表1所示,为便于后续相关研究,整理了常用的重要知识库。

表1 外部知识库Table 1 External knowledge base

4 基于GCN的短文本分类研究

GCN是一种通过在非欧空间里定义卷积来提取图数据特征的深度学习算法。在谱域中,图上的卷积定义为傅里叶变换下的点积。对图的拉普拉斯矩阵进行分解得到一组正交基U=[u1,u2,…,un],信号x在图上的傅里叶变换为。对于图信息x和y,其图卷积运算定义为:

其中,A是邻接矩阵,D为图上的度矩阵,Wi是权重参数,σ是激活函数。为进一步提升网络的效果,Velickovic等[53]提出图注意力网络(graph attention network,GAT),将注意力机制作为聚合函数来聚合中心节点与邻居节点的信息[54],增加了GCN的解释性,其权重计算公式为:

其中,a是节点间的权重,||表示向量拼接。基于GCN的短文本分类一般过程如图4所示。

图4 基于GCN的短文本分类结构图Fig.4 Short text classification structure diagram based on GCN

由图4可知,首先,将文本构建为图的形式,直观表示文本元素间丰富的结构关系;然后,经过图卷积层提取特征,即图上的节点通过边传递信息来得到新的节点特征表示;最后,将节点特征表示带入softmax函数完成分类。相比于将文本表示为词、句等矩阵提取特征的CNN、RNN 短文本分类方法。GCN 则是把文本元素表示为节点,并构建边连接元素间的关系,能有效地保留全局图信息,提高分类的科学性。

Yao等[55]首次运用GCN进行文本分类,基于词共现信息、词与句子包含关系等结构信息来构建文本图,简称TextGCN。该图的节点是单词和文档,边是单词-单词、文档-单词以及邻接矩阵为:

文本图上节点以独热向量作为初始值,经过两层GCN得到节点特征表示进行分类。实验表明该方法在长文本数据集上具有更好的表现。这是因为短文本受内容稀疏性的影响,导致文本图节点间的边较少,阻碍了节点间的信息传递,影响了节点的特征信息表达。Yang T等[56]基于短文本语义信息,提出了一种异构图注意力网络(heterogeneous graph attention networks,HGAT)。该模型以文档、主题以及实体为文本图的节点,并在主题-文档、实体-文档和实体-实体间构建边来获取关系信息。同时设计了双重注意力机制,捕捉不同邻居节点的重要性以及不同类型节点的重要性,降低了噪声信息,增强了模型的解释性。与TextGCN模型相比,HGAT通过引入实体、主题等外部语义信息并学习信息间关系,虽然能在一定程度上缓解短文本特征稀疏性的问题,但忽略了短文本句法结构信息,影响了分类的效果。这些基于短文本结构、引入外部语义信息构建文本图的分类方法,很少考虑文本的语义、语法及上下文等自身信息。

基于此,Liu X等[57]基于短文本语义、语法和序列信息构建一种张量图卷积神经网络TensorGCN。该模型构建了多个文本图,分别捕获文本的语义信息、句法依赖关系和局部序列上下文信息,并构建规则使图与图之间进行信息传播,获得融合文本语义、语法以及局部上下文信息的节点表示来进行分类。虽然文本图的节点、边的类型与TextGCN 相同,但TensorGCN 通过图内和图间传播策略,有效地协调和集成了多个图的异构信息。Li 等[58]则建立了同时考虑语法结构与语义相关性的双重GCN模型DualGCN。该模型设计了具有丰富句法知识的SynGCN 模块和带有自注意机制的SemGCN模块,不仅可以减轻依存关系解析所带来的错误,还能够捕获语义相关性。

Lin等[59]融合大规模预训练与GCN的优势,构建了BertGCN来进行分类。该模型沿用TextGCN的文本图,利用BERT模型对文档节点进行嵌入表示。BERT模型在大规模无标签语料库上进行预训练,掩码语言模型和下一句子预测两个预训练任务能够从词级别和句子级别提取文本丰富的语义和上下文信息。同时,还构建了一个直接作用于BERT 嵌入的辅助分类器来提升分类性能。相比于TextGCN,BertGCN模型获得了更好的分类效果,特别是在较短的文本数据集上。

另外,Gao 等[60]在两层GCN 间引入门控机制,来平衡BERT 获取的上下文信息和图嵌入信息。该方法首先通过BERT 获得包含上下文信息的文档嵌入和单词嵌入,改进TetxGCN中词共现信息不适合短文本分类的问题,将欧式距离与词共现信息有机结合;然后借助于一层GCN 获得图嵌入信息,通过门控机制将两者进行集成,再经过第二层GCN 获得节点特征表示来进行短文本分类。

上述研究均是基于整个分类语料库来构建文本图,当语料库很大时,对计算机内存消耗巨大。为此,许多研究基于单个文档来构建文本图,即图上的节点仅表示文档中的单词,从而将文本分类任务转化为图分类任务。Huang等[61]在相当小的窗口内连接词节点来构建文档图,获取更精确的上下文信息。在文档图上,将相同的节点和边权值进行全局共享,来保留文本全局信息;再通过信息传递机制来进行节点更新,即每个节点先聚合其邻居信息得到新的表示,并根据新的表示与原始表示来进行更新,使节点表示可以获得上下文信息。该模型与TextGCN 进行对比,具有更好的分类效果,并且大大减少了存储消耗。

综合以上分析,下面就CNN、RNN 和GCN 等深度学习方法在短文本分类应用中的优缺点进行对比,如表2所示,以便于更好地运用这些方法开展短文本分类研究。

表2 基于深度学习的短文本分类方法优缺点对比Table 2 Comparison of advantages and disadvantages of short text classification methods based on deep learning

5 基于其他深度学习方法的短文本分类研究

在利用深度学习进行短文本分类时,除了以上主流的CNN、RNN、CNN-RNN、GCN 等方法外,也有一些基于其他深度学的方法被提出。Yang M等[62]将胶囊网络引入文本分类任务。胶囊网络将文本表示为张量,不仅有大小还具有方向,能很好地保持模型的空间信息。实验结果表明胶囊网络比CNN、RNN 具有更好的分类性能。王超凡等[63]提出多尺度特征部分连接胶囊网络。首先,通过双循环层获取包含文本上下文信息的单词表示;然后,再利用多个卷积来提取文本多尺度特征;最后,部分连接胶囊网络进行分类,仅使与父胶囊关系最密切的子胶囊被路由。该模型不仅具有强大的特征学习能力,部分连接路由也在一定程度上减少了信息冗余问题。

此外,考虑到CNN、RNN、GCN等模型的训练难度,一些较为简单的深度分类模型被提出。Iyyer 等[64]提出一种带有正则化的无序模型。首先,计算句子或文档中词向量的平均值,并利用dropout 正则方法随机丢弃部分词来提升模型效果;然后,将平均值传递给几个线性的隐藏网络;最后,利用softmax 函数进行分类,在情感分析和问答任务上,分类性能接近当时的最佳模型效果。FastText快速分类[65]考虑到词序,引入了N-gram特征。该模型首先获取文本词嵌入,然后将文档所有的词嵌入与其N-gram特征取平均作为文档向量表示,将文档向量表示输入到softmax进行分类。此方法保证了一定的分类效果,大大节约了训练的时间成本。

6 短文本分类常用的标签数据集

标签数据集在短文本分类中起着基础性作用,已成为影响这一研究领域发展的重要因素。为了便于后续研究,这里对短文本分类研究中的开源数据进行了梳理,从训练集、测试集文档数、类别数、平均句子长度、相关文献、来源等方面总结了常用短文本标签数据集,如表3所示。

由表3可知,对基于深度学习的短文本分类模型进行有效性检验时,选取的标签数据集主要是电影评论、新闻、社交评论等特定领域,且大多情况是对评论的情感极性进行分类,涉及的领域较少;另外,在语言上,相比于英文标签数据集,中文标签数据集无论在数量规模上还是领域广度上,均具有较大的提升空间。

表3 常用短文本标签数据集Table 3 Commonly used short text label datasets

7 总结与展望

本文对基于深度学习的短文本分类方法进行了梳理和总结,从CNN、RNN、CNN-RNN、GCN 以及其他方法五方面分析了研究现状,并对相关标签数据集进行了整理。

目前,深度学习在短文本分类中的应用研究取得了许多实质性进展,但在预训练模型改进、拓展特征研究、模型集成以及标签数据集构建等方面仍存在诸多问题需要进一步的探索与研究。具体如下:

其一,基于领域语料库的预训练模型的研究。预训练词嵌入模型能够将文本映射为低维稠密的向量表示,很好地解决短文本特征稀疏问题;词嵌入质量在一定程度上决定分类性能。研究表明,词嵌入质量与语料库的大小密切相关,基于大规模语料库训练得到的词嵌入表示具有更好的分类效果,因此目前主流的词嵌入模型都是基于大规模的语料库来训练的。在实际任务中,考虑到训练成本,通常是直接使用已训练好的词向量来进行建模,但短文本存在领域差异性。如何减少词嵌入偏差对分类带来的影响、或构建基于领域内的语料库来训练词向量模型是今后研究中关注的重点。

其二,外部知识与自身特征融合进行特征拓展研究。短文本篇幅较短,难以获取充足的语义、语法等信息用于分类,因此如何拓展和获取短文本语义、语法等信息一直是研究的热点。目前主流方法是连接外部知识库,获取文本的字符、实体、概念以及句法依存关系等信息、再通过深度学习提取特征并进行融合,起到扩展分类信息的作用。但是目前可用的外部知识库数量较少,尤其是中文知识库少之又少,构建这样的知识库是需要进一步研究的工作。另外,外部知识的引入可能带来一定的噪声,降低了分类性能,因此如何将外部知识与短文本自身特征融合起来进行更有效的分类仍是未来研究的重要方向。

其三,基于组合模型的短文本分类研究。研究发现多模型组合的分类方法一般优于单个模型。随着深度学习的不断发展,知识蒸馏、Transformers等技术不断提出,如何将这些技术进行组合来构建模型,不仅能充分发挥不同技术的优势,还能提高模型的泛化性和鲁棒性。因此,基于多模型组合的短文本分类方法引起了诸多学者广泛关注。

其四,高质量标签数据集构建研究。由于深度学习性能受样本数据影响,当样本数据质量低、不平衡时,会导致分类精度下降。此外,目前可用的短文本标签数据集较少,且集中在某几个特定领域。因此,加强相关研究,构建基于多领域的高质量数据集,对于获取短文本更准确的分类性能具有重要意义。

猜你喜欢

短文语义卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
语言与语义
卷积神经网络的分析与设计
从滤波器理解卷积
KEYS
Keys
基于傅里叶域卷积表示的目标跟踪算法
“社会”一词的语义流动与新陈代谢
“上”与“下”语义的不对称性及其认知阐释
短文改错