标签语义增强的弱监督文本分类模型
2023-02-24林呈宇
林呈宇,王 雷,薛 聪*
(1.中国科学院 信息工程研究所,北京 100093;2.中国科学院大学 网络空间安全学院,北京 100049)
0 引言
弱监督文本分类是利用弱监督源(专家知识)来标注数据样本,在这些弱标注样本中训练文本分类模型,最后能够尽量准确地对文本进行分类的任务。不同于半监督任务,弱监督文本分类任务中没有用到任何人工标注的类别信息,因此常用于商品评论分类、情感分析、新闻主题分类等实际应用中。例如在情感分类[1]中,可以利用“差评”→消极(用户提供的种子词)这样的弱监督信息来生成大量的弱标签,最终依据生成的弱标签对文本分类。常见的弱监督源包括用户提供的类别词[2-4]、专家语义规则[5]或外部知识库[6-7]。作为自然语言处理领域中的一个重要子任务,与完全监督的文本分类任务相比,弱监督文本分类已经被证明在缓解精确标注数据依赖、跨域数据融合、数据补全等方面具有优越性。
以用户提供的类别词为弱监督源的文本分类任务为例,其学习框架可以概括为3 个阶段[1-4,8-9],如图1 所示。
1)词表构建。通常用户提供的类别词是不完备的,因此需要词表生成器对其进行扩充来构建类别词表。常用的扩充方法有主题词发现方法[8]和词向量方法[2-4]。前者主要根据词共现原理生成类别关键词;后者通常使用word2vec 训练词向量,然后基于相似度选取类别词。
2)样本标注。在步骤1)所构建的类别词表基础上,为文本生成标签。通常采用显式匹配方法[2,10-11]和隐式匹配方法[4,12]。显式匹配方法[2]通常直接统计类别词在样本中的出现频率,选择最大类别生成弱标签;隐式匹配[12]则是计算类别词向量和文本语义向量之间的相似度,选择最相似的类别赋予样本。
3)样本分类。基于步骤2)得到的样本及其对应的弱标签(数据),利用监督学习技术训练样本分类器。然而由于弱监督文本分类中的低覆盖率问题导致大量样本未被识别,如图1 所示。为了解决该问题,通常采用自训练技术[10]。首先利用之前训练的模型预测未匹配语料的高可信标签,并得到扩充样本;然后利用扩充样本重新训练模型,迭代执行上述步骤,直到模型性能稳定。
图1 弱监督文本分类的学习框架Fig.1 Learning framework of weakly-supervised text classification
通过对图1 的弱监督文本分类方法基本框架进行分析可以得知,词表构建和样本标注阶段会产生大量噪声,影响分类效果。词表构建时会引入大量的无关词,不精确的类别词表会导致样本生成错误的标注,例如,类别为体育:体育,文体,体检,体重,足球,总体,字体,…。此外,由于文本语义较之单词语义更为复杂,根据单词为文本生成数据标注,通常会导致标注错误,即标签噪声问题。例如不同语境文本通常存在语义歧义和语义覆盖问题,例如表1 中以“科技”作为类别词进行标注,但是句子3 并未出现该词,而句子2 出现了,尽管前者不包含该词,但是属于该类别,存在未识别现象,而后者则属于误识别。
表1 弱监督文本分类中的噪声示例Tab.1 Noise instances in weakly-supervised text classification
为了降低上述噪声问题,国内外学者展开一系列相关研究。Mekala 等[2]提出了一种基于上下文语义的词义去噪方法ConWea,该方法采用最近邻节点(K-Nearest Neighbors,KNN)方法对词的上下文语义进行区分,从而构建高准确的类别词表,但是该方法忽视了标签噪声问题。为了克服标签噪声带来的不良影响,COSINE(COntrastive Self-training framework)[1]设计了一种基于对比学习的正则化损失函数,该方法通过学习更好的样本表示来对抗标签噪声的影响。Jindal 等[13]从模型结构的角度,设计了专门的标签适应层来学习标签噪声分布,并计算真实标签分布来克服标签噪声的影响。为了解决类别词表引发的低覆盖率问题,文献[1-3,12]中引入自训练技术,使用模型预测的标签扩充训练集以提高数据覆盖率。Meng 等[3]使用模型预测的高置信度标签来优化模型参数,在提高数据覆盖率的同时提高了模型的性能。但是这些方法通常忽视了标签噪声在该阶段对模型性能的影响,在训练的后期,模型会过拟合标签噪声而性能退化。
综上,要想提高弱监督文本分类的性能,核心要解决的关键问题是:词表的有效扩充与样本标注过程的标签噪声问题。准确的类别词表可以减少生成的错误标签;而降低标签生成过程的噪声,则可以得到更精确的标注数据。针对这两个问题,本文归纳了基于 BERT(Bidirectional Encoder Representations from Transformers)的弱监督文本分类的一般化方法,并提出了一种标签语义增强的弱监督文本分类模型(Label Semantics Enhanced weakly-supervised Text Classification,LSETClass),值得强调的是该模型还具备多语种泛化能力。在词表构建阶段,本文提出了基于Zipf 定律[14]的加权类别表示的类别词去噪算法,巧妙利用了语义相似度递减特性去除类别词表中的无关词。在样本标注阶段,本文提出了一种基于MASK 机制的词类别预测方法,能够结合自训练模块解决“句-词”跨层级语义单元的匹配误差问题和低覆盖率问题。在THUCNews 中文数据集(20 万条)、AG News英文数据集(12 万条)和IMDB 英文影评数据集的分类准确率(Acc)与目前最先进的弱监督文本分类模型LOTClass(Labelname-Only Text Classification)[12]相比,分类准确率分别取得了5.29个百分点、1.41个百分点和1.86个百分点的提升。
本文的主要工作如下:
1)提出了基于上下文表示的类别词去噪方法。该方法在充分利用词上下文语义的基础上,基于Zipf 定律可以构建更准确的类别表示,最后采用距离监督对类别词表进行去噪,降低了类别词表的噪声率。另外,超参数的设置,也使得该方法的应用更灵活。
2)构造了标签语义的自训练方法。引入标签语义因素联合句向量表示,达到具有对抗标签噪声的效果,提高了模型的稳定性和鲁棒性。
3)本文所提模型LSETClass 在不同语种环境中都具有效果,本文在中文和英文两类语言测试环境下与对比模型相比均有性能提升。
4)总结了基于BERT 的弱监督文本分类模型,并概括出了该类模型的一般化方法。
1 相关研究
弱监督文本分类旨在基于类别的词级描述对文档进行分类,而不需要任何人为标注的数据。对于这类任务,目前的方法按照所采用的技术可以分为三种,分别为无数据分类方法、基于主题模型的方法和基于神经网络的方法。
无数据分类[15]这类方法纯粹地从一般知识中学习,而不需要任何标注信息。它通常依赖于Wikipedia 来解释标签名的语义,并且通过显式的语义分析来推导文档的概念相关性。
基于主题模型的方法[8,16]主题模型能够很好地捕获文档中的词共现特性,可以挖掘更精准的类别词。因此,Li等[8]提出了一种类别词引导的主题模型方法(Seed-guided Topic Model,STM),使用用户提供的类别词来引导主题模型生成相同主题的关键词,然后基于距离监督来生成带伪标签的伪文档,最后使用伪文档训练分类器。但是这类方法挖掘的主题词通常是上下文无关的或者词共现频率较高的相关词,并非同义词或者真正与主题相关的词,因此这类方法的准确性并不高。
基于神经网络的方法 由于基于深度学习的神经网络方法在有监督任务下的出色表现,一些研究者[3,9]也将神经网络方法应用到弱监督文本分类中。WeSTClass(Weakly-Supervised neural Text Classification)[3]构建了一个统一的弱监督文本分类框架,通过类别词生成伪文档来训练神经网络分类器,扩充了训练语料库。该方法在随后被拓展为WeSHClass(Weakly-Supervised Hierarchical text Classification)[9]用于多标签的弱监督文本分类任务。最近由于预训练语言模型BERT等[17]强大的上下文表示能力有助于减轻噪声问题,一些学者也尝试开发一种基于预训练语言模型的弱监督文本分类方 法。ConWea(Contextualized Weak supervision for text classification)方法[2]针对之前的方法中的类别词噪声问题,使用BERT 获取词的上下文表示来挖掘更准确的类别词,然后采用相同的方法来训练分类器。LOTClass 模型[12]基于MASK 机制以预测的形式扩充扩充类别词表,然后将句级的监督转换为词级监督来缓减标签噪声问题,最后为了充分利用完整语料库中的信息,引入自训练模块进行微调,获得了接近监督学习方法的性能。
2 基于BERT 的弱监督文本分类的一般化方法
BERT 模型[17]是当前应用最广泛的一种预训练语言模型,通过自动随机的MASK 机制来预测文本中的缺失词,同时利用下一句预测任务来联合表达文本的语句序列表示,然后通过无监督的最大化MASK 词项的似然函数[18]在海量文本下进行预训练。基于BERT 预训练语言模型在文本语义特征抽取的良好表现,弱监督文本分类可以显著提升效果[1-3,9,12,18-21]。本文综合国内外相关文献总结了BERT 的一般化方法,并针对类别词表噪声问题和标签噪声问题提出了相应的改进。
现有的基于BERT 的弱监督文本分类方法通常是在原有方法的基础上,利用BERT 强大的上下文表示能力进行改进,其一般化的模型结构如图2 所示。
图2 基于BERT的弱监督文本分类模型框架Fig.2 Framework of weakly-supervised text classification model based on BERT
1)BERT 模块用于获取词的上下文表示。
2)在词表生成器模块,基于BERT 的弱监督文本分类方法通常采取判别式方法[1-2,4]或生成式方法[12]。前者通常基于BERT 的上下文表示,使用无监督聚类KNN 或者基于距离监督查找类别相关性单词;后者通常基于BERT 的MLM(Masked Language Model)头来预测类别词,取top-k个词中出现频次最高的top-p个单词作为最终的类别词表。
3)在样本标注器模块中,大部分基于BERT 的弱监督文本分类算法[1,10]通常采用关键词匹配机制赋予文本伪标签,这种方法来自以下实验观察,即给定一段文本,包含某个类别的关键词越多,则属于对应类别的概率也就越大。
4)在样本分类阶段,模型采用BERT 等预训练语言模型作为骨干模型,并应用于分类器训练和自训练优化阶段。自训练的主要思想是迭代地使用当前模型的预测分布P来计算目标分布Q,其常见目标函数为KL(Kullback-Leibler)散度函数,如式(1)所示:
其中:N是预测分布的样本数目,K是目标分布的样本数目。对于目标分布Q的计算,主要包括硬标签和软标签两种方法。硬标签方法[22]将模型的高置信度预测转换为one-hot 标签,例如qij=1(pij>ρ),其中1(·)表示指示函数。软标签方法[23]则通过平方标准化来增强高置信度预测并降低低置信度预测,其具体的计算方法如式(2)所示:
3 标签语义增强的弱监督文本分类模型
本章将详细介绍本文提出的标签语义增强的弱监督文本分类模型(LSETClass)。该模型由以下3 个流程组成:基于上下文表示的类别词构建、基于MASK 机制的类别词预测任务和基于标签语义的自训练模块,模型如图3 所示。受MASK 机制和表示学习的启发,本文设计了一种基于上下文的类别词构建技术,以构建更准确的类别词;然后对每个词执行基于MASK 机制的词类别预测任务;另外,由于标签语义包含更丰富的类别语义信息[24],本文设计了一种基于标签语义的自训练模块(self-training)在[CLS]词项上进行微调,以将词级类别预测扩展到句子级的类别预测任务。
图3 LSETClass模型的学习框架Fig.3 Learning framework of LSETClass model
3.1 基于上下文表示的类别词构建
基于上下文表示的类别词构建主要解决现有方法存在的类别词表噪声问题。该模块在词表构建的过程中比较类别词与类别表示之间的相关度,从而实现对类别词表的去噪。直觉上,类别词应该是语义上的近义词,即在对应类别的上下文下,具有较近的表示距离。具体而言,先用生成式方法构造候选词列表,对于候选词列表中的每个单词,通过对输入语料库中该单词出现的所有语境化表征进行平均作为其上下文表示,如式(4)所示:
其中:hw表示单词w的上下文表示,Di,j表示第i个文档的第j个词,ti,j表示单词w为Di,j时的上下文表示。
然后计算每个单词与类别表示之间的相关性,初始时类别表示为类别名的上下文表示,考虑到类别名与类别的相关度最高,其余词的相关性逐渐递减,因此本文引入Zipf 定律计算类别表示,其计算如式(5)所示:
其中:Kc表示类别c对应的词表大小表示该词表中的第i个词,hc表示类别的上下文表示。接着每次选取相关性最高的词作为候选词加入新的类别词表中,并重新计算类别表示和相关性,重复上述步骤,直到剩下单词与类别表示之间的语义相似性低于阈值σ。该过程的具体流程如图4 所示。
图4 基于上下文表示的类别词构建过程Fig.4 Process of constructing category words based on contextual representation
3.2 基于MASK机制的词类别预测任务
基于MASK 机制的词类别预测任务主要解决现有方法的匹配机制在训练数据中的标签噪声问题。该模块在生成弱标注过程中比较当前词的近义词表与类别词表之间的匹配程度来生成词类别标注,并使用MASK 机制来利用上下文语义以预测词的类别,从而实现了词级监督下对模型参数的训练。
该任务分为两个阶段:查找类别指示性单词[9]和词类别预测。在查找类别指示性单词阶段,针对句子中的每个单词,使用BERT 模型找到top-k个最相关单词,然后将这top-k个单词与每个类别的类别词表进行比较,选择交集超过m(m 在词类别预测阶段,对于每个类别指示性单词w,一般都采用“[MASK]”词项掩蔽掉原词,然后通过交叉熵损失训练分类器,使得模型可以借助上下文表示hw来预测该单词的类别,该计算过程如式(5)(6)所示: 其中:L1表示损失函数,p(cw|hw)表示给定单词w的上下文表示hw下,单词w属于类别cw的概率,W∈RK×h和b∈RK分别是线性层的模型参数和偏置。采用掩码机制的好处是可以让模型通过上下文表示去预测类别指示性单词的类别,而不是简单地记忆类别关键词。通过这种方式,BERT 可以学习到更好的词嵌入,从而有助于预测词类别。 基于标签语义的自训练模块主要解决MASK 机制词类别预测结果向句子级别类别转换和标签噪声问题。该模块在自训练过程中使用“[CLS]”词项作为句向量表示,并预测其类别,另外通过比较句向量表示与标签表示之间的相似度来增强自训练模块,从而在实现词级类别预测任务到句子级类别预测任务的转换的同时,具有对抗标签噪声的功能。本文设计的自训练模块结构如图5 所示。 图5 自训练阶段的学习框架Fig.5 Learning framework of self-training phase 该模块通过引入标签嵌入来学习标签语义,然后结合BERT 生成的句向量表示来计算二者的语义相似度,以计算真实的标签分布Q,计算如式(7)所示: 其中:为句子表示的转置,V为标签嵌入表示,W为语义相似度模块的全连接网络参数,b为偏置,q1为模型计算的标签分布,yone_hot为标签的one-hot 向量,α为超参数,Q为计算的真实标签分布。采用本文的标签分布方式相比硬标签方式,可以让模型具备更好的稳定性,如图6 所示。以交叉熵损失为例,其计算如式(8)所示: 图6 硬标签分布图和本文标签分布图Fig.6 Distribution of hard-labels and labels in this paper 其中:pic为第i个训练样本属于第c个类别的概率,yic为第i个训练样本对应第c个类别的标签,N为训练样本总数,M为训练类别总数,Li为第个样本的交叉熵损失值。因此当预测概率非常小,会导致损失值很高,反之则损失值很小。 可以看到,硬标签不但损失了正确标签的语义分布,还会导致更大的损失计算值(错误标签在训练初始阶段的预测概率较小),从而使得模型更容易过拟合错误标签。而本文提出的标签分布方式不但保留了正确标签的语义分布,还降低了损失计算值,从而减轻了误差传播,降低了模型对标签噪声的过拟合;同时,实验也发现本文所提方法比硬标签具有更好的泛化性能。 因此,本文采用KL 散度来计算目标分布Q,如式(9)所示: 其中:p(x)为训练样本x对应的真实分布,q(x)为训练样本对应的预测分布。因此当预测分布和真实标签分布完全匹配时,KL 散度值为0,并且每50 个batch 更新一次。完整的算法流程如下算法1 所示。 算法1 LSETClass算法流程。 输入 未标注语料库D;标签名集合C;预训练语言模型M。 输出 经过训练后的具备K类别分类能力的模型M。 THUCNews 数据集 该数据集是由清华大学自然语言处理实验室提供的公开中文文本分类数据集。数据集主要包括从新浪新闻RSS 订阅频道2005—2011 年间的历史数据中收集的74 万篇新闻文档(2.19 GB),每篇文档对应一个类别,总共涉及14 个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。在本文中并未使用完整的THUCNews 数据集,而是从中剔除了样本数较少的星座、彩票、家居和时尚四类数据,并把时政改为政治以更好地扩充类别词。 AG News 数据集 该数据集是由ComeToMyHead 在一年多的活动中,从2 000 多个新闻来源中收集的新闻文章数据集。本文遵循LOTClass[12]的方式构造数据集,从语料库中选择了最大的4 个类别,保留了文章的标题和描述字段,最终训练集的大小为120 000 篇文档,测试集的大小为7 600 篇文档,训练集和测试集中每个类别分别有30 000 篇文档和1 900 篇文档。 IMDB 数据集 该数据集是由Andrew Maas 收集的,用于二元情感分类的数据集,包含比以前的基准数据集更多的数据,提供了25 000 条IMDB 电影评论用于训练,以及25 000 条用于测试。 另外,为了保证类别均衡,本文还分别从上述3 个数据集中抽取了一定数目的数据,以保证每个类别下的文档数相同,并在表2 中记录了数据集的统计信息,其中对THUCNews数据划分为:70%的训练集、15%的验证集和15%的测试集。同时对每条文本数据长度进行截断,阈值为512 个词;词库以外的词(Out-of-Vocabulary,OOV)将被“UNK”替换。 表2 数据集简介Tab.2 Dataset introduction 与其他弱监督文本分类模型的方法相同,本文使用分类准确率(Accuracy,Acc)来评估模型的准确性。通过所有预测正确的标签数据TP和所有预测样本数N之比计算得到,反映了模型的预测准确度,其表示如式(10)所示: 4.3.1 对比实验 为了充分验证本文方法的有效性,分别与完全监督、半监督和弱监督下的文本分类算法进行了对比实验。 1)完全监督算法。 TextCNN:由Kim[25]2014 年提出,使用卷积神经网络(Convolutional Neural Network,CNN)获取文本的局部语法语义信息,并且利用多个卷积核提取多维特征,最后对分类的损失函数进行软边界优化。此外本文还使用SouGou 预训练词向量作为Embedding 层的初始化参数。 长短期记忆(Long Short-Term Memory,LSTM)网络:2016年由Liu 等[26]提出,使用循环神经网络(Recurrent Neural Network,RNN)捕获长短期依赖关系,并使用LSTM 的最后一层作为文本的编码表示。本文采用了双向LSTM 作为编码器层,使用一个全连接层作为分类器层。此外还使用SouGou 预训练词向量作为Embedding 层的初始化参数。 BERT:由Devlin 等[17]2018 年提出,利用了Transformer 的encoder 部分,具有卓越的上下文表征能力,在多项下游任务中取得了SOTA(State-Of-The-Art)的结果。本文采用预训练BERT 作为编码器,使用一个全连接层作为分类器层。 2)半监督算法。 UDA(Unsupervised Data Augmentation):由Xie 等[27]2019年提出,采用最先进的无监督数据增强技术来实现数据样本的扩充,仅使用少量标注数据进行监督训练。该方法还使用反向翻译[28]和TF-IDF(Term Frequency-Inverse Document Frequency)单词替换进行扩展,并采用一致性预测方法提升模型性能。 3)弱监督算法。 LOTClass:由Meng 等[3]2020 年提出,使用预训练的BERT 作为骨干模型,分三个阶段类别词表构建、掩蔽类别词预测任务和自训练微调来实现弱监督文本分类,该方法只需要类别名,而不需要任何标注数据,在英文数据集上的性能与基于监督学习的文本分类方法接近。为了让LOTClass 能够适用于中文数据集,本文使用追一科技的WoBERT[29]替换了原论文中的BERT,然后将其中的分词算法修改为适用于中文的分词算法进行实验。 本文实验在以下环境下进行:NVIDIA TESLA V100-32G显卡,Pytorch1.9.0,Python3.7。在训练过程中,本文方法采用追一科技的基于词细粒度的WoBERT 预训练语言模型,其中BERT 模型结构包含12 层Transformers,隐藏层维度为768,Head 数量为12。对于UDA,本文仅使用EDA(Easy Data Augmentation)算法[30]进行数据扩充,并使用BERT 模型作为骨干模型训练分类器。 对比实验结果如表3 所示。实验结果表明,本文方法在主要评价指标中取得了最好的结果。在THUCNews 数据集上,LSETClass 的准确率相比较于目前最优的弱监督文本分类模型LOTClass 有一定的提升,Acc 值提升了5.29 个百分点;在AG News 数据集上,LSETClass 的ACC 值相比最优模型提升了1.41 个百分点;在IMDB 数据集上,LSETClass 的ACC值提升了1.86 个百分点。在所有模型中,本文提出的LSETClass 模型在两个数据集上都取得了总体最好的准确率值。Meng 等[3]的LOTClass 模型具有接近监督学习模型的性能,究其原因在于其模型基于MASK 掩码机制,构造了掩蔽词类别预测任务,以此挖掘了文本与词之间的深度关联,一定程度上提高了模型的准确率,缓解了标签噪声问题。 4.3.2 消融实验分析 为了验证本文提出的词表去噪方法的有效性,将词表去噪模块作为实验的消融变量。“LSETClass-WD”表示在不使用词表去噪模块的条件下,模型在不同数据集上的性能表现。实验结果如表3 所示,对比LSETClass 方法,在使用类别词表去噪方法后,模型的性能在3 个数据集上的提升均有所下降,分别提高了2.55 个百分点、0.63 个百分点和1 个百分点。 为了进一步验证该方法的有效性,表4 还给出了词表去噪模块下的类别词(LSETClass)和不使用该模块的类别词(LOTClass)的部分结果,表中加粗的为噪声词,可以看到本文提出的类别词扩展方法得到的类别词表,相比不使用该方法得到的类别词表,具有更少的无关词,降低了词表噪声,同时结合表3 的对比实验结果,证明了降低类别词表噪声可以提高弱监督文本分类模型的性能。 表4 类别词表在THUCNews数据集上的对比结果Tab.4 Comparison results of category vocabularies on THUCNews dataset 另外,本文还探究了自训练模块中是否引入标签语义对模型性能的影响,实验结果如表3 所示,“LSETClass-LE”表示不使用自训练模块的结果,对比“LSETClass”的结果,可以看到引入标签语义后,模型在3 个数据集上的性能分别提升了2.76 个百分点、0.77 个百分点和0.95 个百分点,说明在自训练阶段,引入标签语义可以降低该阶段标签噪声对模型性能的影响,另外,自训练模块的引入可以更充分地利用未匹配数据的信息,从而提升了模型的泛化性能。 表3 不同文本数据集上的准确率实验结果对比 单位:%Tab.3 Accuracy comparison of experimental results on different text datasets unit:% 本文提出了一种标签语义增强的弱监督文本分类模型。通过预训练语言模型BERT 获取上下文表示来去噪类别词表,有效地去除了类别词表中的无关词;利用基于MASK 机制的词预测任务学习词与类别之间的关系,减少了词级-句级语义跨越所带来的标签噪声问题,从而提升模型在弱监督文本分类任务上的性能;通过引入标签语义,进一步地缓解了自训练阶段的噪声累积。实验结果表明,本文方法在3 个公开基准数据集上取得了较好结果,然而本文方法虽然证明了通过融合标签和文本的内在关系可以提升模型的效果,但是并没有完全解决标签噪声问题。在未来的工作中,将在带标签噪声的文本分类任务上考虑引入不同粒度的外部知识,期望通过引入不同的外部知识,以对抵抗标签噪声的影响,从而在尽量少的标注数据条件下,高效准确地预测标签序列。3.3 基于标签语义的自训练模块
4 实验结果与分析
4.1 数据集介绍
4.2 评估方法
4.3 实验分析
5 结语