APP下载

基于ERNIE-SA-DPCNN的文本分类研究

2022-07-06裘凯凯丁伟杰钟南江

现代信息科技 2022年6期
关键词:文本分类

裘凯凯?丁伟杰?钟南江

摘  要:近年来自然语言处理领域发展迅猛,文本分类任务作为其中的基本任务出现了重大突破,但并未辐射到公安工作实务之中。目前文本分类领域以采用基于统计和概率的模型为主,但是相比于使用大量语料训练的预训练模型,其分类效果并不理想。文章采取预训练ERNIE作为特征提取模型,并以SA-Net结合ERNIE模型中的注意力机制,最后以DPCNN作为深度学习网络形成ERNIE-SA-DPCNN算法。实验证明,ERNIE-SA-DPCNN在涉网新型犯罪案件案情文本分类任务上的表现优于其他模型。

关键词:涉网新型犯罪;文本分类;ERNIE;SA-Net;DPCNN

中图分类号:TP391         文献标识码:A文章编号:2096-4706(2022)06-0069-06

Research on Text Classification Based on ERNIE-SA-DPCNN

—Take the Text of New Network Related Crime Cases as an Example

QIU Kaikai1,3, DING Weijie2,3, ZHONG Nanjiang1,3

(1.Department of Computer and Information Security, Zhejiang Police College, Hangzhou  310053, China; 2.Research Institute of Dig Data and Network Security, Zhejiang Police College, Hangzhou  310053, China; 3.Key Laboratory of the Ministry of Public Security for Public Security Informatization Application Based on Big Data Architecture, Hangzhou  310053, China)

Abstract: In recent years, the field of natural language processing has developed rapidly. As one of the basic tasks, text classification task has made a major breakthrough, but it has not radiated into the practice of public security work. At present, the field of text classification mainly adopts the model based on statistics and probability, but compared with the pre training model trained with a large number of corpus, its classification effect is not ideal. Pre training ERNIE is used as the feature extraction model, and SA-Net is combined with the attention mechanism in ERNIE model. Finally, DPCNN is used as the deep learning network to form ERNIE-SA-DPCNN algorithm. Experiments show that ERNIE-SA-DPCNN performs better than other models in the task of case text classification of new online crime cases.

Keywords: new network related crime; text classification; ERNIE; SA-Net; DPCNN

0  引  言

2021年7月28日,浙江省公安厅召开“净网2021”新闻发布会[1],通报称截至2021年7月28日,全省共侦办各类网络违法犯罪案件2.4万余起,抓获犯罪嫌疑人2.6万余人。在涉网新型犯罪频发的严峻态势下,公安采取“专人专办”的方式来提高公安民警办理相关案件效率。本团队前往杭州市公安局萧山分局进行实地调查,发现目前案情主要由人工进行录入和分类流转,虽然人工处理准确率相对较高,但手工流转通报方式对办案效率依然造成了负面影响。本文设计了一种ERNIE-SA-DPCNN涉网新型犯罪案件文本分类器,能自动将涉网新型犯罪案件从全部案件中分离出来,以提高流转通报效率,从而提高公安民警办理涉网新型犯罪案件效率。

目前国内并没有对涉网新型犯罪案件分类专门进行的研究,其中孟令慈[2]针对裁判文书分类提出了BERT-LSTM模型,平均識别率约为85%。但这类学术研究对公安工作仅有指导性作用,可以作为研判分析的依据,但并对公安实战并没有实质性的帮助。

目前国内提出了许多文本分类方案。程盼等[3]针对中文专利文本,建立了Word2vec-logistic回归算法。而Word2vec等模型不能解决一词多义问题,且基于统计和概率的算法难以充分表示文本间关系。目前常用的LSTM算法并行处理的能力较弱,而CNN算法无法获取长距离的文本依赖关系。同时BERT模型在中文文本特征提取的表现并不理想。本研究将通过加入中文实体预训练的ERNIE模型,解决中文文本特征提取的问题;通过结合SA-Net加深特征提取深度,创新注意力机制从而深度提取文本特征;通过DPCNN算法进行深度学习,解决长距离特征提取问题和传统神经网络算法运行效率较低的问题,从而达到更好的分类效果,并在接下来的实验中证明。280B69BA-0ECD-42F9-945A-C04E85844B36

1  相关工作

1.1  文本分类发展历程

国外对文本分类的研究起步较早,早在20世纪60年代,来自IBM的LUHN H P[4]首次提出统计词频的方法,开创了文本分类的先河,为以后文本分类的发展打下基础。但这种方法对词频词语的选择提出了较高要求,需要由具有专业知识的专家学者方可实施,其泛用性和准确性依然较低。

直至20世纪80年代,基于知识的文本分类占主导地位。分类器需要大量的专家参与,不但开发时间长且开发所需经费开销大,另外即使专家和知识工程师都具有很丰富的经验,也很难证实规则与知识是正确的,并且二者之间的一致性也很难保证。

自从20世纪90年代开始,伴随着数学的发展,基于统计和概率的方法被提出,这种方法相对于知识工程的方法,在准确率和稳定性方面都有着明显的优势。1993年,Igor KONONENKO I [5]第一次使用朴素贝叶斯算法进行分类工作。1994年,SALZBERG S L[6]详细介绍了J.Ross Quinlan的第二代决策树算法——C4.5。1995年,Cortes C.和VAPNIK V N[7]提出了软边距的非线性支持向量机并应用于手写字符识别问题。1996年[8]对KNN进行剖析并著重研究了其在分类问题中的性能表现。此后,越来越多的研究人员开始关注基于统计和机器学习的文本分类方法。

1.2  中文分词现状

虽然基于统计和机器学习的文本分类方法依然适用于当下的文本分类任务,但是这些方法都是将文本向量化后的根据其坐标位置进行聚类。相比于其他语种,中文文本中的词句结构要复杂得多,所以中文文本依然没有一个明确的泛用分词方法。目前,中文分词方法主要分为基于词典分词算法以及基于统计的机器学习算法。

常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。其本质就是将文本与词典进行匹配从而进行分词,而文本分词的准确度与词典挂钩,但由于词典的限制,分词工具在使用上都有着一定的局限性。

当前深度学习快速发展,基于其强大的表示学习的能力,越来越多的预训练模型被提出,这些预训练模型在发表前已经经过了大量语料学习,其准确度和速度均优于基于词典的分词算法,同时也弥补了当前中文文本分词方法的缺点。

2  本文方法

本文所设计的ERNIE-SA-DPCNN模型结构如图1所示。其中,警情文本句子自输入层进入ERNIE层后,由ERNIE模型预训练的分词模型进行分词操作,并同时进行中文实体检测。词语序列进行MASK掩码预测学习,通过两层多头自注意力层将该语句转化为包含上下文信息的词向量,同时检测到的中文实体的语义信息也会通过两层多头自注意力层转化为和词向量结构相同的语义向量,最后将对齐位置的词向量和语义向量进行信息融合,就得到了该语句包含语义信息和上下文信息的词向量,至此一句语句变成了一个二维矩阵,将固定数量的二维矩阵进行堆叠形成一个三维矩阵。此时该三维矩阵可以看作是一张多通道图片,便可以使用SA-Net的图像注意力机制对其进行特征强化提取。将三维矩阵沿着通道方向进行分组形成亚特征图,并将每个亚特征图再沿通道方向平均分为两个部分,分别进行通道注意力和空间注意力的提取并组合,其注意力结果矩阵的形状与亚特征图相同,然后对所有亚特征图进行channel shuffle,就得到了SA-Net强化提取特征的文本词向量三维矩阵此时再将其沿语句数方向进行划分,就得到了每个语句的SA-Net强化特征提取后的词向量,将其作为DPCNN层的region embeddings输入,DPCNN通过循环两个等长卷积层和一个1/2池化层进行长距离特征综合,同时引入残差连接防止网络退化,最后将包含长距离特征的词向量输入全连接层进行学习分类,最后得到分类结果。

2.1  ERNIE层

输入层将警情文本按每批次训练样本大小sample_size输入到ERNIE层中。ERNIE层得到sample_size长度的语句序列,将每个语句通过已预训练过的分词模型进行分词,得到每个语句的词嵌入表示{t1,t2,t3,…,tn},其中n为句子最大长度。

然后ERNIE层采用动态词向量对文本进行分析,得到词语与上下文之间的关系,比如在语句“我是谁”中,“是”字在静态词向量中表示为一个确定的向量:是=(x1,x2,…,xn),其中n为该词向量矩阵的总维度数;而在动态词向量中,其可以简单表示为:

其中n为该语句字符总数,fi为影响函数,Ci为第i个字符,pi即该字符与“是”的相对位置,在例句中表示为:

是=f1(我,-1)+f2(谁,1)

而基于动态词向量的模型通过对大量语料的学习,便可以分析出每个字受其他字的影响程度,从而可以在缺省文本中预测出缺省字,ERNIE层中的底层文本编码器就是利用这种机制得到上下文信息向量。

然后多头自注意力层对词向量和上下文信息向量进行混合,将输入向量矩阵T进行位置编码得到矩阵X,并通过与三个权重矩阵相乘得到词语间关联度:

Q=XWq

K=XWk

V=XWv

然后将Q和K相乘除以K的秩dK的算术平方根以稳定梯度,归一化后对V 加权求和,就得到了单头自注意力层输出:

将不同权重的单头自注意力层进行混合得到多头自注意力层,并最后归一化为输出w,可以充分提取词语间关系。

而ERNIE层也会对语句与预训练实体库进行对比,获取到的词义信息以向量形式进入两层多头自注意力层得到与混合词向量维度一致的语义向量。然后,将中文实体的语义信息与词向量的采用相同方法进行混合,最后得到了语句词向量{W1,W2,W3,…,Wn},每个语句词向量都是hidden_size大小的一维向量,其中hidden_size指隐藏层数,而每个语句都是(hidden_size,n)大小的二维向量矩阵,最终ERNIE层的输出为(hidden_size,n,sample_size)大小的三维矩阵。280B69BA-0ECD-42F9-945A-C04E85844B36

2.2  SA-Net层

SA-Net是一个基于图像的注意力机制,其输入和输出都是相同大小的三维矩阵,所以它可以内嵌在任一环节,对已提取出的特征矩阵进行再提取改良。Yang等[9]证明了SA-Net对图像识別的提升,并且其效率和准确度相比主干网络ResNet都有所提升。

将(hidden_size,n,sample_size)大小的三维矩阵输入SA-Net层,将hidden_size看作图片通道数,n和sample_size看作图片像素长宽。按照SA-Net的方法将三维矩阵沿hidden_size方向进行切割,将原三维矩阵分割为G个亚特征图,假设原三维矩阵为X∈RC×H×W,那X=[X1,…,XG],Xk∈RC/G×H×W。对于每个亚特征,会将亚特征图再分割成两个分支,即Xk1,Xk2∈RC/2G×H×W,将这两个分支分别输入通道注意力模块和空间注意力模块,如图2所示。

图2  SA-NET的注意力机制

在通道注意力中,通过全局平均池化,沿着空间维度H×W收缩Xk1计算,嵌入全局信息,生成通道统计数据:

然后再通过sigmoid函数来创建一个紧致特征来自适应选择,最终通道注意力的输出为:

其中W1,b1∈RC/2G×1×1用于缩放平移s使得能充分表达通道间相互关系。

而空间注意力,主要是用于补充通道注意力,提取局部丰富特征。在SA-Net中,通过对Xk2使用Group Norm来获取空间统计数据,同样通过FC(·)来增强Xk2的特征表示,空间注意力的输出为:

最后只需要将这两个注意力连接起来,就使得分组后的输入输出结构一致,即:

随后通过channel shuffle,沿着通道维度实现跨组信息交流,最后形成与输入特征图结构一致的输出特征图(hidden_size,n,sample_size)。

2.3  深层金字塔卷积神经网络(DPCNN)层

SA-Net输出的特征图再沿sample_size分割为语句(hidden_size,n),作为DPCNN的region embeddings。取卷积核的大小为3,即将输入序列的每位及其相邻位的特征信息压缩为该位的embedding。假设输入序列的长度为seq_len,那每进行一次压缩,输出序列的长度就会比输入序列少2,DPCNN层采取等长卷积所以需要在输出序列的两端补0从而使得长度一致。进行两次压缩后,当前输出序列里的每个实体位其实包含了前后共9个实体的上下文信息,显然如果要通过这种方式来使得每个实体位提取远距离的实体信息,需要经过较深的网络层数。所以在每两次等长卷积后,加入一次二分之一池化,直接合并了两个相邻实体从而极大降低了网络层数。

但是由于在初始化深度CNN时,各层赋权往往都会初始化一个很小值,这就会导致神经网络开始迭代时,后续层的输出都几乎为零,在这种时候网络的输出就变得没有意义,而过小的权重也会阻碍梯度传播,导致网络需要长时间反复迭代后才能启动。而且接近连乘的连接方式极有可能造成梯度爆炸或梯度弥散。所以这里加入ResNet中的残差连接来解决DPCNN的冷启动问题。即直接把region embedding连接到各卷积层,从而把原先深度的网络退化,大大降低了DPCNN层的启动时间,从而解决DPCNN层的冷启动问题。

3  对比实验

3.1  实验基础设置

3.1.1  实验数据集

本研究所选取的实验语料为2019年7月至2020年7月某市公安局某区公安分局警情文本数据集,数据集详情如表1所示。该中文文本数据集中,类别分为涉网新型犯罪案件案情文本和传统犯罪案件案情文本。因为二元分类任务数据相对较好处理,不容易产生分类交叉的情况,日后公安机关使用时更具可靠性。该中文文本数据集总数据量为100 000条,其中训练数据90 000条,测试数据10 000条。

3.1.2  模型参数设置

ERNIE-SA-DPCNN模型中,ERNIE模型使用“ERNIE-GEN base”,其中参数如表2所示。

SA-Net中,仅有分组数G和用于放缩拟合的W1,b1,W2,b2共5个参数,其中只有分组数G需要手动设定,值一般为32或64,为了区分不同分组数的SA-Net对ERNIE-SA-DPCNN模型的影响,下文将以ERNIE-SA(32)-DPCNN和ERNIE-SA(64)-DPCNN分别指代分组数为32和64的SA-Net。

DPCNN设定卷积核个数为默认的250,残差连接将根据实际实验中出现的冷启动问题进行调整。

3.2  评价指标

为了评估中文文本分类模型的分类效果,本研究采用准确率(Accuracy)、精度(Precision)、召回率(Recall)和F1分数作为评价指标。其中准确率用以评价分类器预测分类结果与实际分类结果之间的差异;精度指分类器预测结果为正的样本中实际结果也为正的概率,用以评价分类器仅返回相关实例的能力;召回率指实际结果为正的样本中分类器预测正确的概率,用以评价分类器识别所有相关实例的能力;F1分数是对精度和召回率的调和平均,从而综合评价分类器的分类效果,其公式为:

3.3  对比实验设置

为评价ERNIE-SA-DPCNN模型以及各部分具体效能,本研究主要从ERNIE-SA-DPCNN模型与主流文本分类模型对比实验、ERNIE-SA-DPCNN模型各部分效能对比实验着手进行研究。

3.3.1  ERNIE-SA-DPCNN模型与主流文本分类模型对比实验设置280B69BA-0ECD-42F9-945A-C04E85844B36

为评价ERNIE-SA-DPCNN模型分类表现,本文选取了5种预训练模型和2种基于统计和概率的模型进行对比实验,其中预训练模型参数如表3所示,基于统计和概率的模型参数如表4所示,ERNIE-SA(32)-DPCNN和ERNIE-SA(64)-DPCNN共用參数如表5所示。

3.3.2  ERNIE-SA-DPCNN模型各部分效能对比实验设置

为证明ERNIE-SA-DPCNN模型各部分在中文文本分类上都具有优势,本研究采用控制变量法进行对比实验,其中ERNIE模型与BERT模型进行对比,DPCNN与TextCNN进行对比,对比实验各模型参数如表6所示。

3.4  实验结果及分析

3.4.1  ERNIE-SA-DPCNN模型与主流文本分类模型对比实验结果

ERNIE-SA-DPCNN模型与主流文本分类模型对比实验各项评价指标结果如表7所示。由表7可知ERNIE-SA-DPCNN模型在涉网新型犯罪案件案情文本分类任务上的表现非常优秀,两种ERNIE-SA-DPCNN模型在该任务上的F1分数均超过了95%,远超目前主流文本分类模型。其中,预训练模型的表现均优于基于统计和概率的模型,说明依托于强大算力的深度学习网络所训练的模型更加接近于人类希望达到的分类效果。而2018年提出的BERT模型相比于之前主流的TextCNN模型也有了较大提升,说明char-mix-level的向量提取方式优于word-level的向量提取方式。SA-Net分组数G为32和64的ERNIE-SA-DPCNN在各项评价指标上的差别不大,但是SA-Net分组数G为64的表现相对更好。

3.4.2  ERNIE-SA-DPCNN模型各部分效能对比实验结果

ERNIE-SA-DPCNN模型各部分效能对比实验各项评价指标结果如表8所示。对比各组SA-Net不同分组数的各项评价指标,发现在ERNIE-SA-DPCNN模型、BERT-SA-DPCNN模型和ERNIE-SA-TextCNN模型中,分组数G为64的模型分类效果普遍优于分组数G为32的模型,而对比ERNIE-SA(64)-DPCNN模型和ERNIE-DPCNN模型发现,SA-Net在涉网新型犯罪案件案情文本分类任务

上可行且有效。对比ERNIE-SA-DPCNN模型和BERT-SA-DPCNN模型分类效果,说明ERNIE模型在涉网新型犯罪案件案情文本分类任务中效果优于BERT模型,说明ERNIE模型的substance-mixed-level向量提取方法相比BERT模型的char-mixed-level向量提取方法更适合中文文本分类任务。而DPCNN和TextCNN的分类效果差异并不明显,但是实际运行过程中,使用残差连接的DPCNN运行速度约比TextCNN高12%,说明DPCNN对ERNIE模型的提升比TextCNN更大;同时对比ERNIE模型,使用CNN的ERNIE模型各项评价指标比不使用CNN的ERNIE模型约高2%,说明DPCNN对ERNIE模型有效。

综上来看,本研究提出的ERNIE-SA(64)-DPCNN模型在涉网新型犯罪案件案情文本分类任务上具有优越性,相比目前主流中文分类模型提升较大。同时通过对比实验,证明ERNIE-SA(64)-DPCNN模型中每一个部分都具有相对优越性,尤其是使用SA-Net这种原本仅用于图片识别的注意力机制,当其使用在文本特征提取上时依然有效。

4  结  论

本研究将ERNIE模型、SA-Net和DPCNN相结合,建立ERNIE-SA-DPCNN中文文本分类模型。为了证明该模型在中文文本分类上的有效性,本团队将该模型与当前主流中文文本分类模型进行实验对比,得出该模型优于当前主流中文文本分类模型的结论。同时,为了证明该模型每个部分的有效性,本团队将该模型与BERT-SA-DPCNN、ERNIE-DPCNN和ERNIE-SA-TextCNN分别进行对比,结果表明ERNIE-SA-DPCNN模型中的每个部分均能有效提高中文文本分类器的性能。

但是,本研究还存在一些不足之处,本研究所使用的数据集以长文本为主,并不能证明在短文本处理上,DPCNN优于TextCNN,同时对于DPCNN中word-level的Region embeddings提取研究不够深入,没有把BERT模型的char-mixed-level和ERNIE模型的substance-mixed-level提取方式进行对比,从而对文本向量化缺乏更细致的研究。同时对于每一个模型的预训练时间和分类运行时间,本团队没有基于此进行参数上的调整以提高模型整体运行速度。而对于ERNIE-SA-DPCNN,本研究并没有进行调参对比实验。后续本团队会在这三个方面继续研究,并基于研究成果对文本向量化和特征提取进行进一步提升,并通过训练不同类型的文本,观察ERNIE-SA-DPCNN模型在其他类型文本和其他自然语言处理任务上的表现。

参考文献:

[1] 李维和.浙江公安通报“净网2021”行动成果 [N].杭州日报,2021-07-29(A10).

[2] 孟令慈.基于Bert-LSTM模型的裁判文书分类的研究 [D].南昌:华东交通大学,2021.

[3] 程盼,徐弼军.基于word2vec和logistic回归的中文专利文本分类研究 [J].浙江科技学院学报,2021,33(6):454-460.

[4] LUHN H P. Pioneer of Information Science [J].Selected Works,1968,320.

[5] KONONENKO I. Successive Naive Bayesian Classifier [J].Informatica (Slovenia),1993,17(2):167-174.280B69BA-0ECD-42F9-945A-C04E85844B36

[6] SALZBERG S L. C4.5:Programs for Machine Learning by J. Ross Quinlan. Morgan Kaufmann Publishers,Inc.,1993 [J].Machine Learning,1994,16(3):235-240.

[7] CORTES C,VAPNIK V N. Support-vector networks [J].Machine learning,1995,20(3):273-297.

[8] . Performance Relationship Between the kNN Classifier and Neural Networks in Feature Extraction [J].,1996.

[9] YANG Y B. SA-Net:Shuffle Attention for Deep Convolutional Neural Networks [J/OL].arXiv:2102.00240 [cs.CV].[2022-01-03].https://arxiv.org/abs/2102.00240v1.

[10] 劉凯洋.结合Bert字向量和卷积神经网络的新闻文本分类方法 [J].电脑知识与技术,2020,16(1):187-188.

[11] 张海丰,曾诚,潘列,等.结合BERT和特征投影网络的新闻主题文本分类方法 [J].计算机应,2022,42(4):1116-1124.

[12] 邓维斌,朱坤,李云波,等.FMNN:融合多神经网络的文本分类模型 [J].计算机科学,2022,49(3):281-287.

[13] 齐凯凡.基于卷积神经网络的新闻文本分类问题研究 [D].西安:西安理工大学,2018.

[14] 张航.基于朴素贝叶斯的中文文本分类及Python实现 [D].济南:山东师范大学,2018.

[15] 李荣陆,王建会,陈晓云,等.使用最大熵模型进行中文文本分类 [J].计算机研究与发展,2005(1):94-101.

作者简介:裘凯凯(1999—),男,汉族,浙江宁波人,本科在读,主要研究方向:涉网犯罪文本挖掘;通讯作者:丁伟杰(1980—),男,汉族,河南西平人,副教授,硕士生导师,博士研究生在读,主要研究方向:警务大数据分析、涉网犯罪治理;钟南江(1991—),男,汉族,湖南祁阳人,助教,硕士研究生,主要研究方向:谣言识别、欺诈检测、网络空间安全。280B69BA-0ECD-42F9-945A-C04E85844B36

猜你喜欢

文本分类
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于朴素贝叶斯分类的Java课程网络答疑反馈系统
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用