APP下载

基于深度卷积神经网络的水稻知识文本分类方法

2021-04-13许童羽周云成赵冬雪王郝日钦

农业机械学报 2021年3期
关键词:残差向量卷积

冯 帅 许童羽,2 周云成,2 赵冬雪 金 宁 王郝日钦

(1.沈阳农业大学信息与电气工程学院,沈阳 110161; 2.沈阳农业大学辽宁省农业信息化工程技术中心,沈阳 110161)

0 引言

在农业智能问答系统中,由于大量的知识文本数据具有稀疏性强、噪声大及类别繁杂等特点,导致所构建的问答系统的准确率较低。因此,利用计算机技术提取准确的文本特征、实现知识文本的自动分类是构建农业智能问答系统的关键技术环节。从农业文本数据中提取出水稻的草害药害、病虫害以及栽培管理等数据是典型的文本分类问题。目前K最近邻(K-nearest neighbor,KNN)[1]、朴素贝叶斯(Naive Bayesian,NB)[2]以及支持向量机(Support vector machine,SVM)[3]等机器学习方法是进行文本分类的常用方法。文献[4]采用朴素贝叶斯算法实现了对农业文本的自动分类,识别率较高,但该方法缺乏较好的特征提取能力。文献[5]采用粒子群算法优化KNN算法的特征权重,构建PSOKNN文本分类模型。文献[6-7]根据农业文本数据特征构建农业行业词库,并通过特征词筛选和权重计算构建一种基于线性支持向量机的中文农业文本分类模型,该方法并未考虑数据集线性不可分的情况,存在一定的局限性。农业文本具有数据冗余性、稀疏性和规范性差等特征,采用传统的机器学习方法对大数据量的农业文本进行分类难度较大,且适应性较差,特征工程复杂。

随着计算机技术的迅猛发展,深度卷积神经网络(Deep convolutional neural networks,DCNN)[8]、循环神经网络(Recurrent neural network,RNN)[9]和胶囊网络(CapsNet)[10]等深度学习技术逐渐成为主流分类方法[11-16]。该技术能够自动实现图像和文本关键特征的提取,无需复杂的特征工程,与分类过程结合,所构建的模型具有较强的适应性和迁移性[17-18]。目前,国内外学者采用深度学习技术在英文和中文文本分类上进行了大量研究[19-23]。相比传统的文本分类方法,深度学习技术在文本分类中具有更好的分类效果。但在文本分类过程中仍存在文本特征提取不准确的问题,如忽略了文本的位置特征等。此外,也未见对网络层次加深所导致的文本分类性能变差的原因进行研究与分析的报道。

鉴于此,本文借鉴现有研究成果,提出一种基于深度卷积神经网络的水稻知识文本分类方法。基于ResNet[24]和Inception V[25]网络结构的基本原理,以Top-1准确率为判断标准,分别从网络模块结构和网络层次进行分析,筛选具有最佳特征提取性能的CNN网络结构,以提高精准率、召回率、F1值和正确率为目标,将筛选出的CNN网络结构与CapsNet相结合,建立水稻知识文本分类模型,以期为水稻知识文本的精准分类提供科学和理论依据。

1 语料采集及预处理

1.1 语料采集

本文通过采用Python爬虫框架,爬取知网专家在线系统和种植问答网等关于水稻病虫害、草害药害以及栽培管理等中文文本问答数据。同时,对所获数据进行初步人工筛选,最终获得14 527条有效数据,其中水稻病虫害、草害药害、栽培管理和其他数据分别为5 640、1 335、6 060、1 492条。水稻知识数据主要用于文本分类网络的模型训练与测试,每次试验从数据集中随机抽取80%作为训练集,10%作为验证集,剩余10%作为测试集。

1.2 语料预处理

1.2.1文本分词处理

相对英文文本,中文文本的处理相对复杂。中文字与字之间没有间隔,并且单个汉字具有的意义也明显弱于词组,因此本研究采用Jieba方法[26]对水稻知识文本进行分词处理,并去除文本中无用符号和停用词等。与此同时,中文分词结果深受分词词库的影响,为提高水稻知识文本分词精度,减少错分、漏分和误分情况,本文在搜狗农业语料库基础上构建水稻相关语料库,进而扩大Jieba分词基础词库,提高对水稻病虫害、草害药害和栽培管理等专业词汇的辨识度。

1.2.2文本向量化处理

由于网络模型无法对自然语言进行直接训练学习,并且中文文本语句中存在大量的语义信息、上下文依赖信息和语序信息等,直接采用中文文本将无法保留这些信息的完整性,因此将中文文本转换为多维且连续的向量至关重要。本研究采用Word2Vec[27]的Skip-Gram模型对水稻知识文本进行向量化处理。

2 水稻知识文本分类网络设计

2.1 ResNet-18网络结构

建立特征提取层网络是解决文本分类问题的基础,而CNN在图像和文本特征提取问题上取得了较好的提取精度。ResNet是CNN的典型代表,其残差模块(包括直接映射和残差部分)的设计理念使得随着网络层数的增加,网络发生退化的现象得以解决,且在ILSVRC 2015竞赛中其分类和特征提取的效果上得到了充分肯定[28]。图1为适用于文本分类的ResNet-18网络结构。其中nConv1D,m等表示尺寸为n、通道数为m的卷积核;Maxpooling1D,/2表示步长为2的最大池化层;FC,4表示通道数为4的全连接层。

ResNet-18网络多用于图像分类,其采用多个3×3的二维卷积核Conv2D从图像矩阵的行维度和列维度进行特征提取,但文本向量是由规定长度的词向量按一定顺序构建的向量矩阵,所以从矩阵的行维度卷积(即从左至右移动)没有实际意义。因此采用多个尺寸为n的一维卷积核(Conv1D)仅从向量矩阵的列维度进行卷积。但由图1可知,ResNet-18被采用一维最大池化方法(Maxpooling1D)的池化层分割为3部分,前两部分由17个尺寸为7和3,通道数为8、16、32和64的卷积层构成,后一部分仅采用1个通道数为4的全连接层。显然直接将上述ResNet网络结构用于水稻知识文本特征提取并不合适。首先相比图像具有颜色和形状等规律性特征,水稻知识每一类数据均由几十个甚至更多的关键词组成,生成的文本向量具有一定复杂性,因此仅采用[3 Conv1D,3 Conv1D]结构的残差模块无法较为精准地提取文本特征。其次水稻知识文本向量具有较大离散性和稀疏性,直接采用18个权重层的ResNet网络结构易造成过拟合。鉴于此,本研究对ResNet的残差模块结构和网络层次进行设计与分析。

2.2 水稻知识文本分类设计

按照Inception V系列网络结构原理,面向卷积通道对ResNet的残差模块进行更改与设计。首先将ResNet的单通道卷积组调整为多通道卷积组,用以减少文本特征的表征性瓶颈(即减少信息损失),其次通过增加尺寸为1的卷积核对文本向量进行降维,并加入非线性,进而降低网络模型参数和提高网络的表达能力,因此共设计了4种结构的残差模块,如表1所示。

表1 面向通道的4种残差模块结构Tab.1 Channel-oriented four residual module structures

为对比残差模块结构对文本分类的影响,共配置了4种水稻知识文本分类网络,如表2所示,并通过后续试验分析,筛选分类性能较高的残差结构。在保持较优残差结构不变的前提下,通过增加残差模块数量探究网络层次对分类精度的影响。

表2 基于4种残差模块的网络结构Tab.2 Network structure based on four kinds of residual modules

3 试验结果与分析

3.1 文本向量化处理与分析

采用Word2Vec中的Skip-Gram模型对水稻知识文本进行向量化处理,词向量维度为100,训练窗口尺寸设置为5。同时与One-Hot[29]、TF-IDF[30]、Hashing[31]向量化模型进行对比分析。对4种模型训练得到的文本向量进行浅层神经网络建模,其精准率、召回率和F1值的宏平均值和正确率如表3所示。

表3 4种文本向量化建模结果Tab.3 Results of four kinds of text vectorization modeling %

由表3可知,4种基于文本向量化方法构建的浅层神经网络中,Word2Vec方法相比其他方法具有最高的分类精度,正确率为86.44%,Hashing方法的分类效果最差。这可能是由于One-Hot所产生的向量维度较高,存在稀疏性,影响了神经网络的分类效果,TF-IDF和Hashing虽然考虑字词间的语义信息,但问题也较为明显,这2种方法没有解决向量维度高和数据稀疏的问题,并且随着提取连续字的集合的增大,维度将会变得更高。从每一类的分类效果来看(图2),基于4种向量化方法的浅层神经网络在栽培管理和病虫害上分类效果较好,在其他2个类别上效果较差,原因在于草害药害和其他类别的数据量较小。但相较而言,Word2Vec在草害药害和其他2个类别上向量化效果较好,网络模型能较为准确地提取到一定的文本特征,因此本研究采用Word2Vec模型构建文本向量作为后续研究的数据基础。

3.2 水稻知识文本分类模型训练与分析

采用Word2Vec生成的4类14 527条水稻知识文本向量作为样本,随机选取80%数据作为训练集,10%作为验证集,并根据表2中4种模块结构,分别构建分类模型,开展相关试验与分析。采用Top-1准确率作为评价指标(Top-1准确率为判断概率最大的类别与实际类别相符的准确率)。A-NN、B-NN、C-NN和D-NN的Top-1准确率分别为99.52%、99.11%、99.59%和99.38%。

可知,基于4种残差模块构建的网络模型均具有较好的分类精度,Top-1准确率均达95%以上,其中残差模块C-NN所构建的分类模型具有最高的分类精度,Top-1准确率为99.59%,残差模块D-NN、A-NN和B-NN的分类性能逐渐降低。这可能是由于残差模块C-NN在各个通道卷积的第1层均采用了尺寸为1的卷积核,其能够在一定程度上增加非线性激励,提高了网络的表达能力,同时卷积通道数的增加使卷积核的数量增大,能够更充分地从数据中获取更多的文本特征。因此残差模块C-NN具有最佳的文本特征提取能力。与此同时,本研究在保持残差模块C-NN的基本结构不变的基础上,通过增加残差模块的数量(即增大网络深度)进行进一步训练与分析,结果如表4所示。

表4 基于不同残差模块数量的网络分类性能Tab.4 Network classification performance based on number of different residual modules

由表4可以看出,针对水稻知识文本样本,在保持残差结构相同的情况下,网络Ⅲ的分类效果最佳,Top-1准确率为99.79%,网络Ⅰ和Ⅱ的分类效果略差,说明当残差模块较少时,可适当增加模块数量,提高文本分类精度。但在网络Ⅲ的基础上,再增加残差模块数量时,网络的整体性能开始趋于饱和,分类精度有所下降。可能原因在于水稻知识数据中存在“共享词汇”,随着残差模块的增加,卷积数增大,模型训练得到一定共享词汇等的非主要文本特征,从而影响模型测试精度。

但是如果采用上述分类网络直接用于水稻知识文本分类,均需要采用池化层进行下采样操作。虽然池化层具有降低特征维度、减小模型参数等作用,但是文本特征经池化层操作后所得到的特征为标量,这将会导致文本特征向量的矢量方向信息和文本整体与词组之间的关联信息丢失(即文本的位置特征丢失),影响模型分类精度。而CapsNet采取向量进、向量出的训练模式,能够充分地保留文本向量特征。这与池化层的下采样操作截然相反。与此同时,CapsNet首先采用Squash激活函数对特征向量进行压缩处理,保留向量的模长信息,从而能够表达特征向量所包含的信息强度。其次采用Dynamic Routing(动态路由方法)对向量进行聚类分析,强化特征向量中的相似特征,弱化离群特征,输出更具有表达能力的文本特征。因此本研究采用胶囊网络(CapsNet)替代池化层,并结合前文的4层残差网络结构,构建基于深度卷积神经网络的水稻知识文本分类模型,简称为RIC-Net,其网络架构如图3所示。

由图3可知,该网络将Word2Vec生成的文本向量作为模型输入,通过特征提取层提取文本特征,生成文本特征矩阵,并采用CapsNet替代池化层,对文本特征矩阵进行进一步筛选,最后经由全连接层和Softmax构成分类器,实现水稻知识文本的精准分类。

3.3 RIC-Net训练与分析

在RIC-Net模型中,特征提取层的卷积滤波器数量分别为8、16、32和64,CapsNet的输出数量和维度均为50,动态路由轮数为3,在全连接层中FC1和FC2神经元个数分别设置为128和4。另外,采用Nadam算法(Nesterov-accelerated adam)[32]对模型进行训练,初始学习率为0.002,一阶和二阶指数衰减率分别为0.9和0.999。同时,经多次试验得出,经过50代训练,网络模型的训练损失均收敛到稳定值。为对比本文方法的分类效果,利用同一样本数据,分别训练FastText、BiLSTM、Atten-BiGRU、RCNN、DPCNN和TextCNN等6种常用文本分类模型,训练误差结果如图4所示。

由图4可以看出,随着训练次数的增加,各个模型的训练误差均呈现不同程度的降低,当降低到一定程度后训练损失均收敛到稳定。在训练初始阶段,RIC-Net的训练误差下降最快,说明RIC-Net能够较为精准地提取文本特征,模型更易收敛。同时,RIC-Net、TextCNN和RCNN训练效果较好,当训练到45次时不仅达到收敛状态,且训练误差在0~0.036之间,基本达到训练要求。

3.4 RIC-Net测试与分析

采用测试集分别对RIC-Net和其他6种文本分类方法进行测试与分析,并以精准率、召回率、F1值以及正确率作为模型分类性能评价指标。评价结果如表5所示。

表5 不同分类网络的测试结果比较Tab.5 Comparison of test results with different classification networks %

由表5可知,与FastText、BiLSTM、Atten-BiGRU、RCNN、DPCNN和TextCNN等6种分类模型相比,RIC-Net在栽培管理、病虫害、草害药害和其他类别上均具有较高的分类性能,对水稻知识的4种文本类型分类的精准率、召回率和F1值分别不小于95.17%、95.83%和95.50%,在测试集的正确率方面,RIC-Net同样高于其他模型,正确率为98.62%。这是由于借鉴了ResNet和Inception V的基本思想,采用多通道和残差模块的结构构建特征提取层,精准提取水稻知识文本特征,同时将CapsNet替换池化层,保留了词组间相对位置特征,从而提高了模型分类精度。

从整体测试结果来看,相比数据量较大的病虫害分类结果,其他和草害药害的分类精度较低,说明增大类别样本量,能够进一步提高模型分类精度。但从数据量较小的其他和草害药害分类结果来看(图5),RIC-Net分类的精准率、召回率和F1值略高于其他6种模型。说明RIC-Net在样本量较少的情况下,也具有较高分类精度。

测试结果同时表明,相比栽培管理、病虫害和草害药害的分类结果,7种网络模型在其他类别上分类性能最低,原因在于在其他类别中存在多种繁杂的水稻相关知识点,因此该类文本中主要的关键词种类较多,缺乏一定的统一性,从而导致模型提取的特征不显著,降低了分类精度。但从图6可直观地看出,相比其他模型,RIC-Net在其他类别中能够取得较好的分类结果,说明该模型具有较好的鲁棒性。

4 结论

(1)相比One-Hot、TF-IDF和Hashing方法,采用Word2Vec方法对水稻知识文本数据进行向量化处理能够较好地保留文本语句中的语义和上下文依赖关系等信息的完整性。

(2)在ResNet的基础上,分别对其残差模块结构和网络层次进行改进设计,以便在对水稻知识文本分类过程中提高模型获取文本特征的能力。对9种分类网络结构的对比分析表明,采用4层C结构的残差模块作为水稻知识文本分类模型的基础网络结构能够较为精准地提取文本特征,Top-1准确率达到99.79%。

(3)本文所设计的水稻知识文本分类模型能够较好地对不同样本量和不同复杂程度的水稻知识数据进行精准分类。与FastText、BiLSTM、Atten-BiGRU、RCNN、DPCNN和TextCNN等6种模型相比,本文模型对水稻病虫害、草害药害、栽培管理和其他4种文本类别上均具有较高的分类性能,分类的精准率、召回率和F1值分别不小于95.17%、95.83%和95.50%,正确率为98.62%,满足实际应用需求。

猜你喜欢

残差向量卷积
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
向量的分解
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
聚焦“向量与三角”创新题
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法