基于改进GhostNet的小麦秸秆表皮结构完整性分类方法

2022-08-11张倩如王云飞吕帅朝宋磊尚钰莹宋怀波

南京农业大学学报 2022年4期

张倩如,王云飞,吕帅朝,宋磊,尚钰莹,宋怀波

(西北农林科技大学机械与电子工程学院/农业农村部农业物联网重点试验室,陕西杨凌 712100)

小麦秸秆是生物质能源资源化利用的重要来源之一[1-2],完整的小麦秸秆外表皮组织致密,有光滑的蜡质层并堆积有大量稳定的硅质结构,抵御了纤维素酶的进入,使秸秆内部的纤维素难以被降解利用[3-6]。对秸秆进行预处理,破坏其结构完整性,打破其表面的致密结构,是提高秸秆资源化利用效率的关键[7]。秸秆表皮结构的完整性通常在显微镜下由分析人员进行主观评价,导致目前无法用秸秆破碎程度对预处理效果进行量化分析,如何实现秸秆表面结构完整性的自动分类是其关键之一。

为了降低人工分析的不确定性并减少试验时间成本,部分学者将以深度学习为代表的机器学习方法引入显微组织的自动识别之中,借助深度学习强而有效的特征提取能力,自动提取图像中可用于显微组织识别的强有效特征,消除人工识别的不确定性,可有效、快速且自动地对材料显微图像进行识别和分类[8]。Azimi等[9]以低碳钢的某些组织成分为例,提出了一种组织分类的深度学习方法,该方法采用全卷积神经网络达到了93.94%的分类准确率。Yamamoto等[10]用一种封闭的卷积神经网络(convolutional neural networks,CNN)对材料特征进行预测,实现了金属-绝缘体、非磁性-磁性体的二元分类。Ruelas等[11]采用多层感知器的人工神经网络,结合数字图像处理技术,实现了高温条件下导体材料不同物理状态的识别与分类,平均精度为96.82%。王诗琪等[12]用CNN模型对色素痣和脂溢性角化症的皮肤镜图像进行分类,分类准确率为88.33%。周蕾蕾等[13]用一种能够自动学习CT图像特征并分类的影像组学方法,ResNet 50模型的准确率达92.9%。王培珍等[14]采用深度学习方法,构建了基于迁移学习的煤岩壳质组显微组分类别识别模型,实现了煤岩壳质组的自动识别,以ResNet 50为基础的迁移学习模型对测试样本识别准确率为92.38%。孙世丁等[15]提出了基于CNN的病毒显微图像识别和分类方法,表明轻量级网络ShuffleNet V2模型可用更少的参数量和浮点运算次数进行病毒显微图像的识别,其参数量和浮点运算次数分别是ResNet的约1/15和1/90。

GhostNet特征网络的核心思想是以更少的参数来生成更多特征,既可以减少模型参数量,又可以减少模型运算量[16]。在农作物种类分类和农作物病害的识别中,GhostNet被证明拥有更好的性能[17]。本研究将GhostNet网络模型轻量化、高准确率的优良特性应用于小麦秸秆表皮结构的完整性分类之中[16],在获取小麦秸秆表皮显微图像并制作相应数据集的基础上,利用GhostNet对小麦秸秆表皮显微图像数据集进行训练。为了降低GhostNet模型过拟合的风险,将迁移学习引入GhostNet中,为了提升网络的分类准确率,将Dropout层引入GhostNet网络。为了验证算法的有效性,将改进后的GhostNet网络与ShuffleNet V2[18]、ResNet 50[19]和AlexNet[20]网络进行对比,以验证网络对小麦秸秆表皮完整和破碎情况的分类效果,以期在生物质能源资源化利用领域,为小麦秸秆预处理技术的定量分析研究提供更高效和准确的判别手段。

1 试验数据采集

选用由江苏连云港联丰农产品深加工厂提供的小麦植株为试验原料,只取秸秆麦秆部分,去除麦穗,剪切为1 cm左右的秸秆段,自然晾晒。将晾晒后的秸秆随机均分为2组,一组不进行后续处理,另一组采用最为广泛使用的机械粉碎方式进行粉碎,获得更细碎的秸秆材料(0.425～0.850 mm),该方式对秸秆的破碎作用较缓和[6],可有效验证深度学习对秸秆表皮完整性的分类能力。

1.1 数据采集和整理

1.1.1 设备型号和拍摄条件采用日本电子株式会社研发的新一代超高分辨率的JSM-7800F场发射扫描电子显微镜,该电子显微镜配备了新开发的超级混合式物镜,在保持极高的可操作性的同时,实现了低加速电压下的高分辨率成像,电子源采用浸没式肖特基场发射电子枪,能以大束流电流进行稳定的分析。场发射扫描电子显微镜配有1个高位和1个低位共2个二次电子探测器;1个对中工作台和一系列样品架,可根据应用要求容纳直径高达100 mm,高度可及40 mm的样品。系统加速电压为0.01～30 kV,束流强度为1×10-13～2×10-9A,放大倍数为25～100 000倍。本研究设定观察条件为:使用超级混合式物镜和高位二次电子探测器,在15 kV的加速电压下进行背散射电子成像。

1.1.2 试样制备和图像采集将黑色导电胶带粘在样品座上,分次把2组处理的小麦秸秆试样随机撒在上面,用洗耳球吹去粘住的秸秆,将试样放入样品舱后抽真空,调整试样的距离、扫描的衬度,获得放大500倍的图像,通过计算机图像显示和记录系统进行观察和拍照,图像模式为灰度模式,分辨率为640像素×480像素,图像保存为JPG格式。

未经粉碎和经过粉碎的小麦秸秆分别采集432幅图像,共计864幅图像。本研究所用图像数据集包含单独秸秆和堆叠秸秆图像,不同拍摄亮度、高度的秸秆图像等多种复杂情况,保证了数据集的多样性。小麦秸秆完整表皮与破损表皮的显微图像如图1所示,图中用黄色方框标出了小麦秸秆完整表皮上的硅质突起结构。在实际操作中,由于小麦秸秆的制样过程会有样品堆叠等情况,样品舱的真空环境拍摄会产生漂移现象,影响拍摄的效率和成像品质。从图1可见,2种处理条件下的小麦秸秆在扫描电镜下的形态和外观相近,肉眼区分困难,直接由分析人员进行主观评价会导致对秸秆破碎程度的量化分析出现偏差。

图1 小麦秸秆完整表皮(A)和破碎表皮(B)的显微图像Fig.1 Microscopic image of intact wheat straw epidermis(A)and broken wheat straw epidermis(B)

1.2 数据增强

为了获得大规模样本集,防止网络训练过拟合,提高网络的泛化能力,本研究通过数据增强的方式实现了数据集的扩展。对2种处理方式的小麦秸秆表皮显微图像依次进行了水平翻转、垂直翻转、水平垂直翻转和添加方差为0.02的高斯噪声处理,将864幅小麦秸秆的显微图像扩充为4 320幅图像的数据集(表1),并按照6∶2∶2的比例将其分为训练集、验证集、测试集3部分,即:随机将2种处理条件下的2 592幅图像作为训练集,864幅图像作为验证集,剩余864幅图像作为测试集展开试验。

表1 数据集图像详细信息Table 1 Details of the data set used in this research

2 试验方法

2.1 基于改进GhostNet的小麦秸秆完整性分类

2.1.1 GhostNet网络模型轻量级的神经网络模型已应用在农业领域[21]。为了实现将该模型移植到常规硬件平台或移动设备上使用的目的,本研究着重对轻量级的卷积神经网络进行了研究。GhostNet作为一种轻量级网络模型,它采用一种新型的端侧神经网络架构,使用线性运算代替部分卷积,相比于传统的卷积,GhostNet分两步进行,如图2所示。GhostNet中引入了卷积运算与线性运算相结合的模块。Ghost模块采用普通的卷积首先生成少量的内在特征图,然后利用线性运算来扩充特征,增加通道数。这些线性运算可用更少的参数来生成更多的特征图,在不改变输出特征图大小的条件下,Ghost模块中所需的参数总数和计算复杂度均低于普通CNN网络[16]。该模块中的线性操作具有较大的多样性,不局限于先前有效架构中的深度卷积或移位操作。同时,Ghost模块可实现识别和线性变化并行,保留固有的特征映射,在维持相似识别性能的同时降低通用卷积层的计算成本,有助于提升算力。

图2 传统卷积层(A)和输出相同数量特征图的Ghost模块(B)Fig.2 Original convolutional layer(A)and the proposed Ghost module(B)for outputting the same number of feature mapsΦ1—Φk表示简便运算。Φ1-Φk represents the cheap operation.

图3 不同步长的Ghost瓶颈结构Fig.3 Ghost bottlenecks structure with different stride BN:批量归一化Batch normal;ReLU:线性激活函数Rectified linear units.

GhostNet基于端侧类残差模块(Ghost bottlenecks,G-bneck)构建,G-bneck包含2种Ghost模块,图3显示了G-bneck的结构[22]。第1个Ghost模块用作扩展层,增加了通道数;第2个Ghost模块减少通道数,使其与直连(shortcut)路径匹配。Shortcut用来连接这2个Ghost模块的输入和输出。第2个Ghost模块不使用线性激活函数(rectified linear units,ReLU),其他层在每层之后均应用了批量归一化(batch normal,BN)和ReLU。上述G-bneck适用于步长(stride)为1的情况,对于步长为2的情况,Shortcut路径由下采样层和步长为2的深度卷积(depthwise convolution,Dw Conv)实现。基于效率考虑,Ghost模块中的初始卷积为点卷积。

GhostNet网络的整体结构如表2所示。整个网络主要由堆叠的G-bneck组成,其中G-bneck以Ghost模块为基础构建。第1层为具有16个卷积核的标准卷积层,随后是一系列G-bneck,通道逐渐增加。G-bneck根据其输入特征图的大小分为不同的阶段。每阶段最后一个G-bneck 的步长为2,其他所有G-bneck的步长均为1。最后,利用全局平均池化层和卷积层将特征图转换为1 280维特征向量进行最终分类。某些G-bneck中的残留层应用了挤压与激发(squeeze-and-excitation,SE)模块[23]。Conv2d为卷积层,AvgPool为平均池化层,FC(fully connected)为全连接层。

表2 GhostNet 网络结构参数Table 2 GhostNet network parameters

原始特征图输入后,经过16个G-bneck结构提取小麦秸秆显微图像特征,最后经过FC层提取秸秆图像的高维特征向量,该高维特征向量通过Softmax归一函数得到置信度为[0,1]的向量,该置信度代表了该图像被判别为完整与破损的概率。

2.1.2 GhostNet网络模型的优化1)迁移学习。对扫描电子显微镜拍摄到的2种不同处理条件下的小麦秸秆表皮显微图像进行分类,为加快训练速度,使用GhostNet网络在ImageNet数据集上预分类训练得到的模型参数,进行迁移学习[24]。加载预训练模型后,模型参数在初始化时较接近实际特征提取参数,使得模型训练初始损失值低于未加载预训练权重模型,较好地加快了模型的训练时间。在加载模型时,冻结除FC层外的所有网络权重,使这些层参数不更新,保证其权重不变,仅训练FC层网络参数,让网络在学习过程中重点关注数据特征的分类,从而提升模型效果。2)Dropout层。当相对较大的模型用于较小的数据集时,通过通道随机丢弃策略可以防止过拟合,并提高泛化能力[25]。为了提升网络的分类准确率,在FC层前添加了Dropout层,并参照文献[26]将Dropout率取为0.2,即在每次训练中,在输入FC层之前Dropout层按照随即丢弃策略参数值0.2的比率随机将输入FC层的神经元输出结果设置为0,不让其参与计算,达到缓解过拟合的效果。Dropout率过小,通常要求该层的神经元个数较大,此时容易出现训练震荡,并且可能出现欠拟合,Dropout率过大可能导致正则化效果不够[27]。3)交叉熵损失函数。损失函数用于评价模型训练过程的精度,并用于更新梯度,是描述预测值与真实值差距的标准。分类模型中采用交叉熵函数,即将两类样本视为同等重要[28]。本研究采用交叉熵损失(cross entropy loss,CEL)作为损失函数。

根据数据集的特点,具体的参数设置为:模型初始学习率为0.001,采用等间隔调整学习率的策略,间隔为200次训练,设置调整倍数为0.1倍;数据集批样本数量(batch size)设置为24;迭代次数(epoch)统一设置为1 000;输出神经元个数为2。训练设备为GPU。

2.2 对比网络模型

2.2.1 AlexNet网络模型AlexNet网络模型的优势在于,使用ReLU作为CNN的激活函数,在训练时使用Dropout随机忽略一部分神经元,避免模型过拟合。AlexNet网络模型的结构如图4所示,在隐含层中,AlexNet全部使用最大池化(max pooling),避免平均池化的模糊化效果[29]。

图4 AlexNet网络模型结构Fig.4 Structure of AlexNet

2.2.2 ShuffleNet V2网络模型ShuffleNet V2网络模型和GhostNet同属于轻量级网络模型。ShuffleNet V2的基本结构是基于残差网络的残差结构,其核心采用了2种操作:分组卷积和通道打乱(channel shuffle),这2种操作在保持精确度的同时大大降低了模型的计算量[29]。如图5所示,在每个单元的开始,输入的特征通过通道分离(channel split)分成2个分支。一个分支进行同等映射,另一个分支由3个输入和输出通道数相同的卷积组成。卷积后,2个分支的输出进行合并,保持输出通道数和输入通道数相同。随后对2个分支合并的结果进行Channel Shuffle,使得2个分支的通道信息流通。这些操作的设计符合旷视科技提出的4种优化准则[30],可大幅降低模型运行时间。

图5 ShuffeNet V2的区块结构Fig.5 ShuffleNet V2 block structure

图6 ResNet 50残差学习构建模块Fig.6 Building block of residual learning of ResNet 50

2.2.3 ResNet 50网络模型残差网络ResNet 50设计了一种残差模块以训练更深的网络。如图6所示,残差模块在输入和输出之间建立了一个直接连接,这样新增的层只需要在原来输入层的基础上学习新的特征,减少了学习难度,即残差学习。利用残差模块,ResNet 50可以训练152层的残差网络[31]。

2.3 试验环境

采用PyTorch1.5.1深度学习框架,以Python3.8作为编程语言,在PyCharm平台搭建模型。处理器型号为英特尔 Xeon E5-1620 v4,拥有四核八线程,最大频率为3.5 GHz,显卡为NVIDIA GeForce RTX 2080 Ti,内存32 G,Win10操作系统。

2.4 评价指标

为评估训练所得模型的检测效果,选取准确率P值,损失函数L值作为深度学习的评价指标。P代表图像分类的准确性,越接近于1表明分类结果越准确。L用来估量模型的输出与真实值之间的差距,其值越接近0,模型输出与真实值之间的差距越小。P值、L值的计算公式如下:

P=TP+TN/(TP+TN+FP+FN)

(1)

L=-[ylogy′+(1-y)log(1-y′)]

(2)

式中:TP表示被正确分类的正例样本数量;TN表示被正确分类的负例样本数量;FP表示被错误分类的负例样本数量;FN表示被错误分类的正例样本数量。y为真值,y′为估计值。

在本研究中,P值表示小麦秸秆表皮显微图像被正确分类的个数在所识别样本中所占比率,它分为训练集准确率和测试集准确率。训练集准确率用于模型训练阶段,对模型参数进行评估。测试集准确率用于评判训练完的模型性能,评估模型泛化能力。训练集的P值越高,表明训练所得模型参数设置越合理;测试集的P值越高,表明分类效果越好。

3 结果与分析

将扫描电子显微镜拍摄的小麦秸秆表皮显微图像作为数据集,选取改进后的GhostNet、ShuffleNet V2、AlexNet和ResNet 50这4种CNN模型。其中,AlexNet代表早期层数较少的CNN模型,ResNet 50代表有深层网络的CNN模型,ShuffleNet V2网络模型与本网络模型同为轻量级CNN模型。本研究将改进后的网络模型与上述3个模型进行比较,以验证本轻量型网络的检测效果。最终将4种网络模型按照同样的初始学习率、初始动量因子、初始随机参数设置等模型训练参数应用在所选数据集上,对小麦秸秆表皮显微图像进行分类。为提升模型训练时间,4种模型均采用了迁移学习策略。

3.1 试验结果

试验结果显示,4个模型训练过程的P值接近1,均在86.6%以上。表明4种CNN模型可成功实现对小麦秸秆表皮显微图像的分类功能。但4种不同的网络模型之间存在差异,具体如表3所示。从训练结果上看,改进后的GhostNet、ResNet 50和AlexNet网络模型训练集的P值均为99.9%,表明这3个模型的参数设置合适,ShuffleNet V2网络模型训练集的P值为89.2%,说明该模型的学习能力不足。

从4种模型在验证集上的P值来看,改进后的GhostNet可达到99.2%的准确分类,P值最高,与ShuffleNet V2、ResNet 50和AlexNet模型相比,验证集P值分别提高了14.55%、3.66%和3.44%。

表3 不同模型的训练结果Table 3 Training results of different models

图7展示了不同算法的P值和L值曲线。从P值曲线来看,4种模型的精确率上升曲线均较为平滑,波动较小。改进后的GhostNet、ResNet 50和AlexNet的测试集曲线在前100次迭代中波动稍大,其中,改进后的GhostNet模型P值最先趋于稳定,且该模型的P值整体提升最快。ShuffleNet V2模型的准确率在迭代后期的波动高于其他3个模型,其不稳定性最高。从L值曲线可知,4种模型均可快速收敛。改进后的GhostNet和AlexNet的L值较小,表明在本研究对小麦秸秆表皮显微图像的分类任务中,这2个模型经过参数迭代自动优化后更适合小麦秸秆显微图像的分类。

图7 不同算法模型的P值(A)和L值(B)变化Fig.7 Changes of P value(A)and L value(B)of different models

3.2 试验结果分析

为了验证算法的有效性,分别就图像亮度和高斯噪声对模型分类效果的影响进行了分析。

图8 小麦秸秆完整表皮在明(A)和暗(B)2种亮度下的显微图像Fig.8 Micrographs of intact epidermis on wheat straw with bright(A)and dark(B)two kinds of brightness

3.2.1 图像亮度对算法准确率的影响在人工对秸秆表皮完整性与否进行分类的任务中,成像较暗的图像会极大地增加人工检测时间,降低检测准确率。图8展示了小麦秸秆完整表皮在不同亮度下的显微图像,可见亮度降低会明显增加研究人员的分析时间,降低分类准确率。

采用4种模型对显微图像的明亮度进行了测试,从试验结果表4可见:P值在不同网络模型中的高低排序和全集数据集P值一致,最大P值仍出现在改进后的GhostNet模型上,高于98.65%。同一网络模型对亮图像的分类P值略高于对暗图像的分类P值,最大差异出现在AlexNet网络模型上,亮图像数据集P值比暗图像数据集P值高了3.77%。不同模型对亮图像的分类时间均快于暗图像,ResNet 50在2类图像的识别和分类上所用时间仅相差0.59 ms。微弱的P值差异和分类时间差异表明,GhostNet模型对不同亮度的显微图像均具有良好的鲁棒性。

表4 不同亮度图像数据集上的P值Table 4 P value for test results with different brightness

3.2.2 噪声处理对准确率的影响考虑到实际环境,受拍摄显微图像仪器设备的影响,拍摄过程的样品舱中可能存在漂移等影响图像清晰度的状况,会得到较模糊的显微图像。

为了验证所选4种模型对模糊图像的识别和分类能力,在训练集模型的基础上,对高斯噪声、泊松噪声和椒盐噪声处理后的图像数据集进行了测试,可见其画质不清晰,增加了识别和分类的难度(图9)。测试后的P值如表5所示。不同噪声对测试集P值影响不同,ShuffleNet V2模型对噪声最敏感,下降幅度最大为7.05%,改进后的GhostNet模型和ResNet 50、AlexNet模型在不同噪声处理后的数据集上P值仅有微弱的差异,最大差异分别为0.60%、3.03%和1.83%,表明网络模型对于显微图像数据集有较好的调节能力。GhostNet模型的P值达到96.53%,更适合小麦秸秆表皮显微图像数据集的完整性分类。

图9 噪声处理前、后小麦秸秆表皮显微图像Fig.9 Micrographs of wheat straw epidermis before and after noiseA.原始显微图像;B. 高斯噪声处理后的显微图像;C. 泊松噪声处理后的显微图像;D. 椒盐噪声处理后的显微图像。A. Raw micrograph;B. Gaussian processed micrograph;C. Poisson processed micrograph;D. Salt & Pepper processed micrograph.

为进一步验证改进后GhostNet网络模型的鲁棒性,对数据集添加了不同方差数值的高斯噪声,模型的P值如图10所示。从图10可看出,随着高斯噪声的方差逐渐增加,模型分类的准确率下降。方差小于0.06时,模型的准确率从96.53%缓慢下降至93.64%,表现出对图像较好的分类能力。当高斯噪声的方差大于0.06时,模型的分类准确率从93.64%下降至78.03%。

表5 噪声处理数据集上的P值Table 5 P value for test results after noise processing %

图10 GhostNet模型在不同方差高斯噪声处理数据集上的P值Fig.10 P values of GhostNet model on Gaussian noise datasets with different variances

当方差加到0.06时,图像的模糊程度已经超过了实际拍摄中会遇到的模糊程度(图11),其分类的准确率为93.64%,能够实现对图像的分类任务。综合来看,改进后的模型可准确完成图像的分类功能,并且在实际应用中有较强的适应能力。

3.2.3 运行时间从表4可知,ShuffleNet V2、ResNet 50和AlexNet网络模型用时基本无差别,改进后的GhostNet模型一代训练用时为25.71 s,耗时最长,分别比ShuffleNet V2、ResNet 50和AlexNet慢了5.03、4.58和5.23 s。这一结果可能是因为GhostNet模型较深导致的。但该模型所能达到的准确率最高,对目标分类效果更好。

图11 高斯噪声处理前、后小麦秸秆表皮显微图像Fig.11 Micrograph of wheat straw epidermis before and after Gaussian noiseA.原始显微图像;B—F依次是方差为0.02、0.04、0.06、0.08和0.10高斯噪声处理后的显微图像。A. Raw micrograph;B-F. Gaussian with a variance of 0.02,0.04,0.06,0.08 and 0.10 micrograph.

3.2.4 权重文件大小由表3结果可知,2个轻量级网络模型ShuffleNet V2和GhostNet具有较小的权重大小。ShuffleNet V2的权重仅为ResNet 50权重的5.53%,不到AlexNet权重的2.3%。GhostNet的权重约为ResNet 50权重的16.78%,为AlexNet权重的6.96%。较低的权重文件大小可确保普通的计算机设备有足够的存储空间来构建CNN模型,便于模型向嵌入式设备进行移植使用。