基于融合注意力机制的苹果品种分类方法
2022-08-05黄亚龙郭永敏
耿 磊 黄亚龙 郭永敏
(1.天津工业大学生命科学学院,天津 300387;2.天津工业大学光电检测技术与系统重点实验室,天津 300387;3.天津工业大学电子与信息工程学院,天津 300387;4.天津工业大学机械工程学院,天津 300387)
0 引言
苹果具有很高的营养价值,其果实富含矿物质和维生素,在世界果品市场上占据着重要地位。然而苹果品种繁多,不同种类的田间栽培条件、采后贮藏特性以及价格均差别较大,且有些苹果品种在成熟期其外形、色泽、风味差异较大,例如:金冠、澳洲青苹、秦冠,感观易于辨别;有些则成熟期尺寸、着色、口感均比较接近,例如:红富士、乔纳金、小国光、嘎啦等,非专业人员品评辨识准确率不高,更难以在采后处理流水线上快速鉴别。由于苹果品种分类通常以人工为主,劳动强度大,成本高和效率低。因此为推进苹果产业智能化生产经营水平,提高苹果供应能力及果实优质率,亟需一种简便、无损、高效的苹果品种快速鉴别方法。
近年来,国内外研究者针对苹果品种分类问题在高光谱成像技术[1]、近红外光谱技术[2-3]、电子鼻技术[4-5]、视觉图像与机器学习方法[6]等方面开展了相关研究。尽管这些方法取得了成功,然而,近红外光谱技术只提供对检验客体某一较小区域的光谱信息,无法得到样本的空间信息,因而存在检测范围小和信息获取量少的弊端;电子鼻技术虽然可以方便地获得大量的气体传感器阵列数据,但是这些数据不仅含有被测对象的信息,还夹杂有噪声,因此,噪声的存在会导致最终的结果出现偏差;高光谱检测系统成本高,耗时,难以满足工程化应用。而应用传统的图像处理技术,易受环境等外在因素的影响,特征提取难度较大;另外,图像不能直接作为支持向量机(SVM)的输入,并且很难避免复杂的图像处理。
近年来,随着大数据技术的发展以及计算机算力的大幅提升,深度学习尤其是卷积神经网络(CNN)在图像分类领域取得了良好的结果。LeNet是LECUN等[7]提出的最具代表性卷积神经网络之一,由卷积层、池化层和全连接层组成,在手写数据集分类方面表现出高精度,并成为典型的网络结构,该网络为卷积神经网络的发展奠定了基础。AlexNet是由KRIZHEVSKY等[8]提出的,首次在CNN中成功应用了ReLU激活层、局部响应归一化层、丢失层和重叠池化层,从而加速了网络训练的收敛并防止了过拟合的出现。SIMONYAN等[9]提出的VGG率先在每个卷积层中使用更小的卷积,并将它们组合成卷积序列,其核心模块简单堆叠的思想对后续卷积神经网络的发展具有很大的启发。SZEGEDY等[10]创建了GoogLeNet,通过引入Inception模块提高了GoogLeNet的模型分类精度,采用平均池化层替换全连接层。HE等[11]提出ResNet,引入了跳跃连接的结构,在深化网络层数量的同时,有效解决了梯度分散引起的精度下降问题,提高了网络训练模型的泛化能力。SqueezeNet[12]、DenseNet[13]、MobileNet[14]等网络模型从减少参数量的角度设计了更加轻量化的网络模型。HU等[15]提出的SENet关注通道之间的关系,该模型可以自动学习到不同通道特征的重要程度。
通过以上对CNN的发展分析可知,相比于传统的神经网络,卷积神经网络在结构上进行了优化,利用局部感知和全局共享技术,不仅能够减少网络参数数量,还使其性能更加接近生物神经网络。在苹果识别和分类中,深度学习的作用越来越突出[16-17]。ALSHAWWA等[16]提出了一种基于深度学习的苹果分类方法,以原始图像作为输入,使用CNN来提取特征,网络由4个带有RELU激活功能的卷积层组成,每个卷积层后面是最大池化层,最后利用CNN实现了13种苹果类型的分类。张力超等[17]对LeNet-5架构进行改进,用于苹果种类识别,以64像素×64像素的彩色图像作为输入,在全连接层之前加入Flatten层压缩三维彩色图像维度,并通过实验找出该模型中最优超参数,最后该模型对红富士和红元帅2种苹果的分类识别率达93.70%。文献[18-19]方法都实现了较好的分类结果,但所选苹果类型易于区分,且并未对各类别品种分类结果进行分析。目前国内苹果分类主要运用SVM等传统机器学习算法和LeNet-5等浅层CNN算法,有关ResNet等深层CNN算法的应用较少。利用加入融合注意力模块的ResNet模型对苹果进行分类识别,并与浅层CNN(AlexNet和改进型LeNet-5)以及常用CNN进行对比,以评估苹果分类常用算法的性能。因此,深度学习算法在图像特征的提取上虽然有了较大突破,但构建的数据集和选取的网络也影响着网络最终的分类结果。
考虑到苹果品种分类现有方法的局限性以及卷积神经网络在图像分类任务上的优越性,本文提出EBm-Net网络模型,通过融合通道注意力和空间注意力机制对苹果品种进行分类。
1 分类方法建立
1.1 数据采集
苹果图像采集系统构成如图1所示。该系统主要由HIKVISION MV-CE013-50GC型彩色工业相机、球积分光源、工业相机万向架、镜头和计算机构成。在整个系统中,相机采用夹持的方式,将其固定于万向架的夹片上,使球积分光源穿过相机镜头并绑定在万向架上。苹果放在光源中心位置,并使相机垂直于苹果表面。最后通过计算机采集苹果图像,图像分辨率为1 280像素×960像素。
图1 图像采集系统构成图Fig.1 Schematic of image acquisition system1.万向架 2.相机 3.球积分光源 4.苹果样本 5.底座 6.计算机
本文选取完整、无机械损伤的苹果作为样本。收集了7种类型的苹果,每种100个,共700个苹果,分别为红富士、乔纳金、秦冠、小国光、嘎啦、金冠、澳洲青苹。然后,利用图像采集系统对每个苹果采集4幅图像,共计2 800幅。按照比例6∶2∶2随机将数据集分为训练集、验证集、测试集,即每类品种苹果240幅训练图像,80幅验证图像,80幅测试图像。部分实验样本如图2所示。
图2 7个品种苹果图像Fig.2 Seven varieties of apple images
1.2 EBm-Net网络模型
本文以ResNet网络为主干网络,设计并提出了EBm-Net网络模型,该模型具有以下特点:
(1)可以提取多尺度信息。由于红富士与乔纳金、小国光与嘎啦两两类间差异较小,这就要求网络模型具有多尺度信息。EBm-Net网络模型采用融合注意力结构使模型可以提取苹果图像的多尺度信息。
(2)引入注意力机制。专业鉴定人员基于人工样照对比法进行分类时,重点关注苹果形状轮廓和颜色纹理的特征,EBm-Net网络模型采用通道加权的方式引入了融合注意力机制,使其重点关注苹果表皮局部与全局的颜色和纹理特征,进而增大类间差异。
1.2.1EBm-Net总体结构
本文所提网络的整体结构如图3所示,其中,注意力模块由级联的4个Attention Block组成,每2个Attention Block之间都会有一个Maxpooling层将特征图的尺寸减半,图中0.016、0.008等数值表示输出概率预测值。其具体流程为:首先,将不同品种的苹果图像输入到7×7卷积层;其次,将卷积核作用后的图像通过Maxpooling层再经过注意力模块输出特征图;最后,经过全局平均池化层后输入到全连接层,输出分类预测结果。EBm-Net网络模型的具体参数如表1所示。
图3 EBm-Net网络总体结构图Fig.3 Overall structure diagram of EBm-Net network
1.2.2注意力核心模块
在苹果品种分类任务中,重点是提取不同种类图像的形状轮廓和颜色纹理特征。基于以上目的,本文在注意力机制(BAM)[20]基础上,将局部跨信道交互策略(Efficient channel attention)[21]作为通道注意力模块,空间注意力机制不变,将此模块命名为融合注意力模块。其具体网络结构如图4所示。
如文献[14]所述,对于给定的特征图F∈RC×H×W,BAM可以得到一个3D的注意力图M(F)∈RC×H×W,得到细化特征图F′=F+F⊗M(F),其中⊗表示逐元素相乘。M(F)为
M(F)=σ(MC(F)+MS(F))
(MC(F)∈RC,MS(F)∈RH×W)
(1)
式中F——特征图
M(F)——注意力图
表1 EBm-Net网络参数Tab.1 EBm-Net network structural parameters
图4 融合注意力模块的网络结构Fig.4 Network structure of fusion attention modules
MC(F)——通道注意力
MS(F)——空间注意力
C——通道维数
W——卷积运算后得到的图像宽
H——卷积运算后得到的图像高
σ——sigmoid函数
ECA模块将特征图的每个通道视为特征检测器,通过全局平均池化层得到聚合特征图MC(F),然后通过考虑每个通道及其k个邻居来捕获局部跨通道交互信息,最后,通过执行k阶的快速1D卷积来生成通道权值。
空间注意力模块用于提取内部空间的关系,增强或抑制特征在不同的空间位置,使用扩张卷积代替标准卷积,有助于构建更有效的空间图。而空间分支采用ResNet建议的“瓶颈结构”,不仅节省了参数数量,还节省了计算开销。空间注意力MS(F)为
(2)
式中f——卷积运算
BN()——批量归一化运算函数
通道缩减有2个1×1卷积。中间3×3扩张卷积用于聚合具有较大感受野的上下文信息。
从2个注意力模块中获取通道注意力MC(F)和空间注意力MS(F)后,将它们组合起来,生成最终的3D注意力图M(F)。该模块沿2个独立的路径(通道和空间)推断注意力图,它通过许多参数在瓶颈处构建层次结构,并且可以使用任何前馈模型以端到端的方式进行训练。
综上所述,本文使用ECA模块作为通道注意力模块,可以提高各种深度卷积神经网络架构的性能。避免了降维,增加了通道间信息的交互,可以在保持性能的同时显著降低模型的复杂性。
2 分类有效性分析与性能对比实验
在以上构建的苹果数据集基础上,对本文提出的EBm-Net网络模型进行了训练及测试。其次从EBm-Net提取到的特征图、类别概率统计图2方面进行分析,证明EBm-Net网络模型在区分不同品种苹果上的有效性。同时,本文还将EBm-Net网络与常见的几种卷积神经网络以及不同分类方法进行实验对比,以客观评估本文所提方法的优越性。
2.1 实验环境与超参数
本文实验网络模型的操作平台为台式计算机,处理器为Intel(R) Core(TM) i7-6800K CPU,默认频率3.40 GHz,内存为16.0 GB,GPU为NVIDIA GeForce GTX 1080Ti,开发环境为:Python 3.6,anaconda 1.9.12,CUDA版本为10.0,Windows 10 64位操作系统。
本文采用pytorch深度学习框架,经反复测试得到的最佳配置超参数:学习率为0.000 1,损失函数为交叉熵损失,使用了零均值归一化,训练轮次为300。优化器为带动量(动量为0.9)的SGD,L2正则化(权重衰减)系数为5×10-4。由于输入到EBm-Net网络的苹果图像过大会导致网络参数量增大,训练较为缓慢;过小会导致丢失重要的纹理信息。为了平衡训练速度与精度,经实验将苹果图像调整为224像素×224像素,并将其作为网络输入。
2.2 EBm-Net模型训练及测试结果
本文所提EBm-Net网络模型、ResNet、BAM_ResNet在训练阶段得到的损失值曲线和准确率曲线如图5所示。
图5 ResNet、BAM_ResNet和EBm-Net网络在训练阶段的损失值和准确率曲线Fig.5 Loss and accuracy curves of ResNet,BAM_ResNet and EBm-Net networks in training phase
由图5a可知,训练开始时损失衰减最快的是EBm-Net,其次是BAM_ResNet,最慢的是ResNet。从整体损失值变化过程来看,EBm-Net振荡幅度较小,曲线较平滑,而ResNet损失值振荡较大,当训练至200个周期后才稳定下来。由图5b可知,EBm-Net和BAM_ResNet在训练过程各个阶段的准确率都高于ResNet网络模型,这主要是由于注意力模块提取了丰富的苹果外形特征和颜色纹理特征,使得网络学习到的特征中表面颜色纹理的特征信息所占比重更大,网络更倾向于根据苹果表皮局部与全局的颜色纹理特征做出最终的判别,更符合实际分类的标准。
EBm-Net网络模型在测试集上生成的混淆矩阵如图6所示。分类准确率及错分数如表2所示。
图6 EBm-Net网络模型在测试集上生成的混淆矩阵Fig.6 Confusion matrix generated by EBm-Net network model on test set
由图6和表2可知,EBm-Net网络模型在红富士、乔纳金、秦冠、金冠、澳洲青苹上的分类准确率均达到了96.00%以上。但在小国光和嘎啦上的准确率仅有92.50%和93.75%,并清晰地说明3个错分苹果被错分成了哪些类型。其中标签1代表红富士,标签2代表乔纳金,有3个苹果被相互错分,这是由于两者在纹理上部分特征较为相似,进而导致错分。标签3代表小国光,标签5代表嘎啦,标签6代表金冠,小国光苹果有2个错分成了乔纳金,3个错分成了嘎啦,1个错分成了金冠,而嘎啦苹果有3个错分成了小国光,2个错分成了金冠,这是由于嘎啦与小国光苹果在其外观形态上具有一定的相似性,但总体来看,嘎啦苹果较小,同时这2种类型苹果与金冠苹果在其颜色上有较少部分相似,从而导致以上的错分。另外,标签4与标签7分别代表秦冠与澳洲青苹,这2类均无错分,得到了较好的分类结果。
表2 每种苹果的分类准确率及错分数Tab.2 Classification accuracy and number of misclassifications for each type of apple
2.3 EBm-Net分类有效性分析
由于神经网络模型可解释性较差,从特征图、类别概率统计图2方面证明EBm-Net网络模型在苹果品种分类这一任务上的有效性。
2.3.1特征图分析
神经网络的特征图可以对网络模型提取到的特征进行可视化。EBm-Net网络模型的部分特征图如图7所示。
图7 EBm-Net网络模型的部分特征图Fig.7 Partial feature map of EBm-Net network model
由图7可知,红富士与乔纳金外观形态比较相似,从专业鉴别人员来看,红富士花纹宽且稀疏,乔纳金花纹细且密集,模型提取的特征图中能够较好地突出两者的特点,可以较明显区分开。同时,小国光与嘎啦在外观形态上也比较相似,但小国光花纹较粗糙,嘎啦花纹较光滑,从其模型提取的特征图中也可以较明显区分开,由此可以说明,本文提出的EBm-Net网络模型具有很强的鲁棒性,可以有效缓解噪声、光照不均匀等影响。同时,提出的EBm-Net网络模型更加突出了苹果的轮廓和纹理特征。另外,秦冠苹果纹理呈现点状,特征相比其他类型较明显,澳洲青苹颜色为绿色,金冠颜色为黄色,两者在颜色上可以较明显区别。因此,这3类苹果在颜色以及纹理形态上易于区分。
2.3.2类别概率统计图分析
苹果图像输入到加载了模型参数的EBm-Net网络中,在最后的全连接层输出属于每一类别的得分,之后经过Softmax函数会得到属于每一类别的概率。本文随机选取了2幅分类正确的图像作为示例,其概率统计图如图8所示。
通过图8a可知,当标签为1(红富士)时,网络输出品种1(红富士)的预测结果为一个接近1的高置信度值,而对其他6种类别的苹果的预测值很低。通过图8b可知,当标签为4(小国光)时,网络输出品种4(小国光)的预测结果为一个接近0.7的高置信度,对品种5(嘎啦)的预测结果为一个相对较高的置信度,说明网络对两类的结果预测差别不大,这也与以上分析的2类品种特征较为相似一致,而对其他5种类别的苹果的预测值很低,从侧面说明了EBm-Net网络模型的鲁棒性。
2.4 消融实验
在本文数据集的基础上,验证未加ECA模块之前的结果,并与本文所提出的模型对比。其中,BAM_ResNet表示在残差网络的基础上级联BAM。实验结果如表3所示。
图8 网络模型输出概率统计Fig.8 Network model output probability statistics charts
表3 消融实验准确率Tab.3 Accuracy of ablation experiment %
由表3可知,EBm-Net网络模型比ResNet、BAM_ResNet在测试集上的准确率分别提高了2.32、1.07个百分点,说明融合注意力模块所提取到的特征对不同品种苹果的分类有效。也说明了ECA模块可以更好地提取苹果的外形特征和颜色纹理特征。
2.5 与其他卷积神经网络对比
在本数据集的基础上,对比EBm-Net网络模型与其他经典网络在不同品种苹果分类上的性能,结果如表4所示。
由表4可知,本文提出的EBm-Net模型达到了最好的效果,不仅总体分类识别率达到最高,而且各类别识别率也都达到最高。虽然其他图像分类网络在图像分类挑战中取得了良好的结果,但不适合苹果品种分类任务。因此,EBm-Net模型比其他图像分类网络更适合用于提取不同品种苹果的外形轮廓特征和颜色纹理特征。
2.6 不同分类方法对比
在本文所提方法之前,其他方法在对苹果品种进行分类时,种类较少且分类准确率较低。另外,传统的苹果品种分类识别方法大多是基于SVM支持向量机、K最近邻识别和多光谱技术,这些方法存在一定弊端,高光谱图像采集设备昂贵,很难满足苹果分类识别的工业化需求;传统的图像处理技术应用于苹果品种分类,难以提取图像特征;图像不能直接作为SVM的输入,并且很难避免复杂的图像处理。而基于融合注意力机制网络的苹果品种分类的方法不仅可以对更多苹果种类进行分类识别,而且不需要复杂的图像前期预处理操作,可直接利用原始苹果图像数据进行网络模型训练,同时,能够取得更高的分类和识别精度。表5给出了不同分类方法的识别结果,本文所提方法分类准确率最高,达96.78%。
表4 不同卷积神经网络模型的分类准确率Tab.4 Comparison of classification accuracy of different convolutional neural network models %
表5 不同分类方法比较Tab.5 Comparison of different classification methods
3 结束语
本文建立了7种不同品种苹果的数据集,针对该数据集,提出了一种基于融合注意力结构的苹果种类自动鉴别模型EBm-Net,该网络模型通过融合通道注意力和空间注意力来充分提取苹果的外形轮廓和颜色纹理特征,进而增大各品种苹果的类间差异。同时,本文从特征图、类别概率统计图2方面证明了EBm-Net网络模型在不同种类苹果分类上的有效性,7种苹果类型的总体分类准确率高达96.78%。