APP下载

基于深度学习的小样本中药材粉末显微图像识别

2020-06-07王一丁郝晨宇李耀利蔡少青

计算机应用 2020年5期
关键词:池化中药材卷积

王一丁,郝晨宇,李耀利,蔡少青*,袁 媛

(1.北方工业大学信息学院,北京100144; 2.北京大学药学院,北京100191; 3.中国中医科学院中药资源中心,北京100700)(∗通信作者电子邮箱sqcai@bjmu.edu.cn)

0 引言

中药材粉末显微鉴定是通过在显微镜下观察药材粉末中组织、细胞和内含物等细微特征,对药材进行鉴定的一种方法。自1838年德国学者Schleiden阐明细胞是构成植物体的基本单位后,英国、德国、美国和日本等国家对常用药材或国家药典及药品处方集中所收载的药材进行了显微鉴定研究。徐国钧院士作为我国中药材显微鉴定领域的奠基人之一,于1951年,就发表了包含101种中药材的《粉末生药鉴定检索表》;于1986年,出版了研究专著《中药材粉末显微鉴定》[1]。1977年版的《中华人民共和国药典》[2]首次收录了中药材显微鉴别项目。1999年,赵中振等[3]出版了《中华人民共和国药典中药材粉末显微鉴别彩色图集》,并于2005年和2016年,先后出版了《中药显微鉴别图鉴》[4]和《中药显微鉴定图典》[5]两本专著。这些前辈的研究和专著的出版,为中药材粉末显微鉴定提供了大量的图像和文字描述。但是,目前中药材粉末显微鉴定采用人工对比的方式,即将显微镜下所见图像与各类专著中图像和文字进行对比鉴别。因此,此种方法需要专业人士的知识和经验,对于非专业人士来说比较困难,导致中药材粉末显微鉴别方法受到了极大的限制。

迄今收载中药材品种最多的《中华本草》记载了我国药材品种8 980个,其中常用的约500种。依据天然属性和药用部位,中药材分为植物药、动物药和矿物药。植物药再依不同的药用部位分为根和根茎类、茎木类、皮类、叶类、花类、果实和种子类及全草类等。植物药材的粉末在显微镜下可见多种组织、细胞和内含物,包括导管、纤维、石细胞、淀粉粒、结晶、毛茸、表皮、块状物等,其中,导管依据细胞壁的加厚纹理可分为环纹导管、螺纹导管、梯纹导管、网纹导管以及具缘纹孔导管等,五类导管示意图见图1。一般中药材粉末中可见1~3种导管类型,不同中药材导管的直径以及类型也有所不同。因为导管丰富的纹理细节,所以选其作为本文的研究对象。

针对导管图像,本文选用基于深度学习的中药材粉末分类识别方法[6],可以由计算机部分替代专业人士,通过卷积神经网络(Convolutional Neural Network,CNN)的方法对显微特征图像进行自动分类与识别。

深度学习这一概念是由Hinton等[7]于2006年提出,它所具有的多隐层神经网络具有优异的特征学习能力,通过构建多层网络,对目标采取多层表达的方式,通过高层次特征来表达样本所具有的抽象语义信息。随着深度学习这一方法的盛行,经过大量学者的研究,设计出了多种结构的CNN,如LeNet[8]、VGG[9]、Inception[10]、ResNet[11]等。CNN 作为一种多层的监督学习神经网络,通过大规模样本的自我学习和重复迭代训练以及局部感受野对图像信息的提取,实现了分类器对图像特征的分类。本文选用的网络为ResNet-v2-101[12],它具有一定的网络的深度,可以保障充分学习中药材粉末显微特征的高层次信息;并且具有残差结构,可以在一定程度上缓和在网络训练过程中的过拟合现象。

本文将在王一丁等[6]研究的基础上将中药材种类由15种扩增到34种,通过ResNet-v2-101网络对每类中药材粉末的导管进行分类识别。随着中药材种类的增多,每类中药材样本数量稀少的问题尤为凸显,这也导致了网络学习的特征信息不足,存在难以对导管精确分类的问题,并且不同的显微镜成像系统采集中药材粉末显微特征时,由于光源、滤光片、白平衡和操作人员等不同对图像的亮度等信息造成一定的差异,同样会对导管分类产生一定的误差。

针对中药材粉末显微特征样本所存在样本量稀少以及跨设备采集所造成图像差异的问题,本文提出了一种ResNetv2-101网络的改进方法。通过在网络输入端对样本的信息扩充,在残差模块(Residual)后加入通道注意力模块(Channel Attention)和空间注意力模块(Spatial Attention),得到权重的分配,从而实现小样本数据分类效果的提升。网络结构的改进如图2所示。

图2 网络改进结构Fig.2 Network improvement structure

本文主要工作分为以下两部分:

1)提出多通道颜色空间。通过多通道与颜色空间相结合作为网络输入端,实现对小样本数据量不足的补充,如图2(a)所示。网络通过HSV(Hue,Saturation,Value)颜色空间作为输入信息的补充,其可以充分学习到亮度、色调、饱和度等特征信息,消除不同显微镜成像系统采集所带来的影响。实验证明色彩特征信息对中药材显微图像更为关键。

2)提出改进的注意力机制模型。通道注意力机制模型和空间注意力机制模型,如图2(b)所示。CNN训练小样本数据的轮次(Epoch)不能太多或太少,否则都会导致识别效果达不到预期,并且不是所有特征信息都需要被网络所关注,因此本文通过此两个模型实现网络对通道和空间上权重的分配,使得网络将注意力集中到重要的通道和空间上,从而学习关键的特征信息。

1 多通道颜色空间

1.1 中药材粉末显微特征图像采集与预处理

按照以前报道的方法,本文收集了34种中药材中8 774张原始的导管图像,其中每张原始图像的分辨率达到5440×3648。然而大背景下的中药材显微图像由于其显微特征在图像中所占比例过小,且一张图像中不能保证只有一种显微特征,因此并不能直接用于分类网络的训练学习,所以先经过筛选和剪切,得到了导管的最大外接图像,部分中药材导管如图3所示。然而即使采用最大外接图像,中药材导管间的差异并不明显,因此需要通过网络学习最大外接图像导管之间的细微差异。

经筛选和裁剪,样本一共有8 774张图像,设置原始训练集7 986张(91%),测试集788张(9%),其中由于中药材类别众多,且存在样本不平衡问题,每类中药材的导管样本数量由几十到几百不等,本文为保障CNN在学习过程中不会由数据极度不平衡问题而产生过拟合问题,测试集中每类中药材图像数量占原始数据集中该类中药材数量的9%。

图3 中药材导管的显微特征Fig.3 Microscopic featuresof Chinesemedicinal material vessels

在划分训练集和验证集后,需对图像进行预处理操作,其中包含随机裁剪、多角度旋转、去均值和尺度归一化。图像预处理的目的一方面是为了更方便让CNN学习图像间细微区别而进行相应的处理,另一方面则是扩充数据集。本文原始训练集的10%(798张)作为网络训练的验证集,剩余原始训练集在经图像预处理(随机裁剪和多角度旋转)扩充后,训练集数量达到21564张,是原始训练集的2.7倍。

1.2 多通道颜色空间

现阶段大多数分类网络创新在于网络构架的优化,如多尺度融合、批归一化等,其本质是为了更加有效地学习图像间的特征信息。但是现在分类网络的预处理方式大多只在网络输入端进行简单的平移、翻转和随机裁剪等扩充,对网络准确率提升的帮助有限。本文的中药材粉末显微特征图像存在着样本数量稀少问题,并且不同显微镜成像系统所采集的图像也存在着一定的亮度、色调和饱和度等差异。为了能更多地扩充特征信息,减少不同显微镜成像系统采集的差异,本文将在原有图像预处理的基础上探索多通道颜色空间方式能否提升小样本数据分类网络的识别效果。

颜色空间是对色彩的组织形式,借助物理设备的采集,得以通过颜色空间得到色彩的固定模拟和数字表示,其中每一个颜色定义的名字和代码都基于严谨的数学定义。在深度学习中所被普遍运用的颜色空间为RGB(Red,Green,Blue)颜色空间,其中红色、绿色和蓝色三种原色作为基础,通过对此三种颜色不同比例配比组成繁多的色彩,从而形成了RGB颜色空间,其中每一种颜色由24 b代表,每个通道R、G、B各出8 b,因此导致每个通道依据灰阶划分出了256个亮度等级。

近些年不同颜色空间这一概念一直被运用到肤色检测[13]和手势识别[14]中。在2018年陈昌红等[15]提出了基于多通道和卷积神经网络的极光分类,首次将多通道融合运用到分类网络中,但是由于此篇文章所研究的是极光分类问题属于特殊性质的图像分类,多通道包含极光的局部二值模式(Local Binary Pattern,LBP)特征图和变化幅度等信息,并不能推广到普通图像的分类问题上;且对于普通图像的分类问题,三原色调配颜色的方式不能很好体现中药材粉末显微特征图像颜色、形状等特性:因此本文将多通道与不同颜色空间相结合,将其运用到分类网络中,通过实验论证颜色空间的多通道融合可以在有限的样本下提供更多的特征信息,以此来实现提升小样本数据分类效果的目的。根据2011年江凤兵[16]提出的关于人体肤色检测论文对于颜色空间的改进,将HSV空间和YCrCb空间相结合形成新的HCrCb空间,与原始图像相结合形成六通道的RGB-H-CrCb作为网络输入进行尝试,以希望找出多通道颜色空间的最佳组合方式。

本文首先通过实验比较不同颜色空间对小样本分类效果的影响,选用的颜色空间包括HSV、Lab、YCrCb、YUV、XYZ、HLS(Hue,Luminance,Saturation)、H-CrCb。通过对原始RGB图像进行公式转换得到不同的颜色空间。以HSV颜色空间为例,HSV空间的三种通道的划分十分直观,其源自颜色的特性,因此其也被称呼为六角锥体模型。HSV颜色空间的三个通道分别代表色调(H,范围为0°~360°)、饱和度(S,范围为0~255)和亮度(V,范围为0~255)。HSV图像通过将R、G、B采用不同的组合方式转换而成,转换公式如式(1)~(6)所示:

经过公式转换,不同颜色空间的通道信息都可由RGB颜色空间得到。通过公式转换得到的通道信息之间有着一定的关联,但也都有着其独有的特征信息,所以本文通过结合不同颜色空间来尝试对中药材粉末显微特征图像分类问题的适用性,为网络提供最适合用于小样本中药材数据分类识别的多通道颜色空间。多通道颜色空间可以是两种颜色空间的组合,甚至是多种颜色空间的组合,但是其他颜色空间信息的生成需要经过RGB颜色空间的转化,需要大量时间进行处理,并且极大占用计算机内存。为节省网络初始化时图像预处理时间以及减轻电脑配置需要,本文将采用6通道的颜色空间作为多通道颜色空间的输入,在保证扩充小样本数据通道信息的同时,降低图像预处理的时间,最终实现通过六通道颜色空间的方式为中药材图像提供更多重要的特征信息,提升网络对小样本数据的准确率。

2 改进的注意力机制模型

CNN基于其丰富的表现能力,极大地促进了图像识别领域在深度学习方向的发展。近些年来针对CNN性能的提升,大多侧重于深度、宽度和基数此三个影响因素。从ResNet18到ResNet152网络证明通过跳跃连接和堆叠排列的残差卷积块可以做到分类精度的提升;GoogLeNet的提出证明了提升模型性能也可以通过增加网络宽度的方式;在之后Xception[17]和ResNeXt[18]的提出则表明增加基数也可以达到提升网络学习性能的效果,并且性能的提高还要优于深度和宽度二者;自从2017年ImageNet竞赛冠军Hu等[19]提出了基于通道间权重的分配来实现通道间重要性选择的算法SEnet(Squeeze and Excitation Networks),从而引起了对于CNN在通道注意力上的关注;在2018年,Woo等[20]就以此为理论基础,提出了在通道和空间的注意力机制模型CBAM(Convolutional Block Attention Module),此研究表明不仅是在通道间,在空间中也有着相应的内在联系,因此其设计的CBAM结构在兼顾通道和空间权重选择后,网络的分类效果又得到进一步的提升。本文存在着样本量稀少的问题,这导致网络学习的Epoch不能过多,否则会出现过拟合的情况,因此如何在有限的Epoch中使得网络能够更快降低损失函数(Loss Function,loss)是所需要研究的问题。本文通过注意力机制模型与ResNet-v2-101网络结合,对不同信息权重进行分配,使得网络能够将更多的注意力放到关键的通道和空间中,实现小样本数据分类效果的提升。

本文发现在通道和空间上的注意力模型并未进一步考虑其在深度、宽度、基数或内在联系这四方面上的展开。经过进一步的研究表明可以分别在通道和空间注意力机制上结合内在联系和宽度这两个重要因素,以达到让网络着重学习关键信息的目的。

本文所提出的注意力机制模型位于ResNet-v2-101网络中每个残差模块之后,通过依次对残差模块结果采取通道和空间上的权重分配,从而实现对小样本关键特征的着重学习,如图2(b)所示。Input∈ ℝH×W×C为输入层,其在经过残差模块后得到结果RS∈ℝH×W×C。通过通道注意力模块可以得到所有通道权重CA∈ℝ1×1×C,残差模块结果RS与通道权重相乘得到结果G∈ℝH×W×C。G通过空间注意力模块得到空间权 重SA∈ℝ1×1×C,再 与SA相 乘 得 到 新 的 残 差 模 块K∈ℝH×W×C。将K与Input相加得到最后的输出结果Output∈ℝH×W×C。注意力模型的计算过程如式(7)所示:

2.1 通道注意力模型

SEnet结构分别采取全局平均池化和全局最大池化操作用于注意力机制模型,相较于原始训练结果都有一定的提升,但是CBAM所提出的通道注意力模型的训练结果并未优于其两者。本文结果表明,CBAM所采取将全局平均池化和全局最大池化简单相加的方式并未充分考虑其二者的内在联系,使得其并未优于最好结果。

因此为了更好地将全局平均池化和全局最大池化内在关系联立,本文设计了一种新的通道注意力模型——串联注意力模型(Tandem Attention Model,TAM),通过全连接层将二者更加紧密地联系到一起,以更好提升关键特征的权重分配。TAM结构如图4所示。

TAM分别通过对H×W尺寸图像采取全局平均池化和全局最大池化操作,实现搜集Input的通道信息ℝ1×1×C,其中AvgPool和MaxPool分别代表全局平均池化和全局最大池化的操作符。两类通道信息都分别经过全连接层得到输出ℝ1×1×C/d,其中Mc为第一层全连接层操作符。d则代表压缩比例,此操作原因在于批尺寸(Batch Size,BS)设置过大,如果不经过压缩会导致全连接层因参数量过大而产生显存溢出问题,因此通过设置压缩比减少网络参数量,同时也可以提升网络的运算效率。最后经过一层全连接层,其目的在于将二者的信息充分融合,并且将输出恢复为原始尺寸ℝ1×1×C,从而得到通道权重,其中Mc'代表第二层全连接层操作符。本文所提出的TAM通过将全局平均池化和最大池化串联,使得全连接层学习其两者间内在联系,实现通过卷积神经网络去深层次调整通道上权重配比的目的,从而达到更好的识别效果。TAM计算过程如式(8)所示:

式(2)中:CA表示通道注意力权重,σ代表Sigmoid激活函数,w代表ReLu激活函数,⊕代表一维向量的串联。

图4 串联注意力模型Fig.4 Tandem attention model

2.2 空间注意力模型

CBAM网络对于空间注意力模型构思的提出是对通道注意力机制的补充,其将思路从通道上权重的分配延续到空间上,分别将输入层从纵向对特征图进行全局平均池化和全局最大池化操作,得到输出ℝH×W×1。将两者并联得到ℝH×W×2,最后通过7×7卷积得到空间注意力权重ℝH×W×1。但是经过导管图像样本进行实验论证,其效果远不及原始训练效果。本文认为可能与平均池化和最大池化并联有关,因此对CBAM空间注意力模型分别验证两者的可行性。

经实验发现,单独的全局平均和最大池化相较于CBAM的空间注意力模型都有一定提升,认为其可能并非适用于二者的联立,使得二者互相干扰导致影响实验效果,因此本文选择效果最好的全局平均池化作为接下来研究方向。正如前文所述,不论是SEnet还是CBAM的空间注意力模型都只关注了自身的注意力机制,并未结合深度、宽度和基数这三个重要因素,因此在分析空间注意力模型结构后认为其可以与宽度这一因素相结合能够更加合理地实现在空间上的权重分配。

经过Inception网络多尺度融合的启发,本文认为可以对空间注意力模型增加其视野范围,从而更充分地学习空间之间的结构信息。但是由于7×7卷积参数量过于庞大,因此在并联过程中会大大降低运算速度。本文从文献[21]中获得启发,在运用多卷积核的同时采用空洞卷积,通过对3×3卷积设置不同的膨胀系数,使其扩增为5×5和7×7等尺寸的空洞卷积核,使得网络可以学习到不同尺寸感受野的特征信息,以更好权衡不同大小特征的权重;并且采用空洞卷积可以使参数量大幅度减少,在使用多卷积核的同时保证计算时间减少。本文尝试了多种多卷积核的组合架构,通过对3×3、5×5和7×7尺寸空洞卷积核采取不同的组合形式,进行实验对比。经过大量实验反复论证得出新的空间注意力机制模型:多卷积注意 力 模 型(Multi-convolutional Block Attention Module,MBAM),其通过将此三种空洞卷积核并联的方式组合,可以更有效地提升小样本的分类效果;并且此三种空洞卷积核参数量之和只有CBAM空间注意力模型中7×7尺寸卷积核参数量的一半,从而使计算时间大幅减少。MBAM结构如图5所示。

图5 多卷积注意力模型Fig.5 Multi-convolutional block attention model

MBAM输入为Input∈ℝH×W×C,对特征图在通道上采取全局平均池化操作,得到空间信息ℝH×W×1,AvgPool代表全局平均池化操作符。空间信息分别经过3个3×3尺寸的空洞卷积,其中设置3个卷积核的扩张系数(dilations)分别为1、2、3,三种卷积核操作符为U1、U2、U3,其输出结果为W1、W2、W3。最后通过3个卷积核的并联得到空间上的权重。MBAM计算过程如式(9)、(10)所示。

式(10)中:SA为空间注意力权重,σ代表Sigmoid激活函数。

3 实验结果与分析

针对多通道颜色空间和改进的注意力机制模型,本文将分别通过实验验证二者的有效性,并在最后将两者结合得到最终的实验结果。

3.1 网络结构

本文采用TensorFlow架构来实现ResNet-v2-101网络模型的搭建,共有101层结构,BS设置为64,学习率以0.1为起始,采用指数衰减的方式在训练过程中降低学习率,其中衰减指数为0.98。实验设备配置为Xeon Gold 5120 CPU、64 GB内存、GV100 GPU。中药材粉末显微特征样本一共8 774张图像,每张图像大小为224×224,其中包括原始训练集7 986张(81%),验证集798张(10%),测试集788张(9%)。原始训练集在经图像预处理(随机裁剪和多角度旋转)扩充后,训练集数量达到21564张。

本文所采用的ResNet-v2-101网络结构如表1所示。实验中所有提到的注意力机制模型都依据图2(b)所示,添加到对应每个卷积层的CA和SA中。

3.2 多通道颜色空间

通过比较不同颜色空间对中药材粉末显微特征图像分类准确率的影响。经对比可知,XYZ、HCrCb颜色空间的准确率低于RGB空间,因此将不作为重点考虑;HSV、YCrCb和YUV空间在9种颜色空间中分类效果相对较好,认为此三个空间中所包含的中药材显微特征信息对网络的学习提供重要作用。实验结果如表2所示。

表1 ResNet-v2-101网络结构Tab.1 ResNet-v2-101 network structure

表2 三通道颜色空间准确率 单位:%Tab.2 Three-channel color space accuracy unit:%

通过将RGB颜色空间与其他颜色空间并联的方式将图像输入分类网络,对实验结果进行比较。经实验证明,RGBHSV的6通道颜色空间作为网络输入可以得到最优的分类识别效果,其准确率由RGB颜色空间的89.8%提高到91.6%。实验结果如表3所示。根据颜色空间的原理可以得知,与其他颜色空间相比HSV颜色空间的亮度、色调和饱和度是分离开的三种变量,能够更加直观地表达色彩的变化。相较于RGB颜色空间通过三原色混合得到的不同颜色,HSV颜色空间可以更好地表达亮度、色调和色度上的变化差异,因此其作为RGB颜色空间上对通道信息的补充,RGB-HSV的六通道颜色空间可以为中药材图像提供更多重要的特征信息,提升网络对小样本数据的准确率。

3.3 注意力机制模型

3.3.1 通道注意力模型

TAM是通过将全局平均池化和全局最大池化串联,再经过全连接层得到的通道权重分配,在结构中存在着压缩比d这一变量,经本文实验论证表明,压缩比d参数设置为4对小样本数据的分类识别效果最佳。实验结果如表4所示。

表3 六通道颜色空间准确率 单位:%Tab.3 Six-channel color spacer accuracy unit:%

表4 RGB-HSV+TAM不同压缩比的准确率对比 单位:%Tab.4 Accuracy comparison of different compression ratiosof RGB-HSV+TAM unit:%

其次,本文将对比实验2017年ImageNet竞赛冠军SEnet结构和2018年ECCV的CBAM通道注意力模型来验证TAM的有效性,不同通道注意力模型结构如图6所示,其中SEnet结构的Pooling可采用AvgPool或MaxPool的方式进行全局池化操作。经实验可得出结论,本文所设计的TAM结构可以更好地结合全局平均池化和全局最大池化的优点,实现了在通道注意力上小样本准确率的提升。实验结果如表5所示。

图6 不同通道注意力模型Fig.6 Different channel attention models

表5 通道注意力模型准确率比较 单位:%Tab.5 Accuracy comparisonofchannelattentionmodels unit:%

3.3.2 空间注意力模型

为验证所提出空间注意力模型的有效性,本文将对不同的全局平均池化空间注意力模型结构进行实验对比。首先本文采用单个空洞卷积的方式,将3×3卷积核的dilations设置为1、2、3、4,膨胀后卷积核变为3×3、5×5、7×7和9×9,比较单个空洞卷积核的识别效果,单空洞卷积核的空间注意力模型如图7所示,其中Conv为空洞卷积所在位置。经实验对比后发现3×3、5×5和7×7卷积核的效果最好。实验结果如表6所示。

图7 单空洞卷积核的空间注意力模型Fig.7 Spatial attention model of single-cavity convolution kernel

经过以上实验对比,多卷积核的结构将依据3×3、5×5和7×7这三种卷积核进行设计,通过对空洞卷积核采取两路并联和三路并联的组合方式来实现实验对比。其中两路并联的结构如图8所示,通过对Conv1和Conv2采用不同的空洞卷积核进行组合。实验结果如表7所示(表7中“+”代表卷积核的并联),从而得到最优的结果为MBAM结构,通过空间上权重分配实现对小样本数据分类准确率的提升。

图8 两路并联的空间注意力模型Fig.8 Two-way parallel spatial attention model

表7 多卷积核准确率比较 单位:%Tab.7 Accuracy comparison of multipleconvolution kernels unit:%

最终本文所提出MBAM结构与2018年ECCV所提出的CBAM空间注意力模型以及分别采用全局平均池化和全局最大池化的空间注意力模型进行比较,不同的空间注意力机制模型如图9所示,其中Pooling可采用AvgPool或MaxPool的方式进行全局池化操作。通过实验可以得出结论,本文所提出的MBAM结构具有更好的空间权重分配机制,能够更好地达到小样本分类准确率提升的目的。实验结果如表8所示。

图9 不同的空间注意力模型Fig.9 Different spatial attention models

表8 空间注意力模型识别结果比较 单位:%Tab.8 Comparison of spatial attention model identification results unit:%

3.3.3 通道和空间注意力模型

本文将通道和空间注意力模型相结合,验证当两者共同使用时对小样本数据的分类识别效果。实验结果如表9所示。经实验对比可知,本文所设计多通道颜色空间和注意力机制模型不仅在通道和空间上具有很好的权重分配效果,且当二者相结合后,网络对小样本数据特征信息的权重分配效果也有一定的提升。

表9 通道和空间注意力机制模型识别结果 单位:%Tab.9 Identification resultsof channel and spatial attention mechanismmodels unit:%

3.4 多通道颜色空间和注意力机制模型

最后,为证明多通道颜色空间和注意力机制模型对小样本分类网络的有效性,将通过实验分别论证;并将两者结合验证二者在共同作用下,对中药材粉末显微特征图像准确率的提升。通过对比四组实验的训练损失折线图,可以观察到本文所提出的多通道颜色空间与注意力机制的组合可以使得训练loss更快收敛,达到对小样本数据在有限的Epoch中更快收敛的目的。训练损失折线如图10所示。实验结果如表10所示。

综上,针对小样本难以分类的问题,本文所提出对多通道颜色空间与注意力机制模型的网络改进方法,准确率分别提升1.8个百分点和3.1个百分点,将二者结合后准确率提升4.1个百分点;且训练loss值由7.704×10-4下降到4.732×10-4,下降2.972×10-4。

图10 训练损失折线Fig.10 Linechart of trainingloss

表10 多通道颜色空间和注意力机制模型识别结果Tab.10 Identification results of multi-channel color spaceand attention mechanism models

4 结语

针对中药材粉末显微特征图像类别多、样本数量稀少、难以分类等问题,本文提出了一种基于小样本的网络改进方法——多通道颜色空间和注意力机制模型。实验结果表明,多通道颜色空间通过向网络中加入HSV颜色空间来实现针对中药材粉末显微特征相关信息的补充,弥补了小样本数据量不足的问题;注意力机制模型则通过深化通道模型的内在联系和空间模型的多尺度思想,改进CBAM结构,实现了CBAM计算效率的提升,并且更好地分配网络中通道和空间注意力的权重,使网络通过自主学习的方式,将注意力聚焦于关键的特征信息。将本文所提出的两种结构融合后,准确率得到了显著的提升,证明了两种方法对小样本分类识别有着大幅度的提升。

本文提出的方法是否可以应用于其他一些难以获取的小样本(如安全领域或医疗领域数据集)的分类识别还有待考证。并且不同通道特征信息的重要程度不一,是否能够实现将不同颜色空间的单通道进行拼接组合,使得组合后的三通道颜色空间得到六通道颜色空间相同的识别效果,从而实现减少多通道颜色空间的图像预处理时间将是接下来的研究方向。

猜你喜欢

池化中药材卷积
基于高斯函数的池化算法
基于全卷积神经网络的猪背膘厚快速准确测定
卷积神经网络中的自适应加权池化
夏季中药材田间管理做好这五点
中药材促农增收
河滩地建起中药材示范区
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
用于手写汉字识别的文本分割方法