APP下载

基于改进的Faster-RCNN的中药检测

2022-11-03赵留阳

现代信息科技 2022年17期
关键词:卷积特征提取注意力

赵留阳

(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)

0 引 言

中药是我国文化重要的组成部分,近年来,疫情肆虐,在治疗疫情方面中药发挥了重要的作用,但目前中药的检测主要由人工完成,耗时长。随着深度学习的发展,基于深度学习的检测算法日新月异,将深度学习应用于中药检测将会大大提高中药的检测能力。

当前目标检测领域常用的算法模型有目标特征提取网络、头部网络以及颈部网络,特征提取网络顾名思义用来进行目标的特征提取,常用的目标特征主要有VGG、ResNet残 差 网 络、DenseNet、MobileNet以 及CSPDarknet53等。随着深度学习的不断发展,其在目标检测领域取得了斐然的成绩,当前深度学习技术日新月异,因此目标检测领域也衍生了两派不同的检测算法:第一种是以YOLO、SSD为主要代表的单阶段检测算法,另一种是以Faster-RCNN算法为主的两阶段检测算法,两派算法各有优劣,单阶段检测算法与两阶段相比,因其减少一些操作流程,参数量减少因此在检测速度上优于两阶段检测算法,但精度逊于两阶段的算法。但日常生活中,除正常目标外,还包括大量的小目标物体,相比较目标特征较明显的物体两类算法对小目标的检测精度有所下降。伴随着技术的不断发展,在目标检测领域衍生了注意力机制。注意力机制是从图像的大量消息中捕捉对当前任务更为重要的有效信息,包括尺度较小的目标特征。注意力机制分为软注意力和强注意力,软注意力重点关注通道或者区域,其又包含通道注意力、空间注意力以及通道和空间融合使用的混合注意力。强注意力重点关注点,常通过增量学习的方式来完成训练过程。

本文旨在针对中药进行检测,因其包含较多尺度较小的目标,因此提出一种新的改进方式:

(1)传统Faster-RCNN 网络的特征提取网络为VGG16网络,网络进行了多次池化致使部分目标特征丢失,本文采用ResNet101 代替VGG16 网络进行特征提取,ResNet101虽层数较深,但会与之前特征相融合,可以保留更多的目标特征;

(2)加入CBAM注意力机制,更多的捕捉图像中目标的特征信息。

1 改进的Faster-RCNN 模型

1.1 Faster-RCNN 基本模型

Faster-RCNN 算法主要由四部分组成:

(1)特征提取层。算法原始特征提取层主要由VGG16网络进行目标特征提取。VGG16 网络由5 个block 组成,包含了过多的卷积层,池化层和全连接层,具有庞大的参数量,拥有很好的泛化拟合能力,同时因为参数巨大会导致训练时间长,参数调整困难。

(2)区域建议层(RPN)。RPN 是算法在传统Fast-RCNN[10]算法上的一个巨大改进,在R-CNN 与Fast-RCNN 算法框架中,使用传统的SS(Selective Search)方法来提取目标的候选框,计算量冗余且耗时长,RPN 使用端到端的训练方法,把神经网络引用到物体的整个检测过程当中,与SS 方法相比,极大地减少了计算量。

(3)ROI Pooling 层。该层特点是将输入尺寸大小不同的框通过ROI Pooling 层使其转化为尺寸大小固定的框作为下一个连接层的输入。

(4)分类回归层。分类回归层用于输出分类框的相关参数。

Faster-RCNN 算法流程如下:

(1)输入待检测图片,通过特征提取层获得物体的feature map;

(2)将featuremap 输入RPN 网络中获取基准候选框;

(3)基准候选框经过ROI Pooling 层重新映射成尺寸相同的候选框;

(4)将候选框输入到分类回归层输出分类和回归参数。

相比较fast-RCNN 算法,Faster-RCNN 的一大创新在于其引入了RPN 机制。RPN 由一个卷积层、ReLu激活函数、clc layer 和reg layer 组成。模型在图片经过特征提取网络卷积得到目标特征的feature map 后将feature map 送入RPN,在RPN 网络中,网络使用卷积核对获得的feature map 进行卷积操作,经过卷积操作后计算出feature map 的中心点,网络根据中心点映射回原图的中心点,确保中心点和原图一致,并生成9 个尺寸大小不一的候选框,后经过clc layer 和reg layer 层输出目标的分类回归参数。RPN 层的作用是提取文档图像中的目标区域,主要用于产生区域提议。这可以明显减少后期Anchor 框的数量。与之前Fast-RCNN 算法相比,Faster-RCNN 的Anchor box 的数量可以从之前的6 000 个减少到2 000 个,大大提高了算法的计算速度,同时生成的2 000 个区域建议也足以完成复杂的检测任务。基于CNN 网络生成的特征图,生成三个不同大小、三种纵横比(1:1、1:2、2:1)的矩形窗口。如图1所示。

图1 RPN 网络结构图

整个RPN 网络如图1所示,其损失函数为:

1.2 ResNet101 残差网络

卷积神经的网络盛行,其主要原因之一是进行端到端的训练方式,这种方式可以大大减少参数带来的巨大操作量,随着卷积神经网络层数的增加,可以对图片进行很多高级特征的提取。但事实并非如此,虽然加深卷积层数可以增强网络的学习能力,提高图像的分辨精度。然而实验研究表明,随着卷积层数的加深,不仅不能提高模型的泛化能力反而带来相应的问题,如梯度消失。实验证明当网络精度达到饱和时,精度会因为层数的增加而下降,针对卷积神经网络的饱和问题,何凯明提出了一种ResNet 残差网络模型,ResNet残差网络不仅可以令卷积网络的层数加深以提取更为丰富的特征同时解决了层数加深带来的精度下降问题。残差结构图如图2所示。在之前的网络结构上添加一个恒等映射,将原有学习到的函数()变成()+,过这种简单的转换由于其简单操作,因此并不会带计算量大的问题,还可以通过原有的学习到更多的特征,提高算法的训练效果。

图2 残差结构图

1.3 CBAM 注意力机制

CBAM 是一种基于卷积神经网络的注意力模块,其方式为端到端的训练方式,因此能很好地集成到卷积神经中。由两种软注意力模块:通道注意力和空间注意力共同组成了CBAM 注意力机制,结构如图3,图4所示。

如图3所示,特征图输入到通道注意力模块中,网络分别对特征图执行最大池化操作和平均池化操作,后连接共享全连接层(shared MLP)。将输出通过elementwise 进行加和操作,最后通过sigmoid 激活函数运算,输出在通道注意力模块中压缩得到的新的特征图。

图3 通道注意力机制结构图

通道注意力的机制对输入的特征图在空间上进行压缩,在通道注意力模块中会进行两种池化操作:最大值池化和均值池化,其作用分别是:最大池化是用来反馈模块反向传播,平均池化操作是针对图像中的像素点给予响应。经过压缩之后得到一维矢量,通道注意力选取特征图中具有辨析的重要内容。

如图4所示,经过通道注意力模块最后输出的特征图作为空间注意力模块的输入特征图,在空间注意力模块中,同样也进行最大值池化和均值池化操作,但先后顺序与通道注意力模块中的不同,其先后进行池化操作,最后进行操作后将两层进行concat 操作,最后通过卷积以及sigmoid 激活函数运算输出空间注意力模块的特征图。

图4 空间注意力机制结构图

空间注意力原理对获得的特整体在通道方面进行压缩,因此其功能模块也与通道注意力不同,在空间注意力机制模块中,最大值池化用来选取通道上的最大值,共进行×次选取次数,平均池化用来选取通道中的平均值,次数与最大池化相同,最后空间注意力模块会输出为2 通道的特征图。

改进后的算法结构如图5所示。

图5 算法结构图

2 实验与分析

2.1 实验配置与数据集

实验选用的是深度学习框架Tensorflow,图像处理器是NVIDIA GeFoorce MX230,Python 版本为3.7。

本文数据集选自飞桨AI 公共数据集。数据集中共有4 500 张图片,图片严格按照VOC 数据集格式进行标注,其中3 500 张图片用于模型的训练,1 000 张图片用于模型的测试,训练集与测试集比为3.5:1。数据集照片分辨率为800×800,能够满足实验要求。

2.2 实验评估标准

本文选用的评估标准目标检测领域常参考的标准:准确率(Precision)、召回率(Recall)以及MAP 值。准确率在本文的含义为模型在数据集训练时算法识别的中药样本数量与样本集中中药的数量之比;召回率在本文中的含义是模型训练过程时算法能够正确识别的中药样本数量与样本集中中药数量的比值;MAP 是指模型训练的均值平均精度。准确率和召回率的计算公式如下:

上述公式中TP 代表模型算法根据图片正确识别出的中药目标,FN 代表算法未正确识别的图片中的中药目标,FP代表算法检测错误的负样本。通常若算法的召回率越高,其准确率就会越低。

2.3 实验分析

本文为了保证实验的公平性进行了多组对比实验,在实验过程中除变量外其余参数设置完全一致。实验以Faster-RCNN 算法为骨干网络,首先在基础特征提取网络与传统算法的VGG16 和ResNet50 进行了对比,实验结果如表1所示。

表1 特征提取网络比较

由表1可以看出使用ResNet101 特征提取网络代替VGG16 网络时,在数据集每种目标的检测精度上均有1.6%以上的提升,同时本文也选取ResNet50 进行对比实验,由实验结果可知,ResNet101 相比较ResNet50 也有小幅度的提升。同时本文控制变量,做了另一组对比实验,验证CBAM注意力机制对算法检测效果的影响,实验结果如表2所示。

表2 CBAM 注意力机制的影响

由表2可知加入CBAM 注意力机制后与未改进的Faster-RCNN 算法和使用ResNet101 特征提取网络的Faster-RCNN 算法在中药的检测精度上都有所提升,进一步证明了算法的优越性。

3 结 论

本文针对Faster-RCNN 算法模型对小目标检测精度不佳问题,选用ResNet101 残差网络替换原始算法中的VGG16网络来对数据集中的中药进行目标特征的提取,ResNet101网络不仅增加了网络层数,提取更为丰富的特征,提高了算法对小中药目标的检测精度,此外加入CBAM 注意力机制,在图片中捕捉更多小中药的目标特征,通过实验证明改进后的算法相比较原始算法能够有效提高检测精度,证明了算法的鲁棒性。

猜你喜欢

卷积特征提取注意力
同步定位与建图特征提取和匹配算法研究
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
让注意力“飞”回来
基于深度卷积网络与空洞卷积融合的人群计数
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
卷积神经网络概述
基于曲率局部二值模式的深度图像手势特征提取
A Beautiful Way Of Looking At Things
阅读理解两则