APP下载

基于改进ResNet50模型的咖啡生豆质量和缺陷检测方法

2024-01-01纪元浩许金普严蓓蓓薛俊龙

中国农机化学报 2024年4期
关键词:注意力机制咖啡豆卷积神经网络

摘要:

咖啡生豆的质量决定着商品咖啡豆的价格,目前对咖啡生豆的筛选主要由人工完成,费时费力。提出一种基于改进ResNet50模型来识别咖啡生豆的方法,首先收集8 000张咖啡生豆图像建立数据集,并对其进行数据增强,基于ResNet50模型加入CBAM注意力机制,引入迁移学习机制,并使用深度可分离卷积来代替ResNet50残差单元中的传统卷积,构建适用于咖啡生豆分类识别的ResNet50-CBAM-DW模型。为评估模型改进的有效性,与ResNet50、AlexNet、VGG16、MobileNetV2等模型进行比较,改进后模型准确率达到91.1%,相较于原ResNet50模型准确率提升3.0%,参数量降低39.0%。

关键词:残差网络;咖啡豆;注意力机制;卷积神经网络;深度可分离卷积

中图分类号:S571.2; TP391.41

文献标识码:A

文章编号:2095-5553 (2024) 04-0237-07

收稿日期:2023年3月7日" 修回日期:2023年5月24日

基金项目: 山东省重大科技创新工程(2021LZGC014—3);青岛农业大学研究生创新计划项目(QNYCX22038)

第一作者:纪元浩,1998年生,男,山东菏泽人,硕士研究生;研究方向为农业工程与信息技术。E-mail: summerwen2023@163.com

通讯作者:许金普,1979年生,男,山东博兴人,博士,副教授,硕导;研究方向为农业信息技术。E-mail: xjp@qau.edu.cn

A method for detecting quality and defects in raw coffee beans based on

improved ResNet50 model

Ji Yuanhao1, Xu Jinpu1, Yan Beibei1, Xue Junlong2

(1. College of Animation and Media, Qingdao Agricultural University, Qingdao, 266109, China;

2. Shandong Institute of Innovation Development, Jinan, 250101, China)

Abstract:

The quality of raw coffee beans determines the price of commercial coffee beans. Currently, the screening of raw coffee beans is mainly done manually, which is time-consuming and laborious." This paper proposes a method to identify raw coffee beans based on an improved ResNet50 model. Firstly, 8 000 images of raw coffee beans were collected to build a dataset and data enhancement was applied to it. A ResNet50-CBAM-DW model for coffee bean classification recognition was constructed based on the ResNet50 model by adding a CBAM attention mechanism, by introducing a migration learning mechanism and using deep separable convolution instead of the conventional convolution in the ResNet50 residual unit. In order to evaluate the effectiveness of the model improvement, the accuracy of the improved model was compared with ResNet50, AlexNet, VGG16, MobileNetV2 and other models, and the accuracy of the improved model reached 91.1%, which improved 3.0% compared with the original ResNet50 model and reduced the number of parameters by 39.0%.

Keywords:

residual networks; coffee beans; attention mechanism; convolutional neural networks; deep separable convolution

0 引言

中国已成为世界上主要的咖啡生产大国、贸易大国和消费大国之一,近些年我国逐渐发展出了自己独特的咖啡文化和咖啡产业链[1],其中对咖啡生豆的筛选是一个重要的环节。咖啡生豆的外表可能会有破损、褪色、腐烂等情况,这些瑕疵豆的质量较差,容易影响咖啡饮料的口感和质量[2]。因此,找到一种高效精准的咖啡生豆智能检测方法尤为重要。

除传统的人工目测方法外,目前应用于咖啡生豆的检测技术主要有近红外光谱、多光谱成像和机械分选等。Khuwijitjaru等[3]采用近红外光谱技术对优质、缺陷、污染的生咖啡豆进行分类,准确率为97.5%。Gomes等[4]使用多光谱成像技术区分传统和特殊类别的生咖啡豆实现了96%的准确率。但是上述方法都存在成本过高,现实较为复杂的问题而难以大规模推广应用。

随着近些年卷积神经网络模型的不断更迭[5],各种网络层次越来越深,结构越来越复杂,精度也不断提升。目前,深度学习在解决农业产品品质检测[6]、分类检测[7]、病虫害[8]等问题方面表现出色。

国内外也有部分学者根据咖啡生豆缺陷豆识别的需求,以深度学习为基础提出了多种解决方案。如Huang等[9]利用深度学习算法对同品种咖啡生豆进行二分类(优质豆、坏豆)划分,准确率达到了93%。Adiwijaya等[10]从咖啡豆颜色角度入手,将小样本同品种咖啡生豆中的优质豆划分为AA、A、B三类,实现了83%的准确率。赵玉清等[11]采用机器视觉技术提取咖啡豆轮廓、颜色和纹理3类特征,将特征组合并在SVM检测模型上平均精度达86.1%。上述提到的各种方法虽然实现了对咖啡生豆的分类,但是在精度上还有很大的提升空间,另一方面在实际生产过程中,不同形状的咖啡生豆经济价值也不尽相同,如咖啡生豆优质豆中的外观为圆形的小圆豆[2]因其特殊价值通常被筛选出来,另一种外观特征与优质豆相似的但形态较为细长扁平的长粒豆也被筛选出来,而缺陷豆通常不必做具体的细节划分直接将其剔除。

本文针对以上存在的问题,选择使用网络层次较深、提取特征能力较强的ResNet网络,提出一种基于改进ResNet50的识别模型,通过对原有的ResNet50模型结构进行修改,并借鉴MobileNet网络[12]的思想,使用深度可分离卷积方法代替传统卷积层,在不影响准确率的前提下,减少模型参数,提高收敛速度。并且引入CBAM注意力机制,使其能够更加精准地提取图像的特征,增加模型的精准度,同时将ImageNet数据集的预训练权重进行迁移训练,以加快模型的训练和拟合,从而有效地减少模型的训练时长,实现咖啡生豆高精准分类,为后续在咖啡生豆智能筛选设备的应用上提供基础。

1 材料与方法

1.1 数据来源

本文采用USK-Coffee[13]项目所收集的阿拉比卡咖啡生豆图片集合,此数据集共包含4种类别:小圆豆、长粒豆、坏豆、优质豆。图像尺寸为256像素×256像素。试验样本共计8 000幅图像,每种类别图像样本各2 000幅。图像样本示例如图1所示。

1.2 数据处理

在对图像数据集进行分类之前,首先要对图像进行预处理,图片大小需适配网络输入要求,将图像大小调整为统一的尺寸,并使用ImageNet权重进行图像归一化,使模型在训练和预测时能够更容易地处理不同大小和像素范围的图像。将图像的尺寸缩放为224像素×224像素,另外对图像使用裁剪、翻转、平移、旋转组合方式来进行数据增强,从而提高模型的泛化能力[14]。并按照7∶2∶1的比例划分训练集验证集和测试集,数据集图片数量如表1所示。验证集用于检验模型效果的可靠性,测试集在模型训练和数据增强过程中不参与,而是用于评估模型最终表现的优劣。

2 模型结构

2.1 ResNet50残差网络

ResNet是由He等[15]提出的一种深度卷积神经网络,与传统的深度卷积神经网络不同,ResNet采用了残差学习机制,即在每个卷积块中添加残差连接,使得网络中的每一层输出都能和输入相加。这样就可以使得网络在训练时能够更快地收敛,并且由于引入了残差连接可以有效地防止梯度消失和梯度爆炸的发生,从而达到更好的性能。ResNet50网络通过引入残差结构解决由于网络过深导致的退化问题,使梯度在传递过程中不会消失。

在残差网络中,网络的每一层的输出都是通过计算H(x)=F(x)+x得到的,其中F(x)是这一层的残差映射,x是这一层的输入,H(x)是这一层的输出。残差映射F(x)的作用是把前面层的输出作为输入,并通过一系列卷积和非线性激活函数来计算出新的特征。如果在残差映射之后加上一个恒等映射层,那么网络的输出就等于输入,这使得残差网络的网络深度可以非常大,但是不增加误差,从而提高了网络的表达能力。

本文选择ResNet50残差网络作为基本骨架,并对其进行了改进,并使用ResNet50的残差块作为基本的构建模块,然后在其上进行修改和扩展,以适应咖啡生豆的应用场景。另一方面通过迁移训练的方式,使用已有的ImageNet权重迁移至模型进行训练,从而获得较好的模型性能。残差网络如图2所示。

2.2 模型改进

2.2.1 注意力机制

注意力机制是深度学习中一种模仿人的认知注意力的技术,可以有效地分配模型的计算能力,使其集中在需要注意的特征上。这能够提升模型的特征学习能力,并且避免在不必要的特征上浪费资源,从而使网络能够更加关注于重要的局部信息[16]。CBAM注意力机制(Convolutional block attention module, CBAM)结构包括2个子模块:通道注意力子模块和空间注意力子模块。其结构如图3所示。

通道注意力子模块通过计算每个通道的权重来调整输入张量的每个通道的贡献,输入是一个三维张量,维度分别为高度(H)、宽度(W)和通道数(C)。

2.2.2 深度可分离卷积

本文使用的骨干网络ResNet50在通过不断堆叠网络层的基础上利用残差结构避免了梯度爆炸和梯度消失,做到了提取特征能力强,准确率高[17]。但是随着网络层数的增加,网络的参数量也随之增加,从而影响网络训练效率。针对此问题,本文借鉴了MobileNet网络中的深度可分离卷积技术[18],并将其应用于ResNet50网络中的传统卷积,以实现网络的轻量化。

深度可分离卷积是一种卷积操作,其主要目的是降低参数量,提高卷积的效率;将传统的卷积操作分成深度卷积和逐点卷积两部分,如图5所示。

本文使用深度可分离卷积(Depthwise separable convolutions)来替换ResNet50中的残差模块的第二个卷积层,如图6所示。

首先,对输入特征图的每个通道分别使用M个大小为k×k的卷积核进行卷积,得到M个特征图。然后,使用N个逐点卷积将这M个特征图在通道上叠加。通过这样的操作,深度可分离卷积可以在空间和通道维度上分别学习特征。相比传统卷积,深度可分离卷积所需要的参数量要少很多,k×k×M+M×N,是传统卷积参数量的1N+k21。

3 试验结果与分析

3.1 试验环境

试验采用的处理器为Intel Core i7 12700H,内存16 G,显卡为NVIDIA GeForce RTX 3080,显存8 GB,深度学习框架为TensorFlow2.7.1,编程语言为Python3.7.0。

3.2 参数设置

在训练卷积神经网络模型时,模型参数的设置会直接影响训练的效果。在本试验中,批大小(Batch_size)设置为4,训练迭代20个时期(Epochs),并使用Adam优化器。初始学习率设置为0.002,在将图像输入网络训练之前,先对图像进行预处理和归一化处理。

由于网络层数较多,模型参数量大,因此将ImageNet上训练好的模型参数来初始化当前模型权重,以加快模型的训练和拟合,有效地提高模型的训练效率。

3.3 注意力机制和深度可分离卷积的影响

为证实本文试验改进的有效性,对比ResNet50在添加SA注意力模块、CA注意力模块、CBAM注意力模块、不添加注意力模块、仅修改深度可分离卷积层和ResNet50-CBAM-DW模型。将6种模型应用于测试集,最终得到6种模型准确率分别为89.5%、88.3%、91.8%、88.1%、87.0%、91.1%。6种模型的验证集性能对比如图7所示。

试验将深度可分离卷积来替换ResNet50的残差模块中的第二个卷积层,试验结果表明,本模型(ResNet50-CBAM-DW)的准确率为91.1%,相对于修改之前的模型(ResNet50-CBAM)准确率仅降低0.7%,而参数量减少了40.9%。参数量对比如表2所示。在模型的损失值方面,ResNet50-CBAM-DW模型损失值最小,相比较而言表现良好,综合以上方面,ResNet50-CBAM-DW模型相对于ResNet50模型准确率有了3.0%的提升,通过在验证集性能上的表现可以看出,模型在第10轮左右开始稳定收敛,且没有较大波动,得益于深度可分离卷积的存在,使模型在参数量和模型准确率之前取得了一个平衡,在保证网络训练效率的同时,也能有效减少参数的数量,从而缓解随着网络层数增加而导致的网络训练效率下降的问题,为以后在移动端部署打下基础。

3.4 ResNet50-CBAM-DW模型改进前后对比

为验证模型ResNet50-CBAM-DW改进的有效性,将本模型与其他常见的应用与图像分类的卷积神经网络模型MobileNetV2、InceptionV3、VGG16、AlexNet在咖啡生豆数据集上作对比。训练时保持各个模型参数一致,Softmax输出统一为4分类,在相同的训练环境下迭代20次。各个模型的训练集性能对比如图8所示。

由图8可知,ResNet50-CBAM-DW模型表现最好,且相对于其他模型更加稳定,20次迭代训练后准确率为91.1%,AlexNet模型震荡明显,准确率达到84.8%,InceptionV3和MobileNetV2模型表现较差,两种模型准确率分别为85.2%和84.6%。VGG16模型相比于其他CNN模型表现较好,准确率达到了87%,相比本试验模型准确率低4.1%,但是其参数量是本试验模型的三倍左右,试验数据如表3所示。

通过与其他卷积神经网络模型比较,本文提出的ResNet50-CBAM-DW模型在咖啡生豆识别方面取得了较好效果。通过在残差结构中添加CBAM注意力机制,增加了模型对特征信息的关注权重,提高了算法性能,另一方面将残差结构中的传统卷积替换为深度可分离卷积,大幅减少了模型的参数量。

3.5 咖啡生豆分类识别结果的模型评价指标和混淆矩阵分析

准确率(Accuracy)为所有被正确识别的样本数占总样本数的比例。精确率(Precision)是衡量模型正确预测能力的指标,代表了预测正确的样本数量占总体的比例。召回率(Recall)表示在真实样本中,被正确预测的样本数量占总样本的比例。F1分数(F1-Score)是结合Precision和Recall的综合指标,取值为Precision和Recall的调和平均数,其取值范围是0~1,1代表模型的最优输出,0代表模型的最差输出。

根据表4可以看出,少量的长粒豆和优质豆出现了预测错误。这可能是由于长粒豆和优质豆的外观特征高度相似,导致模型难以区分。此外,坏豆和优质豆也出现了混淆,这可能是由于坏豆中的部分瑕疵特征导致模型容易识别错误。总的来说,本文提出的ResNet50-CBAM-DW模型在测试的咖啡生豆数据集上表现出优良的分类性能,能够较好地区分咖啡生豆的种类,并能准确地对咖啡生豆进行分类。另一方面,通过混淆矩阵可以计算出分类模型的各个类别的准确率、精确度、F1分数、召回率。计算结果如表5所示。

通过表5可知,本模型对小圆豆的识别效果最好,对优质豆的识别效果略有不足,以F1分数为标准对分类性能排序的结果为:小圆豆、长粒豆、坏豆、优质豆。总体来看,针对咖啡生豆测试集的识别准确率为91.1%,精确度91.3%,F1分数为91.1%。这说明ResNet50-CBAM-DW模型在咖啡生豆分类任务上表现出色。

4 结论

1)" ResNet50-CBAM-DW网络模型在咖啡生豆分类任务中识别准确率达到91.1%,相较于ResNet50模型准确率提升了3%,与MobileNetV2、InceptionV3、VGG16、AlexNet模型相比,在测试集准确率上分别提升了6.5%、5.9%、4.1%、6.3%。

2) 通过使用深度可分离卷积来替代ResNet50模型中的残差单元里的传统卷积,使ResNet50-CBAM-DW模型相较于ResNet50-CBAM模型参数量减少40.9%,而准确率仅降低0.7个百分点,综合参数量、准确率和内存占用量考虑来看,ResNet50-CBAM-DW模型更优。

总体而言,本文提出的ResNet50-CBAM-DW模型采用大量的咖啡生豆数据集进行训练,可用实现对咖啡生豆四个类别(坏豆、优质豆、长粒豆、小圆豆)的快速检测,准确高效。不同于人肉眼判断易受主观影响,检测具有客观性,可以实际应用与咖啡生豆的智能筛选设备。在后期的研究中,还会考虑在复杂背景中瑕疵豆的不同外观特征对模型的影响,使模型能够更好地投入生产实践中,为智慧农业添砖加瓦。

参 考 文 献

[1] 黄家雄, 黄琳, 吕玉兰, 等. 中国咖啡产业发展前景分析[J]. 云南农业科技, 2018(6): 4-7.

Huang Jiaxiong, Huang Lin, Lü Yulan, et al. Analysis of development prospect of coffee sector in China [J]. Yunnan Agricultural Science and Technology, 2018(6): 4-7.

[2] 胡荣锁, 方乐天, 况沁蕊, 等. 云南临沧产区咖啡干香感官特征解析及杯品质量分析[J]. 食品科学, 2021, 42(20): 180-187.

Hu Rongsuo, Fang Letian, Kuang Qinrui, et al. Sensory characteristics of dry aroma and cupping quality of coffee from Lincang, Yunnan [J]. Food Science, 2021, 42(20): 180-187.

[3] Khuwijitjaru P. Near infrared spectroscopy research performance in food science and technology [J]. NIR News, 2018, 29(3): 12-14.

[4] Gomes W P C, Gonalves L, da Silva C B, et al. Application of multispectral imaging combined with machine learning models to discriminate special and traditional green coffee [J]. Computers and Electronics in Agriculture, 2022, 198: 107097.

[5] 张珂, 冯晓晗, 郭玉荣, 等. 图像分类的深度卷积神经网络模型综述[J]. 中国图象图形学报, 2021, 26(10): 2305-2325.

Zhang Ke, Feng Xiaohan, Guo Yurong, et al. Overview of deep convolutional neural networks for image classification [J]. Journal of Image and Graphics, 2021, 26(10): 2305-2325.

[6] 刘云玲, 张天雨, 姜明, 等. 基于机器视觉的葡萄品质无损检测方法研究进展[J]. 农业机械学报, 2022, 53(S1): 299-308.

Liu Yunling, Zhang Tianyu, Jiang Ming, et al. Review on non-destructive detection methods of grape quality based on machine vision [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(S1): 299-308.

[7] 赵辉, 乔艳军, 王红君, 等. 基于双通道注意力机制的ResNet果实外观品质分类[J]. 光电子·激光, 2022, 33(6): 643-651.

Zhao Hui, Qiao Yanjun, Wang Hongjun, et al. ResNet fruit appearance quality classification based on dual channel attention mechanism [J]. Journal of Optoelectronics·Laser, 2022, 33(6): 643-651.

[8] 叶云, 赵小娟, 姜晟. 基于深度学习的荔枝虫害识别技术的应用与实现[J]. 中国农业信息, 2022, 34(4): 30-37.

Ye Yun, Zhao Xiaojuan, Jiang Sheng. Application and realization of litchi pest identification technology based on deep learning [J]. China Agricultural Informatics, 2022, 34(4): 30-37.

[9] Huang N F, Chou D L, Lee C A, et al. Smart agriculture: Real-time classification of green coffee beans by using a convolutional neural network [J]. IET Smart Cities, 2020, 2(4): 167-172.

[10] Adiwijaya N O, Romadhon H I, Putra J A, et al. The quality of coffee bean classification system based on color by using k-nearest neighbor method [C]. Journal of Physics: Conference Series. IOP Publishing, 2022, 2157(1): 012034.

[11] 赵玉清, 杨慧丽, 张悦, 等. 基于特征组合与SVM的小粒种咖啡缺陷生豆检测[J]. 农业工程学报, 2022, 38(14): 295-302.

Zhao Yuqing, Yang Huili, Zhang Yue, et al. Detection of defective Arabica green coffee beans based on feature combination and SVM [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(14): 295-302.

[12] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.

[13] Febriana A, Muchtar K, Dawood R, et al. “USK-COFFEE Dataset: A multi-class green arabica coffee bean dataset for deep learning” [C]. In 2022 IEEE International Conference on Cybernetics and Computational Intelligence (CyberneticsCom). IEEE, 2022.

[14] 郑远攀, 李广阳, 李晔. 深度学习在图像识别中的应用研究综述[J]. 计算机工程与应用, 2019, 55(12): 20-36.

Zheng Yuanpan, Li Guangyang, Li Ye. Survey of application of deep learning in image recognition [J]. Computer Engineering and Applications, 2019, 55(12): 20-36.

[15] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.

[16] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.

[17] 李书琴, 陈聪, 朱彤, 等. 基于轻量级残差网络的植物叶片病害识别[J]. 农业机械学报, 2022, 53(3): 243-250.

Li Shuqin, Chen Cong, Zhu Tong, et al. Plant leaf disease identification based on lightweight residual network [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(3): 243-250.

[18] 郑光, 魏家领, 任艳娜, 等. 基于深度可分离与空洞卷积的轻量化小麦生育进程监测模型研究[J]. 江苏农业科学, 2022, 50(20): 226-232.

猜你喜欢

注意力机制咖啡豆卷积神经网络
火星土壤种出咖啡豆
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
InsunKBQA:一个基于知识库的问答系统
基于深度卷积神经网络的物体识别算法
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
基于卷积神经网络的树叶识别的算法的研究
给咖啡豆洗澡