基于深度学习的商品识别方法与检测算法研究

2024-04-14段旭升文志诚

现代信息科技 2024年2期

段旭升文志诚

DOI：10.19850/j.cnki.2096-4706.2024.02.032

收稿日期：2023-05-25

摘要：由于人们对美好生活的向往愈发强烈，消费已经成为拉动我国经济发展的重要引擎，而在消费过程中强化消费体验也是提升消费者服务效益的关键所在。为了能够在提升消费体验的同时降低人力的投入，引入智能化商品识别工具，研究一种利用注意力机理进行特征抽取与学习的方法。文章简要介绍了深度学习方法和基于深度学习的商品识别方法，探讨了深度学习多目标商品检测算法，对比分析了改进后的MaskR-CNN，可有效防止因网络复杂性的提高而造成的性能下降，从而提高了检测效率和检测精度。

关键词：深度学习；商品识别；检测算法；迁移学习

中图分类号：TP181；TP391.4 文獻标识码：A 文章编号：2096-4706（2024）02-0150-04

Research on Goods Recognition Methods and Detection Algorithms Based on

Deep Learning

DUAN Xusheng， WEN Zhicheng

（College of Computer Science， Hunan University of Technology， Zhuzhou 412007， China）

Abstract： Due to people's growing desire for a better life， consumption has become an important engine driving China's economic development， and strengthening consumer experience in the consumption process is also the key to improving consumer service efficiency. In order to improve the consumer experience while reducing human investment， an intelligent goods recognition tool is introduced to study a method of feature extraction and learning using attention mechanism. This paper briefly introduces deep learning methods and deep learning-based goods recognition methods， explores deep learning multi-objective goods detection algorithms， and compares and analyzes the improved MaskR-CNN， which can effectively prevent performance degradation caused by the increase in network complexity， thereby improving detection efficiency and accuracy.

Keywords： Deep Learning; goods recognition; detection algorithm; Transfer Learning

0 引言

商品识别技术中应用最为广泛的技术为商品扫码技术，但是条码技术本身存在一定的局限性[1]，在应用的过程中会受到容量限制以及印刷质量的限制，于是在商品中基于无线射频技术的RFID被引入了进来，实现了基于无线电信号码的特定识别以及数据读取，整个过程里不需要有机械装置和光学装置的介入，同时基于RFID的无线过程传输能够体现出商品的唯一ID编码，通过电子标签的附着，使得商品的数据读写以及获取过程都极为方便，满足了记忆容量的需求[2]。但是随着人工智能技术以及特征图像技术的发展，基于SIFT/SURF技术的图像识别被引入到了消费场景中，通过实时的提取图像表面的特征点能够显著提升图像识别效率和计算精准度，最终通过智能化算法中匹配点的剔除操作能够实现图像的精准匹配，最终完成图像识别[3]。未来随着“内循环”消费趋势的到来，零售商品将会出现井喷式的发展，基于人工智能技术的商品识别将会成为未来的技术发展主流，形成巨大的发展市场，对此强化技术的开发与升级具有重要意义。

1 深度学习概述

深度学习是一种基于特征的学习方法，实现了将过程数据由低到高的非线性转换，在数据处理的过程中，其核心方法是基于神经网络而开展的，神经网络中的基本单元为神经元，通过接收N个其他信号传递的输入信号来保证稳定的数据传输，信号通过带权重的形式进行数据传递，最终通过激活函数来进行全过程处理[4]，实现完整的神经元输出，保证了算法是精确度和效率，对此本文结合着深度学习工具及算法展开探讨。

2 基于深度学习的商品识别方法

2.1 卷积神经网络

随着卷积神经网络技术的不断进步，其模型架构上也逐渐有了更多的分支，这些分支算法都是基于卷积网络的二次深化而得来[5]，对于本次探讨的商品识别案例来说，卷积层在计算的过程中需要对图像和滤波器进行基于线性的操作，然后再附加偏差值，在深度应用激活函数的基础上得到特征图，实现了完整的图像识别和采集过程[6]。

滤波器采用3×3的网格规格大小，对应图像的卷积运算为w0×x + b0，并对图像的像素框进行滑动，设置的步长为2，在不断的迭代计算过程中得到完整的特征图像，再经过卷积层处理之后能够对图像进行所见，实现了权值的共享[7]。

池化层主要针对神经网络中某一静态属性展开深度计算的过程，通过池化处理能够显著降低模型的体积大小，进而更好的提升模型计算的速度和精度，同时还能间接的增强特征提取的鲁棒性[8]。常用的池化操作主要有最大池化和平均池化两种形式，其中最大池化是综合选取象限内的最大值，而平均池化是对每个单位象限内的平均值作为输出特征值进行输出，从一线的实践能够显著看出，采用最大池化的图像处理效果要显著优于平均池化的效果，这主要是由于最大池化的超参数不需要进行多次的训练和学习，对此卷积神经网络的图像处理多数采用的都是最大池化[9]。

2.2 深度残差网络

前期的神经网络更加注重模型处理的深度，但是单一的增加网络深度往往会使得模型的损失率上升，为了显著改善梯度降级的情况，在模型处理中需要引入残差神经网络的核心概念，残差块通过输入的X与初始的输出结果求和的形式直接得到新的求解结果，对此在模型的训练过程中，所需要达成的目的就是将残差值无限的趋近于0，在保证神经网络不断加深的同时，其结果的准确度也不会随之降低。

2.3 深度置信网络

在商品识别过程中，准确的文本识别也是图像管理中的核心所在，深度置信网络DBN是广泛应用于文本识别的关键算法之一，其模型结构主要是由可视层以及隐含层两种结构组成。在计算处理的过程中，通过不断的训练隐含层来深度捕捉高阶数据的相关性，通过多层的RBM层叠深度置信网络将特征值提取出来，然后再导入到分类器中进行综合的数值分类[10]。

3 深度学习多目标商品检测算法研究

多目标检测任务中，对图片的类别判断主要是依据目标所处的位置进行综合标定的，在算法应用中，FasterR-CNN算法是目前多目标检测过程中应用的较为主流算法，其组成结构上可以理解为RPN与FastR-CNN之间的组合，其检测流程图如图1所示。

RPN同时也是卷积层与全连接层组成的框架结构，其输入端的参数主要来自神经网络的输出特征结果，基于特征图内不同锚框为滑动窗口，实现了依次滑动，并且以全连接的形式来映射低维度的特征向量。在逐级的特征提取过程里，通过数据训练集的大量数值计算能够初始化网络参数，实现训练数据的深度特征提取，并且获得到特征原理图，对于得到的特征图，其损失函数计算原理为：

其中i为商品图像的锚框索引，pi为目标训练的预测概率，如果计算的锚框为正，则真实的标注为1，如果真实的标注为负值则标注的数值为0。

ti = {tx， ty， tw， th}分别为预测候选框内四种参数的坐标值，其中Lcls为分类损失，定义描述为：

Lreg为回归损失，其计算原理为：

其中，smooth L1（x）的损失函数定义为：

对于边界框的回归主要采用三个坐标展开计算，其计算原理为：

其中，x、y、w、h分别为中心坐标以及宽和高，x、xa、x*分别为预测包围框、候选框以及真是框的坐标数值。

4 FasterR-CNN多目标商品检测方案研究

通过基于FasterR-CNN的多目标商品检测能够显著提升检测的质量和检测效果，而基于FasterR-CNN的多目标商品检测方案的流程要素如图2所示。

如图2所示，方案的建设内容主要涵盖两部分，其中：模型训练部分主要是通过大量的商品图片开展模型训练，最终得到成熟模型，通过建立的模型指导后续的方案识别与检测；模型测试活动里主要是通过测试图像对多目标的商品进行类别分类，在整个过程中，卷积神经网路多数应用的都是点对点之间的训练，其训练方法也是目前深度学习场景中应用较为主流的训练模式。依据数据排列方法的不同，可以分为由低到高的前向传输，以及由高到低的反向传输两种模式。

前向传播过程主要是应用当前前馈神经网络的输入值并且实时的产生输出值时，所需的传递信息网络流动，x端主要提供了模型的初始信息，此后再传播到下一层的隐形单元，最终输出到y，直到整个输出结果满足期望值的需求时，最终会完整的输出预测结果，前向传播的计算原理为：

W为卷积核，b为偏置量，i为卷积计算的层数，σ为计算过程中所依据的激活函数。

在不断的开展模型训练的过程中，通过正向数据传输能够产生稳定的数据信息，直至获得到全新的目标函数J（θ），而目标函数是一个标量，在反向传播的过程中能够允许目标函数通过网络向后进行流动，实现梯度计算的参数更新以及权值更新。在随机梯度下降算法的描述过程中，反向传输显著遵循了链式计算法则，依据最小函数目标计算得到了需更新的参数，其优化目标的函数计算原理为：

计算原理的表达中，fi为计算过程所选取的激活函数，在开展下降算法计算的过程中，每次选择一个计算梯度后将会不断的进行迭代计算。

5 改进后MaskR-CNN算法实现与实验过程

5.1 迁移学习模型

1）数据清洗，噪声数据处理。

2）数据强化：随机翻转、截取、色彩调整等扩展的D1。

3）CNN的初始预习模型的参数。

4）for i=1，2，…，n：利用预先训练的卷积方法，对第i张照片进行特征保留，并将其序列化为特征矢量End。

5）读出所抽取的特征参数，并按照Batch_size等分法进行训练。

6）确定完整的連通性，并对其进行初始化。

7）为1，2，…，epoch：

采用抽取降阶方法，将训练损耗减至最低，并对所有的连接性参数进行了训练。

if损耗最少