计算机视觉视域下物体抓取识别算法研究

2022-06-08王海宽

晋城职业技术学院学报 2022年3期

王海宽

（晋城职业技术学院，山西晋城 048026）

目前在深度学习的计算机视觉之下，在对图像进行识别的时候往往采取检测、对比和分类的方式展开。在检测的时候，一方面要保证物体上具有十分清晰的标签，另一方面，要求采取合适的方式将物体具体位置标注清楚，以简单的操作来避免在后期处理期间出现大量人力资源和物力资源消耗。就某些实际场景而言，例如在自动驾驶环境下，需要对过往的行人和行驶的车辆作出检测，明确目标所在位置。基于计算机视觉领域任务不同，在解释弱监督学习时也有所不同，基本上分为以下两种：第一种是对于图像中所出现的物体进行标明；第二种是模型在学习的过程当中，仅仅是将物体存在的相关信息提供给设备，而不必将物体真实出现的位置提供给设备。详细地说，便是识别算法仅仅需要将目标视域下的物体数量和类别作出感应即可。基于此种数据集所获得的模型可以顺利地推断出全新的数据信息，直接将目标的数量和种类计算得出。

一、计算机视觉视域下识别物体

（一）构建识别物体网络结构模型

当神经网络加深时，则表明神经网络在表示具有复杂性的特征时，会表现出更好的能力。但是，若只是将网络的深度采取加深处理，也会在一定程度上导致在反向传播的算法之中发生梯度传播的异常现象，最终得到的结果是训练的神经网络失去效果。若是想要解决这种问题，那么灵活性地运用BatchNormalization方法或者是权重初始化的方法便是最好的解决方案。但是，即使是有了这两种方法，若是持续加深网络深度，模型训练结果的准确性也不会再次被提升，甚至准确率出现不同程度的下降，这种现象为训练准确率下降。根据退化结果显示，想要对深层模型展开合理化的训练，面临较大的困难。于是ResNet为解决出现的深度学习模型退化的问题，提出了残差学习法。

将输入的数据假设为x，普遍情况下神经网络在学习映射H（x）的过程中，需要借助于几个不同的堆叠层。ResNet学习的内容是神经网络模型映射与输出时所产生的残差，即：

将公式1.1变换形式，得到的结果如下所示：

尽管在计算的环节之中，这两种方法表示的内容呈等价形式，但是通过实际的试验结果得知，在训练的时候，运用残差学习更加容易。ResNet的残差学习法在研究的时候，通过使用几个不同的堆叠残差模块表示出来，可以把残差结果的形式转化成为以下方式：

y=F（x，{Wi}）+x （公式1.3）

在公式1.3当中，F（x，{Wi}）所表示的含义主要是需要进行学习的残差映射。

通过图1可以得知，残差映射的结构总共有两层，可以对其表示如下：

图1 学习残差结构图

公式1.4中，a所表示的含义为Relu激活函数。在图1.1之中，总共划分成为两层，在实现ResNet残差学习的时候，大量的选择运用了两层残差结构或者是三层残差结构，但是在实际ResNet残差学习过程中，却没有对数量的限制问题。若是仅仅有一层的时候，那么残差结构将会类比为一个线性层，所以在分析环节，已经不再有必要可用单层残差结构。

F（x）+x在ResNet残差学习实现，需要通过连接shortcut元素和相加逐元素，将其相加以后，获得的结果将会在下一个Relu激活函数中被使用。从本质上而言，shortcut连接所实现的功能是恒等映射（Indentity Map）在模型当中输入的x值。倘若是情况相对比较计算，那么获得的残差F（x）结果将会为零，从而导致整个残差模块只能够完成一次恒等映射。这种现象是受神经网络直接决定的。假如x与F（x）所处的维度存在差异，那么在促使两个数值的维度相同的时候，可以借助于公式1.5：

但是通过ResNet残差学习的试验结果可以得到，在解决退化的问题中，运用恒等映射具有积极作用，同时还相对比较简单，在计算的时候，复杂度低且计算量不高。ResNet残差学习结构能够为深度学习模型退化的问题提供解决方案。ResNet残差学习模型在ImageNet数据集之上，最深能够达到152层，并且拥有相对较高的准确率。

（二）损失函数分析

损失函数（Loss Function）衡量模型所表现出的含义为选择样本X标签y和预测值Y之间的差异化程度，其中X的取值为{x1，x2，……，xn}，y的取值为{y1，y2，……，yn}，Y的取值为{Y1，Y2，……，Yn}，损失函数模型差异程度的结果记作L（Y，y）。经过计算得知，损失函数所获得的结果为非负数，函数结果的幅值和预测的准确度两者之间呈现出负相关关系。在分析损失函数的时候，最为常用的类型基本上可以分为以下几种。

第一，0-1损失函数（0-1 Loss Function），其表现形式如下所示：

第二，平方损失函数（Quadratic Loss Function），其表现形式如下所示：

第三，绝对损失函数（Absolute Loss Function），其表现形式如下所示：

第四，对数损失函数（Logarithmic Loss Function），其表现形式如下所示：

以计算机视觉所特定的任务作为出发点，在实施任务的时候要以特定编码方式作为依据，进而能够快速且准确地得到损失函数的标签y。

在机器的学习环节，一般情况下在实现某个特定任务的时候，需要对单个模型展开优化和设计，比如想要实现图像分类任务，可以通过CNN设计实现目标。大多数情况下，为了切实保障设计与学习环节获得良好的效果，提升结果的准确度。另外，在对预测结果实施优化期间，还可选择应用集成学习（Ensemble Leaning）的策略，从而实现优化的目标。在保证其他任务环节处理妥帖的时候，使用迁移学习法（Transfer Leaning）快速获取模型。利用多任务识别（Multi-Task Leaning）对不同任务共性和相似展开识别的能力，完成对不同的任务进行学习的目的，完成训练的模型具备处理多种任务的能力。

在深度学习的领域当中，多任务学习需要以相关指标作为依据，划分成两个层面。第一种是隐含层的硬件参数共享（Hard Parameters Sharing），第二种是隐含层的软件参数共享（Soft Parameters Sharing）。神经网络中，硬参数共享是使用较为频繁的方法，这种方法的使用能够实现对不同操作任务实施共享权重的目的，在任务之中完成对于不同输出层的添加工作。［1］在软参数共享当中，所有的任务都具有独特的参数和模型，但是在实际的运用环节，会因为部分措施的使用发现参数之间存在的相似性。

构建的模型，其主要目标是将图像之中所出现目标的不同种类、种类的不同数量展开快速识别。就识别目标种类的时候，是分类标签的过程，识别目标数量，则是属于回归性质的问题。［2］

（三）实现平台分析

训练和推断深度神经网络的时候，CPU所具备的计算结构是多核且并行的，流处理器的数量在普遍情况下能够达到数千个，在深度学习的环节之中，可以实现矩阵计算的优化目标，表现出良好的可行性。［3］

二、计算机视觉视域下识别物体行为

（一）数据集分析

行为识别模型在构建的时候，其训练集则是运用了开源的MERL Shopping Dataset，并且构建完成的模型可以在便利店中进行使用，通过观察获得模型的良好表现结果。［4］

MERL Shopping Dataset的组成是106段大约有两分钟时间长度的视频，三部分分别为训练集部分、验证集部分、测试集部分。利用MERL Shopping Dataset严格划分了数据集，为后期的对比效果获取提供便利。另外对训练完好的模型投放进入真实的环境下展开实验，MERL Shopping Dataset能够对在便利店的真实环境中展开购物活动的试验人员，参与到试验活动的相关人员，在每做出一个动作的时候，形成细粒度（Fine-Grained），试验人员会在识别的范围之内作出五种不同的动作，数据集便通过使用对起始帧和结束帧展开标准的方式，对识别单位之内的人员所表现出来的动作基本类别作出相应的分析与识别。在本文的分析过程中，需要标注好试验活动参与人员的每个动作，将他们的活动行为间隔定义为episode。

（二）物体运行行为信息

就识别物体运动的行为而言，将运动信息提取完成具有至关重要的作用，在组织识别任务期间，光流法是最为有效的措施之一。这种方法基本原理是光流在运动期间，运动目标外表保持稳定。［5-6］FlowNet是自文献资料查阅中，最早通过使用网络端对端得到光流算法的，但是其实现的效果和具有的优势，仍旧没有达到传统算法效果和优势。深化研究FlowNet研究，效果获得了显著提升，但是其仍旧只能在小位移的物体运动活动中具有合理性。就本次研究所使用的数据集而言，后期研究得到的FlowNet所得到的效果如图2所示：

图2 FlowNet光流运动信息

（三）构建识别物体行为网络结构模型

识别物体行为的模型构建是基于双流神经网络，VGG-16卷积层部分被运用在时序流和空域流两个部分的基础网络工作之中。在训练的时候，是将空域流和时间流分离的，但是可全部运用交叉熵损失函数完成数据分析。在测试时序流和空域流期间，两者的网络运行状态处于并行状态，利用Softmax实现五维向量输出，得到的结果表示六个不同类别的置信度。本文在探究中所选择的方式是迟融合，相加时序流和空域流两部分网络所输出的五维向量，最终所得到的预测结果是两部分相加结果的最大值。

在对测试结果展开统计的时候，将所有的episode划分成多个segment，所有的segment构成全部是呈连续状态的6帧图像，倘若最后的episode帧数不能够被6整除的时候，那么处于最后一段的segment将会从前面部分的segment当中取出几帧具有重叠现象的图像，以此来凑满6帧。本文在探究活动中通过使用投票的方式对构建的模型准确率情况展开评估，利用某段episode当中的所有segment作为投票的依据，并获得最终的结果。

在识别物体行为的时候，其基本模型框架如图3所示。