基于图像识别的目标检测可行性分析

2023-05-10李溶真刘岩石刘贵锁季伟

计算机应用文摘·触控 2023年9期

李溶真刘岩石刘贵锁季伟

关键词：图像识别；目标检测；评价标准

1引言

目前，深度学习领域成为各学科融合热门，伴随计算机算力的提升，深度学习进一步发展，并基于深度学习实现图像识别，在图像识别领域取得了重大进步。但大家似乎都迈入了一个误区：图像识别相当于计算机视觉或者仅仅是对图像进行简单处理。相较于大众认知，图像识别不仅仅等同于对图像进行识别，它是一个宽泛的领域。本文首先探讨图像识别的任务分类，并对图像识别领域的应用场景进行介绍。算法的研究基于图像识别的可行性，以及如何判断图像识别效果的优劣，可以较为清晰地掌握对模型训练的底层知识脉络，为以后算法的学习和改进提供思路。本文第4节主要概括深度学习中图像识别的可行性以及算法优劣性的计算指标。最后，本文总结了目前目标检测领域的主要模型以及数据集，并基于目前研究现状对未来图像识别领域进行展望。

2图像识别

图像识别是深度学习领域的主要应用，它的发展经历了3个阶段：文字识别、数字图像处理与识别、物体识别。如图1所示。但只有物体识别属于高级的计算机视觉范畴。当前图像识别的3大任务如下。

（1）目标识别：目标分类，定性目标类别，确定目标是什么。

（2）目标检测：定位目标信息，确定目标是什么以及位置。

（3）目标分割：将背景与前景进行分类，将背景删除，或将前景去除。

3领域应用场景

图像识别的应用一般分为通用场景应用和垂直场景应用，其中通用场景一般是作为谷歌、微软、百度、阿里巴巴在内的科技巨头搭建的图像识别平台，因为它们能够收集庞大的数据图片，比如识别商品，识别标签文字。但是这些功能只能在特定的产品中进行图像识别，由于特殊行业的特定数据不易收集，因此只能对能够掌握的数据进行训练。

垂直场景的应用近年来发展突飞猛进，垂直领域是指向特定行业中的图像识别领域。基于深度学习的目标检测技术应用在各大场景中：人脸检测、行人检测、遥感影像检测、医学图像检测、显著目标检测、异常检测、3D点云检测、细粒度检测领域。但仍有可以进步的空间，如在视频目标检测、弱目标监督检测、无监督检测、多任务学习等方向。

4目标检测技术的可行性

一个目标检测模型的好坏，需要结合目标检测任务来评价，即分类的准确性以及定位的准确性。性能的评价有多种指标，如精度、特效度、准确率、召回率，对于每个不同的应用场景，模型检测的好坏由这些指标来确定。

当目标检测模型识别的图片中有多个物体时，即使检测物体分类的精度很高，也并不能用物体分类的评价指标来评价目标检测的准确性。原因如下。（1）当图片包含多个目标时，计算机只找了一个检测框，这个检测框恰好正确，说明precision为1，但它只找到一个框，所以不能以单一精确度衡量。（2）目标检测不只要求物体识别正确，还需要精确的位置，如模型识别出某个位置物体是猫，但如果不能准确定位，这个目标检测模型的实用性能是不满足要求的。

4.1如何标定目标检测的正确性

（1）识别分类的正确程度，且大于一定的阈值。

（2）识别物体位置的准确性，即预测框和真实框的重合程度大于某个阈值。

（3）阈值大小不确定，在输出结果中对比检测效果，以确定阈值，不同的阈值会影响目标检测模型效果。

4.2定位准确性分析

定位目标的位置框称作B-box，在定位准确性的计算上有2个B-box，分别为Ground-truth boundingbox（图片中真实标记的框）和Predicted bounding box（预测时候检测出来的框），位置框用坐标表示。识别物体目标定位准确性的评价标准为IoU，可以简单理解成检测到的物体框和标注的物体框的重合率。这个比值越大，说明位置检测效果越好。具体如图2所不。

4.3识别分类的准确性

我们不能用单一精确度来衡量目标检测的效果优劣，当图片中只有一个物体，精度值越大说明效果越好，当图片中存在多个检测目标时（假设n个），若继续使用单一精度评价效果优劣，会出现模型检测到一个物体的精确度为100%，但找全所有物体的精确度却为1/n。所以我们引入新的目标检测标准：准确率Precision、召回率Recall[1]。

准确率和查全率至少被2个因素影响，计算机通过标定阈值确定识别目标的可信度，正确识别的标准分为分类准确性和位置准确性。因为我们要确定阈值，再根据阈值输出结果计算得到准确率和查全率，故至少会有2个变量会影响Precision和Recall，即IoU和可信度阈值。评价分类的准确性首先要定义一个信度阈值，我们认为计算机输出结果大于这个阈值即为正类，小于这个阈值称为负类。比如，标定IoU的信度阈值0.7，说明我们只承认IoU >0.7的结果检测，输出IoU>0.7的所有检测结果，之后定义输出结果中类别识别准确度大于阈值的为正类、小于阈值的为负类。具体如图3所示。

在正类的结果输出中又存在预测结果正确的（TP）和错误的（FP），在负类预测结果上会存在预测准的（TN代表确实是负类）和预测不准的（FN代表错误的识别为负类）。鉴别出TP，FP，TN和FN，计算机在“测试／验证”数据集中计算目标识别的准确率Precision和召回率Recall。

當目标检测的查全率增大时，检测结果的准确率也增高，说明模型的检测效果好，检测可信度高。对比不同的模型，如果在相同查全率的基础上，目标检测的准确率越高说明效果越好。但我们还需要一个数字直观表示，所以在该领域内定义一个指标来衡量目标检测模型的好坏-mAP。mAP的定义首先出现在PASCAL挑战赛，它成功地将模型的检测效果量化为数字，便于描述目标模型效果的优劣。mAP是mean of Average Precision的缩写，意思是平均精确度（average precision）的平均（mean）[2]。

4.3.1计算AP

AP的计算基本等同于计算曲线以下的面积，略有不同的是先平滑化曲线（因为召回率和精确度是离散的点，存在震荡），即将它的精确度替换为该点召回率右边的最大精确率，这样就得到一条单调的曲线，具体如图4所示。最一般化AP计算方法就是求PR曲线下的面积PR-AUC，因为我们得到的点都是离散的点，计算积分是很难的，所以只能通过离散的点去拟合AUC。

4.3.2拟合方法

（1） 11-point Interpolated AP（11点插值法计算AP）。

11点插值法是在2007年提出的VOC數据集的计算方法。我们在平滑化曲线上以0.1为步长，在recall[0，1.0]将其分成11份，然后我们计算11个召回率下的平均精确率，具体如下：

11点拟合法虽然可以很接近PR-AUC，但是上述例子中离散的点只有5个，就代表图像褶皱最多有5个，我们取11个点来计算面积是相对接近的，但是在实际的目标检测中召回率的离散数值的数量远远大于11，说明就有远大于11个的曲线震荡，那么平滑化PR曲线之后如果继续使用11点插值法拟合，对于PR-AUC来说，它的面积精确度就不高[3]。

在后来的Pascal VOC比赛中，采用了一种新的方法，使用了所有的数据点。在新方法中，选取m个长度为Recalln -Recall，这样产生了m个矩形，即m是召回率的数量，其实也是数据集中所有正例的数量。因为召回率就是目前获得的TP/数据集中的所有正例，所以它的取值就是1/m，2/m，一直到m／m。

5结束语

目标检测作为图像识别的主要任务，其主流算法在不断地改进，其中包括R-CNN，Fast-CNN，YOLO，SSD。常见的目标检测数据集有Pascal VOC，ILSVRC，MS-COCO，Open Images．ImageNet。目标检测准确率随着算法的改进、数据集的丰富，其计算方式也在面向多层次、多任务性发展。mAP在2010年采用多点拟合方法之后，在多点拟合的基础上，为了更好地拟合PR-AUC，COCO挑战赛定义了12种mAP计算方法，如采用不同的IoU阈值、采用计算多个不同类别物体Iou阈值下mAP的平均值，或者是根据目标检测图片的大小来计算mAP。虽然目标检测近年来发展迅速，但在不同领域的融合上，目标检测还有许多待改进的地方，如小物体的检测、多类物体重叠后的检测，相信目标检测的精度会随着基于深度学习下的目标检测算法的改进而不断提升。