APP下载

深度学习中小目标检测方法

2019-09-10李美玲张俊阳

卫星电视与宽带多媒体 2019年17期
关键词:计算机视觉深度学习

李美玲 张俊阳

【摘要】近年来,深度学习技术的快速发展使得计算机视觉在工业、零售、交通等多个行业中的应用更为成熟,而实现计算机视觉中自动化检测定位并识别目标具有重要的实际意义。本文分析了小目标检测的定义,指出深度学习技术用于小目标检测所存在的难点,并对当前深度学习中小目标检测方法所取得的进展进行总结,同时,分析相应的优势和不足。

【关键词】深度学习;计算机视觉;小目标检测;

目标检测为计算机视觉领域重要研究方向之一, 在工业自动化、新零售、交通等多个方面具有巨大的应用价值。国内外专家学者在近些年开展了深入研究,以卷积神经网络为代表的深度学习算法被证明在目标检测方面具有优越的性能,并取得了一系列成果。

相较于大分辨率目标,小目标的检测更具挑战性和现实意义。本文分析了小目标的定义以及检测小目标存在的难点,总结了深度学习算法在小目标检测方向取得的研究进展,并分析算法相应的优势和不足。

1. 小目标检测定义及难点

在实际应用中,小目标检测非常重要,例如自动驾驶检测摄像头需在获得的高分辨率图像中检测较小的物体或者较远的物体、早期的肿块或肿瘤在医学影像中也显得较小、工业自动化也需要对材料上的小缺陷做检测。在计算机视觉理论中,目前尚未明确限定当目标的分辨率尺度或整体像素数量小于具体阈值时,其为小目标。通常是根据研究目标或实际应用,根据需要定义小目标。

历年国际级MS COCO目标检测竞赛的结果表明当前目标检测算法的平均精确度有了较大的提升,但同一算法在小、中、大三種目标的实验结果表明算法性能随着目标分辨率变小降低,三种目标的分辨率为0×0-32×32、32×32-96×96、96×96-∞×∞。同一检测算法,应用于小目标检测得到的性能度量值仅为大目标检测的2至3倍,该实验结果为小目标的分辨率限定提供了学术参考。故当前提出的主流目标检测算法在应用于小目标检测时,需在算法模型、参数、数据集等多个方面需根据实际情况做出相应的调整。由于目标尺度变小,获得的信息也较少;另一方面,小目标未能很好地出现在图像中的各个位置,且小目标占比低,数据集缺乏多样性,由此训练集训练得到的参数更偏向于拟合大目标,原算法的模型、参数将不再适用。

2. 小目标检测方法

针对小目标检测的难点,目前已有一系列有效的改进方法被提出。

2.1 针对小目标尺度提出改进

小目标因为分辨率低,图像模糊,表观信息少,故而所能提取的特征也较少。故通过放大小目标获得更多特征是直接有效的方法,代表算法有FPN、Feature-Fused SSD、SNIP。

FPN是利用常规CNN模型高效提取图片中各维度特征的方法。2017年提出的用于目标检测的特征金字塔网络,作者主要是将顶层特征通过上采样和低层特征做融合,而且融合后的每层都是独立做检测的,这将增加整体算法耗时,但是融合了低层的特征对于检测小物体是很有帮助的。

图1是使用FPN生成一张图片多维度特征组合的四种方法。

图1(a)是通过对图片进行压缩或放大所形成不同维度的图片作为模型输入进行处理,所得到的特征再组合,从而得到可反映多维度信息的特征集。图1(b)仅采用网络的最后一层的特征。图1(c)是从网络不同层抽取不同尺度的特征做预测。图1(d)每层都是独立预测的,顶层特征通过上采样和低层特征做融合。

Feature-Fused SSD 是一种对SSD优化小目标检测的算法,其主要也是将不通尺度的特征图信息融合起来,这里的特征图有别于FPN算法所选择的顶层特征,选择融合的特征图需要经过试验确定,所采用的融合方法有叠加特征图和对特征图元素作求和。缺点为作融合的特征图需要经过试验确定,具有一定的偶然性。

2018年提出的SNIP算法作者认为目前目标检测算法的难点在于数据集中目标物体的尺寸分布较大,尤其对于小目标的检测效果也有待提高,因此提出Scale Normalization for Image Pyramids (SNIP)算法来解决这个问题,SNIP相当于开了三个pipe-line(流水线),其划分了三个尺度,其中包括了三个并行的特征提取,对应三种不同分辨率的图像,每个pipe-line的RPN(区域提名网络)只负责一个尺度范围的候选框生成,每个分辨率下的RoI(候选框和基准框的交叠比例)都有其指定范围,如果基准框的大小在这个范围内,就被标记做有效,否则就被标记为无效。每个尺度只学习最容易学的区域候选框,故SNIP对小目标检测准确率有显著提升,但速度慢。

2.2 针对锚框生成提出改进

锚框是当前基于深度学习目标检测算法中的重要技术之一,计算机视觉中有锚点或锚框,目标检测中常出现的anchor box是锚框,表示固定的参考框,也可称为锚候选框。锚框的出现,取代了遍历滑窗寻找目标的方法[3]。

在设置方面锚框需要考虑三个因素,密度、范围、形状数量;密度与基准框和锚框的交叠比阈值有关,因为通常交叠比阈值设置越高,则有效的锚框数量越少。范围则需要根据任务检测目标的范围确定。形状数量则通常会选取多比例多尺度,可适当增加锚框的密度,诸如三个尺度三个比例就有九个形状的锚框。

2.3 针对ROI池化提出改进

现有的ROI池化破坏了小目标的结构,提出了一个基于周边信息的RoI池化来维护小目标的周边信息和原始结构。这也是改进小目标检测的研究方向之一。

2.4 针对训练数据集提出改进

针对训练数据集提出改进,一方面可直接对训练数据集中的小目标图像做放大之后再进行裁剪,相当于将目标变大,让神经网络学习更多的信息;另一方面,可将小物体在图片中复制多份,在保证不影响其他物体的基础上,增加小物体在图片中出现的次数(把小目标扣下来贴到原图中去),提升被锚框包含的概率。但只单对训练数据集改进,性能提升较小。

3. 总结

本文分析了小目标检测的定义以及存在的难点,总结了当前深度学习中小目标检测方法的发展,通过目前所提出的一系列改进方法,能够有效提升深度学习中小目标检测的性能。

参考文献:

[1] 万维.基于深度学习的目标检测算法研究及应用[D].

[2] 李名波.基于机器学习的目标检测算法综述[J].计算机产品与流通(06):156-157.

作者简介:李美玲(1988—),女,广东廉江人,大学本科,主要从事通信工程设计与管理和楼宇智能化工程技术的教学工作。张俊阳(1991—),男,广东揭阳人,硕士研究生,主要从事通信工程、模式识别的研究工作。

猜你喜欢

计算机视觉深度学习
基于深度卷积神经网络的物体识别算法
双目摄像头在识别物体大小方面的应用
机器视觉技术发展及其工业应用
危险气体罐车液位计算机视觉监控识别报警系统设计
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现