基于特征融合的目标检测算法研究
2018-03-02封靖川胡小龙李斌
封靖川 胡小龙 李斌
摘要:近年來,深度学习在目标检测领域得到了极大的发展,但在检测精度和速度上仍有提升空间。本文针对one-stage目标检测算法对特征图的信息利用不充分的问题,提出了一种特征融合的检测模型,将CNN低层的物体位置、轮廓信息与高层语义信息融合。实验表明该模型在支持实时检测的条件下提升了检测精度,具有较大的理论和应用价值。
关键词:深度学习;目标检测;特征融合
中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2018)12-0114-02
目标检测是计算机视觉领域的一个热门,基础的研究方向,具有重要的理论和应用价值。其主要任务为找出图像中感兴趣的物体,包含物体定位和识别两个子任务,需要同时确定物体的位置和类别。
1 国内外研究现状
自从2012年Geoffrey Hinton教授率领团队采用AlexNet在ImageNet视觉识别挑战赛上取得第一名的优异成绩之后,深度学习模型开始广泛应用于计算机视觉的各个研究领域,包括目标检测,人脸识别,图像分割等等。目前基于深度学习的目标检测算法可以大致分为以下两类:
1.1 基于region-proposal的two-stage检测算法
该类算法将目标检测分为两个步骤,首先通过区域建议模型得出目标候选框,然后再通过CNN从候选框中提取目标特征,进一步定位目标位置并进行目标分类。代表算法为R-CNN和Faster R-CNN,R-CNN采用选择性搜索(Selective Search)的方式提取目标候选框,然后通过卷积神经网络提取特征,最后采用SVM对特征进行分类。而Faster R-CNN将区域建议过程统一融合到卷积神经网络中,加速了训练和测试,实现了端到端的训练模型。
1.2 基于regression的one-stage检测算法
由于two-stage检测算法步骤较多,在现有的计算条件下难以支持实时检测。于是有学者提出基于回归的算法,即给定输入图像,直接回归得出目标定位边框和目标类别。代表算法有YOLO和SSD。YOLO将图像划分为s×s个网格,对这些网格中的图像计算目标边框的置信度和框中目标所属类别的概率。而SSD则将Faster R-CNN中的锚点机制和回归思想结合,产生多层特征图,对多尺度的物体特征进行回归。
2 研究方法
目前的目标检测算法是在检测速度与精度之间做平衡,two-stage算法的检测速度较慢,但检测精度较高;而one-stage算法的检测速度较快,代价则是目标定位精度、分类的准确率都较低。对CNN模型各层进行反卷积并可视化,可以发现在图像识别过程中,CNN低层特征图包含较多的目标位置和轮廓信息,而CNN高层特征图则包含较多的语义信息。主流的目标检测算法都是在顶层特征图抽取信息以提高目标类别检测精度,但对低层特征图的信息没有充分利用,导致定位精度不高。
本文提出了一种特征融合的目标检测算法,主要是在SSD的基础上进行改进,加入特征图的信息融合步骤:将包含物体位置与轮廓信息的低层特征图与包含语义信息的高层特征图进行concat操作,使得输出层的特征信息更为丰富,从而提升模型预测精度。
此外,针对one-stage目标检测算法中正负样本不均衡的问题,对原有的损失函数进行了改进。一般的深度学习目标检测任务中的损失函数可以表示为定位损失(location loss)和分类损失(classification loss)的组合,而考虑到one-stage的检测过程中,划分后的网格中大部分都为简单易分的背景(负样本),导致神经网络的训练过程中难以有针对性地学习到真正感兴趣的物体特征。本文采用的损失函数为:
其中α为权重系数,受网格中物体检测框与真实框的比例影响,通过该系数来减少背景对训练过程的干扰,将更多注意力放在含有感兴趣物体特征的网格中,使得模型表现能力有所提升。
3 实验与分析
3.1 实验环境与数据集
本实验硬件配置为2.3 GHz Intel Core i5处理器,NVIDIA Titan X显卡,32GB RAM服务器;软件环境配置为Ubuntu操作系统,Pytorch,OpenCV。为衡量目标检测算法的总体性能,通常采用PASCAL VOC2007、PASCAL VOC2012、MSCOCO三个数据集对模型进行训练和测试。
3.2 训练过程与比较评估
本文在预训练好的SSD基础上进行改进,对conv4_3、conv7_2、conv9_2特征图进行卷积并上采样,使得特征图的维度相同,然后对其进行concat操作,最后进行NMS(非极大值抑制)处理,得出物体的位置和类别,命名为CFSSD(Concat Fusion Single Shot Detector)。
我们将实验模型与主流目标检测模型SSD300、YOLOv2等在不同的性能表现上进行对比,并测试了在采用不同的基础网络条件下模型的mAP,结果如表1所示。
可以看出加入特征融合后的模型在检测速度上比SSD更快,虽然略微慢于YOLOv2,但是在mAP上有1%-3%左右的提升。并且不同的基础网络对检测精度和速度均有影响,可以根据需要来调节两者的均衡。
4 结语
本文针对现有的one-stage目标检测模型信息利用不充分的情况,提出了一种信息融合的目标检测算法,将CNN低层特征图与高层特征图进行特征融合。实验结果表明,该模型在保证实时检测的条件下,可以提升目标检测的定位和分类精度,有较大的理论和应用价值。
参考文献
[1]任少卿.基于特征共享的高效物体检测[D].中国科学技术大学,2016.
[2]范钦民.基于多层特征融合的SSD目标检测[D].西南交通大学,2018.
[3]尹宏鹏,陈波,柴毅等.基于视觉的目标检测与跟踪综述[J].自动化学报,2016,42(10):1466-1489.
[4]程欣. 基于深度学习的图像目标定位识别研究[D].电子科技大学,2016.
Research on Object Detection Algorithm Based on Feature Fusion
FENG Jing-chuan, HU Xiao-long, LI Bin
(Central South University, Changsha Hunan 410000)
Abstract:In recent years, deep learning has been greatly developed in the field of object detection. In this paper, a one-stage object detection algorithm is used to solve the problem of insufficient use of feature map information. feature fusion detection model is proposed to fuse the object position and contour information of the lower layer of CNN with high-level semantic information. Experiments show that the model improves the detection accuracy under the condition of supporting real-time detection.
Key words:deep learning; object detection; feature fusion