基于多特征信息融合的目标检测方法研究

2020-11-12陆文总闫芬婷

计算机应用与软件 2020年11期

丁哲陆文总闫芬婷

(西安工业大学电子信息工程学院陕西西安 710021)

0 引言

随着计算机视觉技术的蓬勃发展，目标检测已然成为当前的研究热点，人们对目标检测技术也提出了更高的需求。虽然该领域已研究了数十年，但仍然存在行人目标背景复杂、形态不一、目标相互遮挡和检测精度有待提高等问题。因此，研发一种准确率高且鲁棒性强的行人检测算法具有重要意义。

2005年Dalal等[1]将HOG特征图像局部变化与HOG-LBP特征相结合,并采用SVM分类器配合对目标进行检测。近年来基于深度学习的目标检测方法层出不穷，2014年Girshick等[2]提出了基于区域的卷积神经网络R-CNN，但计算候选框的耗时较大，实时性难以满足。2015年Redmon等[3]提出了YOLO算法，采用一个单独的卷积神经网络模型实现端到端的目标检测，检测速度有所提升，但对小目标检测效果不好。2016年Liu等[4]提出了SSD(Single Shot MultiBox Detector)算法，其结合了Faster R-CNN算法[5]和SSD算法的优势，在检测精度和实时性方面均有一定的突破。

本文采用SSD算法作为基础检测框架，为了弥补卷积神经网络中难以学习到图像统计特征、边缘约束弱等不足，针对卷积神经网络深层输出特征对目标分类不准确现象，提出一种将卷积神经网络浅层提取的特征与深度特征[6]融合的SSD检测方法，建立融合多特征的网络模型，有效地提高了行人检测的准确率。

1 多特征信息融合的目标检测模型

1.1 目标检测模型

多特征信息融合[7]的目标检测模型主要由基础网络部分、特征提取层部分、原始包围框生成部分和卷积预测部分组成。融入多特征的检测模型是在VGG16[8]网络结构的基础上只增加了两层3×3×256的卷积层以满足目标尺度变化，而且较原SSD模型提升了实时性。本文在神经网络第二个卷积层后提取图像的方向梯度直方图(HOG)、RGB颜色加权直方图和LBP纹理[9]加权直方图三种手工特征；同时在多个特征图上利用Softmax分类与位置回归，得到一系列固定大小的边界框和目标类别[10]的得分；最后根据非极大值抑制得到检测识别的结果。图1为SSD算法特征融合框图。

图1 SSD算法特征融合框图

1.2 目标检测先验框设置方法

融合多特征的SSD算法为每个单元设置长宽比和尺度不同的先验框，然后以这些先验框为基准预测边界框位置，降低模型训练的难度。在训练过程中，图像中的目标会根据先验框匹配原则在设置的多个先验框中挑选出最适合它们的先验框进行训练。先验框的设置主要为长宽比和大小两个方面，先验框的尺度呈线性递增，特征图的先验框和大小尺度也呈线性关系。

(1)

式中：n为特征图的个数；sh为先验框大小相对图片的比例；smax为比例的最大值；smin为比例最小值。对于特定的长宽比，先验框实际的宽和高为：

(2)

式中：ar为常数。

1.3 目标检测方法的损失函数

本文多特征信息融合的目标检测方法总的损失函数定义为定位损失(loc)和置信损失(conf)的加权和，即：

(3)

(4)

(5)

式中：smoothL1(·)函数从两个方面限制梯度，当预测框与ground truth差别过大时，梯度不至于过大，当预测框与ground truth差别很小时，梯度值足够小；(gcx,gcy,gw,gh)表示预测包围框；(dcx,dcy,dw,dh)表示错误包围框；(lcx,lcy,lw,lh)表示预测的包围框相对于错误包围框的偏移量。

1.4 非极大值抑制(NMS)

对目标检测过程中，大量的候选框会在同一目标的位置产生，但候选框之间有大量重叠，从最大概率候选矩形框开始，分别判断候选框与目标真实包围框的交并比是否大于某一固定阈值，选择概率最大的目标边界框，将其他概率低的边界框消除掉。不断重复，找到所有被保留下来的包围框。检测窗口的重叠率p(δ1,δ2)可表示为：

(6)

式中：δ1和δ2为两个检测窗口；将阈值φ设定为0.7，将重叠率低于0.7的窗口消除，从而提高检测速度。

2 多特征融合方法

卷积神经网络中，基础网络用来提取输入图像的浅层特征和深层特征。其中，浅层特征直接用于目标检测与包围边框回归。考虑到卷积神经网络在迭代过程中易出现梯度流失现象，损失网络提取到的有效特征信息会影响目标检测的准确性。本文利用SSD卷积神经网络将提取深层特征和浅层特征信息在网络中的Flatten层将其转化成一维向量进行融合，在浅层卷积加入RGB颜色特征、方向梯度直方图(HOG)和局部二值模式(LBP)三种人工特征，图2为多特征信息融合框架。

图2 多特征信息融合框架

该多特征信息融合框架以VGG16为基础网络模型，是神经网络由浅到深不断迭代的过程，整个框架共17层，在第二个卷积层之后提取图像目标的三种人工特征，最后在网络的Flatten层融合人工特征和深度特征并对其分类、回归。

2.1 浅层特征提取

通过计算和统计图像局部区域的梯度方向直方图来提取图像的方向梯度直方图(HOG)特征。HOG对图像局部进行方格单元操作，因此对图像的几何形变具有良好的不变性，并且在较强的局部光学归一化、精细的方向抽样与粗的空域抽样条件下，只需要行人保持直立的姿势，行人微小的肢体动作不会影响检测效果，能够很好地对运动行人目标进行描述。行人目标提取HOG特征如图3所示。

图3 HOG特征图

颜色特征是目标最直观的特征，提取该特征的速度快，而且有很好的区分度。RGB颜色直方图是用来描述不同色彩在整幅图像中所占的比例，本文考虑到模板内颜色的分布情况，因此设目标区域有n个像素，其中心像素坐标为u0，像素集为{x1，x2,…,xn}，目标模板在R分量的特征是{λ=0,1,…,L-1}，G分量与B分量的特征均为{λ=0,1,…,(L-4)/4}，然后对每个bin内像素点统计，得到该区间像素点占整幅图像像素的比例。在统计图像过程中，离跟踪框中心越近的点对识别跟踪的贡献越大。图4为行人目标所对应的RGB颜色直方图。

(7)

式中：K(·)表示每个像素权重大小的核函数，使得目标中心区域范围的权重较大；b(ui)表示像素点ui处的特征值；d为检测窗口的带宽。

图4 RGB颜色特征直方图

当目标基本特征区分度较低的情况下，采用LBP纹理特征对目标进行区分，LBP纹理特征是描述图像局部特征的方法，可以反映目标表面的固有特征。本文为适应不同尺度的纹理特征，实现灰度和旋转的不变性，利用圆形领域代替方形领域。改进的LBP算子在半径为R的圆形领域内可以有任意多个像素点，改进前后对比如图5所示，图6为行人目标LBP纹理加权直方图。

图5 LBP算子改进前后对比图

图6 LBP纹理加权直方图

2.2 多特征融合层

改进后的SSD模型的融合特征层由浅层人工特征与深层网络特征组成，浅层特征通过下采样以减小维度，深层特征通过上采样增加维度。上采样方法为直接填充，即用原特征图上某点的值填充上采样后该点对应区域的所有值。将提取的所有在Flatten层的特征值转化为一维向量并融合，然后训练卷积神经网络模型。特征融合方式如图7所示。

图7 特征融合方式

3 实验与结果分析

本文实验环境如下：操作系统为Ubuntu 16.04，CPU环境为：2× Intel Xeon Gold 6128 CPU@3.40 GHz，内存32 GB，1T 7200 SATA3.5+512 GB SSD，GPU环境为：2× NVIDIA Quadro P2000 5 GB显卡。本文选用VOC2007数据集进行模型测试，数据集中共包含20个种类，其中训练集有5 011幅，测试集有4 952幅。本文算法模型搭建环境为TensorFlow 1.12.0+Keras 2.2.2+Python 3.4.0，VOC函数利用准确率(P)、召回率(R)和平均精度(mAP)评估识别效果。本文以校园采集视频序列作为测试数据，对模型进行评估测试。为了验证融合多特征目标检测算法的性能，本文又在VOC2007数据集对模型进行测试。表1为几种常见的目标检测算法在VOC2007数据集上的性能对比结果。准确率及召回率计算公式如下：

(8)

(9)

式中：NR为当前帧真正目标的像素集合；ND为通过检测算法检测到的目标的像素集合；NC为检测到的目标和真实目标的交集部分的像素集合。

表1 算法检测性能对比表

可以看出，仅融合多特征的SSD目标检测算法的平均精度比其他几种算法都略高一些，帧频为27帧/s-1。选取VGG16为基础网络模型，并在网络中加入手工特征后，对目标的分类能力比原始SSD模型有所提升，而且稳定性也较好。仅采用非极大值抑制算法(NMS)能够有效消除多余的重叠边框。本文将阈值设置为0.7，可以看出，使用NMS的SSD目标检测、识别算法的均值平均精度mAP比原始SSD算法提升1.3%。本文算法在融合多特征的SSD算法基础上加入非极大值抑制(NMS),mAP比原始SSD算法提升4.3%。

为定量对实验结果进行分析，本文采用中心位置误差和覆盖率2个指标评价本文算法的定位性。中心位置误差是指图像定位候选框的中心位置与原图像目标的真实位置之间的欧式距离。覆盖率是指目标定位框与目标真实位置的重叠部分所占的比重。对VOC2007数据集中的9 963幅图像进行实验，本文算法与其他几种算法的中心位置误差和覆盖率对比如表2所示。

表2 中心位置误差和覆盖率

通过本文算法与其他几种算法的对比可以得出，本文算法的目标检测定位精度明显优于原SSD算法。

对融合多特征的SSD算法与原始SSD算法进行实验对比，对校园内采集的一组图像序列进行实验，改进前后实验结果对比图如图8所示。

(a) 原始SSD算法 (b) 融合多特征的SSD算法图8 改进前后SSD算法检测结果对比

可以看出，融合前的算法对不完整的行人目标、目标大面积遮挡和较小目标无法准确检测，而通过多特征融合后的SSD算法能识别出大面积遮挡的目标和不完整的目标。与原始SSD等方法相比，改进后的SSD方法在VOC2007公开数据集上具有更低的平均误检率，平均准确率较传统SSD算法提升4%左右，其融合了行人浅层和深层特征，提高了目标预测的稳定性和鲁棒性，采用非极大值抑制算法，能够有效提升检测速度，而且对小目标和大面积遮挡目标有更好的检测效果。

4 结语

基于SSD检测网络框架，在卷积神经网络的浅层提取目标的手工特征，并且与卷积网络中深度特征进行融合，通过非极大值抑制(NMS)算法消除重叠得分较低的窗口。不仅可以降低计算成本，提高检测速度，而且提高了检测准确率。通过多特征信息融合后的SSD网络模型在VOC2007公开数据集上进行验证，结果表明，本文方法较原SSD检测方法在小目标检测的准确率和稳定性方面有明显优势。