改进的红外图像行人检测和交叠率算法①

2020-04-24许凯华何伍斌

计算机系统应用 2020年4期

柳黎,许凯华,何伍斌,徐秀

1(江苏如是地球空间信息科技有限公司,宿迁 223800)

2(江苏如是数学研究院有限公司,宿迁 223800)

目标识别、定位和报警是非常活跃的研究方向,被认为是与生活紧密相关的前沿技术.近年来,目标定位研究取得了一些新的成果,包括各种模型和算法.总体而言,这些研究成果可以分为3 类:第1 类是建立空间几何关系和测距算法[1-12];第2 类是建立位置数据库和测距算法[13-20];第3 类是场景匹配和视觉定位[21-24].第1 类是通过固定锚点的空间几何关系,再测量定位节点与锚点的距离来实现定位.这种方法的不足是无线信号在环境中存在着多径效应、信号衰落、干扰等,计算接收信号的功率[1,11]、相位[5,12]、到达时间[9]往往是不准确的,而且定位节点是有源的,在实际应用中有难度.第2 类是通过事前在定位区域建立位置数据库,定位时通过环境测量结果来匹配位置数据库,从而实现定位.这种方法的不足是建立位置数据库的工作量大,在定位时节点的任何形态变化都会影响匹配定位的精度,而且定位节点也是有源的.第3 类是通过视觉定位目标,并将视觉定位与实际场景匹配,从而实现定位.这种方法的不足是算法复杂度高,实时性要求严格,优点是定位目标是无源的.

为了实现对行人目标的无源定位与越界报警,结合上述3 类方法的特点,本文提出了结合视觉图像的行人检测与交叠率的定位报警算法.本方法要达到较好的效果,关键是基于红外图像的行人检测准确率,交叠率算法和报警逻辑策略.目前,国内外有关学者对行人检测进行了部分研究,提出了一些有意义的检测方法.李盈盈等[25]通过提取HOG 特征和颜色自相似性进行行人检测,并通过Adaboost算法进行分类;陈丽枫等[26]通过提取多尺度方向的HOG 特征进行行人检测,并通过Adaboost算法进行分类;任克强等[27]通过提取LBP特征,并引入灰度的全局和局部自适应阈值进行行人检测,最后通过支持向量机(SVM)进行分类;Susutti 等[28]通过构造多通道的行人特征,并对通道加权,组合出完整的行人特征来进行检测;张汇等[29]基于Faster RCNN网络,通过构建区域建议网络(RPN)和目标检测网络进行判别和分类.这些行人检测方法和模型是基于自然光环境的下检测,红外环境下并不适用.

目前,基于红外图像的行人检测研究也取得了部分进展.谭康霞[30]基于YOLO 模型,改进输入图像分辨率,并用实际道路场景下的数据集进行训练和检测;Kim[31]通过提取人体红外图像温度特征来提高行人检测性能,取得了不小的突破;王姮[32]通过高斯混合模型进行图像分割,再提取HOG 特征进行检测,并用Adaboost算法进行分类;许茗[33]将红外图像的原图和频域特征图结合,通过全卷积网络进行行人检测.这些检测方法属于增加样本,调整参数,来提高检测准确率,本文在设计实验过程中也有借鉴.

鉴于基于红外图像的行人检测和报警的重要意义,本文提出了一种权衡了行人检测和报警准确率的系统设计,并提出了动态与静态交叠率的理论与计算.本方法主要由3 部分组成:红外图像行人检测算法、分类算法、交叠率算法与报警逻辑.红外图像行人检测是通过改进的YOLOv3算法实现,然后提取目标候选框的方向梯度直方图(HOG)特征并通过多层感知器(MLP)二分类来实现;报警算法与逻辑是计算行人目标的候选框与报警区域的交叠率,再进行逻辑判断.实验表明,本方法提高了红外行人检测的准确率,通过计算交叠率判断入侵报警也较为准确,能够满足应用需求.

1 架构设计

本文权衡了行人检测准确率和报警准确率,提出一种改进的红外图像行人检测和交叠率算法.首先,通过YOLOv3算法进行红外图像的行人检测,优化背景平衡问题.然后,利用方向梯度直方图(HOG)的几何不变性,提取目标候选框的HOG 特征,并通过多层感知器(MLP)二分类来实现.由于MLP 网络结构简单,也有利于提高实时性.最后,根据实际应用场景设置图像中需要监测的区域(报警区域),计算行人目标候选框与报警区域的交叠率,通过类似斯密特触发器的双门限来进行逻辑判断.例如,当交叠率大于90%,表征行人进入了标记区;当交叠率小于10%,表征行人离开了标记区.实验表明,本方法的报警准确率可达91%,在实际应用中能较好克服环境影响,具有较好的应用前景.目标检测报警总体架构图如图1 所示.

图1 目标检测报警总体架构图

2 算法设计

本文中软件主要包括行人检测、目标分类、交叠率与报警逻辑3 部分.

2.1 行人检测

YOLOv3 在原来YOLOv2 的基础上参考了ResNet和SSD 网络结构,兼顾网络复杂度和检测准确率.YOLOv3 的改进主要体现在3 个方面:1)将YOLOv2的Softmax 损失函数改成了Logistic 损失函数,类别预测中单标签分类改进为多标签分类;2)YOLOv2 用了5 个anchor,而YOLOv3 用了9 个,提高了交并比;3)采用了多个不同尺度的特征图谱,detection 有由1 个增加到3 个,且特征图谱维度也由13×13 增加至52×52,有利于小目标检测和准确率.虽然YOLOv3 增加了anchor 和detection,但YOLOv3 的网络结构是纵横交叉的,很多通道的卷积层没有依赖性,这个非常有利于并行计算.

本文对YOLOv3 在第一阶段生成的预选框,针对红外采集图像前景和背景分类不平衡,加入focal loss 只对背景进行loss 调节[34],在训练过程中逐渐减低“简单样本”的权重,而向“困难样本”加权.如式1,α为权重因子,p 为交叉熵调节因子,γ为调节loss 相关性指数,计算中取α =0.25,p=0.4,γ=2.

同时,修改随机参数,让不同分辨率的红外图片进行训练.用红外数据集进行模型的预训练,在神经网络迭代过程中,随机改变输入图像的分辨率进行多尺度训练,从而提升网络整体适应性.

2.2 目标分类

通过YOLOv3 可以比较有效的检测到行人目标,但误检仍然不可避免,所以对检测目标的进一步分类是有必要的.目标分类需要提取目标区域的特征向量,并使用分类器来分类.考虑到行人目标的长宽比相对固定(几何不变性),且运动过程中难免会有肢体动作,本文选择方向梯度直方图(HOG)来提取目标区域的HOG 特征,并通过多层感知器(MLP)二分类来实现,目标分类流程图如图2.

图2 目标分类流程图

2.2.1 特征提取

对于目标区域图片,首先缩放至一个固定比例,然后对缩放后的区域进行灰度化处理,最后再提取特征和二分类.在HOG 计算时,通过梯度算子分别计算水平方向和垂直方向的梯度分量gradscaly,然后再计算每个像素点的梯度大小和方向.

H(x,y),Gx(x,y),Gy(x,y)分别代表像素点(x,y)的像素值、水平方向梯度、垂直方向梯度.G (x,y)和α(x,y)分别为像素点(x,y)处的梯度幅值和梯度方向.将检测区域分成若干个cell,将每个cell 计算出的特征向量串联系起来即可得到整个检测区域的HOG 特征.

2.2.2 二分类

分类算法是目标检测中非常重要的一个环节,分类算法的性能直接影响检测性能.目前的分类算法有很多,Adaboost算法[25,26]和支持向量机(SVM)算法[27]都是性能优良、使用广泛的分类算法.本文选择性能较好的多层感知器(MLP)来实现二分类.

本文中的多层感知器选用了一个输入层、两个隐藏层、一个输出层的网络结构.在这个模型中,检测区域的HOG 特征会连接到输入层神经单元,输入层会连接到临近隐藏层各神经单元,最后一个隐藏层的神经元再连接到输出层,每一层的连接都是全连接,MLP 神经元网络图如图3.对于输出的结果,用激活函数Sigmoid 即可实现分类.

图3 MLP 神经元网络图

2.3 交叠率计算

在目标检测的评价体系中,交并比(IOU)是一个重要的评价尺度.IOU 是指检测结果(detection result)与标记窗口(ground truth)的交集与并集的比值,交叠率示意图如图4,主要用来判断检测框的重合程度.

图4 交叠率示意图

对于没有方向性要求和距离评价的检测框而言,交并比无疑是非常合适.但在现实中,许多目标是动态的,我们希望能够尽可能的反映目标变化,并且尽可能的设置合理门限值来过滤评价结果.对于检测结果与标记窗口相等的情况,典型的就是比较视频中连续帧同一目标的交并比,交并比的门限值是容易设定的,交并比的范围也很明确,为[0,1].对于检测结果与标记窗口不相等的情况,如一帧图像中检测目标是行人而标记窗口是广场,交并比往往好计算而门限不好设置.为此,我们将两种情况统一考虑,引入交并比的思想,提出计算交叠率.即计算同一目标连续帧的交叠率,同时计算当前图像帧中检测目标与标记窗口的交集与检测目标本身的比率,计算公式如下.

Dpre,Dcur,G分别代表上一帧图像检测目标框,当前帧检测目标框,标记框.I OUD是动态因子,反映了检测目标自身的运动特性;IOUG是静态因子,反映了检测目标在标记范围内的静态特征.通过动态因子和静态因子,即可以反映视频场景中目标自身的运动信息和目标相对于标记范围的运动信息.

在行人检测的场景中,I OUD可表征行人是否丢失和行走的快慢,IOUG可表征行人是否进入标记范围和进入的程度.

在实际应用场景中,需要对 I OUD设置门限,以判定前后两帧的行人检测结果是否为同一目标.将IOUD大于等于0.5 认定为是同一个行人,数值越大,行走越慢.当 IOUD小于0.5 时,认定为当前行人目标丢失,产生了新的行人目标.

在实际应用场景中,将 I OUG通过类似斯密特触发器的双门限来进行逻辑判断是有必要的.例如,当IOUG逐渐增大到大于90%,表征行人进入了标记区;当I OUG逐渐减小到小于10%,表征行人离开了标记区.

3 实验结果分析

3.1 行人检测分析

作者在生活园区的主干路和临近绿化带支路共架设了4 台红外摄像机,用38 天时间采集了19:00～22:00间的行人数据,最后形成了有效行人数据集共11 854 张.随机将数据集的70%抽取出来当作训练集,共8298 张;将剩下的3556 张当作测试集.

在进行网络训练时,修改随机参数,用训练集进行模型的预训练,在神经网络迭代过程中,随机改变输入图像的分辨率进行多尺度训练.针对本文所述方法,在训练过程中,通过在YOLOv3 中加入focal loss 对背景进行loss 调节,进行“困难样本”的自适应加权学习.在用测试集测试时,对于检测结果,利用方向梯度直方图(HOG)和多层感知器(MLP)二分类来实现目标过滤.行人检测性能对比如表1.

表1 行人检测准确率对比表(单位:%)

3.2 交叠率报警分析

计算行人目标的候选框与标记区域的交叠率.首先,对测试集中的3556 张图片标记报警区域,为了提高测试集的利用效率,我们对每张照片均标记了3 次作成3 个样本:标记区域与行人重叠度大于90%的作为正样本;标记区域与行人重叠度小于10%作为负样本;标记区域与行人重叠度在10%～90%之间的作为中间样本.

然后,我们设置报警逻辑,与测试集打标时一致,设置类似斯密特触发器的双门限来进行逻辑判断,当交叠率大于90%,表征行人进入了标记区;当交叠率小于10%,表征行人离开了标记区.交叠率报警性能对比如表2,交叠率报警效果如图5.

3.3 实验结果

实验表明:结合表1 来看,行人检测的识别率因样本像素的增加而提高;改进YOLOv3 比YOLOv3 的准确率要高,这是由于改进YOLOv3 更加关注困难样本的学习;而改进YOLOv3+HOG+MLP 检测结果要优于改进YOLOv3,这是由于二分类能过滤一部分误检.

表2 改进YOLOv3+HOG+MLP 的交叠率报警准确率对比表(单位:%)

图5 交叠率报警效果图

在行人检测之后,进行了交叠率计算和报警逻辑判断.结合表1、表2 来看,对于改进YOLOv3+HOG+MLP算法,交叠率报警的准确率比行人检测的准确率要低4%左右,这是由于行人候选框的精度存在误差,导致候选框在计算交叠率时产生误差;结合表2 来看,同一种像素条件下,正负样本的准确率很接近,而中间样本则普遍低了2%左右,这是由于测试数据集中在交叠率门限附近的样本出现了“判断困难”,实际上还是行人候选框的精度问题;同时,交叠率门限附近的“判断困难”也证明,本文的斯密特双门限逻辑设计的必要性.与此同时,我们也应该看到,中间样本的实际报警准确率达到了91%.