一种基于Inception-V4的车位状态检测方法
2022-03-21王栋蔡斌斌宰昶丰
王栋 蔡斌斌 宰昶丰
摘 要: 针对城市停车难,车位检测环境复杂等情况,研究了一种基于Inception-V4算法的车位状态检测方法。在Inception-V4网络结构基础上使用Leaky_ReLU代替ReLU作为激活函数,解决ReLU激活函数引起的神经元失活问题;在网络分类层前添加FReLU激活函数层和多个全连接层,使其获得有更丰富语义信息的特征向量,防止了网络过拟合问题,提高车位状态检测模型的整体性能。基于PKLot停车场数据集的实验结果表明,该方法对车位状态检测准确率较原模型有较大程度的提升。
关键词: 车位检测; 深度学习; Inception-V4; Leaky_ReLU; FReLU
中图分类号:TP181 文献标识码:A 文章编号:1006-8228(2022)03-05-06
Abstract: Due to the difficulty of parking in cities and the complex detection environment of parking spaces, a parking space state detection method based on Inception-V4 algorithm is studied in this paper. On the basis of the Inception-V4 network structure, Leaky_ReLU is used instead of ReLU as the activation function to solve the problem of neuron inactivation caused by the ReLU activation function; the FReLU activation function layer and multiple fully connected layers are added before the network classification layer to obtain feature vectors with richer semantic information, which prevents network over-fitting problems and improves the overall performance of the parking space state detection model. The experimental results on PKLot parking lot data set show that the accuracy of the parking space state detection of this method is greatly improved compared with the original model.
Key words: parking space detection; deep learning; Inception-V4; Leaky_ReLU; FReLU
0 引言
隨着城市规模与机动车数量的不断增长,城市道路越来越拥挤,许多学者提出使用车位信息共享缓解城市交通拥堵,而车位状态检测是实现车位信息共享的重要前提。
目前车位状态检测主要分为基于传感器和基于计算机视觉两种。基于传感器的车位状态检测方法主要通过计算红外线、超声波、雷达等传感器到目标车辆的距离来判断车位是否在指定车位上,如,何伟[1]使用车载超声波传感器及轮速传感器联合测得垂直泊车工况下车位,曾凯[2]使用基于NB-IoT技术的地磁传感器车位检测系统获取车位状态信息,但该方法需要大量的传感器装置覆盖停车场或安装至目标车内,且安装铺设繁琐,成本高,维护困难。基于计算机视觉的检测方法主要通过图像采集设备对场景进行拍摄获取图像,并结合统计模式识别或者深度学习等方法对车位状态进行检测。图像采集设备覆盖范围广,成本低,且基于停车场现有的监控设备就可实现检测,基于视觉的检测方法成为目前主要的研究方向。如,Dan[3]等人使用支持向量机(Support Vector Machine,SVM)的方法实现了对空车位的检测,实验结果显示检测速度较慢;Wu[4]等人通过将SVM与马尔可夫随机场框架结合及Paulo[5]等人将SVM与高斯初始化的局部二值化模式结合来提高检测效率。该技术解决了光照变化对车位检测的影响,但需要根据具体数据调整分类器,泛化能力较弱,对天气和阴影条件干扰的图像识别率较低。而深度学习可以学习海量数据,解决数据中高维、高噪声等SVM难以处理的问题,提高检测准确率。
近年来,卷积神经网络(Convolutional Neural Networks,CNN)由于大量的训练标记数据和连续多层卷积过程,已被广泛应用于计算机视觉任务中[6],随着深度学习不断发展,神经网络可以学习到更抽象、更高级,更具辨别性的特征,AlexNet[7],ZFNet[8],VGGNet[9],GoogLeNet[10],ResNet[11],SENet[12]等网络结构的相继出现,在图像分类任务上效果出众。如,karakaya[13]等人在嵌入式系统上运行循环神经网络来对停车场图像进行处理,获取停车场可用性信息,检测停车位占用率,但没有在空车位检测信息方面做更多研究;安旭骁[14]等人提出使用迷你卷积神经网络(Mini Convolutional Neural Network,MCNN)进行车位检测,通过减小网络参数,使用小卷积核,局部响应归一化等方法提高网络训练速度和识别时间,但对存在阴影干扰的车位图像识别效果不佳,易受到光照变化,物体运动阴影,遮挡等复杂环境因素干扰,准确率较低。
上述方法均存在对阴影干扰下的车位图像检测效果差,容易出现误检的问题,为了更适用于车位检测,减弱阴影条件对车位状态检测的干扰,本文研究一种基于Inception-V4模型的车位检测方法。该方法以Inception-V4为基础网络构架并进行结构调整、添加和替换FReLU,Leaky ReLU激活函数,使改进后的算法Inception-FN更加适用于车位状态检测,增加阴影条件下车位状态检测的鲁棒性。
1 Inception-V4结构基本原理
对于卷积网络来说,获取高效的网络性能的有效方法就是增加网络的广度及深度,但是盲目的增加会导致网络参数的急剧增加,很容易引起过拟合,GoogLeNet[10]在经典卷积神经网络LeNet-5的基础上,针对上述问题设计了Inception模块,引入多尺度卷积提取多尺度局部特征,增加了网络宽度和深度,克服因深度和宽度增加带来的参数量爆炸和优化计算量剧增问题,提高深度神经网络模型质量。从Incetpion-V1到Inception-V4[15-18]版本,每个版本的网络都在原有基础上进行了部分改进,以提高网络性能。本文使用Inception-V4算法进行车位状态检测,其网络结构如图1所示,主要包括Stem模块、Inception-A模块、Inception-B模块、Inception-C模块、Reduction-A模块、Reduction-B模块。
Inception-V4模型在保证模型性能的同时,增加模型结构、使用更少的参数、保留特征、并提高计算效率。但在小型数据集模型上容易过拟合,在车位状态检测过程中,对阴影条件下的车位图像容易出现漏检、误检等问题,因此针对此不足之处进行改进。使用leaky_ReLU激活函数代替原网络中的ReLU函数,解决ReLU激活函数引起的神经元失活问题;并对Inception-v4的网络结构进行调整,在网络分类层前添加FReLU激活函数层,自适应捕获图像像素空间相关性,丰富提取的车位图像特征和高等级的抽象语义信息;添加批量归一化层和全连接层,加强模型正则化,减少信息传递损失和过拟合影响,从而提高模型性能以及泛化能力。
2 基于Inception-V4的车位检测
2.1 激活函数改进
Inception-V4神經网络用线性修正单元ReLU[19]作为激活函数,ReLU激活函数及其导数表达式为:
ReLU激活函数在[x>0]时输出为[x],可以避免梯度消失,计算速度快,能使网络快速收敛,[x≤0]时,输出为0,使部分神经元处于非激活状态,其后向传导权重无法更新。
为了解决ReLU激活函数输入值为负时神经元会失活的问题,使用Leaky_ReLU[20]函数作为网络主体的激活函数,其表达式为:
其中,[x]为上层输出特征,[α]为一个较小的常数,一般取值为0.01。当[x>0]时输出为[x],[x<0]时,得到[αx],保证输入信息不会丢失,防止神经元失活,保证训练梯度正常传播。
为了减少图像在网络传递中的信息损失,提高网络性能,在分类层前增加FReLU[21]激活函数层,扩大感受野,使网络获取更丰富的语义信息。
其表达式为:
其中:[Pωc]表示此窗口上在同一通道中共享的系数;[xωc,i,j]是以二维空间位置[(i,j)]上第C个通道上的非线性激活函数[f(?)]的输入像素为中心的参数池化窗口,使用参数池化窗口在创建空间依赖性。
FReLU激活函数通过增加可忽略不计的空间条件计算开销将ReLU和PReLU扩展为具有像素级建模能力的视觉参数化2D激活函数。通常的做法是在卷积层创建空间依赖性,并分别进行非线性变换,该方法使得网络可以在每个像素的非线性激活中产生空间条件,非线性变换时也产生空间依赖性,在使用网络训练车位状态检测时,增加网络上下层空间依赖性,丰富网络中的高级语义信息,有利于区分阴影条件干扰,提高车位检测的鲁棒性。
2.2 网络结构调整
由于Inception-V4模型复杂,为减少模型参数过多导致车位状态检测模型过拟合,影响其泛化能力,本文对Inception-v4的网络结构进行调整,在网络末端分类层添加FReLU激活函数层、批归一化层和全连接层,减少信息传递损失,加强模型正则化,减少过拟合影响,提高模型泛化能力。图2为结构调整后的Inception-v4模型网络结构图(改进模型称为Inception-FN),其中方框内为结构调整的部分。
3 实验与结果分析
3.1 实验数据
本文使用PKLot数据集[5]中的车位图像作为实验数据。使用PKLot数据集中UFPR05停车场场景数据子集,包括停车场不同天气下的场景图像和场景中分割出的各车位图像,场景如图3所示。
PKLot停车场数据集中包含三种天气情况下的车位图像,分别是晴天、多云和下雨,实验主要选取阴影干扰较严重的晴天天气图像作为研究对象,文献[13-14]对停车场车位状态检测结果均表明,阴影条件下的车位图像状态检测效果
最差,是影响检测准确率的重要因素之一。针对该问题,在PKLot停车场数据集的所有晴天环境的车位图像中随机选择了18000多张车位图像作为车位检测模型的数据集,其数据分布如表1所示,总数据集的45%作为训练集,20%作为验证集,35%作为测试集,其中占用车位和非占用车位图像在各数据集中均占50%,另选择未参与模型训练的6541张阴影条件下的车位图像作为阴影数据集。
3.2 车位检测模型训练
本文使用PaddlePaddle深度学习框架实现Inception-V4和改进的Inception-V4模型Inception-FN,并在百度AI Studio云深度学习平台测试运行调试,GPU实验环境为Linux操作系统,32G显存和GPU-TeslaV100。
输入图像尺寸为(3,299,299),使用ImageNet数据集训练的Inception-V4预训练模型对网络对应的层进行权重初始化,每批次处理的图像为32张,最大训练轮次为30轮,每轮训练500批次,PKLot数据集的所有车位图像三通道均值RGB分别为(91.5,90.7,85.5),采用SGD优化器优化梯度,初始学习率为0.0001,学习率衰减策略为每训练10轮学习率减半,每20个批次记录一次训练结果,每轮记录一次测试结果。
由图4可见,当训练轮次迭代至4000次左右时,准确率率收敛至98%附近,之后趋于稳定,Inception-V4模型准确率最高为98.7%。Inception-FN模型在训练轮次7534次左右准确率最高为99.2%。
图4中带星号的曲线为准确率最优曲线。由图4可见,在相同的迭代次数下,改进的Inception-FN模型较原模型收敛速度更快,且准确率得到了保证。
3.3 实验分析
3.3.1 模型评估指标
停车位状态检测包括占用和非占用两种情况,属于二分类问题。针对该模型,实验选取验证集准确率和受试者工作特征(receiver operating characteristic,ROC)曲线及曲线下面积(Area Under Curve,AUC)作为模型性能评估指标。
ROC曲线横坐标为假阳性率FPR,纵坐标为真阳性率TPR,见式7-8,是反映灵敏性和特效性连续变量的综合指标。AUC(为ROC曲线下的面积,取值范围在0.5和1之间,对应AUC更大的分类模型效果更好。
3.3.2 晴天条件下车位状态检测分析
使用Inception-V4模型和改进的Inception-FN模型对验证数据集进行10000次训练,对比晴天条件下车位占用状态检测结果,并画出相应的ROC曲线,其结果如图5所示。
图5中横坐标为假阳性率(False Positive Rate,FPR),纵坐标为真阳性率(True Positive Rate,TPR)。原Inception-V4模型的AUC值为0.9891,准确率为98.7%,改进的Incception-FN模型的AUC值为0.9903,准确率99.2%,AUC值提高了0.0012,准确率提高了0.5%,且在图5中改进模型的AOC曲线包裹着原模型ROC曲线,其模型分类能力表现更佳。
3.3.3 阴影条件下车位状态检测分析
为了验证改进方法针对阴影车位检测的有效性,选取阴影车位图像数据进行对比实验。
由图6可知,改进后的Inception-FN模型在阴影车位数据集中的AUC值为0.9126,原模型AUC值为0.8791,改进后提高了0.0335;准确率从原模型的87.5%提高到92.3%。改进后的Inception-FN对于阴影车位检测的准确率明显高于原算法,表明改进后的模型提取到更丰富的细节特征和语义信息,改善了阴影车位误检、检测率低等现象。
图7中选取三组不同阴影条件下的UFPR05停车场图像,其中(a)为空停车场,(b)为满停车场和(c)为半满停车场图像,并采用检测框表示当前车位占用状态,深色框表示车位占用,浅色框表示车位非占用。由图7中三组车位检测结果显示,改进模型Inception-FN在阴影条件下的车位检测效果优于原模型。
4 结束语
本文为解决阴影干扰对车位检测的影响,研究一种改进Inception-V4的车位状态检测方法,以Inception-V4算法为基础,通过借助Leaky_ReLU和FReLU激活函数的特点,将原网络的激活函数替换,使之能够获取更丰富的信息特征,并减弱神经元失活情况,更好的应用于车位状态检测,在PKLot停车场数据集和从中筛选出的阴影条件下的车位数据集上,对Inception-V4算法改进前后模型进行对比试验,并得到相应的验证结果。实验表明,改进后Inception-FN算法在车位状态检测任务中检测精度可达99.2%,较原算法提高了0.5%,并验证在有阴影干扰的复杂背景下,Inception-FN算法也能取得更准确的检测结果,可满足在阴影干扰条件下对车位状态检测的要求,在室外停车场智能化管理中有一定的应用参考。下一步计划将该车位检测方法应用于手机中,辅助用戶进行停车定位等操作。
参考文献(References):
[1] 何伟.基于超声波传感器的自动泊车车位补偿检测法[J].中国仪器仪表,2016(2):47-50
[2] 曾凯.基于NB-IoT技术的地磁车位检测系统设计与实现[D].合肥:安徽大学,2020:29-36
[3] DAN N.Parking management system and method:US,200301448980AI[P].2002-01-31
[4] WU Q,HUANG C,WANG S Y,et al.Robust parking space detection considering inter-space correlation [C]. ICME 2007: Proceedings of the 2007 IEEE International Conference on Multimedia &Ex-po. Piscataway,NJ:IEEE,2007:659-662
[5] DEAlMEIDA P R L, OLIVEIRA L S, BRITTO A S J, et al.PKLot-Arobust dataset for parking lot classification[J]. Expert Systems With Applications,2015,42(11):4937-4949
[6] 盧宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17
[7] DANG Y, ZHANG J X, DENG K Z, et al.Classification and evaluation of surface coverage of remote sensing images based on deep learning AlexNet[J].Jourmal of Geoinformatics,2017,19(11):1530-1537
[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E.ImageNet classification with deep convolutional nature networks[C].Advances in Neural Information Processing Systems,2012:1097-1105
[9] SIMONYANK, ZISSERMAN A.Very deep convolutional networks for large-scale image recognition [EB/0L].(2014-12-23) [2019-11-06].https://arxiv.org/abs/1409.1556.
[10] SZEGEDY C, LIUW, JIA Y, et al. Going deeper with convolutions[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE,2015:1-9
[11] HE K, ZHANG X, RENS, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE,2016:770-778
[12] HU J, SHEN L, SUN G. Squeeze-and-Excitation Networks[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2018:7132-7141
[13] KARAKAYA M, AKINC F C. Parking space occupancy detection using deep learning methods[C]. Signal Processing and Communications Applications Conference (SIU),2018:1-4
[14] 安旭骁,邓洪敏,史兴宇.基于迷你卷积神经网络的停车场空车位检测方法[J].计算机应用,2018,38(4):935-938
[15] SZEGEDY C, LIU W, JIA Y Q, et al.Going deeper with convolutions[C]. Conference on Computer Vision and Pattern Recognition.2015:1-9
[16] IOFFE S,SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[J].2015:448-456
[17] SZEGEDY C,VANHOUSKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, IEEE,2016:2818-2826
[18] SZEGEDY C, IOFFE S, VANHOUSKE V, et al.Inception-V4,Inception-Res Net and the impact of residual connections on learning[EB/OL].[2019-11-25].https://arxiv.org/abs/1602.07261.
[19] KRIZHEVSKY A, SUTSKEVER I, HINTION G. ImageNet Classification with Deep Convolutional Neural Networks[J].Advances in Neural Information Processing Systems,2012,25(2):1097-1105
[20] XU B, WANG N, CHEN T, et al. Empirical Evaluation of Rectified Activations in Convolutional Network[J]. Communications and Computer Sciences,2015
[21] MA N, ZhANGX, SUN J. Funnel Activation for Visual Recognition[C]. In Computer Vision-ECCV 2020,2020:351-368