基于视频图像分析的地铁列车车辆拥挤度识别方法研究
2020-09-23张杏蔓鲁工圆
张杏蔓,鲁工圆,2
基于视频图像分析的地铁列车车辆拥挤度识别方法研究
张杏蔓1,鲁工圆1,2
(1. 西南交通大学,交通运输与物流学院,成都 611756;2. 综合交通运输智能化国家地方联合工程实验室,成都 611756)
准确掌握地铁车辆内拥挤程度是提高城市轨道交通服务质量的手段之一。本文在对地铁车辆监控视频图像提取与分析的基础上,提出了一种基于卷积神经网络的车辆拥挤度识别方法。该方法使用车辆监控视频建立了车厢乘客数据集,通过提取视频图像检测区域以及人群特征检测来实现地铁列车车辆拥挤度识别。实验结果表明,所提出的方法检测速度快,能够满足实际应用中实时性要求,三级拥挤度分类识别实验准确度为98%,四级拥挤度分类识别实验准确度为87%,其检测结果可辅助城市轨道交通管理者快速掌握线网实时客流拥挤情况。
城市轨道交通;车厢拥挤度;卷积神经网络;车厢监控视频
0 引 言
近年来,随着我国城市化的快速推进以及城市轨道交通系统的快速发展,日益增长的线网规模给城市轨道交通的日常运营与安全管理带来了新挑战。地铁车辆拥挤度是乘客在乘车过程中对舒适度和安全性的一种心理感受,是衡量城市轨道交通系统服务质量的重要指标。在《城市轨道交通工程项目建设标准》中首次提出了该概念及相应的评价标准。随后,在北京颁布的《城市轨道交通工程设计规范》中进一步给出了车厢拥挤度的相关建议值,作为城市轨道交通客运组织的参考数据[1,2]。
地铁车辆拥挤度能够反映城市轨道交通线网服务水平与运营效益,对车厢拥挤度进行实时检测可以真实地反映线网客流状态,提供更全面的断面客流信息,为城市轨道交通实时调度与客流控制提供依据。目前,针对地铁车辆拥挤度的研究还相对较少,传统研究都是基于城市轨道交通自动售检票系统(Automatic Fare Collection System,AFC)数据结合客流分配模型进行的拥挤度预测,这类拥挤度预测方法存在AFC系统数据上传延迟性、网络化运营背景下多径路分配不确定性等缺陷[3]。近年来,随着交通监控系统的广泛应用以及计算机视觉技术的发展,利用视频图像处理技术的拥堵检测已成功应用于道路交通,这也为城市轨道交通的日常客流检测与管理提供了借鉴。
本文提出了一种基于视频分析的地铁车辆拥挤度检测方法,直接利用地铁车辆监控视频,建立车厢乘客数据集,通过提取视频图像检测区域以及人群特征检测来判断车厢拥挤程度,以期为城市轨道交通系统的舒适、高效、安全运营提供新的技术手段支持。
1 相关研究概述
针对视频图像采用人群计数的方法可以反映出目标的密集程度,是目前人群密度估计的常用手段,该方法主要可以分为基于行人检测的直接法和基于特征回归的间接法两类[4]。
直接法将行人作为特定的检测目标,通过特征学习得到目标分类器,在检测图像中做目标分类任务。但这类方法在人群密度较高、遮挡严重的场景下识别率较低[5]。间接法将人群视为一个整体,利用卷积神经网络提取人群特征并通过估计人群密度图来实现人数统计[6]。该类方法能够在一定程度上解决人群遮挡问题,是近年来国内外学者在人群计数问题上的主要研究方向。
其中最具代表性的是,C. Zhang等人借助卷积神经网络来估计不同场景中的人数,将图像与标注的密度图作为输入数据,采用深度学习框架进行人群密度特征学习[7];文献[8]在此基础上提出了一种多列卷积神经网络来估计人群密度图,每列卷积神经网络具有不同大小的卷积核,能够提取不同尺度的行人特征;Sam等人在多列卷积神经网络基础上,设计了用来为不同密度下的人群选择合适尺度特征的选择神经网络,在提高人群计数精度和效率的同时,减弱了图像透视效应的影响[9];此后,Sindagi等人又提出了一种具有高级先验知识的级联神经网络,该网络能够适应多种密度程度的人群计数问题,在数据集上的表现优于其他模型[10]。这些相关研究表明,利用卷积神经网络学习人群密度特征的方法优于传统的检测方法,这也为本文基于视频图像的车厢拥挤度识别研究提供了理论基础。
此外,现有研究都是基于公开的标准人群数据集进行实验与测试,目前还没有使用人群计数方法实现城市轨道交通系统客流检测的研究。并且由于地铁车辆监控视频中乘客特征和现有标准数据集之间存在一定差异,基于视频图像特征提出适用于城市轨道交通系统的客流检测方法,将具有较高的研究价值和广阔的应用前景。
2 地铁车辆监控视频图像特征及预处理
2.1 地铁车辆监控视频图像特征
本文数据来源于地铁车辆监控视频,与现有公开的人群数据集相比,摄像头设置的角度及高度,车厢内的光照强度以及图像清晰度等特征均存在一定差异。如图1所示,视频图像像素为352×288,图像中不同位置的乘客存在明显透视现象,并且伴随车厢内人群聚集,乘客间遮挡情况较为严重。
图1 地铁车辆监控视频截图
2.2 视频图像预处理
为进一步提高车厢拥挤度识别的准确性,本文建立了地铁车厢乘客数据集。考虑到人群计数方法的输入数据形式及监控视频图像特征,图像预处理主要包括人群密度图制作、消除图像干扰信息以及图像数据增强等操作。
(1)人群密度图
人群密度图反应了乘客在图像中的分布特征,是人群计数模型学习的目标值。对于密度图的制作,目前国内外研究者普遍采用二维高斯分布来标注人头部区域或身体部分,并通过归一化处理,使密度图的积分和等于标注的总人数[4]。
式中:表示二维高斯内核的大小;表示图片中所有标记点的集合。
(2)灰度处理
地铁车辆监控视频图像为彩色图像,所含的红绿蓝三通道分量会使图像特征较为复杂,若直接用于计算处理数据量将过大。为消除图像中无关信息干扰,增强有关信息的可检测性和最大化地简化数据,需对原始采集图像进行灰度处理。变换后的灰度图像将只包含亮度信息,保留了原始图像的整体和局部色彩等级的分布特征[12]。
(3)随机剪裁
由于监控摄像头的透视效应以及遮挡影响,在图像中不同位置的乘客呈现出不同的大小和形状特征,即对于目标乘客,随着它与摄像头的距离变化,其特征向量也会发生改变[13]。此外,建立乘客特征和人数之间的回归关系,需要大量的训练数据。为了减小透视效应的影响,并且克服原有训练数据不足的困难,本文采用随机剪裁作为数据增强处理的方式[14],从每张图像中随机剪裁1/8大小的子图像块,使用局部图像进行特征学习,数据集子图像块示例如图3所示。
图3 数据集子图像块示例
3 地铁车辆拥挤度识别的卷积神经网络方法
针对地铁车辆监控视频的图像特征,即不同位置的乘客表现出不同的尺度特征,并且乘客之间存在一定的遮挡情况,基于特征回归的人群计数方法更适用于这种情景下的人数识别任务。本文采用了级联构架的卷积神经网络,以车厢乘客图像及其对应的乘客密度图作为训练数据,通过特征学习建立像素点特征与密度分布的映射关系。
3.1 网络结构
对比现有人群计数模型的结构特点和在公开标准数据集上的表现效果,本文参考文献[10]中的模型作为地铁车辆拥挤度识别的卷积神经网络。网络结构如图4所示,主要由初始共享网络、密度先验网络以及密度估计网络三部分构成。
图4 卷积神经网络结构示意图
(1)初始共享网络:对输入图像进行初步特征提取,所提取的特征图将作为后面两个网络的输入。网络包含两个卷积层,分别为16个大小为9×9的卷积核和32个大小为7×7的卷积核,每层之后都使用参数化线性整流单元(Parametric Rectified Linear Unit,PReLU)作为激活函数,以加速模型训练收敛[15]。
(2)密度先验网络:对人群密度作预先估计,作为辅助信息来提高人群计数模型的准确性。网络包含卷积层、空间金字塔池以及全连接层。其中,卷积层由16个大小为9×9的卷积核、32个大小为7×7的卷积核、16个大小为7×7的卷积核以及8个大小为7×7的卷积核构成,每层卷积都使用PReLU激活函数,并且前两层卷积之后均连接步长为2的最大池化层。空间金字塔池层(Spatial Pyramid Pooling,SPP)插入在最后一个卷积层之后,SPP层将卷积层获取的特征进行整合,产生固定大小的输出,并将其提供给全连接层[16]。全连接层有三个,每一层都连接了PReLU激活函数。其中,第一层有512个神经元,第二层有256个神经元,第三层有10个神经元。
(3)密度估计网络:用于进一步特征提取,并融合其他网络的特征信息以得到最终密度估计图。包含两组卷积网络,第一组网络连接初始共享网络,由20个大小为7×7的卷积核、40个大小为5×5的卷积核、20个大小为5×5的卷积核以及10个大小为5×5的卷积核构成,每层卷积后都使用PReLU激活函数,并且前两层卷积后均连接步长为2的最大池化层。第二组网络分别由24个大小为3×3的卷积核、32个大小为3×3的卷积核以及2个反卷积层组成,反卷积核大小为4×4,步长为2,反卷积层能够恢复因最大池化操作而丢失的细节信息[17]。
3.2 损失函数
损失函数用于判断估计的密度图与真实值之间的偏差情况,分别设置在密度先验阶段和密度估计阶段。但不同于传统的基于多任务学习的卷积神经网络,密度估计阶段的损失函数取决于密度先验阶段的输出结果。
密度先验网络采用交叉熵误差作为损失函数,定义如下:
密度估计网络采用欧式距离误差作为损失函数,定义如下:
最终,总损失函数用两部分损失函数的加权来表示,定义如下:
3.3 训练与评价
卷积神经网络模型的训练是一个不断调整网络结构参数的过程,每一次参数调整都包含前向传播、计算损失、反向传播和参数更新四个部分。网络在接收输入的图像信息后,经过前向传播得到乘客密度估计值,然后根据估计值与真实值计算损失函数,接下来以损失函数为优化目标,利用反向传播完成参数更新。反向传播时常用到梯度下降优化算法,如随机梯度下降法、小批量梯度下降法以及Adam优化算法等,本文采用小批量梯度下降法和Adam优化算法来更新网络参数。
(1)网络训练
(2)模型评价
模型评价选择人群计数研究普遍采用的平均绝对误差(Mean Absolute Error,MAE)和均方误差(Mean Squared Error,MSE)作为评价标准[18],各评价指标定义如下:
4 拥挤度识别实验
地铁车辆拥挤度识别方法主要通过提取指定检测区域,利用卷积神经网络对指定区域进行检测,最终根据人数检测特征来判断车辆的拥挤程度。因此,本文主要设计了模型训练实验、拥挤度识别精度实验、拥挤度识别效率实验三部分来验证方法的准确性以及识别效率。
4.1 模型训练实验
首先,进行模型训练实验来获得最佳网络参数,设置Adam通过学习进行优化的训练速度为0.000 01,动量为0.9,并且为了避免过拟合问题,在网络的全连接层使用Dropout正则化处理,Dropout概率取值为0.5。采用Python语言编码,利用Pytorch深度学习框架对模型进行训练[19]。训练数据集来自于地铁车辆监控视频,共包含11 700张带有人工标注的子图像块,其中9 360张子图像块为训练集,1 170张子图像块为验证集,余下1 170张子图像块作为测试集。表1为在不同迭代次数下的模型训练结果。
表1 不同迭代次数下的模型训练结果
Tab.1 Model training results with different iteration times
续表1
迭代次数MAEMSE 6000.51.1 8000.51.0 1 0000.51.0
如表1所示,随着迭代次数的增加,MAE和MSE值逐步减少,网络参数不断得到优化,但当迭代次数达到足够多时,模型训练结果将不会有太大的改变,此时卷积网络已呈收敛状态,即模型训练已得到最优结果。随后,在测试集数据上进一步验证模型的性能,检测结果为MAE = 0.59,MSE = 1.30,其平均绝对误差较小,表明模型具有一定的适用性。
4.2 拥挤度识别精度实验
另从视频中提取450张图像作为拥挤度识别精度实验的数据集,其中350张图像用于特征提取,余下100张图像用于测试检验。利用卷积神经网络对图像不同区域进行多次检测后发现,车厢中部通道区域的乘客图像具有明显的不同拥挤度特征。因此,本文选择该区域内人数检测特征来判断车厢的拥挤程度,以下是不同拥挤度分级下的检测实验。
(1)三级拥挤度
将检测图像划分为拥挤度0(车厢中部通道无乘客聚集)、1(车厢中部通道有乘客聚集,乘客间具有一定活动空间)、2(车厢中部通道有大量乘客聚集,乘客间身体接触频繁)三类,检测样本示例如图5所示。
随后,对100幅包含不同拥挤程度的图像进行测试,结果显示本文算法的检测准确率达98%。
(2)四级拥挤度
将检测图像划分为拥挤度0(车厢中部通道无乘客聚集)、1(车厢中部通道有少量乘客)、2(车厢中部通道有乘客聚集,乘客间具有一定活动空间)、3(车厢中部通道有大量乘客聚集,乘客间身体接触频繁)的四类,检测样本示例如图7所示。
图6 三级拥挤度样本特征检测结果
(3)五级拥挤度
将车厢拥挤度划分为五级,检测样本图像示例如图9所示。实验结果表明在这种拥挤度细分类型下,人群检测特征值区别不明显,样本特征检测结果如图10所示。其原因主要为在较为拥挤的情况下,车厢内乘客间遮挡情况严重,人数变化情况不明显,不利于进一步细分特征。
图8 四级拥挤度样本特征检测结果
(a)拥挤度0(b)拥挤度1(c)拥挤度2 (d)拥挤度3(e)拥挤度4
4.3 拥挤度识别效率实验
为进一步验证算法的识别效率,选取一段时长为15min的地铁车辆监控视频进行识别效率实验。由于拥挤度实时识别将直接调用训练得到的最优模型,因此,模型训练时间将不考虑在识别效率之中。
以每秒钟提取一帧视频图像的速度提取图像,共提取901帧视频图像,分别测试在GPU和CPU系统下视频图像检测效率,实验结果如表2所示。
图10 五级拥挤度样本特征检测结果
表2 拥挤度识别效率实验结果
Tab.2 Experimental results of congestion recognition efficiency
如表2所示,在NVIDIA GTX1070 GPU系统下,利用本算法进行拥挤度检测共用时16 264 ms,即图片检测速度为18.07 ms/帧;在intel Core i5-8250U CPU系统下,拥挤度检测共用时22 006 ms,即图片检测速度为24.42 ms/帧。由于地铁车厢内人数改变通常在每次停站后,两次检测间的可用时间为两次停站间的时间,显然,本文所提出方法的检测速度能够满足现场检测需求。
5 结 论
在网络化运营背景下,为进一步提高城市轨道交通系统的服务水平,本文提出了一种车厢拥挤度快速检测的方法。该方法主要利用地铁车辆监控视频信息,在不额外增加设备支出的前提下,实现了安全监控与客流检测的双重作用。试验证明三级拥挤度分类识别实验准确率达98%,四级拥挤度分类识别实验准确率为87%,并且具有很高的识别速度,检测结果可辅助城市轨道交通管理者快速掌握线网实时客流拥挤情况。
由于摄像头高度位置、乘客遮挡等原因,二维图像中存在着大量信息的缺失,从而导致使用本文方法在更细化的拥挤度分类识别时存在着精度问题,后续研究中将尝试获取车厢内三维信息进行识别,以期提高识别精度。此外,如何更好地将车厢拥挤度检测技术运用到城市轨道交通的日常运营管理之中,也是未来应该进一步研究的问题。
[1] 中华人民共和国建设部. 城市轨道交通工程项目建设标准[M]. 北京: 中国计划出版社, 2008.
[2] 北京市质量技术监督局. 城市轨道交通工程设计规范[M]. 北京: 北京地方标准, 2013.
[3] 卢恺, 韩宝明, 鲁放. 城市轨道交通运营客流数据分析缺陷及应对[J]. 都市快轨交通, 2014, 27 (4): 25-29.
[4] 魏梦. 基于卷积神经网络的人群密度分析[D]. 合肥: 中国科学技术大学, 2018.
[5] 沈娜. 智能视频监控系统中人群密度估计与实现[D]. 南京: 南京航空航天大学, 2012.
[6] 陶茂辉. 基于视频图像的人群密度估计研究[D]. 成都: 电子科技大学, 2014.
[7] ZHANG C, LI H, WANG X, et al. Cross-scene crowd counting via deep convolutional neural networks[C]// Conference on Computer Vision and Pattern Recognition. Boston: IEEE press, 2015: 833-841.
[8] ZHANG Y Y. Single-image crowd counting via multi- column convolutional neural network[C]// Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE press, 2016: 589-597.
[9] SAM D B, SURYA S. Switching convolutional neural network for crowd counting [C]// Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE press, 2017: 429-437.
[10] SINDAGI V A, PATEL V M. Cnn-based cascaded multi- task learning of high-level prior and density estimation for crowd counting [C]//Conference on Advanced Video and Signal Based Surveillance. Piscataway: IEEE press, 2017: 1-6.
[11] 袁烨, 吴震宇, 江先志. 基于卷积神经网络的人群计数研究[J]. 成组技术与生产现代化, 2017, 34 (2): 49-53.
[12] 张霖, 韩宝明, 李得伟. 基于图像技术的城市轨道交通大客流辨识[J]. 都市快轨交通, 2012, 25 (1): 72-77.
[13] 刘旭. 视频监控中的目标计数方法研究[D]. 合肥:中国科学技术大学, 2018.
[14] 马海军, 王文中, 翟素兰, 等. 基于卷积神经网络的监控视频人数统计算法[J]. 安徽大学学报: 自然科学版, 2016, 40 (3): 22-28.
[15] 覃勋辉, 王修飞, 周曦, 等. 多种人群密度场景下的人群计数[J]. 中国图象图形学报, 2013, 18 (4): 392-398.
[16] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]// European Conference on Computer Vision Computer Vision. Zurich: Springer press, 2014: 346-361.
[17] 时增林, 叶阳东, 吴云鹏, 等. 基于序的空间金字塔池化网络的人群计数方法[J]. 自动化学报, 2016, 42 (6): 866-874.
[18] 马海军. 监控场景中人数统计算法的研究与应用[D]. 合肥:安徽大学, 2016.
[19] SINDAGI V A. CNN-based cascaded multi-task learning of high-level prior and density estimation for crowd counting [EB/OL]. https: //github. com/svishwa/ crowdcount- cascaded-mtl, 2017.
Subway Train Congestion Degree Recognition Method Based on Video Image Analysis
ZHANG Xing-man1,LU Gong-yuan1, 2
(1. School of Transportation and Logistics, Southwest Jiaotong University, Chengdu 611756, China;2. National United Engineering Laboratory of Integrated and Intelligent Transportation, Chengdu 611756, China)
Accurately analyzing and obtaining the congestion levels in subway trains is one way of improving the quality of urban rail transit services. This paper proposes a vehicle congestion recognition method using a convolutional neural network to extract and analyze subway vehicle monitoring video images. This method uses the vehicle monitoring video to build a dataset of passengers in the carriage and uses a convolutional neural network with a cascade structure to realize recognition of subway train vehicle congestion by extracting the detection area of the video image and detecting crowd characteristics. The experiment results demonstrated that our proposed method had a fast detection speed and can meet real-time requirements in practical applications. The accuracy of three-level congestion degree experiment is 98%, and the accuracy of four-level congestion degree experiment is 87%. The test results can assist urban rail transit managers to quickly understand real-time passenger flow congestion in the line network.
urban rail transit; congestion level in the subway train; convolutional neural network; surveillance video
U231
A
10.3969/j.issn.1672-4747.2020.03.017
1672-4747(2020)03-0142-11
2019-09-04
国家重点研发计划(2017YFB1200701);四川省教育厅2018—2020年高等教育人才培养质量和教学改革项目(JG2018-135)
张杏蔓(1994—),女,四川成都人,硕士研究生,研究方向:智能交通,E-mail:616785990@qq.com
鲁工圆(1983—),男,四川射洪人,副教授,硕士研究生导师,研究方向:运输组织优化,E-malil:lugongyuan@swjtu.edu.cn
张杏蔓,鲁工圆. 基于视频图像分析的地铁列车车辆拥挤度识别方法研究[J]. 交通运输工程与信息学报,2020,18(3):142-152
(责任编辑:李愈)