基于视频图像的人群密度估计方法研究

2015-10-27陈振宇唐波

电脑知识与技术 2015年21期

陈振宇唐波

摘要：人群密度估计作为公共人群管理的重要手段，一直是智能视频监控系统研究领域的重要方向，在公共安全、科学研究等领域有着极其广泛的应用前景。该文系统介绍了人群密度估计的基本概念、基本流程、密度等级分类等内容。对当前研究的主流算法进行了分析比较，进一步总结了当前研究中亟须解决的瓶颈问题，为后续研究提供了思路。

关键词：密度估计；特征提取；公共安全

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2015）21-0137-04

Crowd Density Estimation Method Based on Video Image Research

CHEN Zhen-yu，TANG Bo

（College of Electrical Science& Engineering， National University of Defense & Technology， Changsha 410073，China）

Abstract：Crowd density estimation as an important means of public management， has been an important direction in the field of intelligent video surveillance system research， and has a very broad application prospects in public safety and scientific research. In this paper， the basic concept， the basic flow and the grade classification of crowd density estimation are introduced. The main algorithms in current research are analyzed and compared. The bottleneck problem need to be solved is summarized， and then the ideas for further research are provided.

Key words：density estimation； feature extraction； public safety

近年来，大量的人群聚集已经成为一个新型的，影响社会公共安全的常态性问题。一方面是社会矛盾的激化引发大量的群体性事件，另一方面是城市公共设施和安全措施不完备所引发的人群安全事件时有发生，这使得传统的目视视频监控系统难以满足人们的应用需求。如何利用视频图像信息达到对人群行为的自动、客观、实时、定量的分析，实现人群异常情况的及时预警，已经成为公共安全管理中亟待解决的重要问题。人群密度估计作为人群行为分析的基础，一直是智能视频监控系统研究领域的重要方向，有着极其广泛的应用前景。

随着机器视觉、图像处理和模式识别等学科领域的快速发展，研究人员在人群密度估计领域做出了大量富有成效的工作，以其为基础形成了许多富有特色的智能系统，系统的通用结构通常包括采集单元、处理单元和控制单元三大模块。其中，采集单元主要是通过摄像机摄取人群图像并加以储存；处理单元是采用数字图像处理技术对图像进行处理以获取人群密度或流量数据；控制单元主要是根据人群流量或密度做出相应的判断并采取相应的措施。系统结构如图1所示。

1995年，伦敦地铁采用了EPSRC人群监控系统，能够进行地铁站的人群密度估计和流量统计；欧盟于1999年研究了以研究人群和个人行为模式为内容的ADVISOR系统，用于提升公共场所的安全管理水平；IBM开发的Smart Surveillance 系统，集成了车牌识别、人体行为分析和人脸识别等多种功能。此外，国内基于视频的人群密度估计研究也取得了较大的进步。中国科技大学、西安电子科技大学、香港中文大学等院校都成立了机器视觉领域的研究团队，取得了丰富的研究成果。中国科学院自动化所开展了智能视觉监控系统的研究和开发，可实时识别、跟踪目标和检测异常行为。香港中文大学的计算机视觉研究组开发了DeepID的深度学习模型，在LFW上获得了99.15%的识别率，打破了之前的世界纪录，在人群监测领域走在了世界前列。

1 人群密度估计的基本概念

人群密度通常指某个空间内人的稠密程度，通常采用单位面积内的人数来表示。基于视频图像的人群密度估计就是通过固定摄像头采集固定场景的视频图像，并运用模式分类的相关方法对图像中的人群信息进行识别、提取和统计，分析人群模型和确定人群密度分类等级。其基本流程见图2，各部分工作原理如下：

图像采样是指相关设备采集视频数据，从中提取视频序列，一般为连续的单幅静态图像。图像预处理一般包括背景减法、直方图均衡和模版背景屏蔽等方法。背景减法可以裁剪出运动目标对象区域；直方图均衡方法可以减小光照变化因素的影响；模版背景屏蔽可以通过屏蔽复杂背景，仅保留相关感兴趣的图像区域。特征提取是指在经过预处理的图像中提取可以反映人群关键信息的特征值，通常包括像素特征、纹理特征、个体特征几类。密度特征分析是指选择合适的方法，对不同场合提取的人群密度特征进行分析，从而得出人群密度的估计值，常见的方法有线性分析、人工神经网络、支持向量机、卡尔曼滤波、马尔科夫随机场等。

当前，根据场景内人群数目可将人群密度分为极稀疏、稀疏、中等密度、拥挤和阻塞几个等级，等级的划分最早来源于1983年Polus的研究[1]，Polus在18m2的监控区域内所得出的人群密度等级及阈值如表1所示。

最初的人群密度监控系统都是简单的通过前景图像在整个图像中所占的比例来估算人群密度，但在人群密度较大的情况下，算法的错误分类概率会迅速增大。目前，基于视频图像的人群密度分析方法主要包含两个大的方向，一个是针对整个人群群体特征的所进行的群体分析；另一个是基于个体特征进行的个体分析。这两大研究方向又包含了三类研究方法：基于像素统计特征、基于纹理特征的人群密度算法以及基于个体分割特征提取技术的人群密度估计方法，如图3所示。

2.1 基于像素统计的方法

图像的像素统计特性是最先被利用同时也是很有效的人群密度特征，通过提取图像的全局特征和内部边缘特征对人群密度进行估计。其基本思想是：在人群越密集的状态中，其分离出的前景在图像中占有更高的比例。但是这种方法基于一个基本的假设，即人群密度的大小与图像中具有显著运动的区域有关。这种方法具有算法简单、运算速度快等特点，但在人群密度较高的情况下，人群的严重遮挡会导致个体信息的严重缺失，从而使得算法的误差急剧增大，一般说来，在进行较为简单的像素统计时，我们仅仅利用像素之间的空域相关性，而在进行复杂统计时，我们还利用视频在时间序列上的相关性，称之为时域相关性。

在利用空域相关信息进行密度估计研究方面，1995年，Davies[4]等研究发现，在人群密度较低的情况下，前景图像（只包含人）的总像素数和边缘图像的总像素数与图像中的人群数量大致呈线性关系。在减背景操作和边缘检测的基础上，采取多元线性回归分析，通过人工训练学习，能够得到像素数与人数之间的比例关系，可以用函数y=ax+b表示。1999年，W.S.Chow 提出了基于混合全局学习算法的神经网络分析人群密度[5]，并在2002年采取了改进措施[6]，通过提取人群对象的边缘长度、人群对象的像素在整个图像中占有的比例、背景像素在整个图像中占有的比例以及显著个体特征等四类特征，组成一个四维特征矢量，采用分类和自学习性能更加的RBF神经网络进行密度估计，使得系统性能更加稳定，并于同年在香港地铁中得到了推广应用。

在利用时域相关信息的研究方面，比较有代表性的有Regazzoni[2]和Paragios[3]等人。1994年，Regazzoni提出了基于分布式扩展卡尔曼滤波的人群密度估计方法。该算法通过提取出边缘像素数、边缘像素数与矩形框的长宽比、边缘像素直方图中极大值个数和幅度和等特征，组成一组五维向量，利用分布式卡尔曼滤波器进行人群密度的估计。2001年，Paragios等利用马尔科夫随机场（MRF）进行人群密度估计研究，主要思路是采取MRF的方法对图像进行检测，获取到一个平滑的变化检测图像，而后将得到的检测图像与一个几何模块结合起来进行透视校正来估计人群密度。

2.2 基于纹理分析的方法

纹理是图像的重要特征，是模式识别和图像处理等学科中辨别图像区域的重要依据。常使用区域尺寸、可分辨灰度元素以及灰度元素之间的关系来描述图像区域。基于纹理分析的人群密度估计方法就是通过纹理分析、纹理提取、特征分类等方法，实现人群密度的估计。该方法在人群密度较高的情况下，能得到较为准确的估计值。其基本原理是：不同的人群密度对应不同的纹理模式，高密度的人群在纹理上表现为细模式，而低密度的人群图像在纹理上表现为粗模式。常用的方法包括灰度共生矩阵、小波包分解法、分形方法等，下面进行简要介绍。

2.2.1 灰度共生矩阵算法

20世纪70年代初出现的灰度共生矩阵算法（GLDM）指的是从灰度为i的像素点出发，离开某个固定点（距离为d，方位为θ）的点上灰度值为j的概率。得到的估计值可以表示成一个矩阵的形式，反映出了不同灰度像素的位置分布信息。从GLDM导出的一些统计学参数可以作为描述纹理特征的参量。Haralick[7]提出了14种基于GLDM提出的统计参数包括能量、熵、对比度、均匀性、方差、差熵、差平均、相关性、和平均、和方差、和熵、逆方差、相关信息测度以及最大相关系数。常采用能量、对比度、逆方差、熵四个特征量作为特征参数。

由于GLDM算法计算量十分庞大，研究人员通常在特征提取前降低图像的灰度级，能够大大减小计算量，提升计算的速度，使得该算法具有更广泛的应用能力。近年来，基于GLDM的改进算法大量涌现，2008年，刘晓锐[8]等提出了一种基于二维快速傅立叶变换和灰度共生矩阵的人群密度特征提取方法.主要思想是依据不同密度的人群图像在其频谱图上的不同。将频谱图视为纹理图像，并提取纹理特征，采用Adaboost实现人群密度级别的分类，实验结果表明其计算速度能大大提高。2013年，XueMin Hu[9]等改进的混合高斯建模梯度估计法，提出了细分人群的思想。该方法通过计算加权面积来解决个体之间的阻挡问题，能有效处理拍摄角度不合适的图像，采用自适应提高分类器（Adaptive Boost Classifier）提取特征加权面积，并结合混合高斯建模梯度估计出人群密度，实验证明能取得很好的实时处理结果。2014年侯鹏鹏[10]在传统的GLDM分析法中，采用能量、熵、惯性矩、局部平稳性和相关性这五个特征量进行纹理分析，并采用处理小样本效果明显的SVM分类器训练特征样本，其分析计算效率高，鲁棒性好。

2.2.2 小波包分解法

在视频监控取景过程中，由于摄像头的拍摄角度存在差异，所获取的人群图像具有一定的透视效果，因此存在着多尺度特性。2001年，Marana[11]等提出的小波包分解法正是利用这种多尺度特性来提取人群图像的纹理特征。首先把人群图像f（x，y）当成二维信号，进行二维图像的小波分解，得到小波系数矩阵，将计算出的系数矩阵能量值作为特征矢量送入自组织神经网络（SOM）进行分类。图4展示了SOM网络拓扑结构。

图像获取过程中所产生的多尺度特性给纹理分析带来了新的思路，其中小波包分解法就是一种非常有效的分析途径。但是也存在着分解系数数据量过大、计算繁杂等一些不容忽视的缺陷，同时也使得分类特征的选择比较困难。

2.2.3 分形算法

在图形图像处理领域中，图像的粗糙度是图像存在的一种客观属性，具有一些统计性质，在不同尺度上存在自相似性。分形[12]作为一种常用的纹理分析方法对于这些性质的建模非常有用，其粗糙度的度量我们常常用分形维数进行表示。它能同时反映出图像的灰度信息和空间信息，在人群密度估计领域中得到了研究人员的广泛关注。其主要思想是：人群的边缘曲线与分形曲线非常相似，人群密度的大小可以通过边缘曲线的细碎程度及时反映出来，边缘曲线越平滑代表着人群密度越低，相应的其分形维数越小，反之亦然。通常情况下，越平滑图像的分形维数越接近1；而越高粗糙度图像的分形维数越接近2。具体工作流程如图5所示。

这种方法在人群密度估计中有着十分显著的优点，仅仅所需分形维数这一个特征量，因此流程简单，计算速度快，能很好地区分低、中、高各密度人群。但是在人群密度很高的情况下，其错误分类的概率会升高，无法区分高密度和极高密度的人群。为了解决这类问题，王尔丹[13]等提出了一种基于多尺度分析和分形的人群密度估计方法，该方法通过对图像进行正交小波分解，得到不同尺度不同方向上的子带图像，并采用分形方法对不同子带进行多尺度特征提取，通过采用微分计盒法（Differential Box-counting）来计算出计盒维数（Box-counting Dimension），并构成多维特征矢量送入最小二乘支持向量机（LSSVM）中进行分类。在很高密度的估计实验中，其分类的平均正确率能达到94%，算法性能上有了较大的提升。

2.3 基于个体特征的方法

基于个体特征的人群密度估计方法需要获取较为精确的个体信息，通常在前景分割的基础上，对个体外形、边缘、颜色等等特征进行有效的提取。

Lin [14]等利用Haar小波变换算法提取行人头部轮廓特征，通过支持向量机分类器和计算机透视变换实现了行人人数的统计和密度估计。但是此种方法对摄像机拍摄角度要求较高，而且在人群较为密集的情况下，由于个体之间的阻挡，其特征提取非常困难，检测效果较差。

Felzenszwalb 等[15]提出了一种基于多尺度形变的多部位混合目标识别模型，该方法通过进行部分标注数据的区分性训练和自改进的latent-SVM 的迭代训练法，提高了对图像中尺度和形状都发生变化的目标的识别能力。但是，当人群密度较大、目标较小或图像分辨率很低时难以准确提取人体几何特征，算法的有效性会大大降低。

2009年，Mehran[16]等将人群个体的活动用牛顿力学加以量化，通过提取场景中人群运动的光流特征，用粒子的平流传送来计算“社会力”流，估计出似然力流，而后设定阈值范围进行密度判定。该方法在基于个体分析算法研究中创造性地将“社会力”这一社会心理学的概念引入研究中，综合了其他学科领域的知识，为以后的人群密度算法分析开阔了思路，有着较好的借鉴意义。

3 人群密度估计的研究展望

随着计算机视觉和人工智能领域相关技术的快速发展，智能视频监控作为安防的智能化手段将从公共应用走向个人应用，人群密度估计将逐渐和流量统计、异常事件识别等技术融合发展，从而为人群监控、人群管理和决策制定提供重要依据。然而目前，基于视频图像的人群密度估计仍然是一个十分具有挑战性的研究课题。现有各类算法在准确度和复杂度方面都需要进一步改进，研究条件也不一而足，具体说来，还需对以下几个方面进行探索改进：

1）现有的不管是基于个体的还是基于群体的人群密度分析方法都具备一定的局限性，无法对高密度甚至极高密度人群做出准确的分析。如何针对大规模、高密度的研究对象，寻找出高效准确的特征子描述方式，进一步提升人群特征的描述精度，有效克服各类噪声和外部环境等因素带来的影响是摆在广大研究人员一个现实而复杂的问题。

2）现在被广泛使用的支持向量机的理论仍然还没有形成有关核函数选择的有效理论，具体参数只能通过经验进行尝试和选择，存在着SVM 的计算量较大，参数不容易调整等问题。如何针对人群分析的实际，综合考虑复杂度和精度，进行寻求最优参数的方法研究将是今后人群密度分析算法一个重要研究方向。

3）开展此类研究样本需求量较大，研究人员往往难以获得大规模群体事件的真实场景样本，训练样本在规模和复杂度上都和实际的应用需求有着较大的不同，导致各类人群密度算法难以用真实的场景数据进行验证。虽说近年来，计算机图形学和计算机图像学等学科发展较为迅速，所开展的计算机人群场景仿真研究一定程度地弥补了人群分析算法在的验证方面的不足，但还没有从根本上解决这一问题，还需要更多的理论技术研究充实这一领域。

参考文献：

[1] Schofer J， Ushpiz A， Polus A.Pedestrian flow and level of service[J].Journal of Transportation Engineering，1983，109（1）：46-56.

[2] Regazzoni C S.Distributed Extenged Kalman Filter Network For Estimation and Tracking Multiple Objects[J].Electronic Leters，1994，30（15）：1202-1203.

[3] Paragios N，Ramesh V.A MRF-based Approach for Real-time Subway Monitoring[J]. IEEE Computer Vision and Pattern Recognition，2001（1）：1034-1040.

[4] Davies A C，Yin J H，Velastin S A.Crowd monitoring using image Processing[J].IEEE Elcetronics and Communication Engineering Journal，1995，7（1）：37-47.

[5] Chow T，Yam J，Cho S.Fast Training algorithm for feedforward neural networks： application to crowd estimation at underground stations[J].Artificilf Intelligence in Engineering，1999，13：301-307.

[6] Chow T， Cho S.Industrial neural vision system for underground railway station platform surveillance[J].Advance Engineering Informatics，2002，（16）：73-83.

[7] Haralick K.Textural Features for Image Classification[J].IEEE Transactions On System， 1973（11）：610-621.

[8] 刘小锐，周激流，李晓华.频域基于灰度共生矩阵的人群密度估计[J].微计算机信息，2008（34）：310-314

[9] Xuemin Hua， Hong Zheng， Wenwei Wang. A novel approach for crowd video monitorring of subway platforms[J]. Optik， 2013（124）：5301-5306.

[10] 侯鹏鹏.基于GLCM纹理特征分析的人群密度估计方法实现[J].中国安防，2014（23）：88-90.

[11] Marana A，Velastin S，Costa L.Automatic estimation of crowd density using texture [J].Safety Science，1998，28（3）：165-175.

[12] Marana A.Estimating crowd density with minkoski fractal dimension[J].Signal Processing，1999，6：3521-3524.

[13] 王尔丹，李晓华，沈兰荪.基于多尺度分析和分形的人群密度估计方法[J].计算机工程与应用，2005，（29）：35-38.

[14] Lin， Chen，Chao.Estimation of number of people in crowded scenes using perspective transformation[J].Systems， Man and Cybernetics，Part A：Systems and Humans，IEEE Transactions on.2001，31（6）：645-654.

[15] Felzenszwalb，Girshick，McAllester，Ramanan.Object detection with discriminatively trained part based models[J].IEEE Trans. PAMI.2010，32（9）：1627-1645.

[16] Mehran R， Oyama A， Shah M. Abnormal crowd behavior detection using social force model[C]. Computer Vision and Pattern Recognition（CVPR09）IEEE Conference，2009：935-942.