基于高阶全连接条件随机场的高速铁路异物入侵检测方法
2019-07-12余祖俊朱力强郭保青
王 尧,余祖俊,朱力强,郭保青
(北京交通大学 机械与电子控制工程学院,北京 100044)
近年来,我国高速铁路发展迅速,建成和开通运营的高速铁路里程不断增加。随着高速铁路成为人们出行的主要交通方式之一,其运行安全受到更加广泛的关注。在众多影响高速铁路运行安全的因素中,人员以及异物入侵的检测难度较大,防范措施有限。主要是因为其具有随机性强、情况复杂等特点。由于高速铁路运行速度快,线路需要采取全封闭管理,一旦有人员或其他动物或物体侵入线路,将对列车运行安全造成巨大威胁[1],因此对高速铁路线路的入侵防范十分必要。现有高速铁路的异物入侵检测主要有接触式监测网、激光扫描检测系统、计算机视觉等方法。其中基于计算机视觉的异物入侵检测方法具有智能化程度高、应用灵活、适用范围广、人员成本低等特点,受到了较为广泛地关注。
基于计算机视觉和模式识别等人工智能方法的铁路异物检测技术的主要思路是应用图像处理、特征提取、图像识别、智能视频分析等方法处理铁路现场视频图像,从而检测图像中出现入侵的物体。目前已经有了不少研究成果[2-16],根据采用的计算机视觉处理方法不同,主要有基于背景差分的方法、基于三维信息的方法、基于特征提取的方法以及基于机器学习的方法等几类。其中基于背景差分的方法使用最为广泛,例如:董宏辉等[6]提出了一种基于智能视频分析的铁路入侵检测系统,可判别场景中的移动物体。文献[9-10]利用FPGA以及嵌入式系统搭建了铁路异物硬件检测平台,将相关图像处理算法移植到硬件平台,实现了铁路异物的检测和分类,提高了处理效率,但是受硬件平台处理能力的限制,采用了较简单的处理算法,在复杂场景下检测效果较差。文献[12]提出的检测系统,实现了入侵目标的跟踪。文献[15]采用了背景差分方法实现了铁路异物的检测,并引入去抖算法以减少相机的抖动带来的误检。郭保青等[16]提出一种针对铁路场景的改进的相机去抖算法,提高了相机抖动时的检测效果。这些方法在较为简单的场景和光照条件较好的情况下都取得了较好的检测结果,但是在复杂场景和夜间的检测效果较差。
现有背景差分方法在复杂场景检测效果较差的主要原因是没有很好地对动态背景进行建模。在实际视频监控场景中,虽然图像是由固定的相机拍摄的,但是由于实际场景的复杂性,图像的背景并不是不变的。场景中的一些因素,如显著的光照变化、运动背景物体(摇晃的树枝,波动的水面等)、移动的阴影、相机的振动等都会使背景发生变化。因此实际场景的背景是动态的并带有较强的随机性。此外,缓慢移动的前景,以及带有伪装色的前景(前景物体与其覆盖的背景区域相似)等问题也加大了前景提取的难度。
因此,本文针对现有基于计算机视觉的异物检测方法以及前景检测算法的不足,提出了一种基于带有高阶项的全连接条件随机场CRF(Conditional Random Fields)的前景检测算法。该方法将现有的基于马尔科夫随机场背景模型的4-邻域范围内连接的二阶项推广到在整个图像范围,同时针对异物检测问题提出一种新的高阶项。并且,为了提高CRF模型的最大后验概率求解速度,引入了基于高维双通道滤波的均值场推断算法场,有效解决了带有高阶项的全连接CRF模型最大后验概率求解速度慢的问题。实验结果表明,长距离连接二阶项可以防止提取的前景物体的边缘被过度平滑,而本文提出的高阶项的引入可以提高前景物体边缘部分和伪装色区域的检测准确率。本文在通用的前景提取数据库上进行实验,并与现有检测结果较好的算法进行比较。在大部分场景中,本文方法的检测准确率好于现有算法,总体检测准确率优于现有方法,利用视觉高铁场景图像对本文方法进行测试,实验表明该方法可以在各种场景下取得较好的检测结果。
1 基于条件随机场的铁路异物入侵检测
异物入侵高铁线路时必然有进入线路的运动过程,线路视频中的运动物体可以被认为是潜在的异物(行驶的列车可以通过进一步处理剔除)。这样异物检测就转换为运动物体的提取,通常也被称为前景提取。现有的前景提取方法通常建立一个背景模型,获取的视频图像中与背景模型不相符的像素被认为是前景物体。由于实际场景背景具有较强的随机性,因此通常使用随机模型对背景进行建模。早期的模型如混合高斯模型MoG[17-19]、核密度估计KDE[20]等,通常只对单个像素的统计特征进行建模,这类方法没有考虑像素间的相关性,因此对于复杂场景效果不理想。文献[21-22]提出了基于区域特征的方法,通过计算像素邻域内的局部特征或显式地对邻域相关性进行建模,在一定程度上提高了提取效果。其中基于马尔科夫随机场MRF(Markov Random Fields)的方法[23-27],通过对单个像素与其4-邻域内像素的互相关性进行显式地建模作为先验概率模型,结合单像素的似然概率模型,最后通过最大后验概率MAP(Maxium a Post-probability)推断,可以得到较好地前景分割结果。但是该方法容易在前景物体边缘出现过度平滑现象,并对伪装色区域的检测结果较差,主要是MRF模型只考虑了像素4-邻域内二阶基团的相关性,没有考虑高阶基团的特征。本文提出的基于全连接高阶条件随机场CRF的前景提取模型,将二阶势的链接范围从MRF模型的4-邻域范围扩展到全局范围,从而得到全连接的条件随机场,全连接的二阶势可以改善前景物体边缘出现的过度平滑现象;同时可解决伪装色区域检测效果差的问题,本文提出了一种新的高阶势,得到了高阶条件随机场模型。从而取得了较好地检测效果,基于CRF的前景提取方法的示意见图1。
图1 基于CRF的前景提取示意
CRF模型将前景提取问题表示为一种图像标记问题,即给图像的每一个像素i赋予一个标记xi∈{0,1},0和1分别表示该像素属于背景或前景。如果将每个图像标记x看作是一个随机变量,而图像标记组成的二值图像则可以看作是定义在图像网格上的一个随机场,表示为x′,这样一幅二值图像X则为x′的一个样本。如果CRF定义了适当的概率分布,当输入当前图像I时,就可以求解在已知当前图像I的条件下,每个二值图像X的条件概率率P(X|I)。则前景提取问题转换为找到x′中使得条件概率P(X|I)最大的样本X的问题,即CRF的最大后验概率MAP求解问题。CRF模型的关键是定义适当的条件概率P(X|I)使得准确的前景分割结果为使条件概率最大的样本。但是由于一幅图像包含的像素数量十分巨大,条件概率的分布P(X|I)无法直接定义。因此,通常利用吉布斯分布来表示CRF的分布
(1)
(2)
式中:E(X|I)为吉布斯能量;G=(V,ε)为定义在x上的一个图模型;CG为定义在G上的基团的集合;φc为基团c∈CG相关联的势函数。
这样求解P(X|I)最大值的问题就变成了求解能量函数最小化的问题。因此只要定义适当的能量函数,使得在理想情况下,前景提取结果能使能量式(2)最小,可以实现前景的提取。由式(2)可得,能量函数是一系列与CRF的基团相关的势函数的和,势函数根据其相关联基团的阶数,可分为一阶势,二阶势和高阶势。因此能量式(2)可以表示为所有这三种势的和。
(3)
式中:φu,φp,φc分别为一阶势,二阶势和高阶势;C为高阶基团的集合。其中一阶势是定义在单个像素上的函数,其表示的是单个像素属于背景(xi=0)或前景(xi=1)的概率,与MRF模型中的似然概率类似;二阶势为定义在一对像素上的函数,表示的是两个像素标记的相容性,可显式地对标记的平滑性等先验知识进行建模,与MRF中的先验概率类似;高阶势为定义在二阶以上基团(基团包含两个以上像素)的函数,可以对更加复杂基团结构上的先验知识进行建模。
因此,只要根据前景提取问题,定义合适的能量函数式(3)中各阶次的势函数,使得能量函数对准确的前景提取结果取最小值,而对错误的提取结果取较大的值,就可以利用CRF的MAP求解方法,实现准确的前景提取。
2 条件随机场背景模型的建立
2.1 一阶势的建立
一阶势定义在单个像素上,表示每个像素属于背景或前景的可能性。在本文模型中,一阶势被定义为
φu(xi)=PB(Ii)xiPF(Ii)1-xi
(4)
式中:Ii为图像在像素i的颜色向量;PB和PF分别为该像素属于背景或前景的可能性,可以通过各种基于单像素的背景模型和前景模型得到。
关于PB的定义,本文通过保存每个像素的历史颜色向量作为背景模型,当新得到某个像素的颜色向量后,通过一个核函数来计算当前值与该像素历史值的相似性来表示该像素属于背景的可能性。具体计算方法为
PB(Ii)=K(Ii,Bi)
(5)
(6)
式中:D(I-I′)为衡量两个像素颜色向量差别的函数。本文采用颜色向量各个通道中最大偏差来衡量两个颜色向量的差别,D(I-I′)可表示为
(7)
从式(6)、式(7)可以看出,当前像素与历史背景像素的平均偏差值较小时,PB越大,说明该像素属于背景的概率越大,反之亦然。
对于PF,本文假设前景像素的颜色向量是均匀分布的,因此PF定义为一个常数,具体数值可根据各个场景的情况选择,一般可取0.1~0.5。
若对式(4)求关于xi的最小值,当PB(Ii)>PF(Ii)时,xi将等于0,当PB(Ii) 二阶势为定义在二阶基团(包含两个像素的基团)上的势函数。在本文模型中二阶势用于表征两个像素之间标记的相容性。建立二阶势的基本假设是两个距离相近且颜色相似的像素应该具有相同的标记。 由于本文将二阶势的定义范围扩展到了整个图像范围,得到一个全连接的CRF模型。为了能够评价两个距离较远像素的标记相容性,采用空间-值域特征。该特征是通过将像素位置(空间域)p=[xy]和颜色向量(值域)I=[rgb]组合后,得到的向量f=[xyrgb]。本文模型的二阶势定义为标记相容性函数和像素相似性函数的乘积。 φp(fi,fj)=μ(xi,xj)g(fi,fj) (8) 式中:向量fi,fj分别为像素i和j的特征;μ(xi,xj)为标记差别函数;g(fi,fj)为像素相似性函数。本文利用两个高斯核函数的和来评价像素特征向量的相似度为 (9) 其中右侧第一项为特征核,第二项为平滑核。特征核在两个像素相似且距离较近时输出较大,其行为受θα和θβ两个参数控制。而引入平滑核的作用是去除较小的误检区域。 标记差别函数评价两个不同标记的差别程度。对于二值CRF,由于标记只能取0和1,可以采用如下的简单形式。 (10) 根据式(8)~式(10)可以看出,当两个像素的标记相同时,与其相关的二阶势输出为0;而两个像素的标记不同时,二阶势输出一个大于0的值,该值为两个像素特征向量的相似度。 为了验证全连接CRF的作用,测试了长距离连接在本文模型中的作用。连接的有效长度实际上受θα和θβ两个参数的控制,通过改变这两个参数可以研究不同有效连接距离对检测结果的影响。图2展示了对于“Wallflow”数据库中的“waving tree”场景,θα和θβ两个参数取不同值时的检测结果,图2检测结果中白色像素表示前景,黑色像素表示背景。 图2(c)中第1行为较为典型的1帧图像和其真实分割,后面是不同参数下的检测结果。可以看出,θβ对检测结果的影响不大,增大θβ只小幅度地提高了检测效果。但是,增大θα,即增加有效空间连接距离,可以显著地提高检测效果。通过定量分析误检像素的数量,可以证实以上结论。误检像素数量相对θα和θβ的变化见图3。图3中不同曲线表示了不同θβ取值条件下,误检像素数量随θα变化的关系,总体上θβ对检测效果影响相对较小,而误检像素数量大致随θα的增大而明显下降。但是当θα从0增加到10左右时,误检数量有小幅增加,这主要是因为较小的空间连接距离还没有起到应对动态背景的作用,反而在前景物体边缘产生了过度平滑现象;而当θα进一步增加时应对动态背景的作用明显增加,整体的误检数量下降;最后当θα较大而θβ较小时,误检数量反而会增加,这主要是因为较小的θβ和较大的θα会加剧前景物体边缘过度平滑现象,可参照图2中最后一行头部的检测结果。因此在实际检测过程中,可以针对各个场景选择适当的θα和θβ,具体方法见4.1节。 在这个场景中,背景中的树随风剧烈晃动,部分树枝对应的像素在图像中有较大的位移,很容易被误检为前景。空间上长距离的连接可以使像素的信息传递到较远的范围,当背景像素移动到较远距离时,可以在更大的范围内判断是否有相似的背景像素,从而可以被正确地检测为背景。 (a)输入图像 (b)正确分割 (c)前景分割结果图2 不同有效连接长度下CRF前景分割结果对比 图3 误检像素数量随有效连接长度的变化曲线 通过以上分析可以看出,CRF的长距离连接可以有效应对动态背景问题,但是过长的连接距离会增加前景物体过度平滑情况,因此在对不同场景时需要根据每个场景的具体情况选择适当的参数。I2R数据集各个场景的测试表明,增加了长距离连接后,在参数优化后的条件下,检测结果的F-测度都有2%~5%左右的提高,I2R测试集上的平均F-测度从83.25%提高到了86.11%。 现有的MRF背景模型通常没有高阶项,为了改善CRF前景提取方法对伪装色区域的提取效果,并减少过度平滑现象,本文引入基于图模式的模型来强化相似区域的标记一致性。虽然高阶项的引入增加了模型求解的难度和效率,但是本文发现通过适当的改进,可以实现带高阶项CRF模型的快速求解。 将高阶势定义在一个2×2像素大小的矩形4阶基团系统上。假设某基团中的左上角像素坐标为(i,j),则该基团表示为ci,j,其包含的像素集合为:{(i,j),(i+1,j),(i,j+1),(i+1,j+1)}。这4个像素的各种取值组合被称为该基团的模式,表示为xc。每个像素的标记有两种取值,因此一个4阶基团可以有16个模式。高阶势函数就是定义在基团模式xc上的函数。对于特定的问题,通常只关心一些特殊的模式。因此在定义高阶势时,可以给一些特殊的模式赋予一个较小的势,而给其他模式赋予一个较大的势。这样高阶势可以定义为 (11) 式中:Pc⊂L|c|为选定的特殊模式的集合;rxc与rmax分别为特殊模式和其他模式对应的高阶势,通常选取rxc 本文选定的特殊模式被定义为矩形4阶基团包含的所有像素标记为“1”的模式。这样高阶势实际上加强了大面积的前景区域势能,有助于防止前景物体中小的伪装色区域被误检为背景,同时也有助于前景物体的边缘被过度平滑。这样定义是因为通常前景物体在图像区域中所占的比例较小,而图像中大面积都是背景区域。因此大面积的区域被标记为“0”是很常见的模式,不需要被强调,并且小的误检为前景的区域可以通过二阶势中的平滑核有效去除,不需要再通过高阶势加强。因此,本文采用的高阶势式(11)可转换为简化的形式 (12) 为了验证高阶势的作用,实现了两个版本的CRF模型:一个带高阶势(full CRF),另一个不带高阶势(part full)。两个模型都针对不同场景进行优化选取最优参数。实验结果表明带有高阶势的模型可以取得更好的检测结果,以I2R数据集中的“water surface”场景为例说明高阶势的具体作用。图4展示了两种CRF模型就该场景检测结果的对比。图4中选取了3帧较为典型的图像,其中第1行为场景图像,第2行为真实的前景标记,第3行和第4行分别为带高阶势模型和不带高阶势模型的检测结果。 图4 带有高阶势和不带高阶势模型的对比 从图4中可以看出,总体上带高阶势的模型比不带高阶势的模型检测效果更好。通过对比分析可以发现高阶势主要有两个方面的效果:有助于防止检测出的前景区域被过度平滑;有助于检测出伪装色区域。采用不带高阶势的模型时,一些前景物体中的一些像素,特别是边缘区域的像素以及颜色与其覆盖的背景颜色相近的区域,容易被误检为背景,如图4中人物的腿部区域。前景被误检为背景对后续检测结果的影响很大,因为被误检的前景像素会通过背景更新过程进入背景模型,后续检测中前景将更容易被误检为背景,误检的区域会随检测的进行不断扩大。这种情况主要是由二阶势中的平滑效应引入,平滑效应原本是去除由于动态背景中小范围背景变化而造成的被误检为前景背景像素,但是该作用也造成了部分真实前景被去除。事实上,这是所有带有平滑处理算法的共同问题,通常的做法是引入一些后处理步骤,从而增加了额外的计算量。而引入高阶势后,前景区域中大面积完整的区域具有较小的势能,引导前景中具有相似特征的像素具有相同的标记,从而可避免边缘区域和伪装色区域被背景“吞噬”。 在建立了基于CRF的背景模型后,需要求解该随机场的最大后验概率问题MAP,以获得最优的前景标记。CRF的MAP求解问题通常也称为CRF上的推断问题。本文采用基于双边高斯滤波器的推断方法来实现CRF的快速推断[28]。该推断算法以均值场推断为基础,通过适当的变形,推断中的部分计算通过滤波器实现,并利用快速滤波算法实现快速计算,从而提高了推断速度。 Qi(xi=l)= (13) 式中:xc为基团c中所有变量的一个样本;xc-i为基团c中除了变量xi外其他所有变量的一个样本;Qc-i为基团c中除了变量xi外其他所有变量的边缘分布;Zi为归一化常数。 对于一阶势,化简后为 (14) 对于二阶势,化简后为 (15) 对于由式(11)定义的高阶势,转换后为 (16) 式中:Pc|xi=l为图模式Pc中xi=l的子集。 如果递推式(13)是逐个像素串行迭代的,KL-散度可以确保逐渐减小。但是,式(13)串行迭代的直接实现方法计算量极大,对于全连接的CRF计算量则更大。文献[29]指出通过高维的高斯滤波器可以实现式(15)的并行计算。具体变换为 [Gm⊗Q(l)](fi)-Qi(l) (17) 式中:Gm为与式(15)中第m项相关的高斯核;⊗表示卷积运算。卷积运算可以利用高效的双边滤波算法,例如基于permutohdral网络的快速滤波方法[30],从而实现快速计算。采用该方法后算法的时间复杂度从指数增长下降到了O(Nd),在MATLAB平台下算法运行时间为原来的1/10左右,关于该算法运算速度的具体分析可参考文献[29]。 执行固定次数的迭代运算后,选择xi=maxarglQi(xi=l)为最终的标记值。即每个像素选取使得该像素边缘概率最大的标记值作为最终标记。 实验中,算法大部分利用MATLAB实现,一些需要大量计算的函数利用C语言编程实现,并编译为MEX文件在MATLAB中进行调用。对于不同的检测场景,采用相同的势函数形式,而模型参数根据不同的场景进行训练或设定。本文首先在常用的前景检测数据集[31-32]上进行测试,以便与其他方法进行对比。数据集都包含了多个检测难度较大的场景,并且都是实际拍摄的自然场景。每个场景被设计为测试某一类前景提取的难点,场景基本覆盖了大部分前景提取的难点,如:动态背景、光照变化、遮挡等。同时数据集提供了部分帧的手动标记的真实分割结果。 本文模型中多个参数需要根据场景的特点进行确定,其中部分参数在很大程度上影响最终的检测效果。采用分步确定参数的方法,首先,一阶势中采用的背景模型通过现有的方法进行训练,训练方法与这些模型单独使用时的方法相同。然后,使用只包括一阶势的模型检测结果,手动确定θα和θβ两个参数。通常,较大的θα会产生较好的检测效果,特别是在背景的动态特性较强时。但是,当前景物体中有较明显的伪装色区域时,较大的θα会导致伪装色及其周围区域被误检为背景,此时需要减小θα。θβ对检测结果的影响不大,通常较大的θα配合较大的θβ可以取得较好地效果。平滑核的参数可以选取固定值:ω(2)=1,θγ=3,在不同场景中均可取得较好的效果。最后根据文献[29]的方法学习二阶势中的ω(1)参数,并设定高阶势模型的参数rmax=ω(1),rl=0.1rmax。 我们将本文的模型与其他7种前景提取算法进行比较,其中包括4种现有检测结果最好的方法和3种经典方法。本文使用F-测度[34]作为评价检测结果的参数,该参数综合考虑的检出率与误检率,数值越大说明效果越好。 本文方法和其他对比算法对I2R数据集各个场景的检测结果(F-测度)见表1。图5给出了效果较好地3个算法在I2R数据集的各个场景关键帧的前景分割结果以及正确分割的对比。可以看出,总体上本文带有高阶势的CRF方法对于大部分场景的检测结果与真实结果最接近。可以看出,本文方法在所有场景上都取得了较好地检测结果,其中在5个场景取得了最好的检测效果。特别是在“Lobby”和“Hall”场景,本文方法的F-测度比第二好的结果分别提高了7.32%、7.94%,在另外3个场景中,本文方法取得了第二好的结果,并与最好的结果十分接近。但是,对于“Campus”场景,本文方法的结果相对较差,主要是该场景中既有明显的伪装色区域背景又有强烈的动态特性。而两种情况的最优参数是冲突的,因此很难取得很好的结果。 表1 本文方法与其他对比算法在I2R数据集上的测试结果(F-测度) % 注:“*”为每个场景最高的F-测度。 图5 I2R数据集取结果对比(从上至下各行:输入图像、正确结果、ViBe[33]结果、GFL[34]结果、本文方法结果) 以本文的前景提取算法为核心的高速铁路异物检测系统,在沪宁线、杭甬线等高铁线路进行了现场实验。实验采用了沪宁线10路现场高清视频图像和杭甬线55路现场高清视频图像,对本文提出的算法在实际高铁场景中的有效性进行了验证。高铁现场的场景较测试数据集更为复杂,精确的前景提取更加困难。尤其是夜间场景,图像质量差,光线变化复杂,提取难度较大。本文的算法在大部分铁路场景中取得了较好的效果。图6给出了本文算法对于典型现场场景的前景提取结果,可以看出在夜间光照较差的条件下,本文方法基本准确地提取了前景。 因为实际场景没有手工标记的正确分割,无法定量评价本文算法的准确性,所以统计了以本文算法为核心的高铁线路异物检测系统的检测准确率。该系统在本文算法检测的前景二值图像基础上,通过进行形态学处理、连通区域提取、区域选择等后处理算法,实现了高铁线路异物的检测,图7给出了一些异物检测的典型情况,由于现场在白天没有异物入侵的情况,因此只有夜间场景的检测结果。实验中,利用30 d的现场图像数据统计了系统检测的准确性,系统的检测准确率达到95.2%,其中白天没有入侵的情况,实际上该准确率是夜间场景的统计结果。运算速度方面,在处理服务器(Intel E5处理器,64 GBit内存,Window Server 2008操作系统)上处理速度达到了10帧/s,基本可以满足现场使用的要求。 图6 铁路场景前景分割结果 图7 基于本文算法的高铁异物检测系统检测结果 本文提出一种基于带有高阶势的全连接CRF模型的前景提取算法,该算法针对前景提取中动态背景、伪装色等问题建立了CRF模型。定义了基于KDE模型的一阶势、全连接的二阶势以及基于区域特征的高阶势。针对全连接的高阶CRF模型引入了快速卷积的CRF快速推断方法。在现有测试集上和铁路现场对本文方法进行了测试。实验结果表明,全连接二阶势的引入可以使特征在更远的范围内传播,从而正确识别较大的背景物体移动情况,对剧烈的动态背景有较好的前景提取结果。而高阶势的引入可以避免提取结果出现过度平滑的情况,同时可以提高前景伪装色区域的检测结果。在与其他方法的对比实验中可以发现,本文方法在测试集上获得了较好的检测结果,大部分场景的检测结果优于现有方法。基于本文前景提取算法的高速铁路异物入侵检测系统在沪宁线和杭甬线进行了现场实验,取得了较好的实验效果。2.2 二阶势的建立及作用
2.3 高阶势的建立与作用
3 基于滤波的CRF模型快速求解
3.1 均值场推断方法
3.2 基于滤波的推断
4 实验
4.1 模型参数选择
4.2 通用数据集实验
4.3 现场实验
5 结束语