基于图像显著性特征的交通标志注视点预测方法*
2014-01-18关宏志陈二慧
徐 志 关宏志 严 海 陈二慧
(北京工业大学建筑工程学院1) 北京 100124) (天津市城市规划设计研究院2) 天津 300201)
0 引 言
从20世纪90年代起,人们便开始了对交通视认性的基础性研究工作.近年来,这些研究取得了一些成果,并在道路交通标志标牌的设计规范制定方面取得了一些进展.对于标志视认的研究,国内外研究大多集中在驾驶员的反应[1]、光照影响[2]、材料反光/发光特性[3]、显示方式[4]等方面.目前,随着相关研究的不断发展,人们越来越发现从人的视认特性、注视特性等人的生理、心理曾经研究的必要性.其中,人在识别图像是的注视点的分布规律,是研究这些问题的基础.但是,复杂的眼动实验设计和实验条件,在一定程度上制约了相关研究的进展.
本文以Ltti的视觉注意模型为基础,通过高斯金字塔的生成、多通道图像特征的提取及特征图的生成以及显著性图的生成等步骤,建立针对交通标志的注视点预测模型.通过MATLAB实现对模型的编程.并以眼动仪为手段,以相似度和线性距离两项指标对模型精度进行评价.通过该方法,本文希望实现对交通标志注视点的有效预测,从而为交通标志的设计提供有效的工具.
1 基于图像显著性特征的注视点预测模型
Koch等[5]提出了基于显著性分布图的视觉注意模型,其后陆续出现了很多基于显著性特征分布图的视觉注意模型[6].这些模型的提出在于不需要利用眼动仪进行复杂的眼动实验,即可得到输入图像或视频中人类视觉最感兴趣的区域.目前这些模型已经应用到目标检测[7]和图像分析[8]等领域中.
基于Laurent Ltti的视觉注意模型[9-10],本文将其运用到交通标志注视点预测的工作中,以期在交通标志版面设计的工作中发挥作用.模型流程图见图1.
1.1 高斯金字塔对图像的过滤
金字塔技术是一个由图像处理和信号处理等学科发展出来的多尺度的信号处理技术,该方法将信号或者图像进行多次平滑和抽样.高斯金字塔是在图像处理中采用的技术,特别是在纹理合成方面应用较多,该技术涉及创建一系列图像.这些图像使用高斯平均(高斯模糊)等方法逐步对图像进行过滤,从而生成一系列分辨率和图像密度不断降低的图像序列.图2以一维情况为例,解释高斯金字塔的生成情况.图中g0图像为原始图像,g1图像是基于g0图像按照一定规则进行抽样或者过滤后的图像,g2图像是基于g1图像按照一定规则进行抽样或过滤后的图像.经过逐层抽样或者过滤后形成的图像序列称为高斯金字塔[11].
图1 基于显著性的注视点预测模型示意图
图2 高斯金字塔的生成过程
本文中采用高斯金字塔技术对交通标志的图像进行抽样,生成9个尺度的高斯金字塔.为了方便抽样,横向和纵向的图像抽样系数为1∶2k.其中k为高斯金字塔的尺度,k∈[0..8].
1.2 多通道图像特征提取及特征图的生成
图像特征提取工作是在Center-surround方法的基础上完成的,选择了颜色、亮度以及角度三类图像特征.所谓Center-surround方法是指高斯金字塔不同尺度图像之间的广义差分操作,以符号Θ表示.其中Center是指在高斯金字塔低尺度上的图像(Center尺度用c表示,c∈{2,3,4}),surround是指在高斯金字塔高尺度上的图像(surround尺度用s表示,s=c+α,α∈{3,4}).通过广义差分操作,每一通道的特征都可以表示为6张不同的特征图,其尺度对分别为2-5,2-6,3-6,3-7,4-7,4-8.
设r,g,b分别为输入图像的红色、绿色和蓝色通道,令亮度指标I=(r+g+b)/3.用I创建高斯金字塔I(k).那么亮度特征图则可以通过下式得到
为了将颜色信息从亮度信息中合理的分离出来,用I对r,g,b 3个颜色通道进行标准化处理.考虑到现有标志的颜色特征,基于“Color doubleopponent”理论:人类视野中心的神经元由一种颜色引起兴奋(如红色),又被另一种颜色所抑制(如绿色),而视野的周围恰好相反.基于此理论建立4个广义颜色通道:蓝色:B=b-(r+g)/2;绿色:G=g-(r+b)/2;红色:R=r/(b+g)/2;黄色:Y=|(r+g)/2-|r-g|/2-b|≥0.然后分别为这四个颜色通道创建高斯金字塔B(k),G(k),R(k),Y(k).由此,颜色特征图可以通过下式得到
为了得到方向信息,先对I进行Gabor滤波,生成一系列的 Gabor金字塔O(k,θ).其中:θ为方向.考虑到不同类交通标志中图像信息中路网图像的特征,选择θ∈{0°,30°,45°,60°,90°,120°,135°,150°}.方向特征图可以通过下式得到
O(c,s,θ)= |O(c,θ)ΘO(s,θ)|
1.3 显著性图生成
将各通道生成的特征图合成显著性图存在2个问题:(1)各通道的特征图具有不同的提取机制,也就是说不同通道的特征图无法在同一标准下进行比较;(2)个别特征图上的显著信息会被其它图上的噪声湮没,因此需要对各通道特征图进行标准化.在对各通道特征图进行标准化方面,现有的基于显著性的视觉注意模型所采用的方法主要有3种N(·)算子、DoG滤波以及随机抽样等方法.本文采用DoG滤波方法在对各通道特征图进行标准化.
DoG滤波方法具体的做法是:将各通道特征图数值标准化到(0,1)区间内,用以消除不同的提取机制下不同特征图之间的差别.使用DoG滤波算子加入原图进行迭代运算,DoG滤波算子表示为:
式中:σex和σinh分别为输入图像宽度的2%和25%;cex=0.5;cinh=1.5.特征图如果用 M 表示的话,那么加入DoG滤波算子后的标准化过程可以表示为
通过不断的迭代,可以完成图像特征图标准化的过程.迭代的次数并没有一个判断的标准,本文选择文献[10]中推荐的10次作为迭代次数.
在标准化过程之后,各通道内各尺度的特征图跨尺度广义叠加为一张标准的特征图.各通道各自的特征图在尺度4下线性加权求和,即可得到最终的显著性图.在现行加权求和的过程中,各通道的权重系数按照文献[9]中的1:1:1进行计算.
图3 MATLAB实现图像特征提取的效果图
2 注视点预测模型预测效果实验验证
2.1 注视点预测模型在MATLAB中的实现
上述算法可以借助MATLAB中的图像处理工具箱得到实现,图像特征提取的效果图见图3.
2.2 使用眼动仪进行标志注视点实测
为了验证模型的有效性,本文采用现有的各类常见标志对模型进行验证.在实验中,本文根据GB 5768.2—2009:道路交通标志和标线中对现有标志的分类,共采用2大类35种标志作为测试标志为被试呈现.测试标志中以常规标志为主,考虑到可变信息标志视认特性的特殊性,本文也选择了少量的全可变和部分可变信息标志进行测试,采用的测试标志详细信息见表1.
表1 测试标志详细信息
本实验采用SensoMotoric Instruments公司的iView XTMHED型眼动仪,通过室内实验的方式进行.45种测试标志通过PowerPoint软件向被试顺序播放,每种标志向被试呈现的时间为4s.实验结束后,将同一标志的注视点分布情况进行统计,得到注意点分布图见图4中.
实验验证过程招募被试30名,其中男女被试各15名,被试年龄范围从19~30岁,所有被试均持有驾照.被试的具体信息见表2.
图4 实验使用的眼动仪及标志注视点分布图
表2 被试基本信息
2.3 实验验证
为了评价显著性图中预测结果的准确性,采取相似度和线性距离2项指标进行评价.
将标志版面按照其上文字大小进行网格划分(无文字标志按照同类标志文字大小进行划分),显著性图上的预测注视点(如图5中的●)以及眼动仪的检测结果(如图5中的○)都可以绘制在同一张网格图上.如果二者在某一区域落入同一网格内,则称二者在这一区域相似,如果二者在某一区域不能落入同一网格内,则称二者在这一区域不相似.相似度被定义为相似网格数与实测和预测序列注视点平均值的比值.该指标可以反映在标志文字的大小的精度条件下,预测情况与实际情况相符合情况.
图5 相似度和线性距离示意图
相似度指标可以表示为
式中:S为相似度;n为预测结果和实测结果落入同一网格的网格数;n1为预测序列注视点数量;n2为实测注视点序列的注视点数.
线性距离指标[12]可以定量描述预测序列和实测序列的符合情况,即
式中:D为线性距离;n1为预测序列热点区域数量;n2为实测注视点序列的注视点数.d1i为预测序列第i个热点区域至最近的一个实测注视点的距离;d2j为实测序列第j个注视点至最近的一个预测序列热点区域的距离;a为图像长度;b为图像宽度.
以相似度和线性距离两项指标作为评价标准,将眼动仪实测注视点序列与显著性图注视点预测序列进行对比,得到的实验结果见表3.
表3 实验验证测试结果
3 结束语
通过试验验证测试结果可以看到,基于图像显著性特征的交通标志预测方法,对于复杂的大型标志,如可变信息标志以及指路标志等,平均相似度达到80%以上,认为注视点实测序列与预测序列相似度较高,平均线性距离小于0.1,预测效果较好.而这种方法对于单图像标志,比如警告标志以及禁令标志等,平均相似度低于50%,认为注视点实测序列与预测序列相似度不高,平均线性距离大于0.2,预测效果较差,还不能达到令人满意的预测效果.在进一步的研究中,将着重解决单图像标志以及可变信息标志中复杂路网信息的注视点预测问题.
除此之外,在进一步的研究中还有如下问题有待研究和改进:(1)特征图生成过程中DoG滤波迭代次数以及在对各通道特征图加权求和的过程中各通道的权重系数目前还是依靠经验,并没有科学的依据.在进一步的研究中可以引入带有反馈机制的算法,对这些参数进行合理的标定.(2)在进行眼动仪验证实验中,本文只招募了30名被试,而且从年龄分布来看,被试年龄集中在青年阶段,实验样本中缺乏中老年被试的实验数据.在进一步的研究中,将以现状驾驶员年龄分布作为总体,按比例招募中老年被试参与实验,尽量使样本分布反映总体分布情况.
[1]MARIEKE H,MICAH R J F.Do familiarity and expectations change perception?Drivers’glances and response to changes[J].Transportation Research Part F,2007(10):476-492.
[2]HELMUT T Z,FAZLEENA F B,SAHIKA V.Legibility performance under high luminance and contrast conditions at night[C]∥Proceedings of the 83th TRB Annual Meeting,Washington D.C.,2004.
[3]朱祖祥,沈模卫.VDT点阵尺寸对汉字显示工效的影响[J].心理学报,1991(4):380-386.
[4]THOMAS S,FUAT A,LI Changbao.Traffic sign luminance requirements of nighttime drivers for symbolic signs[C]∥Proceedings of the 83th TRB Annual Meeting,Washington D.C.,2004.
[5]KOCH C,ULLMAN S.Shifts in selective visual attention:towards the underlying neuronal circuitry[J].Human Neurobiology,1985(4):219-227.
[6]WALTHER D,KOCH C.Modeling attention to salient proto-objects[J].Neural Networks,2006,19(9):1395-1407.
[7]NAJEMNIK J,GEISLER W S.Optimal eye move-ment strategies in visual search[J].Nature,2005,434(3):387-391.
[8]ITTI L.Automatic foveation for video compression using a neurobiological model of visual attention[J].IEEE Trans.on Image Processing,2004,13(10):1304-1318.
[9]ITTI L,KOCH C,NIEBUR E.A model of saliencybased visual attention for rapid scene analysis[J].IEEE Trans on Pattern Analysis and Machine Intelligence(S1524-9050),1998,20:1254-1259.
[10]ITTI L,KOCH C.A saliency-based search mechanism for overt and covert shifts of visual attention[J].Vision Research,2000,40(5):1489-1506.
[11]BURT P,ADELSON E.The laplacian pyramid as a compact image code[J].IEEE Trans.On Communications,1983,31:532-540.
[12]MANNAN S,RUDDOCK K H,WOODING D S.Automatic control of saccadic eye movements made in visual inspection of briefly presented 2-D images[J].Spatial Vision,1995(9):363-386.