基于图片显著性的安检视觉搜索研究

2019-06-14汪鸿志

重庆理工大学学报(自然科学) 2019年5期

刘西，汪鸿志

(1.重庆理工大学车辆工程学院，重庆 400054; 2.重庆金康新能源汽车设计院有限公司，重庆 400000)

安检是一项特殊的视觉搜索任务，安检人员通过搜索X光行李图片确定行李中是否有违禁品，即从某一刺激背景中寻找特定刺激，具有很强的目的性。安检是公共交通系统安全保障工作的最后一道防线，其中的视觉搜索问题是认知心理学和人因学的重要研究内容。Wolfe等[1]在模拟的X光行李检查任务中发现：当事件率降低时，检出错误率会大幅增加。Bravo等[2]发现在密集混乱的背景下，对复杂目标物的搜索效率低于简单目标物，自下而上的组织加工过程很难将复杂物体组织成单一对象加以识别。McCarley等[3]通过模拟训练安检人员的实验发现，练习可使扫描变得更有效率，但并没有更有效，由此得出安检训练中应注重目标识别而不是扫描技能和搜索策略的结论。Schwaninger等[4]对安检人员培训进行研究，发现视角、行李的复杂度和行李内物品的重叠度都影响检出率。田益凡[5]研究了个体因素与危险品出现概率对X光安检绩效产生的影响，发现时间压力、图片难度和危险品类型对视觉搜索绩效有显著影响。靳慧斌等[6]通过比较新老安检人员在安检模拟实验中眼动数据的差异，认为有经验的安检员倾向于系统搜索，而新手安检员倾向于随机搜索。以上研究中，国内外学者从事件率、图片复杂度、培训、新老安检员眼动数据比较等方面对安检视觉搜索绩效进行了分析，但对X光图片特征与眼动之间的关系关注较少。

人类的视觉系统具有很强的动态选择性，能够很容易地注意到图像中的显著性区域。视觉显著性是一个相对的概念，最早也是最具代表性的显著性模型由Itti和Koch[7]在“预注意特征”的特征图模型[8]和特征整合原理[9]的计算体系基础上提出，利用WTA(winner-takes-all)和IOR(inhibition of return)来扫描视觉信号生成动态注视点。自下而上的模型将图片分解为颜色、亮度和方向3个低层次属性，在每个属性上生成显著图；自下而上的模型则能复制某些经典的人类视觉搜索实验和完全真实的搜索任务[7]。Davice等[10]通过研究发现：在航空照片的识别任务中，专家的注意相比新手的注意与图片视觉显著性更相关。Underwood等[11]通过眼动研究发现，在执行审视道路图片决定是否过交叉路口的任务时，图片的显著性与搜索过程的早期注视点相关，即显著性能吸引早期的注视和注意。也有很多研究结果表明：视觉显著性模型并不能预测注视点的位置。例如：Chen等[12]发现现实世界中搜索真实物体时，注意和注视点主要是由自上而下的机制导向的；Itti和Koch[7]也认为其模型有局限性，认为搜索的早期阶段，自上而下因素起作用之前此模型描述注意和注视点的转移是最有用的。相对于任务驱动的自上而下的注意机制受先验知识和任务目标的影响[13-14]，自下而上的注意机制不受任务性质和观察者目的性的限制，研究工作更可控，也更具有普适性。本文从自下而上的注意机制出发，利用Tobii 眼动仪记录安检模拟实验过程中有经验的安检员和新手安检员的眼动行为，应用Itti和Koch的生物启发式计算模型生成仿真的动态注视点序列，结合新老安检员的搜索绩效，将人类与仿真程序对视觉刺激的响应进行分析比较，研究X光图片视觉显著性与注视点位置的相关性，探讨X光行李检查任务中的视觉注意加工驱动机制，为培训提供新方向和参考。

1 实验设计

1.1 实验被试

8名在校大学生作为新手安检员和8名机场安检人员参加了本次实验，其视力或矫正视力正常。

1.2 实验材料

选取30张机场X光行李图片，其中15张图片中有危险品，15张图片中没有危险品。有危险品的图片中有且只有1个危险品：刀、枪或者简易爆炸装置(improvised explosive devices，IED)。

1.3 实验过程

实验开始前，向8名新手安检员介绍IED的组成：起爆器、炸药、电线和电源。30张图片被随机地显示在显示器上，被试的任务是在图片中搜索危险品并指出其位置。被试者采用“1-肯定没有危险品”到“5-肯定有危险品”的5点量表评估自己的判断。除了选1和2，其他判断均需指出危险品在图片中的位置。实验过程中，每显示1张图片，被试者进行搜索并判断，结束后按键盘上任意键切换到下一张图片，直到30张图片判断结束。实验过程中，Tobii眼动仪记录眼动数据，被试者的判断结果和位置由主试记录。

2 数据分析

2.1 判断绩效

判断数据通过受试者工作特性方法(ROC)进行分析。ROC方法不受不同判断标准的限制，以假阳性率(false positive rate)为横轴、真阳性率(true positive rate)为纵轴组成的坐标图绘制曲线，ROC曲线越靠近左上角,实验的准确性越高。ROC曲线下的面积AZ值越大，判断正确率越高。表1是16名被试判断值的AZ值。t检验显示，安检人员的判断绩效好于新手，t=3.77,df=14,p<0.01。

表1 新手和安检人员的AZ值

2.2 眼动数据分析

为了分析被试者是如何发现和漏掉目标的，图片中的危险品被定义为兴趣区域，并对首次进入兴趣区域的时间和兴趣区域的注视时间2个相关变量进行分析计算。如表2所示，安检人员首次进入兴趣区域的时间和兴趣区域的注视时间少于新手安检人员。其中，对于首次进入IED兴趣区域的时间和在IED兴趣区域的注视时间，安检人员均少于新手安检人员：t=3.867,df=14,p<0.01和t=2.625,df=14,p<0.05，说明安检人员相比新手能更快地定位危险品，且加工效率更高。

表2 安检人员和新手的部分眼动数据统计

3 X光图片显著度与注视点位置的关系

3.1 安检员和新手的初始视觉选择性注意的对比

以上分析说明安检人员比新手能更快、更准确地搜索危险品，无论是检出率还是眼动数据都证明了这一点。安检人员能更快地注视到目标区域，尤其对IED的搜索更为明显。为判断在搜索的最初阶段安检人员和新手注意X光行李图片的位置是否有差异，利用相应的显著特征图得到安检人员和新手的第1个注视点的显著值，进而比较二者之间在初始注视点的显著度是否有差异。如果新手第一个注视点的显著值高于安检人员，说明新手比安检员在初始注视时更倾向于被显著的区域所吸引，即新手在搜索图片时最初检视是由图片特征驱动的，而安检员是由其他因素驱动的。反之亦然。

本文利用Itti和Koch’s等的Saliency模型生成显著特征图。图1是1幅X光行李图片以及它所对应的显著特征图，图中白色的区域代表相对高的显著值。工具箱“SaliencyToolbox”采用最大归一化“max-normalize”方法，这种方法使图片的差异最大化，从而不能得到图片真实的显著值。由于研究需要，本文将显著值归一化处理，即显著值在0～255范围取值，然后将颜色、亮度和方向3个特征关注图线性融合生成显著性特征图。

应用修正过的“SaliencyToolbox”得到30幅彩色X光行李图片的视觉显著性特征图，同时提取对应的每个被试者第1个注视点的平均显著值。安检人员和新手第1个注视点的平均显著值分别为137和140，差异不显著，t(14)<1。这说明安检人员和新手的初始注视点的显著性特征没有差异。

图1 X光行李图片和对应的显著性图

3.2 安检员和新手的总体视觉选择性注意对比

为了探寻安检员和新手的总体注意分配是否存在差异，比较安检员和新手的注视点落在显著性特征图中显著值最高区域的数量。如果安检员的注视点落在显著值最高区域的数量比新手多，说明安检员的注意分配比新手更倾向于由图片特征引导；如果二者没有差异，说明安检员和新手的总体视觉注意分配在由显著性所表达的图片特征这一点上没有差异；否则，新手的注意分配比安检员更倾向于由图片特征引导。

同样，应用Itti等的显著性模型产生X光行李图片的显著性特征图，显著值相对大的区域用白色表示。对于该研究，真实的显著值不重要，仅需要得到观察者在显著区域的注视点数量。因此，在工具箱中采用“最大归一化”的方法，使得局部差异最大化，得到最显著区域的注视点数量。用最大归一化的方法得到的显著性图见图2。分别计算30幅X光行李图片安检员和新手在最显著区域的注视点数量。通过统计分析发现，二者之间没有差异，t<1；显著区域的注视时间也没有差异，t<1。说明安检员和新手的整体选择性注意没有差异。

图2 X光行李图片和应用最大归一化得到的显著性图

基于图片的显著性特征，通过比较安检员和新手首注视点的显著性值和二者落在显著区域的注视点数量、注视时间，发现安检员和新手的初始和整体选择性注意没有差异。这说明对X光行李图片，安检员和新手在选择性注意方面是相似的，即安检员和新手有相似的注意偏好。

3.3 初始注视点及注视点分布和图片显著性特征的关系

关于第1个注视点是否由图片特征决定需进一步验证。根据该显著性模型的原理，图片的视觉显著值预测着注视点的位置(注意分配)。比较随机点和第1个注视点的显著值，如果二者没有差异，说明初始注意分配并不由图片特征决定；如果第1个注视点的显著值比随机点的显著值大或者小，说明初始注意分配由图片特征决定。

同样，应用Itti显著性工具箱提取首注视点和随机点的显著性值，分别比较安检员和新手首注视点与随机点的显著值。采用t检验分析二者的差异，结果显示安检员和新手首注视点的显著值均大于随机点，分别为t=14.62，df=58，p<0.001和t=8.39，df=58，p<0.001。

为了探讨人的注视点和显著性特征图之间是否存在相关性，编程生成与人的注视点相同数量的随机注视点(见图4)，然后比较显著区域内人的注视点和随机注视点的数量。如果显著区域内人注视点的数量比随机注视点多，说明人更倾向于注意显著区域，即在X光行李图片视觉搜索的过程中自下而上的注意机制起很大作用；如果二者没有差异，说明人对显著区域的注意不比随机性高，即在X光行李图片视觉搜索的过程中自下而上的注意机制作用不大。

图3 X光行李图片和对应的有安检员注视点(绿色)、相同数量随机点(黄色)覆盖的显著图

首先统计每个被试者对应每幅图的注视点数量，然后在每幅图片上随机生成相同数量的随机点，共对应480幅图片生成随机点。通过统计分析发现，显著区域注视点的数量比随机注视点多，其中安检员注视点比随机注视点多：t=4.42，df=58，p<0.001；新手注视点比随机注视点多：t=2.67，df=58，p=0.01。

安检员和新手更注意显著性区域，说明驱动注视点的选择性注意与刺激物特征有很大的相关性，这与自然观察任务[15]和图片中搜索人物任务[16]的结果一致,说明显著性模型在一定程度上能预测X光行李图片视觉搜索过程中人类注视点的位置。

4 结束语

本文研究表明，安检员和新手的初始与整体选择性注意没有差异，经验不是影响注意分配的主要原因。机场X光行李图片检查是一项自上而下、认知因素占很大比例的主动搜索任务，由于仅使用相关性技术方法(即注意与刺激物特征相关)不能建立显著性地图和注视点位置之间的因果关系，故而不能推断该任务是刺激物驱动机制在引导注意。显著性区域能有效降低物体识别匹配的复杂度，提高从各种视角识别物体的可靠性[17]。如果将X光行李图片的显著性区域通过某种手段显示出来，既与人们所期望的前注意信息一致，又能帮助安检员消除混乱背景的复杂度、改善目标探测和识别对象分割，即通过反馈显著性区域的方法提醒观察者重视这些区域，那么从理论上能提高检出率。

显著性区域仅限于自下而上的、刺激物驱动的注意，与任务目的无关。诸如物体搜索或识别这样的主动任务，自上而下的视觉注意(即认知因素)是非常重要的因素[16,18]。认知性知识对注意的影响将是下一步研究工作的重点。