情景知觉中的信息界定:从主观预期到 “惊奇”算法*
2017-01-14康廷虎
康廷虎 张 丰
(西北师范大学心理学院,兰州 730070)
情景知觉中的信息界定:从主观预期到 “惊奇”算法*
康廷虎 张 丰
(西北师范大学心理学院,兰州 730070)
情景信息加工是情景知觉研究领域内的核心问题。然而,不同的研究者对 “情景信息”的界定并不相同。在过去80多年的时间里对情景信息的界定先后经历了研究者主观确定、观察者评估、基于情景物理特征的计算模拟等方法。Itti和Baldi等人通过比较先验概率和后验概率之间的差异,提出了 “惊奇”理论。文章介绍了真实情景知觉研究中 “惊奇”理论的应用及进展,并指出 “惊奇”算法的拓展及界定、情景知觉过程中的注意转换与 “惊奇”的关系,以及社会情景知觉中的 “惊奇”应用可能是未来相关领域需要进一步探索的问题。
情景知觉,信息,主观预期,惊奇。
1 引言
在浏览情景或情景识别过程中,人们获得了什么信息,以及如何加工信息是情景知觉领域内研究的核心问题之一 (Fei-Fei,Iyer,Koch,&Perona,2007)。研究者曾应用各种不同的方法探索人们在情景知觉过程中的信息获得与加工机制。比如,Rensink,O′Regan和Clark(1997)等人引用刺激物觉察范式试图确定不同刺激物对情景识别的影响,而眼动技术也成为研究者探索情景知觉过程中信息搜索、获得的重要技术手段和研究范式 (Henderson,Brockmole,Castelhano,&Mack,2007;康廷虎,白学军,2013)。但是,确定人们在情景知觉过程中注视什么、忽视什么,或者人们的注意被什么所引导并不能完全解释情景知觉的心理机制,研究者还需要了解诸如变换觉察、注视、回视、眼跳等眼动特征的原因。
对于情景知觉过程中眼动特征的解释,在Buswell(1935)的经典研究中就已引入了 “信息”的概念,并且认为人们对情景的浏览,与情景所包含的信息有关。然而,何为 “信息”?Rashed,Bagum,Khan和Hasan(2011)认为,信息就是交流或接受有关特定事实或事件的知识;而基于概率论和统计学的信息论认为,信息可以消除随机不确定性,即信息是确定性的增加。在情景知觉领域,不同的研究者曾采用不同的方式界定情景信息。Buswell(1935)从研究者的角度界定了情景信息,Mackworth和Morandi(1967)则从被试的角度定义情景信息。之后有研究试图分离情景中的知觉信息和语义信息,并应用 “主观预期”来确定信息及信息量的大小 (Brockmole&Henderson,2008;Matsukura,Brockmole,&Henderson,2009;Võ&Henderson,2011)。Itti和Baldi(2009)在分析情景知觉过程中的注意现象时,引入了贝叶斯惊奇(Bayesian surprise),并且发现 “惊奇”对注意具有引导作用,而且 “惊奇”这一指标要优于图像色块的局部亮度方差、边缘密度,以及显著性等指标。
实际上,早在上个世纪中叶,统计学领域就已经开始了有关 “惊奇”和 “惊奇事件” (Weaver, 1948)的研究,并在之后将其应用于决策研究领域(Fisk,2002;刘立秋,陆勇,2007)。在情景知觉的研究中,Itti和Baldi(2005)基于对先验概率和后验概率的考察,以贝叶斯定理、香农熵,以及KL散度 (kullback-leibler divergence,KLD)为基础,发展并提出了 “惊奇”的理论模型。这一理论模型及其算法为准确量化情景信息提供了理论与技术支持,其应用不仅有助于解释 “信息是什么”,而且可以深入分析 “信息量有多大”,以及 “信息量大小对注意的影响”。
2 情景知觉中的信息及其界定
2.1 情景知觉与信息加工
当给我们呈现一张图片时,我们的眼睛会往哪里看呢?同样的问题在上个世纪30年代中期曾引起了Buswell(1935)的研究兴趣。他在分析Miss W和Miss D浏览图片过程中的眼动特征时,产生了“当一个人看图片时,他会怎么看”的困惑,并由此衍生了一系列的疑问,比如 “图片的颜色起了什么作用”、 “人们在看图片时的兴趣中心是什么”、“儿童和成年人看图片的方式是不是相同”等。之后Buswell以55张有关建筑、雕刻、绘画的图片为实验材料,选择12名小学生、44名高中生和144名成年人做被试,记录了他们在浏览图片时的注视点、眼动轨迹等数据。研究结果发现被试注视的位置很有规律,而且与图片提供的信息密切相关,比如说,观察者倾向于关注人而不是背景区域。
在另外一项经典研究中,Yarbus(1967)要求观察者检测情景图片以及其他艺术作品的颜色。他发现观察者在检测俄国写实主义大师Repin的作品——《意外归来》 (An Unexpected Visitor)的过程中,倾向于注视情景中的人物,特别是这些人物的面部;但是当要求观察者去估计情景中这个家庭的物质环境时,他们的眼睛则会在一个更大的范围内移动。Yarbus观察到在对包括人的面部和其他刺激物的情景的注视过程中也存在相似性,这表明观察者更倾向于注视他们认为包含 “有用的或者实质性信息”的区域 (Bulthoff et al.,2005)。
之后的研究者也发现,与非信息区域相比,情景中的信息区域更容易引起人们的注视 (Mackworth&Morandi,1967;Antes,1974);而且,为了进一步揭示情景信息对情景知觉的影响,研究者区分了情景信息的语义属性和知觉属性,并考察了情景知觉过程中的注视控制、视觉搜索以及视觉记忆等问题。有研究发现,情景的知觉属性,比如颜色、亮度、边缘密度等影响着情景浏览过程中的眼动特征 (Mannan,1995,1997);但是也有研究认为,情景语义信息对视觉搜索存在着影响 (De Graef Christiaens&d′Ydewalle,1990;Henderson, 1999)。目前,关于情景知觉的信息加工仍然存在争论 (康廷虎,白学军,2008;王福兴,田宏杰,申继亮,2009),双通道加工模型 (Dual-Path Model of Scene Processing)、背景引导模型 (Contextual Guidance Model)等理论模型试图从自上而下和自下而上的双通道加工路径为情景知觉提供解释(Torralba et al.2006;田宏杰,王福兴,徐菲菲,申继亮,2010)。
2.2 情景知觉研究中的信息界定
纵览过去80多年情景知觉的研究,无论是Buswell(1935)和 Yarbus(1967)的经典研究,还是近年来的理论探索与研究新进展,围绕的核心问题始终是 “情景信息”的加工。然而,对于情景和情景知觉加工而言,什么是信息,如何界定情景信息?不同的研究者对其的界定存在差别,先后经历了研究者主观确定、被试评估、基于刺激物在某情景中出现可能性的判断,以及基于情景物理特征的计算模拟等方法。
在Buswell(1935)和Yarbus(1967)的研究中,图片的信息实际上是研究者对被试所注视区域进行事后分析的过程中确定的;而之后的研究则致力于对情景图片所包含信息的操作和界定。Mackworth和Morandi(1967)在研究中应用了两张图片,其中一张为 “眼睛”图片,画面为黄色和橘色背景,画面中只露出了一双眼睛,其他被深红色掩饰所掩盖;另一张为 “地图”图片,画面描述的是以宇航员的视角所看到的深蓝色海洋背景下的加利福尼亚半岛。为了确定两张图片所包含的信息,每一张情景图片被分成8×8的方块区域,然后让一组被试在0-9的10点量表上对每一块区域包含的信息量进行评价。各区域包含信息量的界定是以可辨认性为依据的,即在其它条件下某一方块区域可识别的难易程度。之后Antes(1974)对图片所包含信息的界定也是依据被试的评价。他认为,图片中的各个部分对于整个图片的信息表达有不同的贡献,因此,他要求被试在0-8的9点量表上对图片每一部分在整个图片所表达信息中的贡献予以评价。信息量即图片每一部分对于整个图片所表达信息的贡献大小。
不难发现,在 Buswell(1935)和 Yarbus(1967)的经典研究中,对信息的确定是基于研究者的主观判断,之后Mackworth和Morandi(1967)、Antes(1974)等人的界定则是基于被试的主观判断。那么,这种主观判断依据的是情景所包含的语义信息,还是颜色、大小、形状等知觉信息呢?Loftus和Mackworth(1978)在研究中控制了视觉属性的影响,以目标刺激在情景中出现的可预期程度为依据界定了情景的语义信息,认为不可预期的刺激物带有更多的信息量。这种界定在之后关于语义一致性、语义信息注意优先性等的研究中得到了广泛应用 (Brockmole&Henderson,2008;Mat-sukura,Brockmole & Henderson,2009;Võ& Henderson,2011)。为了能够更好地约束人们对情景中刺激物出现可能性的主观预期,康廷虎和白学军 (2013)在其研究中引入了日常生活中的生产、生活安全规则,并依据是否符合安全规则来确定情景的语义属性,即在安全情景中,刺激物信息的出现是符合安全规则的,而在危险情景中,刺激物信息则是不符合安全规则的。把情景信息约束在特定领域的知识范围内,增加了信息界定的操作性和客观性,但是,在这些研究中并没有能够对信息量的大小给予有效测量。
与情景语义信息的界定不同,Mannan等(1995,1996)的研究则更加关注情景注视区域的最大亮度、最小亮度、图像对比等物理特征,并且发现最大亮度、最小亮度、边缘密度以及高空间频次等特征对情景首次注视位置具有控制作用。Itti,Koch和Niebur(1998)则根据图像的对比度、方向、颜色等属性,计算情景的视觉显著性地图 (visual saliency map),用以模拟和预测情景浏览过程中的注视位置。但是,有研究者却对此产生了质疑,认为在活动任务中浏览意义情景时,固定位置与视觉显著性的相关性则少得多 (Land&Hayhoe, 2001);而且知识结构的应用会修改自下而上的显著性地图,比如你已经知道了时钟是什么样子 (一个带着黑色外边的白色表盘),那么很可能在情景浏览过程中就会过滤掉那些可以产生视觉显著性地图的信息 (Rao,Zelinsky,Hayhoe,&Ballard,2002)。之后Henderson(2007)的研究也指出单独的情景表征预测注视位置要比单独的显著性表征要好。
3 “惊奇”的数学解释与理论研究
3.1 “惊奇”的数学解释
1948年,Weaver提出了惊奇指数 (surprise index)的概念。他假设,如果一个概率实验有n种实现的方法 (Wn),与之相对应,n种可能结果的先验概率就分别是p1,p2……pn;那么,惊奇指数就可以定义为:
SI测量的是pi与期望的平均概率E(p)之间的比值。如果pi的值比较小,而E(p)相对较大,那么,结果Qi就是一个 “惊奇”事件 (康廷虎,张丰,2013)。
之后,Shackle(1969)在决策领域的研究中,应用 “潜在惊奇” (potential surprise)反映个体的信念水平,即 “个体对某一假设的信心水平,相当于这一假设的潜在惊奇水平。”Fisk(2002)认为,如果可以确定某一事件的概率,那么就可以确定该事件的惊奇值 (surprise values),即:事件B的概率为P(B),那么,事件B的惊奇值为yB;而事件的潜在惊奇是指事件发生时我们所体验到的惊奇程度。对于条件事件,其概率为P(A|B),潜在惊奇为y0A,其可以定义为与事件A相联系的惊奇。y0A的变化分为两种情况: (1)如果事件A和事件B是两个无关或独立事件,那么,我们对A事件发生的惊奇就不会受到事件B发生与否的影响,y0A=yA; (2)如果事件A与事件B有关联,那么事件B的发生,会降低我们对事件A发生时的惊奇,y0A<yA。
针对Weaver(1948)提出的惊奇指数及其算法,有研究者质疑认为低概率结果往往是意料之外的,但是,并不是所有的低概率结果都会让人觉得惊奇。因此, “惊奇”的产生不仅与事件的先验概率有关,而且与后验概率分布也有关 (Teigen& Keren,2003)。Evans(1997)的研究认为,对于一个模型族θ,每一个模型出现的可能性ti就构成了函数T(θ);那么,与ti+1相比,如果ti更优先,那么,从先验到后验,对ti信念的增加也将比ti+1大很多。反过来,这种优先顺序又可以影响决策和推断,并可以应用于估计、假设检验、模型检测等程序当中。在贝叶斯理论的框架下,Itti和Baldi(2005)依据香农信息熵和KL散度,考察了事件先验概率和后验概率之间的相对熵,并在此基础上,提出了 “惊奇”的模型。
3.2 “惊奇”模型
Itti和Baldi(2005,2009)等人试图通过比较人们信念的先验概率和后验概率之间的差异,对“惊奇”进行数理学的界定。他们认为,界定 “惊奇”的原则包含两个重要元素: (1)惊奇源于不确定性。惊奇仅存在于不确定性条件下,而不确定性主要源于随机性、信息缺失,或者计算资源的限制。如果客观世界是确定的,或可预期的,那么,对于观察者而言就不存在惊奇。 (2)对惊奇的界定是相对的、主观的,并且是与观察者的期望相联系的。对于不同的观察者而言,即使是相同的数据,其所具有的惊奇程度也可能不同;更有甚者,对于同一个观察者,在不同的时间里,相同数据所引起的惊奇也可能不同。
在概率和决策理论中,关于不确定性的模型组成方式以及推理是依据贝叶斯理论的概率论的(Jaynes,2003)。此外,在贝叶斯框架下,概率对应于被试的主观信念程度,而这些信念是根据数据的需求而变化的。贝叶斯理论作为基础性工具,可以实现先验信念分布和后验信念分布之间的转换。因此,在最理想的理论框架里,对惊奇的界定必须包括: (1)用以解释不确定性的概率概念; (2)用以捕捉主观期望的先验和后验分布 (Itti&Baldi,2009)。
对观察者背景信息的获取可以通过他们关于假设或模型空间 ()里模型M的先验概率分布。如果是抽象的高级水平,集合可能是由一系列的认知假设或关于世界的模型组成,比如说:= {明天我要去爬山;今天天气晴朗;我的工资快发了;大家最近工作都到很晚……}。对于抽象的低级层次和单纯的观察者来说,该模型空间或许与定量的假设直接联系,从而变得相对简单,比如对某种色彩的建构,={大红色较多;粉红色较少;紫红色最少……}。在主观主义框架下,信念或自信的程度都是与假设或模型相联系的,而观察者的每一个假设或者模型M又是与似然函数P(M|D)相联系的。具体而言,如果观察者对数据的模型为M,其先验概率为P(M),那么,在获得数据集D之后会导致信念的重新评估。根据贝叶斯定理,先验概率分布P(M)就转变成一个后验概率分布P(M|D),即:
从这个等式里可以看出,D的效应反映的是由P(M)变成了P(M|D)的过程中信念的变化。因此,对D所携带信息的测量,可以用先验分布和后验分布之间的距离来反映。为了便于与香农的通信信息区别,Baldi(2002)称这一信息观念为“惊奇”,计算如下:
公式 (2)中的d是对一个距离或相似性的测量。
实际上,对于概率分布之间距离的测量有很多不同的方法,Baldi(2002)在计算中应用了相对熵或KL散度, “惊奇”的界定即为:
单一模型的 “惊奇”可以用log-odd表示:
“惊奇”的单位是wow,值得注意的是除非使用绝对值,否则这一比率是正还是负,取决于该观察者的信念模型 M增加或减少 (Itti&Baldi, 2009;Baldi&Itti,2010)。
4 “惊奇”在情景知觉研究中的应用
4.1 “惊奇”与情景知觉中的注意捕捉
Itti和Baldi(2009)应用眼动技术记录了8名被试 (女性被试3名,男性被试5名,年龄在23-32岁之间)在自然情景浏览过程中的眼动特征,以验证 “惊奇”对注意的引导作用。在研究中,研究者为了确定被试选择注视的图像区域,通过输出的反应动态地形图作为计算指标,实时记录被试的反应。这些计算指标主要包括16×16图像色块的局部亮度方差、Gabor滤波测定的局部朝向边缘密度、16×16局部图像色块的香农熵、局部运动、基于孤立点的显著性 (outlier-based saliency)及“惊奇”。其中前3项指标主要是用来量化静态图片属性,而后3项指标主要是测量动态事件。研究结果发现,高分数的指标反应区域对被试具有很强的吸引力。然而,静态指标在很多视觉区域均有反应,这表明这些指标并不能明确解释注意的选择,并且产生了相对低的KL分数;相比之下,用以测量动态事件的指标更加敏感,产生了稀疏地图(sparser maps)和较高的KL分数。
在研究中,研究者最为关心的惊奇指标主要是指对图像色块低水平 “惊奇”的量化,其并不包括高水平的 “惊奇”或者观察者的认知信念。确切地说,它假定图像色块是一个简单模型族,每个加工都依赖于对颜色、方向、运动等较为敏感的早期特征觉察器;而且,对 “惊奇”的计算是通过关于哪个模型能更好地描述色块信念分布的转移来实现的。研究结果发现, “惊奇”指标明显优于其他的计算指标,得分比显著性指标高近20%,比静态指标 (熵)要高60%。由此可见, “惊奇”对浏览者的注意具有引导性作用;而且,与香农熵、局部运动、显著性等指标相比较, “惊奇”能最大程度地解释浏览者的注视行为。在Mundhenk,Einhauser和Itti(2009)的研究中,他们应用快速系列呈现 (rapid serial visual presentation,RSVP)实验范式,考察人们对快速呈现的视觉情景的觉察能力,结果也发现惊奇对注意具有引导作用,这与Itti和Baldi(2009)的研究结论一致。
4.2 “惊奇”与注意门模型
在Reeves和Sperling(1986)的研究中,在注视点的左右两侧分别系列呈现字母和数字,要求被试在觉察到字母序列中的靶刺激之后,尽可能快地将注意转移到数字序列,并报告靶刺激呈现之后最先出现的4个数字刺激。研究结果发现,被试倾向于报告靶刺激呈现后400ms的数字刺激,而且被试所报告的数字信息具有集群性、无序性和重叠性等特征。在此基础上,研究者提出了注意门模型(attentional gating model,AG)。该模型假设,在靶刺激觉察之后,注意门就会立即打开,从而使数字刺激信息进入视觉短时记忆 (visual short-term memory),之后的信息加工则取决于信息的强度和顺序特征 (Reeves&Sperling,1986)。
有研究发现,如果以图片流的形式呈现图像刺激,其中一些是靶刺激,而另外一些是干扰刺激,那么,就可能会出现限制快速加工 (limit rapid processing)的注意现象,即重复盲视 (repetition blindness)或注意瞬脱 (attentional blink)现象。前者是指两个属性相同的项目连续呈现时,只能觉察其中之一 (Kanswisher,1987);而后者则是当其中第二张图片间隔呈现之后,对其的注意加工会受到损伤 (Raymond,Shapiro&Arnell,1992)。因此,根据注意门模型的基本观点,人们对序列呈现情景中靶刺激的觉察与识别,可能同样受到注意门的约束,而且,对情景信息的整合也可能与情景的显著性和呈现顺序有关。Einhauser等人 (2007)在研究中应用了RSVP范式。他们假设,注意门的限制会影响RSVP中靶刺激的觉察,从而导致靶刺激识别的错误。在RSVP序列中,刺激驱动的高显著性会损伤之后呈现的靶刺激的觉察,即高显著性刺激项目会激活注意门,从而导致对之后呈现项目的注意损伤,可能会出现注视瞬脱或重复盲视现象。
在研究中,为了考察注意机制对觉察绩效的影响,研究者应用了两个实验,并根据Itti和Baldi(2009)有关 “惊奇”的界定,计算了刺激序列中每一个图片的 “惊奇”地图,在实验二中对每个序列中帧的顺序进行了重新排列,提高了靶刺激之前、之后以及前后帧的惊奇。实验结果显示,对于所有被试而言,惊奇会损害他们对靶刺激的觉察,这可能是因为惊奇事件 “寄生式”地捕捉了注意以及其它用以觉察靶刺激信息或者整合视觉短时记忆的资源。这与注意瞬脱的机制基本相似,而且,与注意瞬脱相比,惊奇事件对后续项目的觉察也有损害。
Einhauser等人 (2007)的研究结果与注意门模型的基本观点是一致的。由此看来,在靶刺激之前惊奇事件激活了注意通道,并且与靶刺激进入相同的加工阶段;而在靶刺激之后的惊奇事件,则是随着靶刺激激活注意门之后,随之进入相同的加工阶段的;在前后惊奇均提高的条件下,惊奇分心物与靶刺激存在着竞争,如果惊奇分心物足够强大,就能够超越靶刺激信息而进入视觉短时记忆,并损伤对靶刺激的报告。
5 研究展望
人类的视觉系统能够在很短的时间之内获取大量的信息,而且能够对事物或情景的属性做出判断(白学军等,2008)。然而,在从情景浏览到识别的这一过程中,浏览者究竟观察到了什么,又是为何去观察的?是基于自上而下的知识经验,还是自下而上的刺激物属性呢 (Henderson,2003;Castelhano&Heaven,2011;Konkle&Oliva,2012)?这是情景知觉研究的基本理论问题。基于先验概率和后验概率之间差异,在充分考虑不确定性和主观预期性的前提下,Itti和Baldi(2005,2009)等人提出的 “惊奇”模型,为确定情景信息及信息量的大小提供了理论解释。已有研究结果也表明,情景“惊奇”更能吸引人们的注意 (Mundhenk,Einhauser,&Itti,2009),而且,其对情景觉察的影响也为注意门模型提供了支持。因此,在情景知觉的研究中引入和发展 “惊奇”理论及算法,可以为情景信息的注意加工探索提供新的途径,也有助于促进情景知觉的相关理论研究。
目前,尽管一些学者已从不同方面做了初步探索,但是对于 “惊奇”的理论和应用仍然有很多问题需要做进一步的研究。基于现有有关情景知觉中“惊奇”的探索,在未来的研究中可以从以下几个方面作进一步的探讨:
第一,根据Baldi(2002)的观点,surprise的计算还可以进一步拓展,比如非共轭以及其他类型的先验分布,或者是更为复杂的多元分布、更为一般的分布族等。从这个意义上来看, “惊奇”的计算可以应用用以解决复杂及多维问题的 Monte Carlometho方法,近似地估计空间模型的积分。因此,进一步探索 “惊奇”的数学算法,既有助于促进 “惊奇”理论研究的发展;同时,也会促进相关领域,比如真实情景知觉、人工智能、计算机模拟、神经网络模型等的研究进展。
第二,注意门模型为注意瞬脱和重复盲视现象提供了解释,而其最主要的依据是人们对以信息流形式呈现的刺激进行视觉短时记忆加工时,会存在注意限制这一观点。与之相反,在情景知觉的研究中,研究者已经发现,即使是在快速系列呈现的条件下,人们也会准确觉察或识别靶刺激,或者获得情景梗概 (Fei-Fei,VanRullen,Koch,&Perona, 2002),这似乎表明,情景的快速识别并不需要特定的空间注意。尽管Einhauser(2007)等人的研究结果支持了注意门模型,但是对于情景快速识别过程中的注意加工及其机制仍需做进一步的探索,因此,基于 “惊奇”的情景识别研究尚待推进。另外,在注意加工的认知模型中,注意门模型同样也受到了挑战,有研究者认为注意转换更有利于解释在时间上注意资源的分配,而并不是注意门的激活与否 (Lejeune,1998;Zakay,2000)。值得注意的是, “惊奇”同样具有时间特征,其随着时间的变化也会发生变化,因此,能否从注意转换的视角探索情景知觉,并引入 “惊奇”将可能是情景快速识别研究的新的突破口。
第三,已有关于情景知觉中 “惊奇”的研究,都应用自然情景作为实验材料,以考察注意的空间特征和即时性特征,那么, “惊奇”能否应用于社会文化情景的探索呢?目前,很多研究者已将情景知觉引入社会文化领域 (Birminghama&Kingstone,2009;Riby&Hancock,2008),比如在社会注意的研究中,Birminghama和Kingstone(2009)认为,在呈现复杂的真实社会情景条件下,通过记录人们的眼动特征,可以揭示社会因素对眼睛注视的调节作用;并且,他们将真实社会情景的引入作为社会注意研究的重要方法。因此,如何将 “惊奇”的研究拓展至复杂社会情景知觉领域的探索中,对于理解社会认知、文化认同等可能具有重要的理论意义。
第四,贝叶斯定理是 “惊奇”理论模型及计算的重要前提,但是,基于贝叶斯算法的视觉优势区对注意引导的作用已经受到了研究者的批判,而目前的质疑也主要来自于社会情景知觉 (Henderson, Brockmole,Castelhano,&Mack,2007;Birmingham, Bischof,&Kingstone,2009)。比如,Birmingham等人就曾在研究中直接指出,视觉优势区并不能解释复杂社会情景知觉过程中人们对注视对象的选择偏见。尽管惊奇的算法主要依赖于先验分布和后验分布之间的距离及变化,但是,基于某种数学算法的理论模型是否能够完全模拟情景的信息并确定信息量的大小,是否可以有效预测人们在情景知觉靶刺激觉察过程中判断信念的主观性变化;另外,这种算法对于解释社会情景知觉中的自上而下的语义加工,比如社会认知偏见、刻板印象等是否有效,这些问题仍然需要做进一步的探讨。
白学军,康廷虎,闫国利.(2008).真实情景中刺激物识别的理论模型与研究回顾.心理科学进展,16(5),679-686.
康廷虎,白学军.(2013).靶刺激变换与情景信息属性对真实情景再认的影响.心理科学,36(3),558-565.
康廷虎,白学军.(2008).真实情景知觉中注视控制的研究进展.西北师范大学学报 (社会科学版),45(4),107-111.
康廷虎,张丰.(2013-5-27).用 “惊奇值”计算场景所含信息.中国社会科学报,B07.
刘立秋,陆勇.(2007).Linda问题: “齐当别”抉择模型的解释.心理科学进展,15(5),735-747.
田宏杰,王福兴,徐菲菲,申继亮.(2010).场景知觉中物体加工的背景效应.心理科学进展,18(6),878-886.
王福兴,田宏杰,申继亮.(2009).场景知觉及其研究范式.心理科学进展,17(2),268–277.
Antes,J.R.(1974).The time course of picture viewing.Journal of Experimental Psychology,103,62-70.
Baldi,P.(2002).A computational theory of surprise.In M.Blaum,P. G.Farrell and H.C.A.van Tilborg(eds.),Information,Coding, and Mathematics(pp.1-25).Boston,MA:Kluwer Academic.
Baldi,P.,&Itti,L.(2010).Of bits and wows:A Bayesian theory of surprise with applications to attention.Neural Networks,23, 649-666.
Birmingham,E.,Bischof,W.F.,&Kingstone,A.(2009).Saliency does not account for fixations to eyes within social scenes.Vision Research,49,2992-3000.
Birmingham,E.,&Kingstone,A.(2009).Human social attention. Annals of the New York Academy of Sciences.1156(1), 118-140.
Brockmole,J.R.,&Henderson,J.M.(2008).Prioritizing new objects for eye fixation in real-world scenes:Effects of objectscene consistency.Visual Cognition,16(2),375-390.
Bulthoff,H.H.,Gillner,S.,&Mallot,H.A.,et al.(2005).Pro-ceeding of 9th Tubingen Perception Conference.Knirsch-Verlag,Kirchentellinsfurt,Germany.
Buswell,G.T.(1935).How People Look at Pictures.Chicago:U-niversity Chicago Press.
Castelhano,M.S.,&Heaven,C.(2011).Scene context influences without scene gist:Eye movements guided by spatial associations in visual search.Psychonomic Bulletin & Review,18 (5),890-896.
De Graef,P.,Christiaens,D.,&d'Ydewalle,G.(1990).Perceptual effects of scene context on object identification.Psychological Research,52,317-329.
Einhaeuser,W.,Mundhenk,T.N.,Baldi,P.F.,Koch,C.,&Itti,L. (2007).A bottom-up model of spatial attention predicts human error patterns in rapid scene recognition.Journal of Vision,7(10),1-13.
Evans,M.(1997).Bayesian inference procedures derived via the concept of relative surprise.Communications in Statistics,26 (5),1125-1143.
Fei-Fei,L.,Iyer,A.,Koch,C.,&Perona,P.(2007).What do we perceive in a glance of a real-world scene?.Journal of Vision, 7(1),10,1-29.
Fei-Fei,L.,VanRullen,R.,Koch,C.,&Perona,P.(2002).Rapid natural scene categorization in the near absence of attention. Proceedings of the National Academy of Sciences.99(14), 8378-8383.
Fisk,J.E.(2002).Judgments under uncertainty:Representativeness or potential surprise?.British Journal of Psychology,93,431-449.
Henderson,J.M.,&Hollingworth,A.(1999).High-level scene perception.Annual Review of Psychology,50,243-271.
Henderson,J.M.(2007).Regarding scenes.Current Directions in Psychological Science,16,219-222.
Henderson,J.M.(2003).Human gaze control during real-world scene perception.Trends in Cognitive Sciences,7(11),485-498.
Henderson,J.M.,Brockmole,J.R.,Castelhano,M.S.,&Mack,M. (2007).Visual saliency does not account for eye movements during visual search in real-world scenes.In R.Van Gompel, M.Fischer,W.Murray,&R.Hill(Eds.),Eye movements:A window on mind and brain(pp.537-562).Oxford:Elsevier.
Itti,L.&Baldi,P.(2005).Bayesian surprise attracts human attention.Advances in Neural Information Processing Systems,19, 547-554.
Itti,L.,&Baldi,P.(2009).Bayesian surprise attracts human attention.Vision Research,49(10),1295-1306.
Itti,L.,Koch,C.,&Niebur,E.(1998).A model of saliency-based visual attention for rapid scene analysis,IEEE Transactions on Pattern Analysis and Machine Intelligence,20(11),1254-1259.
Jaynes,E.T.(2003).Probability theory:The logic of science. Cambridge,MA:Cambridge University Press.
Kanwisher,N.G.(1987).Repetition blindness:Type recognition without token individuation.Cognition,27,117-143.
Konkle,T.&Oliva,A.(2012).A real-world size organization of object responses in occipitotemporal cortex.Neuron,74(6), 1114-1124.
Land,M.F.,&Hayhoe,M.(2001).In what ways do eye movements contribute to everyday activities?.Vision Research,41, 3559-3565.
Lejeune,H.(1998).Switching or gating?The attentional challenge in cognitive models of psychological time.Behavioural Processes,44,127-145.
Loftus,G.R.&Mackworth,N.H.(1978).Cognitive determinants of fixation location during picture viewing.Journal of Experimental Psychology:Human Perception&Performance,4,565-572.
Mackworth,N.H.,&Morandi,A.J.(1967).The gaze selects informative details within pictures.Perception&Psychophysics,2 (11),547-552.
Mannan,S.K.,Ruddock,K.H.,&Wooding,D.S.(1995).Automatic control of saccadic eye movements made in visual inspection of briefly presented 2-D images.Spatial Vision,9 (3),363-386.
Mannan,S.K.,Ruddock,K.H,&Wooding,D.S.(1996).The relationship between the locations of spatial features and those of fixations made during visual examination of briefly presented images.Spatial Vision,10(3),165-188
Matsukura,M.,Brockmole,J.R.,&Henderson,J.M.(2009).Overt attentional prioritization of new objects and feature changes during real-world scene viewing.Visual Cognition,17,835-855.
Mundhenk,T.N.,Einhauser,W.,&Itti,L.(2009).Automatic computation of an image′s statistical surprise predicts performance of human observers on a natural image detection task. Vision Research,49,1620-1637.
Rashed,C.A.A.,Bagum,N.,Khan,S.,&Hasan,M.(2011).A model on factory information system(FIS).Review of General Management,14(2),139-150.
Raymond,J.E.,Shapiro,K.L.,&Arnell,K.M.(1992).Temporary suppression of visual processing in an RSVP task:An attentional blink?.Journal of Experimental Psychology:Human Perception and Performance,18(3),849-860.
Reeves,A.,&Sperling,G.(1986).Attention gating in short-termvisual memory.Psychological Review,93(2),180-206.
Rensink,R.A.,O′Regan,J.K.,&Clark,J,J.(1997) To see or not to see:The need for attention to perceive changes in scenes.Psychological Science,8,368-373
Riby,D.M.,&Hancock,P.J.B.(2008).Viewing it differently: Socialscene perception in Williamssyndrome and Autism. Neuropsychologia,46,2855-2860.
Rao,R.P.N.,Zelinsky,G.J.,Hayhoe,M.M.,&Ballard,D.H. (2002).Eye movements in iconic visual search.Vision Research,42,1447-1463.
Shackle,G.L.S.(1969).Decision,order and time in human affairs.Cambridge:Cambridge University Press.
Teigen,K.H.,&Keren,G.(2003).Surprises:Low probabilities or high contrasts?.Cognition,87(2),55-71.
Torralba,A.,Oliva,A.,&Castelhano,M.S.,et al.(2006).Contextual guidance of eye movements and attention in real-world scenes:The role of global features in object search.Psychological Review,113(4),766-786.
Võ,M.L.,&Henderson J.M.(2011).Object-scene inconsistencies do not capture gaze:Evidence from the flash-preview moving-window paradigm. Attention, Perception & Psychophysics,73(6),1742-1753.
Weaver,W.(1948).Probability,rarity,interest and surprise.Scientific Monthly,67(6),390-392.
Zakay,D.(2000).Gating or switching?Gating is a better model of prospective timing(a response to‘switching or gating?’ by Lejeune).Behavioural Processes,52,63-69.
The Definition of Information in the Scene Perception:From Subjective Expectancy to Surprise Arithmetic
Kang Tinghu,Zhang Feng
(School of Psychology,Northwest Normal University,Lanzhou 730070)
It is a key issue on how to process scene information in the high-level scene perception fields.However, the information definition varies from different researchers.During the past eight decades,the development of scene information definition experienced several approaches as researches′subjective affirmation,viewers′evaluation and computing simulations based on scene physics characteristic.Itti and Baldi(2005,2009)compared the different distribution between the prior probability and posterior probability,and developed a model of surprise. This paper introduced the application of″surprise″to the scene perception field,and analyzed the development of the relevant research progress.Finally,it noted that the extension of surprise computation,the definition of surprise,attention switching during scene perception and application of surprise in complex social scenes that need to be further explored.
scene perception,information,subjective expectancy,surprise.
B842.2
2014-08-18
国家社会科学基金项目 (13CSH074)。
康廷虎,E-mail:kangyan313@126.com。