基于认知分层的图像复杂度研究
2016-12-15薛澄岐沈张帆王海燕周小舟陈晓皎
张 晶 薛澄岐 沈张帆 王海燕 周 蕾 周小舟 陈晓皎
(东南大学机械工程学院, 南京 211189)
基于认知分层的图像复杂度研究
张 晶 薛澄岐 沈张帆 王海燕 周 蕾 周小舟 陈晓皎
(东南大学机械工程学院, 南京 211189)
为揭示图像属性与图像复杂度之间的编码规律,从认知分层角度对图像复杂度进行了研究.基于由浅入深的认知加工次序,将图像复杂度分为呈现复杂度(CP)、语义复杂度(CS)和记忆复杂度(CM),分别对应图像的视觉属性、语义属性和解码属性,并建立复杂度分层映射模型.以地铁交通图为例,提取图像中3种复杂度后按低、中、高水平重新编码,并结合眼动追踪技术进行了视觉搜索实验.实验结果表明:高记忆复杂度编码的反应时最短,对认知绩效的影响最大;高语义复杂度编码易造成视觉干扰,需结合高记忆复杂度来提高认知绩效;高呈现复杂度编码能有效降低被试的认知负荷,提高搜索效率.实验结果证实了图像复杂度分层的合理性,为信息化图像的复杂度设计提供了参考.
图像复杂度;认知分层;人机交互;图像属性;映射方法
随着近年来多媒体与网络技术的迅速发展,复杂度在信息理论、计算机科学和心理学等许多研究领域已成为一个备受关注的研究热点.图像复杂度不仅是对图像中内在价值信息的复杂程度的描述,也包含了呈现形式和内容数量的复杂程度.在人机交互过程中,用户对于信息的感知分层是大脑信息解码的一个重要引导阶段,通过对图像复杂度的属性分层和关联构建,可以有效帮助用户在认知过程中快速高效地获取图像信息,并进行准确地预测和判断.图像复杂度与人的认知效率有密切的关系,图像复杂度编码的混乱容易造成用户在信息认知时的混乱感,从而导致用户认知负荷增加和绩效低劣等问题,同时在很大程度上影响着人的阅读速度和认知效率.
目前,从信息分类等角度,已经建立了基于图像视觉复杂度的算法和模型,例如Perimeter 检测和Canny检测等.Rigau等[1]基于信息理论对图像进行分割,根据计算像素点的分布关联性定义图像复杂度.Mario等[2]基于模糊评价法根据图像边缘百分数把图像分为微小复杂、中度复杂和非常复杂3个程度.在心理学领域,Silva等[3]提出了基于注意力的认知复杂性定义,认为注意力行为可以有效评估摄影图像的复杂性.Huo等[4-5]基于视觉工作记忆提出一种将照片图像目标对象和实际显著对象的错配比作为复杂度的衡量方法.Corchs等[6]提出了一种基于空间、频率和色彩3种属性的图像复杂度感知评估方法.Chen等[7]基于神经网络技术把图像复杂度初步分为图像纹理、边缘信息和重要区域.综上所述,目前图像复杂度的研究主要集中在计算机领域,通常采用信息论、组成论等计算机分类方法表征图像复杂性,研究对象以摄影、绘画和图形图像为主,包含大量数据的可视化信息图像尚未涉及,且鲜有学者从认知角度对图像属性的复杂度展开研究.
本文基于前人提出的图像复杂度度量方法和主观实验测评方法,发现图像复杂度是伴随着人在认知过程中不同阶段的认知行为出现的,对基于图像属性和认知过程的图像复杂度进行分类,建立了图像属性到复杂度的映射关系,并采用眼动实验研究信息图像复杂度的分层感知行为.
1 基于认知分层的图像复杂度映射
本文中的图像复杂度与计算机领域的界定不同,只研究认知加工角度的图像视觉复杂度问题.图像属性是描述一幅图像的基本性质.Al-Khatib等[8]将图像属性分为3类:文件属性、视觉属性和语义属性.其中,图像复杂度的自身内容属于视觉属性和语义属性.基于前人对图像属性的分类,本文从认知过程中图像各个属性在认知处理时的加工次序,建立对应的复杂度映射.
1.1 基于认知负荷的复杂度
认知的理论基础主要是资源有限理论和图式理论,分别对应图像属性的内因和外因.从认知角度分析,信息加工过程中,随着时间变化所获取信息的动态性和空间结构连通的不确定性造成了认知的复杂性,用户的认知阶段包含刺激—察觉—识别—理解、预测、判断—反应5个阶段[9].其中,刺激—察觉—识别属于用户对图像的浅层次认知,识别—理解、预测、判断—反应阶段属于用户对图像信息的深层次获取阶段.因此,结合图像认知过程的内因和外因,可以假设图像复杂度是伴随着人在认知过程中不同阶段的认知行为出现的,可以分为图像外在复杂度和内在复杂度.图像的外在复杂度主要呈现图像的基本信息,内在复杂度让用户去理解、提取图像的内在信息,如图1所示.
图1 用户认知过程的图像复杂度示意图
1.2 认知层面的复杂度分类
认知层面的信息加工系统一般包含4个重要的组成部分:知觉、思维、注意和记忆.在知觉层面,Lin等[10]和Harper等[11]证实了图像的布局、结构及背景色对比度都对图像视觉复杂度认知有一定影响.在记忆层面,前人的研究证明用户的熟悉度也是影响认知层面图像复杂度的因素,即图像信息与用户记忆信息的相关性、符合程度[12-13].因此,将内、外在复杂度进一步分为呈现复杂度 (CP)、语义复杂度 (CS)和记忆复杂度 (CM),如图2所示.
图2 认知层面的图像复杂度分类
1.3 图像属性到复杂度的映射
从认知规律角度,CP主要存在于用户对图像的浅层次认知阶段,是影响认知的外部因素,对应图像信息中的视觉属性,即颜色、纹理、形状、位置等直观信息;CS对应图像的语义属性,指需要用户通过理解、预测和判断来获取的信息,即主题意义、事件、时空关系等信息内容;CM对应图像的解码属性,与用户自身的长时记忆和心理资源容度相关,需要激活记忆对内外信息匹配性进行熟悉度、关联度及相似度的判断.图像复杂度与图像属性的映射模型如图3所示.
2 图像复杂度认知分层实验
2.1 实验材料
实验采用辨别任务范式,以生活中常见的地铁交通信息图作为实验对象,重新设计后从3种复杂度分类中各选取了1~2种典型属性作为实验刺激:色彩属性、形状属性代表CP;主题属性、场景属性代表CS;熟悉度属性代表CM.分别设置由低、中、高3个复杂等级作为检测刺激,如图4所示.为了降低视觉搜索的干扰,所有刺激均呈现在屏幕中央的矩形范围内,视角为距视线水平±15°内,垂直±10°内,视距550~600 mm.为避免不同图像中同类任务之间差异太大,任务设计由专家评审得出,控制各图像中所有元素的大小、颜色、结构及线路数量的一致性.
图3 图像复杂度与图像属性的映射模型
图4 3种复杂度的高中低层级编码
2.2 实验设计
实验为3×3×3被试内设计.因素1为呈现复杂度,色彩和形状编码3个水平分别为高、中、低;因素2为语义复杂度,主题和场景总数分别为2,4,6个;因素3为记忆复杂度,分为熟悉、一般熟悉和完全陌生,所有图像不会重复出现.实验分为2组,实验1图片采用9张被试完全陌生的地铁信息图,每幅图有4个任务,共计36个实验项目;实验2图片采用4张新图以及2张实验1的图,记忆复杂度分为熟悉、一般熟悉和完全陌生,结合呈现复杂度和语义复杂度的高、低2个水平,4个任务,共计24个实验项目.实验包括1个浏览任务和3个从简单到困难的搜索任务:搜索某一站点、搜索某2条地铁线的换乘信息、查找2个站点并计算换乘数.图5为简单搜索任务“请找到石门站”和随后出现的高呈现高语义低熟悉复杂度组合编码的搜索界面.
2.3 实验设备与程序
实验采用Tobii T120眼动仪呈现刺激材料并记录被试的眼动行为,目标刺激呈现在21.5英寸(54.61 cm)显示器中央,屏幕分辨率为1 920×1 080 像素,亮度为92 cd/m2,采样频率为300 Hz.实验室内照明条件正常(40 W日光灯);被试与屏幕中心的距离为550~600 mm;实验在东南大学人机交互实验室进行, 被试为20名在校研究生,10名男生和10名女生,年龄在22~28岁,视力或矫正视力正常,无色盲或色弱.实验前,要求被试在登记表上填写相关信息,包括姓名、性别、年龄、专业、视力等,并使其熟悉实验规则,随后指导被试熟悉实验规则并进行眼校准.实验流程如图6所示,在完成搜索任务时被试做出按键反馈,并告知主试答案,主试则坐在一旁记录答案是否正确.每组实验完成后休息1 min,每人完成全部实验约0.2 h.
图5 高呈现高语义低熟悉复杂度组合编码(CP3CS3CM3)的搜索界面
图6 实验流程图
3 实验数据分析及讨论
3.1 不同图像复杂度编码的正确率和反应时
对正确率和反应时数据进行统计分析,排除极端数据,简单搜索任务和稍复杂搜索任务的正确率约99.84%,出错率集中在最复杂搜索任务中,被试在最复杂搜索任务中识别3种复杂度编码的正确率和反应时如图7所示.
对正确率进行多因素方差分析(F表示显著性差异水平,P表示检验水平)表明,3类复杂度编码在低复杂度时的主效应(F=6.503,P=0.035<0.05)和高复杂度时的主效应(F=7.549,P=0.041<0.05)显著,中复杂度编码时的主效应(F=6.453,P=0.216>0.05)不显著.对反应时的方差分析表明,低复杂度编码时图标特征的主效应(F=11.335,P=0.032<0.05)和高复杂度编码时图标特征的主效应(F=12.431,P=0.031<0.05)显著,中复杂度的主效应(F=9.371,P=0.679>0.05)不显著.可见,当3种复杂度为低层级或高层级时,呈现复杂度、语义复杂度和记忆复杂度对被试的认知速度都有显著性影响;当复杂度层级为中等时,没有显著影响.
(a) 正确率
(b) 反应时
由图7可看出,当呈现复杂度和记忆复杂度单一存在时,随着复杂度层级的增加,图像属性越详细,被试认知负荷减小,正确率上升,反应时降低;而语义复杂度的正确率降低,说明在图像的主题属性和场景属性中的干扰项更多.当3类复杂度采用低层级编码时,语义编码的正确率明显高于记忆编码和呈现编码,记忆编码的反应时间最短,呈现编码的反应时间最长;当3类复杂度采用高层级编码时,记忆编码的正确率最高,呈现编码的正确率稍高于语义编码,记忆编码的反应时间最短,语义编码的反应时间最长.因此,在实际的图像复杂度编码过程中,当图像自身语义属性不多时,从图像的语义复杂度属性上进行设计的搜索绩效更好,当图像自身属性数量较多时,采用已有的或者用户熟悉的相似元素进行设计可以提高认知绩效.
3.2 不同图像复杂度的视觉搜索效率分析
被试搜索目标过程中注视范围反映了图像的易理解性,视网膜透明图(gaze opacity)的可见区域越小,说明只需输入很少的信息量就可以完成任务,认知效率高;相反,则认知效率低.本次实验中根据视网膜透明图中视觉清晰的地铁站点数N来划分视觉范围广度,如图8所示.
图8 实验结果中视网膜透明图的清晰广度划分标准
根据图8的标准进行划分后,所有实验图片的平均总访问时间和视觉清晰广度如表1和图9所示.实验图片命名采用1,2,3对应高、中、低3个等级,例如P1S2M1代表低呈现中语义低记忆编码组合.分析表明,被试的视野清晰范围广且访问时间短的搜索界面主要集中在简单搜索任务中的中呈现和中、高熟悉记忆编码图像,说明呈现和记忆复杂度越高的图像绩效较优;被试的视野清晰范围窄且访问时间长的搜索界面主要集中在低呈现高语义低熟悉记忆编码的图像,说明随着图像语义属性的增加,用户的搜索效率降低,采用较低呈现和记忆复杂度编码的绩效较差.
表1 各实验项目平均总访问时间和视觉清晰广度
图9 实验中各搜索界面的总访问时间和视觉清晰广度关系
3.3 讨论
本研究从认知分层的角度,采用生活中常见的地铁交通信息图进行实验,结果说明在组合编码搜索任务中,随着呈现复杂度和记忆复杂度的增加,正确率上升,反应时下降,采用熟悉编码时的反应时下降更快;当组合复杂度为低层级或高层级时,呈现复杂度、语义复杂度和记忆复杂度都有显著性影响,中等复杂度层级没有显著影响.
通过分析3类复杂度的组合关系发现,呈现复杂度对应认知过程中的早期加工阶段,低呈现复杂度组合编码的正确率最低,结合中呈现、高记忆编码后认知效率显著提高,证实了在认知加工过程中,人对图像的视觉属性和语义属性的加工次序是有先后的.其中,高记忆复杂度对图像的搜索绩效影响最大,语义复杂度越高对视觉干扰最大,语义复杂度的认知加工难度和信息解码层级均高于呈现复杂度.由此,实验论证了本文对图像复杂度分层研究的合理性,以及图像属性的映射模型的有效性,为进一步研究图像复杂度的认知提供了基础.
4 结语
本文基于认知分层提出了基于图像属性和认知过程的图像复杂度分类,将图像复杂度分为呈现复杂度、注意复杂度和记忆复杂度,并建立了图像属性到复杂度的映射关系.通过眼动跟踪实验研究3种复杂度的内在交互关系并验证了图像属性和图像复杂度的映射关系.同时,实验结果显示,呈现复杂度和记忆复杂度对图像复杂度的认知影响最大,高语义复杂度编码的干扰性最大,实际设计时可以通过提高呈现复杂度和记忆复杂度来提升认知效率.
References)
[1]Rigau J, Feixas M, Sbert M. An information-theoretic framework for image complexity [C]//ComputationalAesthetics2005:EurographicsWorkshoponComputationalAestheticsinGraphics,VisualizationandImaging. Girona, Spain, 2005: 177-184.
[2]Mario I, Chacon M, Alma D, et al. Image complexity measure: A human criterion free approach[C]//IEEEFuzzyInformationProcessingSociety. Ann Arbor, Michigan, USA, 2005: 241-246.
[3]Silva M P D, Courboulay V, Estraillier P. Image complexity measure based on visual attention[C]//IEEEImageProcessing. Brussels, Belgium, 2011: 3281-3284.
[4]Huo J. Image complexity and visual working memory capacity[J].EmergingTrendsandAdvancedTechnologiesforComputationalIntelligence, 2016, 647: 301-314. DOI:10.1007/978-3-319-33353-3-16.
[5]Huo J. An image complexity measurement algorithm with visual memory capacity and an EEG study[C]//SAIComputingConference. London, UK,2016: 264-268. DOI:10.1109/sai.2016.7555993.
[6]Corchs S E, Ciocca G, Bricolo E, et al. Predicting complexity perception of real world images[J].PLoSOne, 2016, 11(6): e0157986. DOI:10.1371/journal.pone.0157986.
[7]Chen Y Q, Duan J, Zhu Y, et al. Research on the image complexity based on neural network[C]// 2015InternationalConferenceonMachineLearningandCybernetics. Hangzhou, China, 2015:285-300. DOI:10.1109/icmlc.2015.7340938.
[8]Al-Khatib W, Day Y F, Ghafoor A, et al. Semantic modeling and knowledge representation in multimedia databases[J].IEEETransactionsonKnowledgeandDataEngineering, 1999, 11(1):64-80. DOI:10.1109/69.755616.
[9]李晶, 薛澄岐, 王海燕, 等. 均衡时间压力的人机界面信息编码[J]. 计算机辅助设计与图形学学报, 2013, 25(7): 1022-1028. Li Jing, Xue Chengqi, Wang Haiyan, et al. Encoding information of human-computer interface for equilibrium of time pressure[J].JournalofComputer-AidedDesign&ComputerGraphics, 2013, 25(7):1022-1028.(in Chinese)
[10]Lin S W, Lo Y S, Huang T K. Visual complexity and figure-background color contrast of E-commerce websites: Effects on consumers’ emotional responses[C]//49thInternationalConferenceonSystemSciences. Hawaii,USA, 2016: 3594-3603. DOI:10.1109/hicss.2016.449.
[11]Harper S, Jay C, Michailidou E, et al. Analysing the visual complexity of web pages using document structure[J].Behaviour&InformationTechnology, 2012, 32(5): 491-502. DOI:10.1080/0144929x.2012.726647.
[12]Reder L M, Liu X L, Keinath A, et al. Building knowledge requires bricks, not sand: The critical role of familiar constituents in learning[J].PsychonomicBulletin&Review, 2016, 23(1): 271-277. DOI:10.3758/s13423-015-0889-1.
[13]Dewitt M R, Knight J B, Hicks J L, et al. The effects of prior knowledge on the encoding of episodic contextual details[J].PsychonomicBulletin&Review, 2012, 19(2):251-257. DOI:10.3758/s13423-011-0196-4.
Study on image complexity based on cognitive layering method
Zhang JingXue ChengqiShen ZhangfanWang HaiyanZhou LeiZhou XiaozhouChen Xiaojiao
(School of Mechanical Engineering, Southeast University, Nanjing 211189, China)
To investigate the encoding rules between image attributes and image complexity, the image complexity was studied from the perspective of the cognitive layering theory. Based on the gradual order of the cognitive process, the image complexity was divided into CP (complexity of presentation), CS(complexity of semantics)and CM(complexity of memory), mapping to the visual attributes, semantic attributes and decoding attributes. Then, a layering mapping model of image complexities was presented. Taking the metro map image as example, three complexities in the image were extracted and recoded into three levels as low, medium, high and then a visual search experiment was conducted by the eye-tracking technique. Experimental results show that the three complexities have many obvious corresponding features in layering encoding. The reaction time of high level CM encoding is the shortest, suggesting that the CM has the greatest effect on the cognitive efficiency. According to the large visual noise in high level CS encoding, the CS should be encoded with high level CM to improve the cognitive efficiency. The high level CP encoding can decrease subjects’ cognitive load, which favors the improvement of search efficiency. Experimental results confirm the rationality of layering image complexity, thus providing a reference for the complexity design of information images.
image complexity; cognitive layering;human computer interaction; image attributes; mapping method
10.3969/j.issn.1001-0505.2016.06.007
2016-02-17. 作者简介: 张晶(1988—),女,博士生;薛澄岐(联系人),男,博士,教授,博士生导师, ipd-xcq@seu.edu.cn.
国家自然科学基金资助项目(71471037, 71271053)、江苏省普通高校研究生科研创新计划资助项目(KYLX15-0062).
张晶,薛澄岐,沈张帆,等.基于认知分层的图像复杂度研究[J].东南大学学报(自然科学版),2016,46(6):1149-1154.
10.3969/j.issn.1001-0505.2016.06.007.
TP-391
A
1001-0505(2016)06-1149-06