APP下载

心理认知计算的研究现状及发展趋势

2018-02-08王志良郑思仪王先梅王巍

中国学术期刊文摘 2018年18期
关键词:状态心理情感

王志良 郑思仪 王先梅 王巍

1 引言

心理理论(theory of mind)是Premack和Woodruff在1978年研究黑猩猩的认知能力时首先提出的一个概念,是指了解自己和他人的愿望、信念、意图等心理状态并据此推断他人行为的能力。在社会化过程中,心理理论能够预测他人情感和认知状态、操作与控制日常的社会环境,有助于我们与他人合作、竞争、开展良好的人际交往,为人的生活和发展所必需。

人机交互技术(human computer interaction,HCI)是研究人、计算机以及它们之间相互影响的技术,是人与计算机之间传递交换信息的媒介和对话接口。以人为中心、自然高效将是新一代人机交互的主要目标。当前人机交互技术大部分仅局限于被动地接受用户的指令和控制,不能主动地理解用户的目的或意图,无法推断用户的心理状态,缺乏感知和引导的能力。就像Matthew Turk在文献中提到,计算机只能一直等待用户的输入,尽管用户当前已经离开或者中途被打断去做其他事。当用户对某项任务已经十分厌烦甚至接近崩溃边缘时,计算机都无法知晓,仍在进行不停的运算。因此,要想使计算机走进人的世界,就必须赋予计算机拥有像人一样的心理认知能力,能够根据人的行为举止对其心理状态进行合理推断,理解人的行为和意图,从而保证高效、自然、和谐的人机交互。

2 心理认知计算的相关概念

2.1 心理状态

现代心理学研究中,把心理现象划分为心理过程、个性心理特征和心理状态。心理状态是指心理活动在一定时间内的完整特征,是心理活动的基本形式之一。如注意、疲劳、紧张、轻松、忧伤、喜悦等。它兼有心理过程和个性心理特征的特点,既有暂时性,又具有稳定性,是心理过程和个性心理特征联结的中介环节。心理状态的表现是多方面的,它可以表现在知、情、意的任何一个方面。研究、考察人的心理状态,不仅要描述其表现形态,而且要把握其具体成因,这样才有应用价值。

2.2 心理状态理解

心理状态理解(mind-reading),也称心理状态分析或精神状态分析,它源自于心理学中的一个术语,是指一种能推断出他人心理状态或精神状态的能力。在日常生活中,心理状态理解可以认为是一种“看似能辨别或有能力辨别他人的想法”或“凭直觉去猜测或了解他人的想法”的行为。Baron-Cohen和Realo等从科学的角度阐述了心理状态理解这一概念:即一个人能够从非语言手段及可观察到的行为动作中推断出他人的心理状态。

心理状态理解是人际交往中人的一项基本心智活动,其目的是通过观察交往对方的行为举止推测其心理状态,理解其交互的意图,并以此指导、调整自己的行动以及预测对方可能采取的决策。心理状态理解能够让我们从交流中判断对方的意图,在谈话中了解对方的兴趣,通过领会对方的心理状态来改变其想法和行动。人类的心理状态理解能力从童年时期就开始出现并发展,18~30个月的婴儿所能表现出的心理状态包括情感、愿望、信任、思考、梦想和伪装。5岁的时候,很多儿童就可以感知并理解他人的心理状态,并用其去推测这些人的行为动作。虽然在日常生活中,心理状态理解似给人以微妙和难以捉摸的感觉,但它是人类实现社会功能的基础,是体现人类社会智能的重要组成部分。

心理状态理解机制主要涉及到两个部分:社会感知部分和社会认知部分。它们产生于人脑的不同区域,发展于不同的年龄阶段,也会因不同的种族人群产生差异。社会感知部分主要是通过即时观察到的可利用信息来判断当时的心理状态。例如,可以根据一个人的面部表情,或加之语音语调等因素,判断他此刻正处于“困惑”的心理状态,这属于对外部刺激自下而上的(bottom-up)处理方法。社会认知部分主要是对人的心理状态的合理推测,包括对目的的解释和行为的预测。它涉及到更多的认知能力,即对抽象模型自上而下(top-down)的处理方法,描述的是人的行为与其相对应的心理状态之间的映射关系。

当然,面向心理状态理解的社会感知和社会认知本质上都属于不确定性问题,所以不可能百分之百地确定人的心理状态。显然,心理状态不可能被直接观察到,而是要通过观察人的外在行为、环境因素、上下文场景等前后信息进行推测。从人机交互角度来讲,心理状态理解就是让计算机对用户的心理状态具有认知能力,它的输入应该为一系列观察值,如视觉信号、听觉信号、触觉刺激、环境因素等,输出则是一系列相关的心理状态。传统的表情识别和基本情感的识别,只是让计算机具有相对简单的模式识别和分类的能力,但不具备推理和判断的能力。而心理状态理解在识别和分类的基础上,综合人的情感及其它非语言细节因素,对人的意图、兴趣、注意和思维等进行了推理和判断,它对获取的信息进行重新编码、存储、提取,按照一定的规则进行重新组合,再根据不同组合所代表的意义和持续的时间,推断出不同的心理状态。

2.3 认知计算

“认知”源自于心理学的概念,《辞海》将“认知”解释为人类认识客观事物、获得知识的活动,包括知觉、记忆、学习、言语、思维和问题解决等过程,是人对外界信息进行积极加工的过程。认知的构成信息其实是“谁、什么、哪里、何时、怎样”这几个问题的答案。“计算”是对所有类型信息处理的统称。根据 Smith的分析,目前对“计算”至少存在 6种不尽相同的解释,而在认知科学中主要表现为3种:形式符号操作、图灵意义上的可计算和信息加工过程。

认知计算源自于模拟人脑的计算机系统的人工智能。20世纪 90年代后,研究人员开始用“认知计算”一词,以表明该学科用于教计算机像人脑一样思考,而不只是开发一种人工系统。传统的计算技术是定量的,着重于精度和序列等级,而认知计算则试图解决生物系统中的不精确、不确定性问题。

认知计算是一种自上而下的、全局性的统一理论研究,旨在解释观察到的认知现象(思维),符合已知的自下而上的神经生物学事实(脑),可以进行计算,也可以用数学原理解释。它寻求一种符合已知的有着脑神经生物学基础的计算机科学类的软、硬件元件,并用于处理感知、记忆、语言、智力和意识等心智过程。哈佛大学的 Valiant认为,与其他方法相比,认知计算主要有以下3个特点:1)所有存储、学习或记忆都是用先前获取的信息通过承载网络执行的简单算法过程;2)系统把持续学习作为后台活动;3)在更加复杂的认知处理中,如分析复杂情景或推理时,内部计算拥有一个重要的时间域和需要保持的状态信息。在人机交互领域,认知计算与人工智能所关注的重点存在着一些差别。人工智能重在研制一种能够实现人类认知功能的人工机器,而认知计算则重在研究可以模拟人类认知功能的计算原理和方法。

3 心理认知计算的研究现状

心理认知是非常复杂的过程,通常包括感觉、知觉、学习、记忆、注意、思维和语言等许多心理过程。1978年,Premack和Woodruff观察成年黑猩猩推测人物心理状态的实验,其结果揭示黑猩猩具有简单的心理推测能力,并由此提出“心理理论”的概念,激发大家在研究心理认知方面兴趣。此后这方面的相关理论、方法和实验结果就不断在心理学文献上出现。以下从3个方面对近年来国内外心理认知计算的研究现状进行总结。

3.1 心理认知的神经生物学研究

神经系统是人体重要系统之一,包括中枢神经系统和周围神经系统,其中脑和脊髓合称中枢神经系统。脑本身也是一个复杂的系统,大量的神经生物学、实验心理学和功能成像实验给出脑活动的许多知识,表明脑是心理活动的物质基础。心理和脑构成统一的系统,在心脑统一体中,心理并不是实体,而是脑的功能。

Luria等通过对脑损伤病人的临床观察和康复训练得到如下认识:脑一定部位的损伤会引起一定的心理功能障碍,但脑的某一种功能并非仅和脑的某一部位相联系,在脑的各个部分之间存在紧密联系。Zeki等通过大量神经解剖学和神经心理学的实验表明,人脑由大量的脑功能子系统组成,部分脑功能子系统可以相对独立地进行信息加工。

各种无损伤脑成像技术的迅速发展提供脑活动的许多实验资料。实验表明,脑内存在许多功能分离而又相互协同工作的脑区,人在进行不同的心理活动时,脑内有不同的脑区被激活。Gallagher等利用功能磁共振成像(functional magnetic resonance imaging,fMRI)技术揭开心理认知的神经生物学基础。

事件相关电位(event-related potential,ERP)是脑波的一种,经由将记录到脑电图(electroencephalography,EEG)的脑部原始生理信号进行再分析处理而得,与主动心理活动伴随产生的神经电信号通常有P300、N400和N200波等。其中,P300波已被公认为研究人的认知活动和判断人的认知能力的有用指标。Woldorff等采用听觉刺激进行的一项研究发现,在刺激呈现大约20~50 ms后,针对目标刺激的事件相关电位明显大于针对非目标刺激的事件相关电位。

Raichle介绍了认知神经科学家用来研究认知过程的正电子发射层析摄影扫描技术(positron emission tomography,PET),这是一种基于减法逻辑的方法,可观察由纯实验条件所引起的脑兴奋区域和兴奋水平。PET曾多次被用来研究情景记忆(episodic memory),当被试者提取情景记忆时,右前额叶显示较其他记忆提取时更高的兴奋水平。

Anderson等运用磁共振成像(MRI)和脑磁图(magnetoencephalograghy,MEG)技术研究视觉皮质V5区的工作特点。他们采用MEG技术研究发现V5区对运动—对比模式(motion-contrast pattern)反应更为强烈而对颜色却没有什么反应。根据这一结果并结合以前通过PET和 fMRI获得的证据作出结论:V5区的主要功能是把运动目标从其背景中迅速检测出来。此外,他们还发现V5区是在V1区(初级视觉皮层)对运动-对比模式兴奋大约20 ms后开始兴奋。

LeDoux和Adolphs等揭示脑的部分区域与情感的高级处理阶段有关。Purves等研究发现,与处理情感有关的脑区域是和决定下一步行为的脑组织结构相互连接,相互影响的。这些发现强调情绪与认知的相互影响,并引导人们对脑有新的认识:人脑不再是一个单纯的认知信息处理系统,而是一个情绪与认知相互综合的系统。因此,一个准确的用户模型建立需要同时综合情绪和认知过程,这样才能驱动用户的推理和行为决策。

这些心理认知的神经生物学研究成果对我们了解高级社会认知能力是如何在人脑中形成以及它在日常生活中所发挥的作用非常重要。同时,这些研究成果也是建立心理认知计算模型的理论基础。

3.2 心理情感状态的相关研究

心理状态主要包括情感状态(如高兴、悲伤、愤怒、恐惧、惊奇、厌恶等)、认知状态(如兴趣、思考、赞同、否定、不确定等)和意志状态(如克制、犹豫、镇定等)3部分,它们相互作用、相互影响,组成复杂的心理感受,共同影响着我们的决策和行为。

对情感状态的识别与分析,最早是受到美国麻省理工学院 Picard教授提出的“情感计算”(affective computing)的启发。1997年,Picard教授出版了一本专著《Affective Computing》,认为情感计算主要分为3个方面,即让机器发自内心地拥有情感驱动力、让机器表现得似乎拥有情感以及让机器能够识别理解人类的情感表现。20多年以来,在美国、日本、英国、德国、荷兰、法国、印度和新加坡等国家都有专门进行情感状态识别的研究小组。美国MIT媒体实验室已经开发出数种用于测量心理信号的传感器,如用于测量皮肤电信号的皮肤电反应传感器、血流脉冲传感器、肌动电流图传感器、呼吸传感器等。压力感应鼠标和自动面部表情分析也作为非语音手段,对人类的情感状态进行识别。除此之外,还有一些基于用户情感状态做出反应的实用性产品,例如,一系列关于情感学习(affective learning)的产品,陪伴辅导孩子的学习伙伴(affective companion),能检测用户心理受挫并调节用户情绪的智能体,以及教育性游戏(educational game),远程医疗,社会服务机器人,康复治疗技术和能与用户交流对话的智能体。

在国内,清华大学、中国科学院计算技术研究所和自动化研究所、北京航空航天大学、北京理工大学、北京科技大学等也分别从不同方面对情感状态进行了深入的研究。

中国科学院自动化研究所的黄力行等认为语音和面部肌肉动作是用于情感识别的2个最重要的模态。在双模态情感识别中,给不同的特征赋予不同的权值有利于充分利用双模态信息。他们提出一种基于Boosting算法的双模态信息融合方法,能够自适应地调整语音和人脸动作特征参数的权重,从而达到较好的识别效果,其基本情感状态的识别率达84%以上。

哈尔滨工业大学的金辉和中国科学院的高文提出一种人脸面部混合表情识别系统。首先把脸部成各个表情特征区域,分别提取其运动特征,并按时序组成特征序列;然后分析不同特征区域所包含的不同表情信息的含义和表情的含量;最后通过概率融合来理解、识别任意时序长度的、复杂的混合表情图像序列。其各种表情的总体识别率达到96.9%。

北京航空航天大学的薛雨丽、毛峡等使用自主开发的实时人脸表情识别系统,从BHU表情数据库的所有单一表情视频中自动检测出人脸并进行筛选,作为表情分类器的训练样本。采用积分图像和基于AdaBoost方法对包括打哈欠、好奇、厌恶等9种表情进行识别。

哈尔滨工业大学的朱永崇在分析传统语音识别方法对于长时特征和短时特征利用程度方面的优缺点之后,提出可以有效结合长时和短时特征的多子模式加权投票模型,利用HMM作为短时特征训练识别工具,KNN作为长时特征训练识别工具,再用隶属矢量和权值系数对多个子模式的识别结果进行融合,对非特定人的愤怒、高兴、平静、悲伤4种情感获得61.06%的平均识别率。

清华大学的魏冉等对处于不同表情中人脸特征差异进行分析。针对面部表情改变时,变化最大的 3个部分——嘴、额头和眉毛在形状、纹理和距离上的差异,提出用模板匹配法提取嘴部特征,用边缘检测法提取额头特征,用外轮廓检测法提取眉毛特征,并综合这三者的输出得到最终识别结果的多特征面部表情识别系统,平均识别率为85.7%。

北京理工大学的续爽等在图嵌入的框架下提出一种根据表情相似度构建邻接权重图的方法来学习人脸表情子空间。数据集中人脸图像的表情以半监督学习的方式估计,人脸图像之间的表情相似度由模糊隶属度矢量之间的内积度量,与个体、光照、姿态等人脸差异无关。在得到的子空间内,相似表情的人脸图像位于流形上的邻近位置,表情数据在子空间内按语义分布,很好地揭示表情模糊、演变的特性。北京科技大学的王巍等以人工心理学的理论和方法为基础,对人的心理活动进行人工机器模拟,提出人机交互中的个性化情感模型。

总的来看,目前国内外情感状态研究最多的仍是集中在对 6种基本情感(高兴、悲伤、愤怒、恐惧、惊奇、厌恶)的识别,及少量非基本情感状态(如困惑、烦躁、悔恨等)的识别,却几乎没有涉及到对心理状态中认知状态(如赞同、否定、注意、思考等)的研究,而单纯识别情感状态在人机交互中对理解用户意图和推断用户心理认知状态是有一定局限性的。

3.3 心理认知状态的相关研究

与情感状态相比,人机交互中的心理认知状态、意志状态乃至整个复杂心理状态的研究还非常少。特别是在国内,心理状态的机器理解主要集中在情感识别方面,很少涉及到心理认知方面。

根据测量手段不同,可将心理认知状态的研究分为基于生理信号、语音信号、视觉信号(包括面部表情和行为姿态)及多通道信息融合等多种方法。其中,生理信号主要是通过采集人的皮质醇水平、心率、血压、呼吸、皮肤电活动、掌汗、瞳孔直径、事件相关电位等,并采用波形分析、频谱分解、统计特征计算等对生理信号进行描述,最终通过统计产品与服务解决方案(statistical product and service solutions,SPSS)、近邻、距离、多层感知机(multi-layer perception,MLP)、神经网络等方法进行分类。语音信号主要是根据声调在时间构造、振幅构造、基频构造和共振峰构造等特征方面的特点和分布规律进行测算和分析,并以此为基础或模板,推断说话人所隐含的心理状态。面部表情主要是通过眼部、面部和口部肌肉的变化(如五官的几何特征、局部纹理特征等),建立面部表情与心理认知状态之间的映射关系。行为姿态主要是根据面部以外的其他身体行为(如肩部动作、胳膊运动、手势等肢体语言)对心理认知状态进行分析。

Chen等在对6种基本情感状态进行研究的基础上,对包括兴趣(interest)和迷惑(puzzlement)等在内的 4种心理认知状态进行了初步研究。

Baron-Cohen提出心理状态理解的神经认知机制(neurocognitive mechanism),包括一系列能够对其他个体的心理状态进行归因的模块。他提出的视线方向检测器(eye direction detector,EDD)可以检测出眼睛的位置,并且通过虹膜相对于巩膜的位置估计视线方向,借此对个体的心理状态进行归因。

Liang Yulan等通过摄像头采集驾驶员的眼动信息来描述驾驶员的认知分心,并用贝叶斯网络、SVM等方法进行分类。实验结果表明,眼动信息中的眨眼频率与注视指标很适合用于评价驾驶分心。

Kutila等通过头部姿态和眼睛的注视方向等信息来分析驾驶员的视觉分心,将眼动信息与车道保持信息相结合来分析驾驶员的认知分心,最后用SVM对数据进行分类。实验结果表明,该方法能够检测出80%的视觉分心与 68%~86%的认知分心。

Ioannis等将眼动信息(眼睛闭合时间比、眨眼频率等)与EEG、EOG等生理信号融合起来,采用模糊专家系统对驾驶员进行疲劳判断,取得较好效果。

Qiang Ji等综合考虑面部表情、眼部运动、头部运动、视线变化等因素,在分别考察了单个信息的分类效果后,采用贝叶斯网络对驾驶员的疲劳程度进行判别。

美国麻省理工学院的个人机器人小组和斯坦—温斯顿工作室发明一个走向认知的社交智能机器人。它包含内置情感移情系统,可以揣测出所遇到的人的目标和意向。这个机器人包括一套评估和模仿可察觉面部表情的系统,会将特定的面部表情与相关的反应联系在一起。它还安装了评估人类声音性质的特定传感器,声音的反馈强化它对他人面部表情和个人情感之间的联系。

英国剑桥大学计算机实验室的Peter Robinson教授领导的课题组采用面部表情结合头部姿态的变化,对心理状态理解进行研究,分析面部表情、头部姿态与 6种特定心理状态之间的映射关系,并首次将心理状态的自动识别应用于人机交互领域。2009年,Tal Sobol-Shikler和Peter Robinson教授又发表通过语音信号对同时发生的多种心理状态进行识别的文章,并将配对法和投票法相结合进行分类,该系统对Mind Reading DVD数据库测试的识别率达到83%。

在多种测量方法中,由于面部是人类表达心理状态的最自然途径之一,它除了表达情感之外,还能发出社交信号,如继续交谈或转换话题等。头部的姿态、转动和视线盯视方向在心理状态理解方面也有着重要的暗示作用。如Haidt研究发现,一种厌恶的盯视、一个克制的微笑和一个头部的转动都可能代表“困窘”的信号。Langton强调,头部转动和视线盯视方向在检测注意力焦点时起着非常关键的作用。加之面部信息的采集是非侵入式的,大部分采集设备价格低廉,应用范围广,因此基于面部表情的心理认知状态推断是目前研究最多的方法之一,而多通道信息融合则是未来心理认知发展的主要方向。

4 心理认知计算的发展趋势

近几年,随着认知心理学、认知神经科学及智能科学的发展,对心理认知的研究逐渐从心理学和神经生物学领域过渡到人机交互领域。本文在总结国内外研究现状的基础上,从模式提取和模型建立两个方面,针对心理认知在人机交互领域中可能的发展趋势进行简要分析,并从人类视觉和计算机视觉的分层对比中,提出心理状态视觉认知计算的模型框架。

4.1 模式提取

在 Baron-Cohen的心理状态分类法中,一共有412种心理状态。这412种心理状态又根据不同的心理特征和强度被分为24个不同的心理状态组群,其中包括我们所熟悉的6种基本情感状态(如高兴、害怕、厌恶等)和非基本情感状态(如烦躁、怀疑等),以及心理认知状态(如感兴趣、同意、不确定等)。

针对人机交互领域中对人的目的、意图、态度等心理认知状态理解的需求出发,以Baron-Cohen的心理状态词条为基础,将若干具有相似特征的心理认知状态进行融合,结合人类视觉认知机理以及计算机对图像信息的实际处理能力,形成心理认知状态模式分类及表现形式。

4.2 模型建立

随着神经生理学、认知科学、计算神经科学等学科的蓬勃发展,大量生理解剖学和心理学的事实为人们对生物视觉系统的深入理解提供了丰富的实验基础。研究表明,整个人类视觉认知过程包含 3层结构:感知过程、思维过程和认知过程。在人类视觉中,感知过程是信息获取阶段,完成将视觉转换为图像的任务,属于计算机视觉中对应的图像处理过程;思维过程是信息处理阶段,完成将图像转换为符号(数据)的任务,属于计算机视觉中对应的图像分析过程;认知过程是信息再生和存储阶段,完成将符号转换为知识的任务,属于计算机视觉中对应的图像理解过程。只有建立在人类视觉认知的基础上,心理状态的图像理解才能借助于计算机模拟人类视觉过程的信息获取,并利用人工智能方法,在人类智能的水平上实现对心理状态的推理、识别、学习和解释能力。借鉴人类视觉认知的3层结构,提出一个多模态信息融合的多层级心理状态视觉认知计算模型框架。该模型根据人类对自身或他人心理状态的理解过程,结合认知科学中两种主流的信息加工方法——自下而上的数据驱动(data-driven)和自上而下的模型驱动(model-driven),融合定量分析与定性分析、多模态信息、符号推理、知识表达等信息领域的成熟技术,建立心理状态与外在行为(包括面部、头部、眼睛、视线等)的映射关系。

心理状态视觉认知计算模型主要包括信号输入、低层特征提取、中层目标识别和高层心理状态推理4个层次。其中信号输入主要是通过摄像头采集动态视频或读取事先采集好的视频图像。低层特征提取,是把以“数字”形式表示的输入信号转换成以“符号”形式表示的基元特征,完成信息从定量描述到定性描述的转换。中层目标识别,是对目标进行特征分析和概念理解,即对低层特征的进一步整合、抽象与概括,形成更加符合人类思维的抽象语义符号。与低层特征相比,中层目标更接近于人的高级认知表征,符合人类对事物的描述与主观认识,具有语义概念的特点。高层心理状态推理,是在心理状态模式知识库的指导下,通过一组语义目标类别自动地对心理状态进行非线性推理,实现心理状态理解并为中层目标识别等其他过程提供上下文信息。充分利用心理状态模式知识库对未知类别的样本进行心理状态分类,是高层心理状态推理模块的主要任务。

5 结束语

不管在何时何地,人都存在心理活动,包括在与计算机进行交互的时候。和语言文字相比,潜意识中人们更经常选择诸如语音语调、姿态及面部表情等非语言手段来表达他们的心理状态。研究心理认知计算的目的是希望计算机能够通过分析人的外在行为达到对其内部心理状态的合理理解,特别是针对人机交互中人的目的、意图或注意的推理判断。该研究涉及许多技术领域,包括计算机科学、心理学、认知科学、社会学以及人类学等诸多学科,属于交叉学科的基础应用研究。它顺应了计算机以人为本、个性化的发展方向,是一个崭新的、前景广阔并具有很大挑战性的研究方向。当前,对心理认知计算的研究主要有以下3点意义。

1)可作为人工心理研究领域的一个算法支撑。人工心理是利用信息科学的手段,对人的心理活动的再一次人工机器实现。但目前人工心理的模型建立主要集中在以心理学理论为主的情绪、情感建模上,其算法只是涉及到人脸识别和表情识别,且模态也比较单一,缺乏从人类的认知机理角度出发,结合多生物特征信息,对心理状态进行综合分析,建立心理计算的模型和方法。

2)可提高计算机的认知能力。能够从视频序列中通过面部、头部、视线方向和行为姿态信息来推断人的心理状态,弥补当前表情识别系统的不足;可作为用户目的或意图的指示器,提高计算机对视觉信息的理解能力与处理效率,使其自主地适应环境,更好地为人类服务。

3)可与其他的人机交互手段相结合,更有效地应用于诸如E-learning、商品导购、智能家居、服务机器人等实际生活场景中。

此外,包含认知状态在内的心理状态分析也是心理学、精神分析、医学等多学科领域的重要研究课题。心理状态分析的研究成果能为它们提供很有价值的研究手段和方法。例如,孤独症谱系障碍(Autism Spectrum Disorder,ASD)患者,可以很好地识别出他人的基本情感状态,却不能正确识别他人的心理认知状态和其他非基本情感状态。若能采用心理认知状态分析系统对ASD病症患者进行该方面的训练,必将提高他们的社会交往能力。此外心理状态分析系统还能对精神疾病(抑郁症、狂躁症等)进行病情监视,为医生提供必要的辅助分析手段。

当然,心理状态的视觉认知计算也存在着一定的困难。

1)人们日常交流中传递的信息,可以分为“显性”信息和“隐性”信息。“显性”信息即通过观察可直接得到的,如对象是谁(人脸识别)以及包括唇读等识别;而“隐性”信息不能直接观察得到,只能通过人的外在行为加之环境、上下文及先验知识等因素进行综合推理分析得出。心理状态即是“隐性”信息,存在太多的不确定性因素,很难实现对它的完全正确推断。同时,心理状态理解还存在一个认知标准问题,即计算机能做到何种程度(达到多少百分比)就可认为是比较好的认知程度。

2)基于视频图像的面部分析是一个开放性的机器视觉研究问题,受到世界许多相关研究单位的广泛关注,而在面部行为和心理状态之间还缺乏一个普遍承认的映射关系,所采取的结合方式如何被社会认可,如何更具有说服力,是今后研究中必须面临的一个问题。

3)多模态生物特征融合,在特征层、分析层和决策层都存在不同的融合算法,选择哪个层进行融合,运用那些融合算法,才能使心理状态推断达到最佳效果,还没有一定的结论,需要经过反复实验得出。

4)在心理认知外在表现(如情感、表情)的识别中,几乎所有基于统计的方法都被使用、改进过,其结果都大体相当。然而,基于统计的方法是自下而上信息加工的主要实现手段。单纯的自下而上信息加工处理速度快,但容易陷入局部性和目标不明确性;而单纯的自上而下信息加工能够从全局考虑问题,避免局部性,但搜索问题解空间的速度太慢,最好的方法就是将两者适当的结合。因此,如何有效地将两者结合仍是视觉认知领域中一个长期的课题。

总之,由于涉及到计算机科学、认知科学、心理学、生理学等众多学科领域,心理状态的认知计算研究在国内外还处于起步和探索阶段,有很大的发展潜力。希望本文能起到抛砖引玉的作用,引导国内更多的学者加入到该研究的探索中来。◘

(摘自《模式识别与人工智能》2011年第2期)

猜你喜欢

状态心理情感
心理“感冒”怎样早早设防?
Distress management in cancer patients:Guideline adaption based on CAN-IMPLEMENT
如何在情感中自我成长,保持独立
心理小测试
心理感受
情感
状态联想
诗歌与情感的断想
如何在情感中自我成长,保持独立
生命的另一种状态