仿人情感交互表情机器人研究现状及关键技术

2013-11-26柯显信尚宇峰卢孔笔

智能系统学报 2013年6期

柯显信，尚宇峰，卢孔笔

(上海大学机电工程与自动化学院，上海200072)

正如30年前的个人电脑一样，机器人也将紧随着科技发展的脚步逐渐走入人类社会，并且更加深入地影响人类社会生活的方方面面.同时，人工情感作为一门高度综合性的学科，广泛涉及生理学、心理学、哲学、社会学、思维科学、计算机等多门学科，它的发展将极大地缩小机器人与人类之间的情感鸿沟.而表情机器人作为一种服务机器人，通过引入人工情感技术，赋予了机器人情感化、人性化的特点，对于实现人机情感交互具有重要作用，使得仿人表情机器人的研究更具应用前景.近年来，越来越多的研究机构及组织开展了关于仿人面部表情机器人的研究.其中欧美及日本等发达国家的多家研究机构和大学已取得较大的研究成果.而国内对于仿人表情机器人的研究较少且起步较晚，其中技术比较成熟的是哈尔滨工业大学.

1 国内外研究实例

目前表情机器人的研究得到了各国研究人员的广泛关注，美国和日本等国家对此都进行了深入的研究，取得的成果显著，国内的一些大学也对此进行了一定的研究.

1.1 日本

日本对于表情机器人的研究居于世界领先水平.日本已经形成了一种重要的机器人文化，他们在几十年前就把机器人设计与情感相联系，其中感性工学技术已经发展成较成熟的理论[1].并且，在感性工学的产业化方面也取得了很大成功.如索尼公司的AIBO机器狗，其产量已达6万多只，产值近10亿美元，其他典型代表是SDR-4X型以及QRIO型情感机器人.日本人类机器人财团新开发的情感机器人取名“小IF”，可从对方的声音中发现感情的微妙变化，然后通过自己表情的变化，在对话时表达喜怒哀乐，还能通过对话模仿对方的性格和癖好.

2006年，早稻田大学开始了对WE系列表情机器人的研究，其对仿人表情机器人的研发比较侧重于其应用方面.早期的WE-3仅仅有前庭眼动反射理论的指导，目的是为了研究平行双眼追踪三维空间的目标，发展到后来的 WE-3R-II、WE-3R-III、WE-3R-IV、WE-3R-V、WE-4R，增加了多种面部机构，并且扩展了听觉、触觉、嗅觉等多种感知功能[2]，所取得的成果显著，如图1所示.

图1 日本早稻田大学研发的WE系列机器人Fig.1 WE series robot of Japanese Waseda University

2010年，日本大阪大学石黑浩教授和Kokoro公司工程师研发出一款名为“Geminoid F”的仿真机器人，它以一名年轻的日俄混血女性为模本，皮肤材料为柔软的硅树脂，配置15个电机和传感器，内置储气罐和电磁阀，外置空气压缩机，通过远程遥控实现微笑、皱眉、眨眼、悲伤、撅嘴等多于60种不同的面部表情[3].如图2所示，多种表情的实现，加上极高的逼真度，使其能与演员们一起在舞台上表演话剧，为人们带来娱乐，但是“Geminoid F”并不具备自主性，需由研发人员远程遥控.

图2 日本大阪大学女性仿真机器人“Geminoid F”Fig.2 The female simulation robot“Geminoid F”of Osaka University

2011年，日本大阪大学的科学家研制了一款儿童机器人“Affetto”，如图3所示.它可以实现类似人类儿童的面部表情，使其和人类的沟通变得更加自然[4].该机器人的设计意图是模拟1～3岁儿童的面部表情，帮助科学家研究人类婴幼儿时期社交意识的形成，通过使用机器人技术，能够更好地理解人类智力的发育.早期对人类与儿童机器人的交互的研究，因机器人缺乏儿童外观和面部表情(如Kismet)而受阻碍，“Affetto”的出现弥补了该不足.

图3 日本大阪大学研发的儿童机器人“Affetto”Fig.3 Children robot of Osaka University“Affetto”

1.2 美国

麻省理工学院很早就开始了对仿人表情机器人的研究.1999年Cynthia Brea zeal开发研制了名为Kismet的婴儿机器人(如图4所示)，成为仿人表情机器人中的经典之作.其软硬件控制架构设计，实现了接近30 Hz视觉信号和8 kHz采样速率的听觉信号的实时处理.脸部电机系统有21个伺服电机，由4个Motorola 68332微处理器控制.表现力语音合成和声音的情感意图识别由运行NT系统的450 MHz PC机处理，语音识别系统由运行 Linux系统的500 MHz PC机进行处理.研究人员再结合婴幼儿社会情感发展、行为学和心理学等理论或观点，建立出情感模型，使其像婴儿一样具有基本的社会能力并与人类看护者进行自然而直观的社会交互.

图4 美国麻省理工学院研制的“Kismet”机器人Fig.4 “Kismet”robot developed by the Massachusetts Institute of Technology

2008年4月美国麻省理工学院的科学家们展示了他们开发的情感机器人“Nexi”，如图5所示.它是一款定位于 MDS(mobile，dexterous，social)的小型仿人机器人.它是在uBot5的基础上研发出来的.它的每个眼睛里都装有CCD(电荷耦合器件)摄像机使其对于周围环境具有双目视觉，前额上装有主动式3-D红外摄像头使其可以生成环境的3-D地图，并具有4个麦克以支持声音定位.因此“Nexi”可以准确地判断交互对象的具体位置，然后通过眨眼、张嘴、皱眉等形式表达各种常见的情感.

图5 美国麻省理工学院研制的“Nexi”机器人Fig.5 “Nexi”robot developed by the Massachusetts Institute of Technology

美国的汉森机器人公司主要的研究方向为机器人形态、情感及社交.2009年2月份，由美国汉森机器人公司研发的以爱因斯坦为原型的表情机器人“Albert Hubo”在美国科技、娱乐和设计讨论会上首次亮相，如图6所示.该机器人头部有31个自由度，包括实现颈部运动的3个自由度和实现面部表情的28个自由度，装配在机器人上的31个电机中有17个必须同时工作，以调节在嘴部和眼睛附近的多处关节.同时，汉森博士使用了一种类似肉体的、名为“Frubber”的机器人皮肤材料，从而使机器人可以实现面部皱纹的细微变化.软体机械工程和纳米科技的结合是这款机器人研发成功的关键[5].

图6 美国汉森机器人公司研发的“爱因斯坦”机器人Fig.6 “Einstein”robot of America Hansen robotic company

1.3 欧盟

欧盟也在积极地对情感信息处理技术进行研究，例如表情识别、情感信息测量等.有些大学成立了情感与智能关系的研究小组.

2008年，英国西英格兰大学和布里斯托尔大学联合所属布里斯托尔机器人学实验室研制了一款可以模仿人类面部表情和嘴唇活动的类人机器人“Jules”，如图 7 所示.“Jules”拥有 34 个内置马达，这些马达覆盖有软性橡胶皮肤，这种皮肤是布里斯托尔机器人学实验室委托美国机器人学家David Hanson研制的.“Jules”能模仿10种常见表情，例如，高兴、悲伤、忧虑等.机器人通过软件可以将其所看到的人类表情映射到它的脸部，这样它可以立刻将这些表情动作综合起来模仿出由人作出的真正表情[6].

图7 英国Bristol大学研制的表情机器人“Jules”Fig.7 Countenance robot“Jules”of English Bristol university

意大利比萨大学研制出一个名为“FACE”的表情机器人.它以一研究者的妻子为雏形，相似度极高.这款机器人能够做出恐惧、惊讶、厌恶等多种面部表情，如图8所示.该研究小组历时30多年研发出一款名为“HEFES”的软件，来让“FACE”模拟人类的表情.HEFES软件能控制电机做出适当的反应，来模拟表情并且能够将不同表情在一定程度上混合在一起，例如微笑的表情混合着些许悲伤，大笑中掺杂着一点不安.

图8 意大利比萨大学研制的机器人“FACE”Fig.8 Robot“FACE”developed by the university of Pisa，Italy

1.4 国内成果

图9 李咏与西安超人李咏2高仿真机器人Fig.9 Li Yong and Li Yong 2 high simulation robot of Xian superman

国内对于表情机器人的研究也取得了一定成绩.西安超人高仿真机器人科技有限公司对表情机器人的研究有着丰富的经验.2011年央视春节元宵节晚会，高仿真智能表演机器人“李咏2”与真人李咏“一决高下”，如图9所示，该机器人按照央视主持人李咏本人按照1∶1比例，收集李咏身体100多个点的数据量身打造.“李咏2”全身共19个自由度，面部8个，表情组合多达255种，且发音由李咏本人亲自录制.

哈工大对于表情机器人的研究经验也值得借鉴.1996年，由哈尔滨工业大学研制的孙中山机器人可以进行演讲.2004年至今，吴伟国教授等一直致力于设计与研制 H＆F robot系列机器人.这个名为H＆F robot-III的仿人头像机器人，它的表情由15个小型电机驱动[7].目前 H＆F robot-III机器人具有人脸识别、表情实现、语音实现等功能，并引入人工情感模型概念，也为人机交互奠定了基础，它不仅可以与人对话，还可以透过脖子上的摄像头模仿人类的面部表情.

2010年，台湾大学电机系师生耗费2年时间研制出了一个拟真脸部模拟机器人“Luo Head”.这个按照爱因斯坦27岁时的相貌制造的机器人，头部有36个马达，控制着眉毛、嘴巴和眼睛，不仅外形酷似真人，而且还有7种表情.不仅表情模仿得惟妙惟肖，皮肤也像真的一样.

上海大学精密机械系于2008年研制出了能实现6种基本面部表情(恐惧、高兴、愤怒、惊喜、厌恶、悲伤)的表情机器人样机 SHFR-I[8].该机器人采用AT89S52单片机作为主控制器，对7路舵机进行控制，实现6种基本面部表情.2011年在SHFR-I的基础上，研制出了具有视觉、面部表情识别与再现功能的面部表情识别与再现机器人SHFR-II系统[9].

2 关键理论技术分析

2.1 恐怖谷理论

“鬼娃娃”Affetto与人类具有很高的相似度，但它的一举一动却不禁让人毛骨悚然，这也验证了日本机器人专家森政弘于1970年提出的恐怖谷理论.森政弘指出，由于机器人与人类在外表、动作上都相当相似，所以人类亦会对机器人产生正面的情感;直至一个特定程度，他们的反应便会突然变得令人极为反感.哪怕机器人与人类有一点点的差别，都会显得非常刺眼，让整个机器人显得非常僵硬恐怖，让人有面对行尸走肉的感觉.可是，当机器人的外表和动作和人类的相似度继续上升的时候，人类对他们的情感反应亦会变回正面，贴近人类与人类之间的移情作用.他用“恐怖谷”一词形容人类对跟他们有某程度上相似的机器人的排斥反应.而“谷”就是指在研究里“好感度—相似度”的关系图中，在相似度临近100%前，好感度突然坠至反感水平，然后回升至好感的那段范围，如图10所示.在设计表情机器人时，研究者也必须充分考虑这一理论.

图10 恐怖谷理论Fig.10 Uncanny valley theory

2.2 FACS 理论

FACS(facial action coding system)是美国心理学家 Paul Ekman提出的面部行为编码系统[10]，他根据人脸的解剖学特点，将其划分成若干既相互独立又相互联系的运动单元(action unit，AU)，并分析了这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情.其定义的44个基本行为模块(AU)中，主要有14个AU可用于实现7种人类常见表情.每种表情的变化不都是由单一的AU决定，而是由多个AU共同作用形成的.根据仿生学原理，在对表情实现时脸部肌肉的变化情况做出详细分析后，根据AU组合情况确定机器人表情的实现.现在FACS理论被广泛应用于表情识别、CG(computer graphics)等领域.

2.3 人工情感技术

人工情感主要是情感计算方面的研究，是对其心理模型的一种定义.机器人情感就是人工情感，是利用信息科学的手段对人类情感过程进行模拟、识别和理解，使机器人能够产生类人情感并与人类自然和谐地进行人机交互的研究领域[，9].要实现人机情感交互，必须对人的情感进行定义，建立一种计算机可识别的情感数学模型，即使用维度空间、统计等数学方法把情感模型化[12].人工情感的研究，在各个领域的机器人中得到了广泛的应用.例如，索尼公司研制的家用机器人ABIO狗，其能对外界刺激做出相应的反应.卡内基梅隆大学研制的服务机器人Valerie也具有丰富的情感表达能力，其能根具周围复杂的环境做出不同的表达.

比较典型的情感模型是 Mehrabia的 PAD(please-arousal-dominance-model)模型.MIT的 Kismet的情感空间模型由激励、价和态这3个坐标轴构成，且情感空间被分割成代表特定情感状态的区域.每个轴的参数由动机系统、行为系统以及感知系统获取，通过这3个系统的综合就可以获得相应心理状态的情感坐标，与该情感坐标距离最近的情感区域就会被激活，驱动机器人产生表情，而情感坐标与激活区域中心的距离就决定了所产生表情的幅度.日本早稻田大学的WE-4R机器人也有相似的情感空间，由3个矢量愉悦度(pleasantness)，激活度(activation)和确定性(certainty)组成的三维心理空间，如图11所示.该空间被划分为7个区域，分别代表7种情感状态.

图11 WE-4R机器人的情感空间Fig.11 Emotional space of WE-4R robot

2.4 传感技术、机器人视觉技术

传感器能够把自然界的各种物理量和化学量等精确地变换为电信号，再经电子电路或计算机进行处理，从而对这些量进行监测或控制.传感器的应用使表情机器人具有不同的感知能力.例如，日本早稻田大学研制的WE-4R机器人，具有嗅觉和触觉传感器，嗅觉传感器的使用可以使其识别酒精、氨气和香烟的气味，通过触觉传感器可以分辨出抚摸、打击和碰撞等接触动作[13].德国Kaiserslautern大学开发的ROMAN表情机器人，耳部安装了2支麦克风，使其具有听觉功能.在其额头处安装了红外传感器，可用于判断前方物体的距离.同时其具有惯性传感器，能够分别测三自由度的加速和转角，对其头部的空间位置可以进行估计.

人类有80%以上的信息是靠视觉获取的，让机器人与人一样通过视觉来获取信息，是研究表情机器人的一个重要方面.机器人从客观事物的图像中提取信息，进行处理加工并加以理解，最终用于人机交互.表情机器人依靠视觉技术能完成表情识别、人脸识别、视线跟踪、头部姿势检测以及行为理解等任务.Leonardo头部后方和上方安装有摄像头，可以获取人脸、头部姿势、行为姿势等信息[14].其他的表情机器人例如 H＆F Robot-Ⅱ、Kismet、WE-4R 等一般也都采用相关的视觉技术，从而能使其完成目标识别、跟踪和定位等任务.

2.5 语音识别与合成技术

语音识别与合成技术的发展，实现了人类与机器人之间的语音通信.语音识别，即让机器通过识别与理解把输入的语音信号转换为相应命令的技术，它的基本方法主要有隐马尔可夫模型、人工神经网络等，典型的语音识别的实现方式如图12所示.语音合成技术是表情机器人合成语音实现的关键，从早期的参数合成到拼接合成，继而到两者的结合，如今语音合成技术使得表情机器人可以实现更加人性化的语音合成.Jules、WE-4R、Kismet等都大多采用了语音识别与合成技术，可以方便地实现语音交互功能[15].可见语音识别和语音合成的结合对于表情机器人与人类之间的情感交互至关重要.

图12 语音识别的实现Fig.12 The realization of automatic speech recognition

3 未来研究趋势

3.1 人工情感理论的进一步研究

人工情感包括3个方面:情感识别、情感表达与情感理解.目前对于前面两者的研究成果显著，而对于后者却是收效甚微.根本原因在于，到目前为止，没有一个研究者能够准确地定义情感的哲学本质，没能创立一个全新的、科学的、数学化的情感理论，也没有建立一个更加可靠的数学情感模型.目前的情感机器人，只能进行一些简单的情感识别，或者模拟人的某些情感表达方式，而并没有真正的情感理解能力.因此人工情感理论，尤其是人工情感建模，有待于进一步研究，而且多学科的贯穿融合有必要使之更加深入.

3.2 机器人表情的多样化和丰富化

人类是面部表情最丰富的生物.情感的表达离不开表情，心理学家认为人的表情表达了50%以上的人类感情.而且心理学研究表明，人脸能够产生大约55 000种不同的表情.而目前人类能够实现的机器人表情还较为单调，所以，丰富机器人表情并使之多样化是亟待解决的问题.

3.3 表情机器人“部件”的“肉体化”

完美地实现人工情感可以缩小机器人与人类之间的界限，此时人机交互将不存在情感的鸿沟.而表情机器人的“身体部件”的“肉体化”也是必须有所作为的一方面.从材料角度出发，对表情机器人的皮肤材料有待进一步研究，使之不仅具有更好的拉伸性和柔韧性，还具有响应外界刺激的知觉和自我修复能力.与此类似，表情机器人的“思维部件”如何实现肉体化也是一个难题.

3.4 表情机器人的商业化应用

最近迪士尼计划在游乐场内推出最新的3-D扫描技术终极“人脸克隆计划”，只要扫描目标对象的头部，就能做出这个人脸上包括皱纹在内的微小细节的3-D模型，然后根据这个模型制作出装配在机器人头部上的面具，通过该模型与机器人的配合演算，还能做出逼真生动的面部表情，然后通过人机交互平台就能完成“真人版”Siri的功能了.2010年上海世博会上，西安超人雕塑研究院所研制的高仿真机器人“唐明皇与杨贵妃”与真人版在陕西馆展示，人气指数名列前三甲.由此可见，表情机器人的应用已日趋商业化，面向商业化的研究必将成为今后研究工作的热点之一.

[1]赵秋芳，王震亚，范波涛.感性工学及其在日本的研究现状[J].艺术与设计理论，2007，36(7):32-34.ZHAO Qiufang，WANG Zhenya，FAN Botao.An introduction of kansei engineering and its research status in Japan[J].The Theory of Art and Design，2007，36(7):32-34.

[2]柯显信，柏垠，唐文彬.仿人面部表情机器人研究现状与展望[J].机械设计，2009，26(11):5-8.KE Xianxin，BAI Yin，TANG Wenbin.Current situation and prospects of research for humanoid countenance robot[J].Journal of Machine Design，2009，26(11):5-8.

[3]BECKER-ASANO C，ISHIGURO H.Evaluating facial displays of emotion for the android robot Geminoid F[C]//IEEE Workshop on Affective Computational Intelligence(WACI).Paris，France，2011:1-8.

[4]ISHIHARA H，YOSHIKAWA Y，ASADA，M.Realistic child robot“Affetto”for understanding the caregiver-child attachment relationship that guides the child development[C]//IEEE International Conference on Development and Learning(ICDL).Frankfurt am Main，German，2011:2-5.

[5]HO J，HANSON O D，KIM W S，et al.Design of android type humanoid robot albert HUBO[C]//IEEE International Conference on Intelligent Robots and Systems.Beijing，China，2006:1428-1433.

[6]DELAUNAY F，De GREEFF J，BELPAEME T.Towards retro-projected robot faces:an alternative to mechatronic and android faces[C]//The 18th IEEE International Symposium on Robot and Human Interactive Communication.Toyama，Japan，2009:306-311.

[7]吴伟国，宋策，孟庆梅.仿人头像机器人“H＆F robot-III”语音及口形系统研制与实验[J].机械设计，2008，25(1):15-19.WU Weiguo，SONG Ce，MENG Qingmei.Development and experimentation on speech sounds and degree of lip rounding system for“H＆Frobot-III”humanoid head portrait robot[J].Journal of Machine Design，2008，25(1):15-19.

[8]唐文彬，柯显信.仿人面部表情机器人的控制系统设计[J].机械设计，2010，27(8):54-58.TANG Wenbin，KE Xianxin.Control system design of a facial robot[J].Journal of Machine Design，2010，27(8):54-58.

[9]EKMAN P，ERIKA L R.What the face reveals:basic and applied studies of spontaneous expression using the facial action coding system(FACS)[M].2nd ed.Cambidge:Oxford University Press，2005:44-65.

[10]陈玉亮.基于表情识别与再现的面部表情机器人研究[D].上海:上海大学，2011:1-90.CHEN Yuliang.The facial robot research on facial expression recognition and representation[D].Shanghai:Shanghai University，2011:1-90.

[11]刘伯成.人工情感与物联网技术研究[J].科技广场，2010，24(9):76-78.LIU Bocheng.Research on artificial emotion and internet of things[J].Science Mosaic，2010，24(9):76-78.

[12]孟秀艳，王志良，李娜，等.情感机器人的情感模型研究[J].计算机科学，2008，35(6):158-162.MENG Xiuyan，WANG Zhiliang，LI Na，et al.Research on affective model of affective robot[J].Computer Science，2008，35(6):158-162.

[13]BERNS K，HIRTH J.Control of facial expressions of the humanoid robot head roman[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).Beijing，China，2006:3119-3124.

[14]KOZIMA H.An ontogeny of socially communicative robots[C]//Interactivist Summer Institute(ISI-2001).Bethlehem.PA，USA，2001:65-84.

[15]KOZIMA H，ZLATEV J.An epigenetic approach to human-robot communication[C]//Proceedings of IEEE International Workshop on Robots and Human Interactive Communications.Osaka，Japan，2000:346-351.