仅根据行走姿势识别情绪？人工智能做得到

2019-08-16

机器人产业 2019年4期

情绪在人们的生活中扮演着十分重要的角色，及时、准确地看出同伴或是他人的情绪，能够帮助我们更好地与他人进行交流、沟通。最近，美国北卡罗来纳大学教堂山分校和马里兰大学帕克分校的研究人员研究了一种全新的机器学习方法，这种方法可以根据个体在行走时的姿势识别出他/她的情绪。目前，这种方法在实验中取得了良好的性能表现。感知情绪。给定一个个体行走的RGB视频，我们提取出他/她的以一系列三维姿态呈现的步态。我们的目标是利用步态特征将人类的情绪状态分为四种情绪中的一种：快乐、悲伤、愤怒或中性。我们的感知情绪识别方法基于使用通过长短期记忆网络（LSTM）在已标注的情感数据集上学习得到的深度特征。此外，我们将这些特征与使用姿势和运动线索从步态中计算出的情感特征相结合。使用随机森林分类器（Random Forest Classifier）对这些特征进行分类。我们的研究结果表明，我们的组合特征空间和感知情绪状态之间的映射在识别感知情绪方面提供了80.07%的准确性。除了对离散的情绪类别进行分类之外，我们的算法还可以根据步态预测感知情绪效价（Valence，表示情绪的正负程度）和情绪唤醒度（Arousal，表示情绪的平静和激动程度）的值。除此之外，我们还提供了一个“EWalk（Emotion Walk）”数据集，其中包含了关于个体的行走步态和已标注情绪的视频。据我们所知，这是第一个基于步态的模型，用以识别行走个体视频中的感知情绪。

介绍

情绪在我们的生活中扮演着十分重要的角色，它定义了我们的经历，塑造了我们看待世界以及与他人进行互动的方式。感知社会伙伴的情绪，将有助于我们了解他们的行为并决定我们对待他们的行为与方式。例如，人们与他们认为生气和充满敌意的人沟通的方式，与他们认为冷静和满足的人沟通的方式是截然不同的。除此之外，未知个体的情绪也能够影响我们的行为。例如，道路交叉口上的行人情绪，或者火车站中乘客的情绪等。正是由于感知情绪在人们的日常生活中发挥着如此大的作用，所以，自动情绪识别是诸如游戏娱乐、安全执法、购物、人机交互等许多领域中的一个关键问题。

一般来说，人类使用语言和非语言线索来感知其他人的情绪。对于那些具有语音理解和自然语言处理能力的机器人和AI设备来说，在与人类进行交互时具有更好的性能表现。深度学习技术可用于语音情感识别，并能够促进机器与人类进行更好的互动。

可以说，使用非语言线索来理解个体的感知情绪是一个非常具有挑战性的问题。通常情况下，人类用来感知情绪的非语言线索包括面部表情和身体动作。由于数据具有更广泛的可用性，大量的研究集中在使用面部表情来理解情绪。然而，最近有关心理学文献领域的研究对面部表情的交际目的提出了质疑，并对从这些表情中感知情绪的快速、自动过程产生了怀疑。不可否认的是，在有些情况下面部表情有可能不太可靠。

研究表明，情绪表达和感知中的身体表达也是至关重要的。例如，当看到表达愤怒或恐惧的身体和面部（彼此正确匹配或是不匹配的复合图像）时，观察者更偏向于注重身体表达。Aviezer等人对网球运动员正/负情绪效价的研究结果表明，单独的面部表情并不是情绪效价的诊断预测因子，而单独的身体或面部和身体相结合都可以对其进行准确的预测。

具体而言，有实验已经证明，个体在行走中的身体表达或步态有助于感知情绪。在Montepare等人的早期研究中，通过观察情感特征，例如增加手臂摆动、步幅变大、足部着地力量增强，以及直立姿势，参与者能够以显著的速度识别悲伤、愤怒、快乐和骄傲的情绪。而特定的动作也被归类为特定的情绪。例如，悲伤动作的特征是上半身塌陷和较低的运动活性，而快乐的动作节奏更快，并且手臂摆动的频率更高。

总而言之，我们的主要研究成果就是提供了一种全新的自动情绪识别方法，用以从行走个体的视频中自动识别出情绪，如图1所示。我们将视频中的行走个体归为4种情绪类别，分别是：快乐、悲伤、愤怒和中性。这些情绪代表了一种持续较长时间的情绪状态，并且在行走活动中表现得更为丰富。我们从步行视频中提取步态作为三维姿态，使用基于LSTM的方法对这些连续三维人体姿态中的长期时间依赖性（long-term temporal dependencies）进行建模，从而获得深度特征。除此之外，我们还提出了时空情感身体特征，用以表示人类在行走过程中的姿态和运动。我们将这些情感特征与基于LSTM的深度特征相结合，并使用随机森林分类器将它们分为四种情绪类别。相较于其他基于步态的感知情绪分类算法，我们观察到，该算法将分类准确率提高了13.85%。

此外，我们还提供了一个新的数据集“EWalk”，其中包含了个体在室内和室外行走的视频。我们的数据集由1384个步态和使用Mechanical Turk标注的感知情绪组成。

总而言之，我们研究工作的一些主要成果包括以下几个方面：

1.一个全新的在从步行视频中提取的情感特征与感知情绪之间的数据驱动映射。

2.一个全新的结合了情感特征和深度特征的情绪识别算法，其准确率达80.07%。

3.一个新的公共域数据集——“EWalk”，里面包含了步行视频、步态和已标注的情绪。

相关研究

接下来，我们将简要概述以往关于情绪建模、使用身体姿态和运动的情绪表达，以及自动情绪识别方面的相关研究。

情绪建模

在以前的研究中，情绪往往被建模为离散类别或情感维度连续空间中的点。在连续空间表征中，情绪被视为Arousal—Valence维度的二维空间上的点。有时，动作倾向或支配的另一个维度也被用于表征三维空间中的情绪。Mikels等人和Morris研究了连续模型和离散情绪模型之间的映射。例如，愤怒、快乐、骄傲的离散情绪与高唤醒度有关，而悲伤、放松和满足与低唤醒度有关，如图2所示。许多情感计算方法已经使用生物特征信号来检测情感维度的情绪唤醒度和效价。在本文中，我们从步行运动和步态中识别出4种离散的情绪：快乐、愤怒、悲伤和中性。同时，我们还识别了情绪效价和唤醒度的值。这四种情绪的组合可以用来表征其他情緒。

情绪的身体表达

研究者通过两种途径对人类使用身体关节表达情绪的能力进行了研究：姿态和运动。涉及姿态和运动中信号的研究表明，姿态和运动都在情绪感知中发挥作用。此外，研究者还在诸如敲击、跳舞、演奏乐器、行走等各种活动中对情绪的表达进行了研究。Kleinsmith等人确定了人类观察者在区分姿态时所使用的情感维度。Roether等人使用一种系统方法，Omlor和Giese确定了特定于步态中不同情绪的时空特征。我们受到这些研究方法的启发，提出了一种全新的方法，使用姿态和运动特征（即情绪特征）的组合来识别步态中的感知情绪。

自动情绪识别

随着捕获身体表达的技术日益普及，从身体表达中自动识别出情绪的研究变得越来越多。

大多数研究使用基于特征的方法从身体表达中进行自动情绪识别。这些特征的提取，要么是使用纯粹的统计技术，要么是使用受到心理学研究启发的技术。在这些方法中，一些方法侧重于特定的活动，如跳舞、敲门、步行、游戏等，而另外一些方法使用的是更为通用的方法。一些方法将面部和身体表达结合在一起，一些方法在中性表达的帮助下发现了身体表达中的情绪。Crenn等人从表情动作中生成了中性运动，然后去识别表达运动中的情绪。Karg等人使用单个步行步幅中的运动捕捉数据，研究了依赖于人的步态信息对识别的影响。Wang等人使用Kinect捕捉步态，并使用4个步行周期来识别个体的情绪是否是生气、快乐或中性。与大多数这些技术的研究情况一样，我们的方法也基于使用基于心理学的特征来识别步行运动中的情绪，而无需实时使用中性运动。

识别感知情绪的方法

接下来，我们描述一下用于从RGB视频中识别感知情绪的算法，如图3所示。

在我们的方法中，我们展示出一个具有一组16个关节的人，如图4所示。人的姿态P∈R48是每个关节ji，i∈{1，2，...，16}的一组三维位置。对于任意一个RGB视频V，我们将使用三维姿态估计提取得到的步态表示为G，步态G是一组三维姿态P1，P2，...，Pτ，其中τ是输入视频V中的帧数。我们将步态G的提取情感特征表示为F，鉴于步态特征F，我们通过用e∈{快乐、愤怒、悲伤、中性}来表征预测的情绪。这4种基本情绪代表一种持续较长时间的情绪状态，并且在个体行走期间表现得更为丰富。这4种情绪捕捉到情感空间的光谱，它们的组合可以用来表示其他情绪。

在研究中，我们的实时感知情绪预测算法是一种基于数据驱动的方法。在图3中，我们对该方法进行了概述。在离线训练阶段，我们使用多个步态数据集，提取情感特征，这些情感特征是基于心理表征的，包括姿态和运动特征。我们还通过对一个LSTM网络进行训练以提取深度特征。我们将这些深度和情感特征结合起来，并训练一个随机森林分类器。在运行时，给定一个个体行走时的RGB视频，我们使用最先进的三维人体姿态估计技术提取出他/她的一组三维姿态的步态。我们从这个步态中提取情感和深度特征，并使用经过训练的随机森林分类器识别感知情绪。我们现在详细描述算法的每个组件。

在本文中，我们提出了一种基于行走视频对个体感知情绪进行分类的新方法。我们的方法基于学习使用LSTM计算得到的深度特征，并且还利用心理特征来计算情感特征。我们将深度和情感特征进行连接，并使用随机森林分类算法对组合特征进行分类。我们的算法实现了80.07%的绝对准确率，相较于仅使用深度特征的vanilla LSTM，准确率提高了24.60%，并且，与现有最先进技术的情感识别算法相比，准确率提高了13.85%。我们的方法也是第一种通过利用最先进的三维人体姿态估计技术，为行走视频中的情绪识别提供实时管道的方法。我们还提供了一个视频数据集，EWalk，其中行走的个体带有他们自身的感知情绪标签，该数据集中的实验对象具有不同的肤色背景，且是在室内和室外环境中进行行走收集得到的。

当然，我们的方法目前还存在一定的局限性。我们算法的精度取决于三维人体姿态估计和步态提取算法的精度。因此，如果估计的三维人体姿态或步态存在噪声，则情绪预测的结果可能不准确。我们的情感计算需要来自整个身体的关节位置，但是在视频中存在遮挡的情况下可能无法获得全身姿态数据。而我们的研究是假设视频中个体的行走运动是自然的，并且不涉及任何配件，例如，手提箱、移动电话等。作为未来研究的一部分，我们希望收集更多数据集并解决这些问题。未来，我们还将继续尝试对本文中提到的方法进行拓展，以将更多的运动，如跑步、打手势等活动考虑在内。最后，我们希望将我们的方法与其他使用人类语音和面部表情的情绪识别算法结合起来，以实现更为丰富、准确的情绪识別。