小心，你正在被AI看穿

2021-03-11

科学导报 2021年12期

小说《三体》中，“三体人”不会撒谎、彼此思维和情绪完全透明，这样的情节正逐渐变为现实。随着人工智能（AI）情绪识别技术的发展，机器已经能识别人类情绪的变化。情绪识别正被越来越广泛地应用于机器智能中，也许有一天，人类会被AI彻底看穿。

近日，台湾联合大学研究人员在IEEE ACCESS上发表论文，提出用特定连续动作间骨骼点速度的变化程度，来区分人类微妙情绪变化的新方法。该方法与时空图卷积网络（ST-GCN）相比，“可有效地将识别精度提高50%以上”。

别动，动就被看穿

“通过面部特征、语义与脑波分析来识别人类情绪的研究已经比较多了，AI也能有效地识别出人类的情绪。我们试图提出一种新的情绪识别方式，可以让人们在不同场景下有更多选择，未来也可以通过多手段融合，更准确地进行情绪识别。”论文第一作者、台湾联合大学助理教授蔡明峰表示，“基于Pose Net深度学习神经网络，我们提出时空变化图卷积网络技术，在进行情绪识别时，获得人体骨架关键点信息不受衣物、皮肤或肌肉等因素的影响。”

在人工智能情绪识别领域，基于面部、语义或脑电波识别技术需要大量的训练样本，通过时空变化图卷积网络（STV-GCN）的连续运动来训练和识别人类行为模式。其识别训练方法采用骨骼检测技术，计算连续动作之间的骨骼点变化程度，并使用特定算法对速度水平进行分类，以区分快速和细微的动作。

目前，该系统对相同动作不同速度的识别精度达到88.89%，情绪状态的识别精度达到83.34%。在速度分类阶段和情绪状态分类阶段，STV-GCN的准确率比ST-GCN提高50%以上。但是，STV-GCN尚难以区分微妙的情绪变化。

蔡明峰认为，在类似城市广场的开放区域中，通过骨骼点变化进行情感识别，可以避免潜在的危险发生。系统可以主动识别愤怒或者悲伤等特殊情绪状况的人，并主动通知该区域的安全管理人员进行处理，可以在一定程度上规避暴力冲突或恶性伤害事件发生。

AI“懂你”九分

“并非只有面部才有微表情，身体姿态也有。”中国科学院自动化研究所研究员、模式识别国家重点实验室副主任陶建华告诉笔者，“通过面部区域或身体姿态来识别情绪其实各有优缺点，各有不同的适应场景，很难说谁比谁强。”

在AI情绪识别领域，多数识别方法在分析面部表情的背景下进行。而在现实生活中，人们有时会通过语言和表情来掩饰自己的情绪，相比之下，肢体语言却很难操纵，微表情很难被掩饰，往往能传达出更细致、真实的情感状态。

陶建华介绍说，目前主要有两种AI情感识别方式。一种是接触式，即利用脑电、皮肤电、心率心跳等生理特征的信号变化，通过生理参数分析人的情绪变化。另一种是非接触式，可以基于音频或视频，利用声音的特点或者依靠视频信息中表情、头部、身体姿态变化进行识别。“无论是传统的统计模型，还是现在基于神经网络、深度神经网络的一些方法，都能取得比较好的结果”。

“机器不但能识别出人的情绪，还相当准确。总体来说，现在的准确率超过80%，在一些特定的场景中，甚至能达到90%以上。”陶建华说，“情感识别是一种信息通道，准确的识别能增强机器对人的理解能力，如果结合语义、周围环境等信息，机器可以综合判断人的心理状况和真实的意图，从而改善人机交互能力，增强人机交互的友好性。”

探索新应用场景

“能够识别出人类的情感和机器自己具备情感是两个概念。”陶建华说，“情感的产生涉及一系列复杂的心理过程，是包括社会文化、周围环境情况、心理状态等多因素综合作用的结果。尽管人们对AI情感表现方面有些研究，但目前从全球范围内来说，机器产生的情感都是比较初级，与人类还有不小的距离。”

陶建华介绍说，机器与人、机器与机器之间的交流和人们的理想尚有距離。在情感识别过程中，如何在一个数据集中做好一个模型、在更大范围内使用是一个问题。“为此，有些方面需要进一步提高，但这些都不是难以克服的问题。”

如果AI能够更“善解人意”，就可以应用到更多的场景。比如，在全球疫情常态化的背景下，线上学习逐渐成为一种重要的学习方式。但是，屏幕前的学生是否在认真听讲、是否听懂了？他在困惑、紧张或者觉得乏味时，都会有相应的情绪和表现。如果通过AI技术，识别出屏幕前学生的情绪并判断出学习状态，就可以更好地控制难度和进度。

截至目前，已经有不少AI情绪识别研究机构在远程医疗、远程教育、养老看护、打击犯罪、营销、游戏，以及定向广告投放等领域进行探索。据一家市场研究公司预测，2021年全球情感计算市场将达到540亿美元。