基于时空兴趣点的情绪识别
2017-07-12汪伟鸣郜沾
汪伟鸣 郜沾
摘要:情绪识别是当前人工智能和机器学习研究领域的热点问题,情绪识别目前多采用面部表情、身体行为和语音信号分析法。该文提出了一种基于时空兴趣点的情绪识别算法,该算法从包含情绪特征的视频中提取大量的时空兴趣点,并将兴趣点进行优化处理,从而对情绪进行袁征,最后利用最近邻分类和支持向量分类分别进行情绪识别。实验在FABO数据库下,分析了开心,悲伤,恐惧,愤怒,迷惑,无聊,惊喜七种不同的情绪,分别对面部和面部结合肢体动作两种情况进行了测试,其中最佳识别率能达到80.5%,证明了该算法的有效性和鲁棒性。
关键词:时空兴趣点;情绪识别;特征提取;最近邻分类;支持向量机;面部表情;肢体动作
中图分类号:TP317 文献标识码:A 文章编号:1009-3044(2017)13-0159-03
1概述
随着计算机视觉和多媒体技术的进步,智能情绪识别分析已是目前计算机视觉中最活跃的研究领域之一。其目的是对人类的图像序列进行检测、跟踪和识别,更科学地解释人类行为。情绪识别可以应用于生活的各个方面:游戏厂商可以智能分析玩家的情绪,根据不同表情针对性地和玩家交互,提高游戏的体验;相机厂商可以利用该项技术捕捉人类表情,比如当需要一张微笑或者生气的照片时,可以捕获被拍人员的面部表情并快速完成拍照工作;政府或社会学家可以在公共场合安装摄像头,分析整个社会群体的表情以了解人们的生活工作压力;商厦可以根据顾客对商品的购物时的动作及表情视频,对产品做相关的市场调查。
目前的情绪识别主要是基于面部表情的情绪识别,研究方法以提取二维面部特征为主,近年来,国内外的专家学者在面部表情识别领域尝试利用不同的方法以得到更高的识别率。而特征提取和分类识别是面部表情识别研究中两个非常重要的步骤,因此专家学者尝试了各种各样的方法,都在着重提高这两个关键技术。而基于肢体动作的情绪识别还处在启蒙阶段,主要工作是建立动作模型和动作分类,如刘艳结合人工智能和机器学习等技术,提取运动视频中的肢体动作特征,构建人类情绪的集合,并且建立情绪与动作之间的映射关系模型,从而有效地从运动视频中识别出运动人的情绪信息。本文将面部表情与肢体动作相结合进行时空兴趣点提取,将其转化为情绪特征,并利用分类器进行情绪识别。
2基于时空兴趣点的情绪识别模型
本文通过对若干输入视频数据的训练样本进行检测,得到大量时空兴趣点,并用非极大值抑制方法对时空兴趣点进行删减处理,得到更为有效的兴趣点,再将包含兴趣点的固定长方体区域的亮度梯度转化为特征描述符,用不同的分类器对特征描述符训练学习得到相应模型。再利用训练后的模型,输入测试视频数据,采用和训练样本相同的方法提取时空兴趣点,得到特征描述符,包括所设置参数不变,并利用最近邻分类和支持向量分类分别进行情绪识别。整個流程如图1所示。
3时空特征
经研究发现,视频数据在时间和空间两个维度上都剧烈变化的地方,往往伴随时空事件的发生。因此,问题的关键在于如何从视频中准确地抽取代表时空事件的兴趣点,并用其表征情绪。本文采用Dollar提出的基于Gaussian滤波器和Gabor滤波器相结合的时空兴趣点检测方法,首先在空间域上使用Gaussian滤波器对图像进行滤波,然后在时间域上使用一维的Gabor滤波器作用于图像序列,定义响应函数如下:
定义时空窗的大小为(x,y,t)=(2□3σ□+1,2□3σ□+1,2□3τ□+1),为了提取兴趣点,采用非极大值抑制方法搜索局部极大值,即判断该点是否为其时空窗内满足一定阈值条件的最大值。虽然这种方法能够检测到很多的兴趣点,但是过多的兴趣点反而会使得实验结果不准确,所以有必要控制兴趣点的个数,可以设定阈值,取比阈值大的几百个作为最终的兴趣点。通过以上方法得到兴趣点,并且将包含兴趣点的时空窗定义为长方体,如图2所示。
图2所示为视频中的可视化的长方体。而对于一个长方体,因为数据量是比较大的,直接作为特征比较是不合适的,因此需要更进一步地,创建一个长方体描述符。首先在长方体上加以2种不同尺度的高斯滤波,得到更丰富的特征,然后计算长方体中每个点的亮度梯度,所得到的特征向量维度仍然很高,最后采用PCA降维的方法,得到长方体特征描述符。
4情绪分类器
对于已经提取好的时空特征,本文用KNN(k-NearestNeighbor,近邻分类器)和SVM(Support Vector Machine,支持向量机)两种分类器进行分类,并且根据分类识别效果进行分析对比。
4.1KNN分类器
KNN算法最初是由Cover和Hart于1968年提出的,已经是一个理论上非常成熟的方法,其思路非常简单直观,优点是易于快速实现,以及错误低。KNN是一种无参分类器,对于一个测试样本,在训练样本的特征空间中搜索与之最近的k个样本,如果这五个样本中属于某一个最多,那么就认为该测试数据属于哪一类。本文采用的是1NN,即最近邻分类,距离的度量为x2距离,当测试视频特征向量与某个训练视频特征向量之间的x2距离最小时,就判断测试视频的情绪属于该训练视频的标签情绪类型。
4.2SVM分类器
除了1NN,基于贝叶斯学习理论的SVM也是一种极为有效的判别方法。SVM的原理是首先将特征向量映射到高维特征空间,然后最大间隔地找到一个线性分离超平面分离这个高维空间的数据。给一组训练标记的情绪视频{(xo,yi),i=1,…,l},其中xi∈{1,-1},测试样本x通过以下函数分类:
5实验及结果分析
5.1情绪数据库介绍
研究表明,人类存在几种核心情绪,是人类的基本情绪也是衍生其他情绪的基础。其中开心(happiness),愤怒(anger),悲伤(sadness),恐惧(fear)这四种情绪是当前情绪识别领域中研究最多的情绪。