APP下载

基于表情分析和视线追踪的用户反馈采集技术

2019-07-01王宁致黄碧玲郑敏仪

智能计算机与应用 2019年3期
关键词:深度学习

王宁致 黄碧玲 郑敏仪

摘 要:用户反馈,是指使用某一产品的用户对其产品所提出的有关于产品的情况反馈。用户反馈采集有利于公司优化其产品,为用户提供更好的服务。传统的用户反馈采集方法如跨站跟踪、Cookie跟踪或观察流量信息,仅反馈用户浏览行为的信息,而忽略了用户的潜在兴趣。基于表情分析和眼球视线追踪技术的用户反馈采集核心技术能够反映用户在网页页面浏览时,无意识状态下自然流露的潜在兴趣。研究采用基于类Haar特征的面部检测的Adaboost算法,及基于深度学习的面部情感识别技术,使人类面部情感识别的正确率可达90%。同时使用深度学习方法,在没有高精度且昂贵的仪器条件下,仅借助笔记本电脑前置摄像头实现视线追踪的效果。测试比较3种不同的深度学习的网络结构实现视线追踪的准确率,其中效果最佳的一种网络结构的准确率可达49.60%。

关键词: 用户反馈采集;视线追踪;表情分析;深度学习

文章编号: 2095-2163(2019)03-0063-06 中图分类号: TP311.5 文献标志码: A

0 引 言

企业对用户评价的引导、跟踪与采集,成为用户反馈采集的重要来源。本文研究的是,如何利用深度学习技术在网页页面浏览时实现高效的用户反馈采集。目前,传统的用户反馈采集方法有2种,即:利用跨站跟踪和Cookie跟踪等手段采集用户网络行为数据;通过分析网站页面流量和各分界面流量来进行页面整改。前者只反馈用户关注的特定方面的信息,而没有帮助用户发现潜在的感兴趣内容;而后者效率低,反馈整改流程时间过长。

因此,本文提出了基于情感识别和视线追踪技术的用户反馈采集核心技术。通过收集表情数据结合定位视线落点,来判断用户对屏幕上某块区域的内容的感兴趣程度,作为用户反馈数据。这种反馈数据不仅能反映用户理性关注的焦点,还能帮助用户发现潜在感兴趣的内容,而且反馈整改流程时间也较快,甚至可以做到实时反馈。

1 表情分析技术

面部情感识别主要有3个环节,分别是:面部检测、情感特征提取和情感分类。为了进行面部情感分析,先要抓取前置快照,并预处理图像中的面部数据,包括定位、矫正尺寸等工作。而后從矫正好的面部图像中提取情感特征,提取特征的质量直接关系到下一步分辨的准确程度。最后就是面部情感分类。根据表情特征性质对所属情感类别进行划定。本文采用由美国心理学家Friesen和Ekman定义的6种基本情感分类:高兴、惊喜、悲伤、厌恶、生气和恐惧(1970)。

1.1 表情分析技术的研究和实现

表情分析是计算机将提取到的面部特征数据输入分类器,完成分类识别,使计算机能够判定下一步程序的过程。主要分为2个部分。首先是机器学习,提取面部图像的Haar特征,用Adaboost算法,即采用一种基于级联分类模型的分类器来训练模型。这部分研究旨在获取仅含面部的图像。其次,是深度学习,把前述部分获取的表情输入深度学习网络,从而判断情感类别。这个深度学习网络是采用Cohn-Kanade数据库作为训练集进行训练的,6种情感平均识别率可达90%。

1.2 面部检测技术的研究

基于Haar特征的Adaboost算法由于其速率远高于基于像素识别的算法,可以达到实时识别情感的目的。检测面部后,将获取的面部特征输入深度学习网络。这个深度学习网络是参考了《基于深度学习的情感识别方法研究》。研究得到该网络结构如图1所示。

本文采用Cohn-Kanade数据库训练这个网络。该数据库于2010年发布,其数据量较大、且数据质量较高。这个数据库一共有593张面部图像,本文用总量的75%作为训练集进行训练,即高兴、生气、惊喜、恐惧、厌恶和悲伤六种情感各74张,合计444张图像。用其余149张图像作为测试集进行测试。测试的结果见表1。

表1给出了每种情感的正确识别率,其中对角线的数据就是6种情感分别对应的正确识别率。从实验结果可知,生气、惊喜和悲伤三种情感的识别结果较为理想,其正确识别率都超过了92%,而高兴、恐惧和厌恶三种情感的正确识别率略低,分别为86.10%、87.50%和88.76%。主要原因是高兴与惊喜、恐惧与厌恶相互之间容易产生混淆。

2 视线追踪技术

眼睛是人类获取外界刺激信息的重要视觉器官,大脑中约有80%的知识和记忆都是通过眼睛获取。视线反馈了人类感兴趣的对象、目标和需求,具备输入输出双向性特点。在用户浏览页面时追踪用户视线能获取人机交互的信息,可以采集更多即时的用户反馈,有利于改善传统用户反馈采集的滞后性等缺点。

视线追踪技术是指利用特殊的外接扫描设备获取视线聚焦点的位置和眼球相对于头部位置的运动,并分析注视时间、注视次数、注视顺序和眼眺距离等相关数据 通过终端设备进行处理、计算、分析,最终构建出一个注视点的参考平面图。其技术原理是通过图像传感器采集的角膜反射模式和其他信息,计算出眼球的位置和注视方向。

基于视线追踪技术,市面上已有视线追踪器,或称眼动仪。但眼动仪存在着以下不足:

(1)价格高昂。以瑞典Tobii公司为例,最基础的一款Tobii X2 眼动仪报价硬件和软件共31万人民币。

(2)使用不便。以瑞典Tobii公司为例,若要追踪用户视线,用户需额外购买专门的硬件设备和软件程序,使用过程还需要佩戴专门的眼镜。

眼动仪等高成本、需要定制或侵入式硬件以及现实世界中的不准确性等这些因素使得眼动追踪无法成为普通技术。在本文设计中,则拟将使用合理的相机,如智能手机的前置镜头或平板电脑的摄像头,研究一种更物美价廉的视线追踪技术,推广至民用商用,便民利民。

判断情感分析情绪后仍未能得到有效的用户反馈信息。所以结合视线追踪技术继续收集用户的反馈信息,并综合分析这2种信息。本文中,研发构建3种不同的深度学习的网络结构训练数据集,测试比较并寻求效果最好的网络结构。

2.1 实验数据集

在本次研究中,使用的是来自论文TabletGaze: dataset and analysis for unconstrained appearance-based gaze estimation in mobile tablets中公开的数据集。考证该论文后可知,论文中使用了长22.62 cm、宽14.14 cm的屏幕。共有35个注视点在平板屏幕上均匀分布,排列成5行、7列,垂直间隔3.42 cm,左右间隔3.41 cm。平板屏幕上的注视模式的示例图像即如图2所示。

此时如图3所示,即将显示区域划分成35个区域。原始数据是通过平板电脑在景观模式的前置摄像头拍摄受试者的视频得到的,视频采用1 280×720像素的图像分辨率。受试者在平板屏幕上观察点出现的位置。有35个点(5×7)分布在平板电脑屏幕上。在每一个视频里,一个点一次只出现在在一个位置,点的位置在35个点之间是随机的,然后随机移动到下一个地方,直到点在所有35个位置各出现一次,結束一个视频录制。具体的观察点将遵照图3中的数字顺序从小到大依次显示。受试者事先并不知道观察点的显示顺序。

该数据集中共有51名受试者,12名女性和39名男性参与了数据收集,其中26人戴着眼镜;28名受试者是白种人,其余23人是亚洲人。受试者的年龄大约在20~40岁之间。每轮数据采集期间,受试者分别用4种不同的身体姿势(站、坐,葛优瘫或躺,如图4所示)之一,录制一个视频序列。每个主题需要为4个身体姿势中的每一个进行4次记录,因此每个主题总共收集了16个视频序列。

为了使得实验结果有对比性、参考性和可重复性,采用公开的实验数据集进行视线追踪技术的研究。每个视频中每12帧截一次图,共取得143 360张带面部的截图。将每人每种身体姿势的70%的截图,共100 352张截图作为训练集训练本文采用的深度学习网络,其余43 008张作为测试集检测深度学习网络。

2.2 视线落点定位深度学习网络结构一

本文使用深度学习定位视觉落点。研究中使用的第一种深度学习的网络结构如图5所示。

图5中各变量的解释见表2。在此基础上,对该种设计可做研究阐释如下。

(1)输入初始图像。注入初始图像的训练结果如图6所示。其中,蓝色线描述的准确率最后只稳定在33.65%,红色线描述的训练集在模型中的预测结果与真实结果的误差较大。测试结果仅能得知预测的视线落定是否精准定位在测试区域,但无法得到通过深度学习预测的视线落点距离测试区域有多远。于是通过计算所有49 115个预测点和原点的距离差及其平均值,即2.015个单位。鉴于本文所采用的屏幕仅有5×7个单位,相差2.015个单位的测试结果较不理想。

(2)输入处理后的图像。由于第一种网络结构的训练效果并不理想,其中面部特征提取也不好,而且出现了重大偏差。尽管第一种设计的中间步骤有互相独立的2个分支分别进行了2轮卷积和多项式乘法、标准化等处理,但导致最终视线落点定位结果未臻至理想的原因可能是因为在初始阶段输入的图像过于庞大,在未能精准分辨面部位置情况下便把第一轮卷积和多项式乘法等处理的结果作为初始元送入后续处理。基于此,本文做出些许调整,在原本的网络结构不变的情况下将原本的input1换成input2,input2是处理后仅有人眼睛的图像,由此得到的处理后的测试结果如图7所示。

蓝色线描述的采用处理后的图像的准确率最后只稳定在33.44%,红色线训练集在模型中的预测结果与真实结果的误差也佐证这个网络设计的测试结果并不理想。通过计算所有49 115个预测点和原点的距离差及其平均值,即2.045个单位。鉴于本文所采用的屏幕仅有5×7个单位,相差2.045个单位的测试结果也较不理想。

2.3 视线落点定位深度学习网络结构二

由于前两次网络结构的训练效果并不理想。究其原因可知,第一次输入的是原图,背景中可能产生很多影响因素,导致面部识别产生偏差,进而使得视线落点定位出现重大偏差;第二次输入仅有眼睛的图像,降低了面部识别误差的同时,却损失了人眼相对于面部的位置信息和面部相对于环境的位置信息。所以视线落点定位效果依然不够理想。综合考虑后将前文论述网络结构做出些许调整,在原本的仅有一个输入的情况下增加一个新的图像输入input2,input1、input2分别是原图和裁剪后仅有眼睛的图像。此外,为确保input2的特征提取不受input1的干扰,这2个图像分别各自进行了卷积和多项式乘法、标准化等处理,待特征值处理后再进行全连通深度学习。综合前述分析后可知,本文研究使用的第二种深度学习的网络结构如图8所示。由此得到的第二种网络结构的训练结果如图9所示。

由图9可以清楚看到测试集的准确率能达到49.60%,这个结果比前述可供对比的网络结构的准确率分别高15.95%和16.16%。而且图9的测试结果仅能得知预测的视线落定是否精准定位在测试区域,但无法得到通过深度学习预测的视线落点距离测试区域有多远。为此研究查看了训练后的预测数据,并计算了所有49 115个预测点和原点的距离差及其平均值,即1.602个单位。鉴于本文所采用的屏幕有5×7个单位,在未采用高精度仪器追踪视线的情况下,相差1.602个单位的测试结果较为理想。

3 用户反馈流程

首先在某一分区投放一个产品如广告等,不妨假设在第n分区(具体位置见图10)。用户反馈收集流程如图11所示。启动笔记本电脑的前置镜头拍摄画面,用迭代检测面部是否在画面中。若在这个画面中没有面部则返回上一步,即用前置镜头继续拍摄画面;若有面部存在,则用深度学习检测画面中人的视角落点区域。若该人的视角落点并未落在第n分区则返回上一步,即用深度学习检测画面中人的视角落点区域;若该人的视角落点位于第n分区,则识别该人的情感判断其人此时的情感,并计算其凝视第n分区的时长。把该人表现出的情感和凝视第n分区的时长作为用户对产品的反馈信息输出。

4 結束语

基于情感识别和视线追踪的用户反馈采集是一个极具发展潜力和商业价值的新兴课题。本文设计的研究创新主要可表述如下。

(1)通过对国内外相关文献资料的广泛调研及查阅,本文建立了一个可以实现面部情感识别的网站。

(2)在没有高精度仪器采集面部图像、且没有光学设备获得较为准确的眼动数据的情况下,通过深度学习实现准确率达49.60%的视线追踪。

此外,面部情感识别和视线追踪技术均是多学科交叉的学界热点研究内容。其中,情感识别目前虽然已经陆续推出了很多不同的算法模型,取得了不错的识别效果,但却仍未能完全达到在实际环境中完美应用的要求。迄今为止,这也还是一个颇具挑战性的课题;而基于深度学习的视线追踪技术的视线落点定位准确率仍然偏低,故而亟需通过改善网络结构等方法提高视线落点定位准确率。期待本文工作能够为今后的深入探讨研究提供有益借鉴。

参考文献

[1]高峰. 基于二维Gabor变换与支持向量机的人脸表情识别研究[D]. 天津:天津大学,2008.

[2]  施徐敢. 基于深度学习的人脸表情识别[D]. 杭州:浙江理工大学,2015.

[3]  邱玉. 基于动态表情识别的情感计算技术[D]. 宁波:宁波大学,2015.

[4]  程曦. 基于深度学习的情感识别方法研究[D]. 长春:长春工业大学,2017.

[5] 金辉,高文. 人脸面部混合表情识别系统[J]. 计算机学报,2000,23(6):602-608.

[6] 冯成志,沈模卫. 视线跟踪技术及其在人机交互中的应用[J]. 浙江大学学报(理学版), 2002, 29(2):225-232.

[7] KOTSIA I, ZAFEIRIOU S, PITAS L. Texture and shape information fusion for facial expression and facial action unit recognition [J]. Pattern Recognition, 2008,41(3):833-851.

[8] LUCEY P, COHN J F , KANADE T, et al. The extended Cohn-Kanade dataset(CK+):A complete dataset for action unit and emotion-specified expression[C]//Proceedings of the 3rd IEEE Workshop on CVPR for Human Communicative Behavior Analysis (CVPR4HB), CVPR 2010.San Francisco, CA, USA:IEEE, 2010: 94-101.

[9] HUANG Qiong, VEERARAGHAVAN A, SABHARWAL A. TabletGaze: Dataset and analysis for unconstrained appearance-based gaze estimation in mobile tablets[J]. Machine Vision and Applications, 2017, 28(5-6):1-17.

猜你喜欢

深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究