基于视频图像的人体异常情绪识别算法研究

2024-01-12陈斌

大理大学学报 2023年12期

陈斌

（丽江文化旅游学院，云南丽江 674100）

随着信息技术的飞速发展，人脸识别技术已经在众多领域内充分应用，使得场景变得更加智能化。运用人脸识别技术，能够快速明确企业运营的数字化发展方向，提升企业的管理效率，保障信息的安全性与实时性〔1〕。通过人脸识别算法开发高性能识别软件，可对人体行为特征和面部表情进行识别，并应用于身份认证、监控、访问控制等方面。云计算、大数据技术快速发展，将识别数据通过云端进行储存，使得识别效果更加精准。然而，不同特征对应着不同的图像或帧，不同帧之间的相似性计算随着数据集增大，问题也随之而来，诸如复杂度增加、内存消耗增大、计算效率降低，而且还存在扩容问题。加之面对光照强度、表情与姿态等因素使得人脸算法无法正确识别〔2〕。对于如何正确识别人脸情绪，如何建立超大规模人脸数据库集进行识别的问题，还没有得到有效解决。因此，本研究以人体异常情绪识别算法为研究对象，研究此算法在不同规模测试数据集下的鲁棒性及时效性。

1 人体异常情绪识别

1.1 人脸面部表情及身体动作特征图像预处理对人脸面部表情及身体动作特征进行检测，完成对于图像的预处理。建立包含100 个样本的训练表情样本库和测试人脸库，得到100 种训练和测试样本库进行命名并保存〔3〕。通过A/D 转换得到图像的数组形式，在RGB 空间中，使用一个二维数组进行表示，将不同数据的元素定义为一个三维坐标点，通过RGB 分别表示不同分量的大小。由于组合形式的不同，通过颜色进行区分，得到的种类可以表示为255×255×255。由于像素值不同，对噪声数据进行滤波处理。运用高斯滤波器平滑图像，将初始数据与高斯平滑模板进行卷积，获得的图像与初始图像进行比较。高斯平滑函数的公式为：

同时，将初始图像表示为f（x，y），出现之后的滤波图像为：

图像中的边缘可能会指向不同方向，将初始图像和不同mask 的卷积存储起来。对于每个点都标识在这个点上的最大值和生成的边缘方向，这样就从原始图像生成了图像中每个点的亮度梯度图以及亮度梯度的方向。将一阶差分卷积模板表示为沿着每个点的最大值和生成边缘方向：H1 ＝，其中的梯度公式表示为：

其中H1、H2 表示垂直与水平梯度中的卷积；Ψ 为垂直梯度中的图像；Ψ（m，n）为幅值〔4〕。运用梯度方向，设定不同扇区，并依次标号，获得4×4 的邻域，得到g=0。构建人脸表情及身体动作特征的对象梯度直方图，提供对应局部图像的编码。保证训练模板与测试模板的表情姿势相同。将初始图像进行划分，同时假定每一个模块的面积为6×7。将不同模块中不同像素的梯度信息进行统计。为了得到目标的分类向量，把初始样本的图像进行划分，生成不同像素的细胞单元L。设定容器P 的数值为n，将梯度的方向在360°中划分为相同大小的n 个部分，每个部分的度数范围对应不同的梯度方向。为得到一个n 维的特征向量，在不同P 的方向区间上进行直方图的统计〔5〕。模块m 的面积为3×3，每个L 包含了m 个L。计算不同块的特征向量是k 维，把k 个L 的维特征向量串联生成n 维的特征向量。在扫描图像的时候，以块为单位，扫描步长为每次块所移动的像素个数。将像素个数进行统计设定为一个细胞单元。扫描完成后，获得扫描块的特征向量，得到目标图像对应的分类特征。

1.2 深度学习算法提取表情和动作特征深度学习提取人脸特征，运用MLP 分层架构，自动学习完成特征提取，将信息从MLP 的输入层“前向传播”后通过隐藏层进行传送〔6〕。将层与层之间的感知系数进行组合分割，获得感知器的数学模型。设置权值的初始值为s，将权重中的不同分量设置为随机自然数，并表示为s（0），s1（0），…，sn（0）。其中sn（0）为对应时刻的阈值。将样本进行输入，得到期望值为h。同时根据公式得到数据输出值与初始值的误差g 为：

当第一个样本的输出值与期望输出值h 相等时，开始对第二个样本进行上述操作，直到所有样本都稳定输出。全连接层用来感知网络的全局信息，在卷积神经网络层中〔7〕，但是采用非线性分类效果缓慢，所以需要设计新的算法来优化结果。将通过深度学习提取人脸面部表情和身体动作特征及卷积神经网络提取全局特征，作为MLP 的输入层，再将尺寸归一化的图像输入到net 结构中，建立卷积神经网络。先对网络中第一个块的卷积层进行卷积，然后完成偏置处理，再使用RELU 激活函数对得到的特征进行映射处理，将特征传送到处理层，利用采集的参照样本中的值进行计算，获取平均值，完成抽样处理。再将从第一个块的处理层中提取到的特征向量传输到第二个块中，不断重复此过程。通过3 次重复操作，得到的高清图像变成低清图像。最后再将卷积神经网络特征向量提取到MLP 结构中，通过运用BP 神经网络反向进行传输，在输入特征信息后经过不同网络层之间的计算获得实际输出值，其公式为：

将网络误差作为权重的依据反向输出回去，并不断更新不同网络层之间的权值。将网络误差值不断重复操作，获得最终的神经网络权值，实现训练分类目的。将量化过的人体表情及动作图像数据进行归一化处理，并在卷积神经网络中进行参数设置，设定对应的学习率和迭代次数〔8〕。读取表情图像文件，获得对应图像的二维训练数据集，截图视频中的有效图片尺寸归一化为100×100。同时将输入数据输入卷积层，使用卷积核进行加权处理，随机选取d 个输入样本及对应期望进行输出：

其中，g 为最大学习次数。计算隐藏层的神经元输入与输出，获得实际值与期望值的差值，将其做对应偏导处理，直到计算出不同层的误差值为止。

1.3 分类识别人体情绪选择一个人脸表情特征对应样本进行分类，不断进行递归。在样本中对信息熵进行度量，熵的值越大，说明纯度越低，理想状态下，所有数据的类别相同，熵为0。熵的表达式为：

为降低复杂性，通过二分类人脸表情识别的特征进行选择〔9〕。设定异常情绪为目标情感，其他为干扰情绪。选择FRP 为评估分类的分类性能。设定所有样本数为Y，识别的目标样本为X，得到的FRP公式为：

在一定程度上，FRP 的值越小，分类识别的效果越好。深度卷积神经网络DNET（dense NET）将每两层之间进行直接连接。在网络中，每一层使用前面所有层特征的映射作为输入，使其自身特征的映射作为所有后续层的输入。设定网络层数为n，连接数为。DNET 连接模型见图1。

图1 网络DNET 模型

DNET 通过连接不同层的特征图实现特征传递，使得特征得到有效识别。与此同时，DNET 将所有层进行连接，即相当于每一层将输入与损失直接连接，减少梯度消失现象。同时建立DNET 预训练，利用DNET 进行空间特征提取。在分类识别过程中，DNET 峰值速度大于50 r，迅速将网络结构进行识别，对人体情绪进行特征提取。设定模型的分类层数，前两层提取浅层特征，比如人体表情、图像边缘信息〔10〕。由于容易受到不同干扰环境因素影响，噪声比较多，所以最后两层提取抽象特征图，用以增加网络的计算量，解决存在的特征图尺寸问题。再将不同模块进行融合，通过特征值进行加权分配，设定输入值为x，沿着水平与垂直的坐标命名不同通路，得到的输出公式为：

其中，c 为第c 条通路；h 为长度，w 为宽度。通过计算生成特征图，并结合1×1 卷积转换函数进行特征融合，获得输出图像的尺寸，将特征图输送到网络连接层进行降维，得到时空特征并输入到分类设备中，完成对视频中人体异常情绪的分类识别。

2 实验测试与分析

2.1 搭建实验环境收集目标识别数据集并进行识别。图片由单摄像机，固定镜头进行拍摄。数据集中每个场景的镜头位置不同，光照情况不同，能够保证模型的充分训练。结合视频帧大小，Batch size为64，迭代次数为100 次。采用预先训练好的DNET 网络提取特征，输出层设置为860、640、514，隐藏层单元参数设置为660。分类设备为SMAX。实验所用到的软硬件平台环境及参数见表1。

表1 实验软硬件平台

建立检测样本，使得人脸表情的分类信息足够多，图像尽量变得更小，可以节约一定的计算量。同时需要将图像区域边界标注明显，使得计算机能够快速对图像完成提取，在训练完人脸样本后，建立人脸样本库和测试人脸样本集合，集合中也包括100 个异常情绪人脸样本。

2.2 实验结果与分析将实验采集的不同情绪数据进行归一化处理，同时在卷积层后附加一个池化层。通过设定卷积核为5×5 来实现细节特征的提取。激活非线性函数，将卷积结果进行映射，得到函数为f（x）=max（0，x）。网络中加入SMAX 函数解决多分类问题，将n 维向量中的元素设定为样本的识别失误率p=p（y=i｜x），其中SMAX 函数公式为：

图2 人体异常情绪识别失误率随迭代次数变化曲线

由结果可知，采用卷积神经网络识别人体异常情绪的过程中，对照1 组和对照2 组的识别失误率相对较高。在迭代次数为200 次时，对照2 组出现最高识别失误率，识别失误率为15%。而实验组的识别失误率最低，在迭代次数增加时，识别失误率也均在5%以下。

为验证数据的容错性，在训练集中加入噪声因素，如高斯噪声、泊松噪声。对比本研究神经网络训练模型与传统训练模型在加噪后，测试集中数据的测试情况，见图3。

图3 信噪比识别结果

由结果可知，实验组的识别失误率为3 组中最低，卷积神经网络对加噪后的测试集识别效果显著，在信噪比不断升高的条件下，识别失误率呈下降趋势。说明该模型具有良好的抗噪性能，能准确且有效地提取图像特征，使得整体的识别效果达到了预期的目标。增加噪声前后图像的效果对比见图4。

图4 加入噪声前后图像的效果对比

由图4 可知，实验组和两个对照组加入噪声前的图像更加清晰，细节更加丰富，颜色更加鲜艳。而加入噪声之后，图像出现模糊、失真、色彩不真实甚至部分像素点混淆等问题，影响图像质量。相比两个对照组，实验组的图像识别结果更加清晰。

本研究从人体异常情绪识别入手，结合图像视频与深度学习方法，探究了基于视频图像的人体异常情绪识别算法。通过卷积神经网络对模型的训练重建，有效提高识别的准确率，使得在人体异常情绪识别与表情分析中能够有极大突破，完成对整体人体图像的匹配，获得准确情绪信息，满足算法对于特征定位的需求。通过算法不断优化，在识别目标时，应用图像视频深度学习技术，实现了对人体异常情绪更有效、更准确的识别。但方法中还存在一些不足之处，例如像素点识别精度问题、损失函数的验证问题、识别率优化问题等需要进一步继续研究。