APP下载

基于低秩稀疏优化的交互行为识别*

2022-01-19马欣李建军

内蒙古科技大学学报 2021年4期
关键词:光流识别率静态

马欣,李建军

(内蒙古科技大学 信息工程学院,内蒙古 包头 014010)

交互行为主要分为人物、双人和人群交互行为,交互行为的动作有复杂且多变、信息冗余量大、个体间差异性大等特点,很难提取有效特征进行识别,是目前交互行为识别率低的主要原因[1,2].

鲁棒性主成分分析法(Robust PCA)可以提取图像中重要的特征信息,即数据中的低秩部分,去除数据中的冗余信息和噪声干扰.基于低秩稀疏的算法优化在人体行为分析、人脸识别、视频目标检测等领域有着广泛的应用场景.Zheng等[3]在进行人脸识别的研究过程中,将低秩表示融入到字典学习中,增强了稀疏表示的鲁棒性,提取了数据中的有效信息,很大程度上提高了算法的识别效率;陈斌等[4]分别采用特征的主成分稀疏表示和低秩分解的方法对样本图像进行分割,在人脸匹配实验中取得了较好的识别效果.叶茂权[5]利用基于Fisher的稀疏编码,将提取到的人体行为融合特征进行样本识别,提高了特征描述的语义描述能力.

文章算法流程如图1所示.

图1 算法流程

1 特征融合

特征融合技术[6]不仅增加了行为识别率,而且让系统的鲁棒性有所提高,使得研究方法能够适应不同场景.

文章分别对人体行为图像的静态、动态特征进行提取,之后将静态特征加权串行融合得到融合特征,最后利用ScSPM模型对静态融合特征和动态光流特征进行编码融合.

1.1 深度图像特征提取

深度图像能够真实反映出图像的三维空间和几何形状,减少颜色、遮挡等客观因素的干扰.通过深度图像获取的边缘信息相对于普通彩色图像更加纯粹[7].边缘特征描述了人物的轮廓,能够很好地描绘图像中人物和背景的边界.与其他常用的边缘检测算子相比,Canny算子对边缘的检测精度更高[8,9],更加适应文章的实验方法.具体步骤如下:

(1)采用高斯滤波对深度图像去噪.

I(x,y)=[G(x)G(y)]⊗f(x,y) ,

(1)

(2)

(3)

式中:⊗表示卷积运算;σ表示高斯卷积的平滑因子,σ越大表示对噪声越不敏感;f(x,y)为原始图像;I(x,y)为去噪后的图像.

(4)

(5)

(3)对上一步得出的幅值进行非极大值抑制.将点P(x,y)与邻域的8个点进行幅值比较,若点P(x,y)小于该方向的2个邻接像素的幅值,那么该点不是极大值,将其梯度的幅值置0.

(4)双阈值法检测图像边缘.由以上步骤处理过的样本图像还可能存在其他噪声或者虚假边缘,需要进一步优化.将某一像素的幅值与高阈值Th和Tl低阈值进行比较,若小于Tl,则将其去除;若大于Th,则判断该像素为边缘像素.采用Canny算子对深度图提取边缘如图2所示.

图2 深度图像边缘特征

1.2 RGB图像特征提取

1.2.1纹理特征

纹理特征是对图像灰度空间分布的描述,用来表述图像整体或像素点与周围环境间的联系.纹理特征在不同角度的描述方法分类也不同,比如基于结构、模型、变换、统计的4种范畴[10,11].

LBP特征是对1个窗口邻域的二进制描述,若检测窗口的中心像素T的灰度值大于周围8个像素的灰度值Ti,则该像素记为二进制数1,反之记为0.二值化后的邻域的8个像素点的值与权值矩阵相乘得到8个结果值,相加最终得到该邻域LBP特征值.但是如果图像开始旋转,中心像素点的邻近点也会跟着旋转,最终改变图像的LBP值,影响纹理特征的提取效果.

LBP的旋转不变模式是通过选取邻域的最小LBP值作为最终值,该算法对人体特征的提取能力很强,可以忽略没有意义的背景信息,同时保持特征的稳定性.基于以上分析,文章采用旋转不变的LBP[12]作为图像纹理特征的提取方法.

LBP算子和其不变模式下提取到的纹理特征对比如图3所示.

图3 原始LBP与其不变模式提取纹理特征(a)原始图;(b)原始LBP提取到的文理特征;(c)LBP旋转不变模式提取到的纹理特征

1.2.2光流特征

光流特征是通过多帧图像来提取的动态特征,可以描述交互动作的过程,一定程度上可以区分一些较为相似的动作,所以文章采用光流直方图(HOF)来描述动态特征[13].HOF描述了光流特征维度的变化,具体实现步骤如下:

(1)将每帧图像对应的光流场进行光流计算.

(2)以坐标轴横向坐标为准,把光流矢量的角度值投影到对应的直方图中,将得到的幅值加权计算,如下式:

θ=tan-1(y/x) ,

(6)

v=[x,y]T.

(7)

1.3 静态特征融合

基于深度图像和RGB图像的优势,文章将2种静态特征,即边缘特征和纹理特征,加权融合为静态融合特征:

S=ωrgb×Srgb×ωdepth×Sdepth.

(8)

式中:S为静态融合特征;Srgb是对RGB图像提取的纹理特征;Sdepth则为对RGB-D图像提取到的边缘特征;ωrgb和ωdepth分别为RGB图像特征和RGB-D图像特征对应的权值系数,通过遍历,保留小数点后一位小数得到最优权值为0.3和0.7.

2 稀疏编码与融合

2.1 稀疏编码

通过特征提取和融合,得到光流特征和静态融合人特征.再利用ScSPM模型[14,15]编码对2个特征进行最大池化处理,最终得到其对应的编码特征,具体步骤如图4所示.

ScSPM采用稀疏编码(SC)方法对特征编码,与词袋模型的基于K均值的量化编码方式相比,稀疏编码加入L1-范数放宽限制减少了一部分信息的丢失.稀疏编码公式如下:

∀k=1,2,…,K.

(9)

式中:M为特征数目;X为静态融合特征、光流特征再提取Sift特征后的d维向量集合,x=[x1,…,xM]∈RM×D;V=[v1,…,vM]是字典;U=[u1,…,uM]为特征在字典V上的投影系数;λ是正则化参数;对vk进行L2-范数约束.

ScSPM模型采用稀疏优化学习方法从静态融合特征集合、光流特征集合中分别得出1个超完备的特征词典,在编码时特征可以映射到字典中多个单词,具有良好的重建性,得到最小的重构误差.稀疏的特征更具有线性可分性.

图4 ScSPM模型

2.2 稀疏编码特征融合

静态融合特征和光流特征通过稀疏编码池化后分别得到编码特征,然后再对编码特征融合.采用加权融合方法对每类特征进行融合:

F=ω1×S′+ω2×D′ ,

(10)

式中:f为经过静态融合编码特征和动态光流编码特征融合后的交互行为特征;S′为静态融合特征完成稀疏编码并池化后的特征;D′则为光流特征完成稀疏编码并池化后的特征;ω1,ω2分别为二者的融合权重,经过遍历得到最优权重分别为0.3,0.7.

3 低秩表示

采用鲁棒主成分分析法(RPCA)对编码的融合特征进行低秩稀疏表示.RPCA的本质也是对高维数据进行降维.RPCA是将原始数据矩阵分解为两部分:含有噪声的稀疏部分和低秩部分,RPCA可以很好地将高维噪声数据降维[16,17],其原理即:

X=Z+A,

(11)

式中:X为需要处理的数据矩阵;Z为含有效信息的低秩矩阵;A为含噪声的稀疏矩阵.

求解鲁棒主成分分析法的算法众多,其中增广拉格朗日乘子法[18]是所有算法中运行速度和求解精度最佳的算法,因此文章采用此算法解决上述优化问题.

ALM函数算法流程如下:

(12)

式中:Y是线性约束乘子;μ是正的正则化参数.初始化μ和β,使用坐标轴下降法,即在每个迭代周期内,先沿着1个坐标轴方向(例如:Z)求极值而固定其他的所有坐标轴,依次循环,直到找到满足条件的Z,Y,μ的值.

固定A和Y,求解Z:

(13)

固定Z和Y,求解A:

(14)

更新Y和μ:

(15)

(16)

通过以上算法运算,实验最终将高维图像数据处理成满足条件的低秩矩阵Z和稀疏矩阵A.

4 实验结果与分析

为验证文章的算法识别准确率,分别在人体行为数据集CAD-60和MSR Action Pairs上进行实验验证.实验分别随机抽取数据集中的40张图像进行测试,反复实验5次得到平均识别率.

CAD-60数据集包含了12种人体日常行为动作,是由4个人在不同场景下完成的.文章选取了9个人物交互动作,分别为打开药瓶盖子、打电话、刷牙、用电脑工作、切菜、搅拌、喝水、漱口和在白板上写字.经过5次随机测试,得到平均识别率为98.5%.混淆矩阵如图5所示.

由图5混淆矩阵可知,在此交互动作行为分类问题中,一共有9种行为动作.

横坐标的刻度标签brushingteeth, chopping…, writing分别代表样本人物的实际行为;纵坐标的刻度标签brushingteeth, chopping…, writing分别代表分类器识别出的行为动作,黑色方框内的数据代表样本被正确识别的概率.

图5 CAD-60数据集下的实验结果

由结果分析得知:CAD-60数据集中,打电话这个动作容易发生识别混淆,没有达到百分之百的识别率.同一数据集下文章算法与其他方法的实验识别率对比如表1所示.

表1 CAD-60数据集下不同方法的识别率对比

由表1可知,文献19采用的是最大熵马尔可夫模型(HMM),识别率较低.文献[20]基于MEMM模型,人体动作识别效率不高.文献[21]从人体运动的能量角度提取人体局部特征,与人体交互特征进行融合构成组合特征,最后采用基于RBF核函数的SVM分类器进行人体行为分类识别.文献[22]中作者利用多层融合方案将Kinect骨骼点、RGB和深度模式特征有效地结合在一起,建立专门的SVM模型,运用多层融合方案将特征结合在一起,以此提高识别效率.文献[23]中作者首先提取每个骨架帧的姿态特征向量,然后选择姿态创建活动特征向量,最后利用多类SVM进行分类.对比以上的研究结果,文章提出的方法在CAD-0数据集上的识别率和算法性能更佳.

MSR Action Pairs数据集包含6组行为动作,分别为从桌子上拿起盒子和放下盒子、戴上帽子和摘下帽子、从地上捡起和放下盒子、贴上海报和撕下海报、推开和拉起椅子、背上书包和摘下书包.通过查看分析数据集图像,发现成对动作间相似度很大,识别起来具有一定的困难.经过5次随机测试,得到平均识别率为92.5%.混淆矩阵如图6所示.

由图6混淆矩阵可知,在此交互动作分类问题中,一共有12种行为动作.

横坐标的刻度标签lifbox, pickupbox, …, takeofhat分别代表样本人物的实际行为;纵坐标的刻度标签lifbox, pickupbox, …, takeofhat分别代表分类器识别出的行为动作,黑色方框内的数据代表样本被正确识别的概率.

图6 MSR Action Pairs数据集下的实验结果

通过实验结果分析得知,文章的低秩稀疏优化算法在样本数量较大的行为数据集MSR Action Pairs数上发挥了算法识别速度快的优点,并且在识别准确率上也有了很大提升.但由于样本数据中动作的相似度过高,造成一些成对动作的识别发生混淆,给动作识别带来一定困难,从而导致识别率有所下降.不同方法识别率对比如下表2所示.

表2 MSR Action Pairs数据集下不同方法的识别率对比

由表2可知,文献[25]、文献[26]的识别率较高,文献[25]利用直方图描述关节行为运动视频的时间序列及空间序列坐标,并构建四维空间分布,捕捉了深度序列中的关节形状运动线索.文献[26]利用MMTW方法对2个动作序列进行对齐,并测量它们的匹配分数,通过学习1个动作模板来表示1个动作类,从而最大限度地区别于其他类.但这2种算法的时间和空间复杂度都相比文章算法高很多,运算过程相对繁琐,影响实时性.而文章基于低秩稀疏算法中提取的特征都是运算简单的底层特征,在降低时间复杂度的同时,识别的效率也有了提高.

5 结论

基于低秩稀疏算法可以降低矩阵维数,减少冗余信息的特性,文章提出低秩稀疏优化融合特征的识别算法.该算法首先加权融合提取的RGB图像的纹理特征和深度图像的边缘特征,然后对静态融合特征和光流特征采用ScSPM模型编码融合,之后采用RPCA算法提取出融合特征的低秩矩阵,最后采用SVM算法分类识别.文章针对RGB图像和深度图像、动态特征与静态特征的互补特性,将特征有效地融合,有助于提高识别率.针对交互动作的复杂性,以及提取特征较多的问题,采用低秩稀疏算法进行优化,有效地提高了算法的效率,对比文献中相同数据集下的不同方法,而文章基于低秩稀疏算法中提取的特征都是运算简单的底层特征,在降低时间复杂度的同时,识别的效率也有了提高.

猜你喜欢

光流识别率静态
利用掩膜和单应矩阵提高LK光流追踪效果
基于改进Cycle-GAN的光流无监督估计方法
一种多尺度光流预测与融合的实时视频插帧方法
最新进展!中老铁路开始静态验收
静态随机存储器在轨自检算法
动得多,还要坐得少——评WHO《身体活动与静态行为指南》
基于自适应纹理复杂度的仿生视觉导航方法研究
猜猜他是谁
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术