舞台场景下结合姿态估计的演员检测方法
2023-11-10董天阳方思琦江一鸣
胡 锆,董天阳,方思琦,江一鸣
(浙江工业大学 计算机科学与技术学院,杭州 310023)
1 引 言
近年来,行人检测作为目标检测一个典型应用,受到了计算机视觉研究人员的广泛关注[1,2].行人检测目前已经被广泛应用于无人驾驶、智能视频监控、行人行为分析、虚实融合的演艺等不同领域[3,4].在虚实融合的演艺中,将行人检测为基础的虚拟现实技术应用到舞台表演中,可以给观众提供沉浸式的体验,让舞美设计有了更新颖的呈现方式.但是,现在主流的行人检测技术一般只适用于日常场景[5],无法在舞台场景中取得良好的检测效果.
与一般场景中行人检测相比,复杂舞台场景的演员检测存在更大的挑战.首先舞台场景中灯光作为演出效果的一个重要部分,不停地变化色彩和亮度,导致图像中不同区域之间的对比度差异巨大,增大了背景对演员检测的干扰.其次,演员在舞台上需要穿着宽松、华丽的戏服,这些戏服会对演员的形体进行遮挡,使得演员的轮廓特征变得模糊.此外,演员需要通过丰富的肢体语言来体现人物的性格和特点,这也为演员检测增加了一定的难度.
事实上,上述这些光照剧烈变化、背景干扰严重的问题不仅仅存在于舞台场景,也存在于夜晚、大雾天气等场景,并有不少研究人员为解决这些特殊场景下的行人检测作出努力.比如为了解决黑暗场景下光照不良的问题,Zhang等人[6]引入了一个跨模态的交互式注意模块来利用不同模态之间的互补性.Li 等人[7]探索了一种多光谱行人检测的光照感知机制,根据图像预测的光照值重新分配不同光谱之间的融合权重.为了解决行人的遮挡和背景难区分问题,Mao 等人[8]通过使用多任务学习网络来聚合额外的特征(边缘图、分割图、热度图、光流图等).Wang 等人[9]提出了联合语义分割和行人检测,使其更容易区分背景和前景.不过这些方法都存在一定的局限性.如真实的多光谱数据存在位置偏移,同一个目标在不同光谱的图像中有不同位置,会导致融合时产生偏差.而边缘图、光流图这些传统特征只能提供有限的语义信息,并且这些信息在聚合过程中容易丢失.
为了进一步提升虚实融合的舞台演艺效果,本文针对舞台灯光变化频繁、演员服装遮挡严重、演员服装相似性高等特点,提出了一种面向复杂舞台场景的演员检测方法.该方法利用姿态估计网络预测演员的关键点并生成包含关键点语义信息的热力图,并结合注意力机制将关键点语义信息引入检测网络中辅助检测.同时为了提升关键点预测的准确度,本文翻转和拼接两个ResNet,然后将它们堆叠成两级沙漏结构来改进姿态估计的子网络.最后在舞台演员数据集上进行消融和对比实验来验证本文提出的方法的有效性,实验结果表明引入关键点语义信息确实能有效的提高演员检测的性能,并且本文引入关键点以后的方法在各个指标上都要明显优于当前其他流行的方法.
2 研究现状
融合虚拟与现实的表演随着VR等技术的成熟已越来越常见,突破虚拟与现实界限的表演为舞台注入了新的活力,舞台上演员的检测是融合虚拟与现实的关键技术之一.虽然在舞台场景下的演员检测缺乏相应的研究,但日常场景下的行人检测和目标检测技术受到了许多研究者的关注,本文将从目标检测和行人检测两个方面介绍相应的研究现状和研究成果.
2.1 目标检测
由于卷积神经网络的快速发展,目标检测领域已经取得了巨大的突破.目标检测任务的发展为行人检测提供了更多的可能性.通常可以把目标检测器分为单阶段检测器和双阶段检测器这两种[10].
随着R-CNN[11]系列的成功,这种结合建议检测框和区域分类器的双阶段模式已经占据了主导地位.R-CNN首次引入和推广了双阶段的方法,利用selective search算法生成感兴趣区域(RoIs),并通过一个网络对每个区域进行分类.为了减少R-CNN的冗余计算,SPP-Net[12]和Fast R-CNN[13]引入区域特征提取算法,从特征图中提取感兴趣区域.然而两者都依赖于单独的区域选择算法,不能实现端到端的训练.后来Faster R-CNN[14]通过引入区域建议网络(RPN),用一组预先确定好的锚框来生成候选框.这不仅大大加快了检测速度还实现了网络端到端的训练.R-CNN系列已经成为了一个流行的检测框架,近期有很多工作对它进行改进来满足不同的需要.例如R-FCN[15]用全卷积子检测网络代替全连接的子检测网络,进一步提高了Faster R-CNN网络的性能.而MS-CNN[16]和FPN[17]在多分辨率特征图上输出候选框以解决目标的多尺度变化问题,提高了目标检测的召回率.Cascade R-CNN[18]采用不同的IOU阈值级联多个检测网络,逐步细化预测检测框.
另一方面,单阶段检测器由于其计算的高效性,也在变得流行起来.它更接近于传统的滑动窗口策略[19].YOLO[20]和SSD[21]作为单阶段检测器的代表,删除了RoI池化步骤,直接用一个网络来进行检测,可以达到实时检测的目标.YOLO直接从图像上预测检测框的边界,SSD将锚框密集地放置在多尺度特征图上,然后对每个锚框进行修正和分类.不过这些架构最大的局限性就是在检测精度上通常要低于双阶段的检测器.而RetinaNet[22]被提出来解决在检测过程中正负锚框之间数量的巨大不平衡问题,取得了比双阶段检测器更好的检测效果.
2.2 行人检测
Faster R-CNN在通用目标检测方面的成功和普及促使了基于深度学习的行人检测方法的构建.最初直接使用Faster R-CNN进行行人检测导致网络性能低于预期.Zhang等人[23]在标准的Faster R-CNN中引入了一些调整(如锚定尺寸、特征图尺度和忽略区域处理),以改进行人检测.Xu等人[24]首先检测每个候选区域的关键点,然后根据这些关键点生成6个人体部件.之后,他们再将这些部件的特征结合成一个完整的行人.Zhao等人[25]为整体边界框检测和部分预测引入了两个分支,并构建了一个树结构模块将它们集成在一起.Zhou等人[26]训练了一个具有两个输出分支的深度网络,其中一个分支检测全身,另一个检测可见部分.最后融合两个分支的结果以改进的行人检测的效果.Pang等人[27]开发了一种新颖的掩模引导注意网络,以增强可见行人区域的特征,同时抑制遮挡区域的特征.还有一些方法使用头部信息来辅助行人检测.Zou等人[28]提出了一种空间注意力模块,基于类激活映射技术对可见部分的特征进行加权.
3 研究方法
3.1 网络整体结构
网络的整体框架如图1所示,本文的整个框架由4部分组成:一个用来生成演员关键点热力图的分支网络(Actor Keypoint Heatmap Network,AKHN),一个用来提取和组合特征的特征金字塔网络(Feature Pyramid Network,FPN),一个用来生成候选框的候选框生成网络(Region Proposal Network,RPN)还有一个对候选框进行修正和分类的级联检测网络.从最左边开始,图像首先经过演员关键点热力图网络预测包含关键点语义信息的热力图.然后融合热力图和原始图像,FPN从融合后的图像中提取不同尺度的特征图,并由RPN从这些特征图中生成候选区域送入最后的检测网络进行检测.
图1 网络的整体结构Fig.1 Overall structure of the network
演员关键点热力图网络(AKHN):在预测演员关键点的时候,一方面需要高分辨率的特征图来对关键点的坐标进行精准定位,而另一方面对于一些难以预测的关键点则需要有丰富语义信息的低分辨率特征图提供上下文信息.为了解决这个矛盾,本文的这个AKHN采用多阶段任务模式,由两个相同沙漏结构的子网络堆叠而成,如图2所示.第1个阶段的下采样过程产生低分辨率图,然后在上采样的过程中进行关键点的预测,对于输入图像IS∈H×W×3,第1阶段产生的特征图如式(1)所示,其中,fD1表示第1阶段的运算过程,θ1表示第1阶段的网络参数,Out1表示第1阶段的输出.
图2 演员关键点热力图预测网络结构Fig.2 Actor keypoint heatmap prediction network structure
Out1=fD1(IS,θ1)
(1)
而第2个阶段把第1阶段的输出作为输入,将上阶段的上下文利用起来,如式(2)所示,式子中,fD2表示第2阶段的运算过程,θ2表示第2阶段的网络参数,Out2表示第2阶段的输出,也是整个演员关键点热力图预测网络的输出.
Out2=fD2(Out1,θ2)
(2)
具体的,演员关键点热力图预测网络每个阶段的主体采用残差网络(ResNet).以第1阶段为例,网络主体将ResNet的Conv2,Conv3,Conv4,Conv5层最后一个输出作为左边不同分辨率的特征图.将这些特征图分别定义为{L1,L2,L3,L4},这些特征图的尺寸是原始图像的{14,18,116,132}倍.网络右边对特征图分别进行两倍的上采样,然后添加两个卷积核大小为3×3的卷积层得到和左边对应分辨率特征图的尺寸一致的特征图{R1,R2,R3,R4}.当然还把相同分辨率的特征图进行融合,如式(3)所示.这样当前的特征图就包含了更多的上下文信息,从而减少了信息丢失.
Ri=Li+Ri
(3)
并且为了保持两个阶段结构和参数的统一,需要把第1个阶段最后一个特征图上采样到和输入图像相同的尺寸,因此第1阶段最后的输出如式(4)所示,⊗表示卷积操作,W3×3表示3×3的卷积核.
out1=R1⊗W3×3
(4)
(5)
在预测过程中,每个阶段融合各个分辨率下的特征图.把它们都上采样到和原图相同的分辨率再压缩通道,可以使得低分辨率和高分辨率的特征互相交叠,兼顾了位置信息和特征语义信息.
特征金字塔(FPN):FPN从融合后的图像中提取和组合特征.主体采用ResNet,FPN利用卷积层的层次特征,采用多尺度融合的方法,建立一个各个尺度特征都包含较强语义的特征金字塔,把低层次高分辨率的信息和高层次强语义的信息结合起来,提高检测性能.网络的结构如图1中FPN部分所示,包含了一个自底向上的路线、一个自顶向下的路线、还有一个横向的连接.
自底向上的过程就是神经网络普通的前向传播过程,特征图经过卷积核计算,有的特征图的尺寸是不变的,而有的会下采样到上一尺寸的一半.对于那些尺寸不变的层,把他们归为一个阶段,然后抽取出每个阶段最后一层的输出.具体而言,对于ResNet,使用每个阶段最后一个残差块的特征作为输出.对于卷积块conv2,conv3,conv4和conv5最后的输出定义为{Con2,Con3,Con4,Con5},而由于conv1庞大的内存占用,不将conv1纳入金字塔中.
自上而下的过程是把更抽象、语义更强的高层特征图进行上采样然后往下传递,这样做是因为高层的特征包含丰富的语义信息,经过自上而下的传播就能使得这些语义信息传播到低层特征上,使得低层特征也包含丰富的语义信息.而横向连接则是将上采样的结果和自底向上生成的相同大小的特征图进行融合.横向连接的两层特征在空间尺寸相同,这样做可以利用底层定位细节信息.将低分辨率的特征图做2倍上采样.然后通过按元素相加,将上采样映射与相应的自底而上映射合并.自上而下和横向连接的过程是迭代的,直到生成最终的分辨率图,如式(6)所示,式中f2up表示2倍上采样.为了开始迭代,只需在Con5上附加一个1×1卷积层来生成低分辨率图P5.最后,在每个合并的图上附加一个3×3卷积来生成最终的特征映射,这是为了减少上采样的混叠效应.这个最终的特征映射集为{P2,P3,P4,P5},分别对应于{Con2,Con3,Con4,Con5}.
(6)
区域建议网络(RPN):本文使用的是基于锚框的检测方法,因此采用RPN网络来进行候选框的生成.RPN的输入就是原始图像经过主干网络提取后的特征,特征图上的每个点都被称作锚点,对于每个锚点都会生成k个不同尺寸和比例的锚框,这些锚框对应着原图上的检测框.然后对整个特征图再做两次卷积,为每个锚框生成分别属于前景和背景的分类分数还有针对锚框偏移的回归坐标.根据每个锚框的分类分数和坐标偏移就能筛选出一系列符合要求的候选框,然后送入检测网络做最后的检测.
级联检测网络:本文采用了Cai 等人提出的Cascade R-CNN中的多级联检测器作为检测网络,整个检测分支由多个检测模型组成,每个模型都基于不同的IOU阈值的正负样本训练得到,并且阈值不断上升,前一个检测模型的输出作为后一个检测模型的输入,来不断优化检测结果,具体结构如图1中级联检测网络部分所示,H1是由RPN初步产生的候选框,H2,H3是进一步对产生的候选框的微调,B1,B2,B3是每个级联检测网络的检测框位置输出,C1,C2,C3是每个检测框分类的结果.由最初RPN生成的候选框开始,经过坐标微调以后送入第一级检测网络,在第一级检测网络中设定一个较小的IOU阈值,对候选框做个初步的筛选,同时对候选框进行回归,提高其与真实目标框的IOU,使得样本更靠近真实框一点.接着把处理好的候选框送入后续检测网络重复上面的步骤.每个检测网络的IOU阈值逐级提高,因此候选框的质量也不断提高.整个不断优化的过程如式(7)所示,T表示级联的检测网络数量,ft表示每个阶段的优化过程,b=(bx,by,bw,bh)是检测框对应图像x的4个坐标.
f1(x,b)=fT·fT-1·…·f1(x,b)
(7)
3.2 热力图的生成方式和原始图像的融合方式
3.2.1 热力图的生成方式
在这节中介绍热力图生成方法.人体的每个关键点在图像中都有一个真实的二维坐标,而其他坐标的像素则属于背景.但实际上人体的关键部位在图像中应该是一个以标注坐标为中心同时占多像素的区域图像.所以在生成热度图时不是简单的将关键点和背景二值化,而是在关键点的某个半径r内采用缓慢递减的方式来进行过渡.越靠近关键点的权值越高.给定半径内像素点的权重如式(8)所示:
(8)
3.2.2 热力图和原始图像的融合方式
人类在处理图像时会快速扫描全局,然后获得需要重点关注的目标区域即注意力焦点,同时对这个区域投入更多的注意力资源以获取更多关注目标的细节信息.而人体关键点热力图就包含了注意力焦点这一先验信息.因此本文希望能通过热力图对可见光图进行局部筛选,弱化背景信息,突出演员特征,从而提高特征的提取效率和精度.更直观的说,热力图拥有更抽象和更精准的语义信息,能够提供辅助的视觉信息.当可见光图像检测到错误的目标或者漏检的时候,热力图能提供额外的信息进行矫正.所以把热力图作为注意力矩阵,可以让网络忽略无关的信息而关注重点信息.根据这一思路本文设计了混合融合模型.
混合融合模型:对于原始图像Img(x,y,z)和热力图H(x,y),融合后的图像G(x,y,z)由式(9)生成:
G(x,y,z)=img(x,y,z)×(1+H(x,y))
(9)
其中x,y代表图像的尺寸,z代表图像的通道.元素相乘可以用来抑制或者突出某一区域的特征,而元素相加可以理解为特征之间的融合和增强.本文的混合融合模型把热力图和原始图像相乘再加上原始图像,既能抑制背景噪声又能在不破坏图像结构的情况下增强关键点信息,融合后的结果如图3(d)所示.
图3 3种不同的融合方式Fig.3 Three different fusion methods
4 实验结果分析
4.1 预先准备
首先介绍一下本文实验采用的数据集、评价指标还有实验的基线.
舞台演员数据集:本文在一个舞台演员的数据集上测试了本文的方法.这个数据集采集于一场完整演出的现场.由6台架设于不同方位的摄像机同时拍摄,一共包含4541张分辨率为1920×1080的图片和63251个演员对象,其中3474张作为训练样本,另外1067张作为测试样本.该数据集用COCO的格式标注了所有演员和工作人员的检测框和关键点.特别地,本文的这个数据集中不包含小目标,所有的检测框面积都大于322.
评价指标:本文采用加州理工学院的的评价指标MR作为最主要的指标,它表示的是每张图片假阳性的平均对数丢失率,范围为[10-2,100],是行人检测常用的指标.同时为了更好地评估本文的方法,本文还采用COCO格式的AP和AR作为评价指标.AP表示的是平均准确率,是对于某个固定的IoU阈值,在以Recall为横坐标,Precision为纵坐标的PR曲线上,取横轴[0,1]的十等分点上的Precision值,并计算其平均值得到.AR(Average Recall)是IoU在[0.5,1.0]上所有Recall的平均值.
带FPN的Cascade R-CNN:本文采用带FPN的Cascade R-CNN作为基线,其中backbone用Resnet-50.为了提取更精准的特征图,本文用RoIAlign代替RoI Pooling.Cascade R-CNN作为一种多阶段目标检测架构,通过级联几个检测网络达到不断优化预测结果的目的.与普通级联不同的是,Cascade R-CNN的几个检测网络是基于不同IOU阈值确定的正负样本上训练得到的,前一个检测模型的输出作为后一个检测模型的输入.
4.2 训练细节
在训练过程中,除了对检测框进行分类和定位以外,要需要进行热力图的预测.所以为了解决热力图的学习问题,本文引入了一种像素级的损失.把AKHN预测的热力图定义为Hx,y,标签热度图为Fx,y.损失LAKHN如式(10)所示:
(10)
H和W表示的是图片的尺寸.l是每个像素的交叉熵损失如式(11)所示:
l(p,q)=-(plog(q)+(1-p)log(1-q))
(11)
最后整个网络的损失如式(12)所示:
Loss=ω1LAKHN1+ω2LAKHN2+ω3LRPNcls+
ω4LRPNbbos+ω5LCHcls+ω6LCHbbos
(12)
ω1、ω1表示PKHN第1阶段和第2阶段预测热度图损失的权重.ω1设置为0.7,ω2设置为1.3.第2个阶段的权重设置比第1阶段要高一点可以让关键点的定位随着阶段的增多越来越准,而后面4个损失的权重和Cascade RCNN保持一致均设为1.
4.3 消融实验
4.3.1 热力图高斯核的半径
高斯核半径是决定热力图的关键因素,高斯核半径大容易引入背景噪声造成干扰,高斯核半径小则生成的热力图不能很好的覆盖演员.为了证明本文的动态选取高斯核半径方法的有效性,另外选取了固定20像素和10像素的两个半径进行对比.这两个半径分别是在动态选取过程中产生的最大半径和最小半径.3种高斯核半径生成的热力图如图4所示.图4(b)、图4(c)、图4(d)分别对应固定10像素、动态和固定20像素的高斯核半径热力图.
图4 3种不同高斯核半径的热力图Fig.4 Heatmap of three different Gaussian kernel radii
表1展示了3种热力图和基线的对比实验结果,可以看到混合融合模型下的3种热力图在MR上分别下降了16.5%、15.8%和19.9%,这表明引入人人体关键点确实可以提供额外的约束信息,可以显著减少高置信度的假阳性样本的出现.同时在AP和AR指标上,3种热力图也均有提升.说明关键点信息也能提升检测网络特征提取的精度和效率.并且固定10像素和20像素半径的热力图在AP上分别提升了1.8%和1.5%,在AR上分别提升了0.7%和0.4%,两种热力图的提升相差不大.而动态半径的热力图在AP上提升了3.7%,AR上提升了1.9%,明显优于另外两种热力图.这也证明只有合适的高斯核半径才能最大限度的提升网络的性能.
表1 3种高斯核半径选择实验结果Table 1 Experimental results of three Gaussian kernel radius selections
4.3.2 热力图与原始图像的混合融合模型
为了证明“混合融合模型”的有效性,将其与“强融合”和“弱融合”模型进行比较.在“强融合”中热力图直接和原始图像相乘,得到的新图像中背景被完全抑制,只保留人体关节点的像素信息如图3(b)所示.而“弱融合”把原始图像归一化以后和热力图进行相加,即保留背景信息又增强关节点的特征如图3(c)所示.
表2展示这3种融合方法的实验结果,3种融合模型均采用动态高斯核半径的热力图作为标签.可以看到弱混合模型要明显劣于基线,而强混合模型虽然在MR上下降了12.8%,AP上提升了2.4%,但在AR上只有0.3%的提升.本文分析认为人体关键点热力图有丰富且抽象的语义信息.强融合保留了原始图像中人体关键点信息,对提高检测的精度有明显的帮助,但抑制了背景信息,导致检测过程中缺少了上下文信息,因此无法通过背景推理出一些难以检测的演员,对AR没什么帮助.而弱融合虽然保留了背景信息,但是热力图和原始图像的像素色彩空间分布不同,弱融合可能破坏了原始图像的结构信息,导致检测网络性能要低于基线.只有混合融合模型对基线有明显的改进作用,验证了其有效性.
表2 3种混合模型的对比结果Table 2 Comparative results of the three mixed models
4.4 与最先进的检测器比较
本文在舞台演员数据集上与Faseter RCNN、RetinaNet、YOLOv3、SSD等其他先进方法进行比较,来评价提出的方法的性能.本文的方法中采用动态高斯核半径和混合融合模型.在MR指标上的实验结果如图5所示.可以看到提出的基线达到了34.3%,明显要优于其他流行的检测器.同时也尝试在基线上增加了Soft-NMS[29]和空间注意力机制,从实验结果分析这些额外的辅助模块并不能提升基线在MR上的性能,因此本文的基线足够强来验证提出方法的有效性.基于强基线,本文的方法在MR上下降了19.9%,达到了14.4%,这证明了本文方法的能力.
图5 与其他方法在MR-2上的对比Fig.5 Comparison with other methods on MR-2
而在AP和AR指标上的实验结果如表3所示,可以看到本文的方法在不同尺度的AP上也都领先与其他方法.在AR指标上虽然表现不是最好的,但也超过了基线1.9%,优于大部分的方法.
表3 和各个先进的检测方法的对比Table 3 Comparison with various advanced detection methods
挑选了几种方法,在图6对检测结果进行了可视化.图中第1列表示真实的检测框,第2列是AKHN预测出的关键点热力图,其余列分别是基线、本文的方法、FPN、Retinanet和SSD的检测结果,可以看到本文的方法获得了比其他方法更好的检测结果.
图6 本文的方法和其他方法的检测结果对比Fig.6 Comparison of detection results between our method and other methods
4.5 AKHN的泛化能力
本文把AKHN移植到其他先进的网络上来分析AKHN的泛化能力.在实验中选取通用目标检测器中比较典型的两个方法,分别是双阶段的FPN和单阶段的YOLO.在两个检测器特征提取网络之前加入AKHN和融合模块,并与原先的模型进行比较,实验结果如表4所示.可以看到相比原先的模型,加入AKHN以后FPN在MR上下降了27.2%,AP上提升了8.7%,AR上提升了4.9%.而YOLO在MR上下降了8.9%,在AP上提升了1.1%,AR上提升了0.3%.这证明了AKHN作为一个独立的分支的确有很强的泛化性能.可以利用AKHN成功地把人体关键点信息引入行人检测中,提升行人检测器的性能.
表4 FPN和YOLO的原始模型和增加AKHN模块后的对比Table 4 Original model of FPN and YOLO and the comparison after adding the KHN module
5 结 论
本文针对复杂的舞台场景提出了一种结合姿态估计的演员检测网络.采用一个演员关键点预测的子网络生成包含关键点语义信息的热力图,然后借鉴注意力机制,将关键点语义信息与原始图像融合,并且采用堆叠ResNet的沙漏结构来提高关键点预测的准确度.对于这个网络,本文首先探究了影响可见光图像和热力图融合效果的因素,证明了采用动态高斯核半径生成热力图和混合融合方法的合理性.同时本文在舞台演员数据集上和其他先进的检测方法进行了比较.实验结果表明本文的方法在MR上达到了14.4%,在AP指标上达到了68%,AR指标上达到了72.7%,超越了现有的大部分方法,证明了其有效性.并且把AKHN迁移到其他检测方法也均能提升对应检测网络的性能,说明其具有一定的泛化能力.
在实验中也发现,额外的分支会带来额外的计算成本,而预测热力图的分支与提取特征的主干网络具有相似的结构.所以本文的下一步工作计划打算融合两部分网络,使得主干网络同时可以提取特征和预测热度图.在不影响网络性能的前提下,节约计算成本.