基于机器视觉的婴儿全身运动质量智能评估

2023-12-15汪志成赵杰沈博韬王哲

科学技术与工程 2023年33期

汪志成, 赵杰, 沈博韬, 王哲

(东华理工大学机械与电子工程学院, 南昌 330013)

新生儿大脑在发育早期的结构和功能上具有较高的可塑性,对新生儿的大脑进行评估诊断并确定诊疗方案,可大幅度降低早期先天性发育损伤对以后的影响。传统的影像学脑神经检测与评估方法只能在急性期对婴儿的神经系统进行有效的判断,而无法对长期发展过程进行整体判断。

采用全身运动评估(general movements,GMs)[1]方法,通过对婴儿自主运动视频的分析,可以对超早期婴儿(3个月内)的脑功能异常及神经发育结构进行评估,具有安全性、无任何副作用、无创且不与其他治疗方式有冲突等特点,受到了国内外广泛关注和认可。客观的全身运动质量估计主要分为基于传感器检测方式和基于视频分析方式。基于传感器主要通过在婴儿身上安置传感器或光学装置采集婴儿的运动特征进行分析,从而评估结果。Heinze等[2]通过在婴儿的四肢末端安装加速度传感器来检测婴儿的运动特征,并对其进行分析和预测。这些适合运动分析的穿戴式传感器体型较小,价格合理,并且能提供可靠的运动数据[3]。随着机器学习技术的发展,它在目标物体检测、人体姿态估计(human pose estimation,HPE)、运动追踪和人体行为识别等方面都有很大发展。伏娜娜等[4]采用嵌入式系统对人体的三维坐标轨迹进行分类。McCay等[5]在 MINI-RGB 数据集上采用OpenPose 模型提取婴儿的姿态信息,设计了一种全新的HOJD2D特征来表征婴儿的GMs特征,结果表明机器学习模型在经过这种特征的训练后,在区分正常和患有运动发育障碍的婴儿方面达到了 91% 的准确度。Chambers等[6]使用了HPE中最为常用的 OpenPose 模型来提取视频中的婴儿姿态。在基于时间的位置序列上提取出了速度、加速度等方面的 38 个特征,计算出了正常与高危婴儿的朴素贝叶斯分数。Nikolas等[7]通过双目深度摄像头采集婴儿的全身姿势信息,使用主成分分析(principal component analysis,PCA)进行矫正,以此采集婴儿的手脚运动幅度。Tsuji等[8]将婴儿的30 s视频通过光流法进行采集处理后使用卷积神经网络(convolutional neural networks,CNN)进行评估GMs的数项指标进行判断。

现基于GM 对婴儿的发育状况进行评估,在以往研究基础上,重点研究基于机器视觉的全身运动质量评估方法。

1 人体二维关键点识别模型

1.1 二维人体姿势识别网络模型构建

基于姿势识别的婴儿异常行为检测,主要包括人体姿势坐标检测及全身运动质量评估为基础的婴儿行为检测两个方面。针对婴儿的运动特征,构建一套基于ResNet-50的2D姿势识别系统,通过单个摄像头拍摄婴儿的自主运动,从单张红绿蓝(red-green-blue,RGB)图像中提取婴儿每个关节点的像素坐标位置,利用姿势识别的方式获取婴儿连续一段时间内的运动坐标,提取婴儿的运动指标特征并结合全身运动质量评估进行分析。模型网络结构如图1所示。

图1 基于ResNet的人体姿势识别网络结构图Fig.1 The structure of human pose estimation network based on ResNet

如图1所示,该网络结构模型主要由输入部分、四组残差组、反卷积组和输出层构成。

输入部分:假设输入数据为一副256×256的RGB图像,首先进行一个步长为2的卷积层(核大小为7×7)以及一个核大小为3的池化层,得到一个64通道的网络。

残差组:一共分为4个残差组,分别由3、4、6、3个残差块构成。在第一组中,首先通过一个核大小为1×1、通道数为64的卷积网络;其次通过一个核大小为3×3、通道数为64的卷积网络;再次通过一个个核大小为1×1、通道数为256的卷积网络,如此反复3次,得到一个256通道的特征图。在第二组中,首先通过一个核大小为1×1、通道数为128的卷积网络;其次通过一个核大小为3×3、通道数为128的卷积网络;再次通过一个个核大小为1×1、通道数为512的卷积网络,如此反复4次,得到一个256通道的特征图。在第三组中,首先通过一个核大小为1×1、通道数为256的卷积网络;其次通过一个核大小为3×3、通道数为256的卷积网络;再次通过一个个核大小为1×1、通道数为1 024的卷积网络,如此反复6次,得到一个1 024通道的特征图。在最后一组中,首先通过一个核大小为1×1、通道数为64的卷积网络;其次通过一个核大小为3×3、通道数为64的卷积网络;再次通过一个个核大小为1×1、通道数为256的卷积网络,如此反复3次,得到一个2 048通道的特征图。在以上残差块中,均使用bottleneck作为基本块。

反卷积组:由3个反卷积层构成,每一层核大小为4×4,步长为2,最终获得一个256×64×64的特征图。

输出层:由核大小为1×1,通道数为256的卷积组成,最终获得n×64×64的热力图,其中n为关节点数量。

如表1所示,所有Residual块均使用bottleneck结构。即,将一张大小为256×256的彩色图像放入本网络,经过卷积、池化、多个Residual块及反卷积层后,最终获得n张64×64的热力图,从热力图中找到极大点所在位置,即该坐标点的位置。

表1 姿势识别网络的详细配置Table 1 Detailed parameter of pose estimation network

1.2 模型运算结果及分析

为验证模型对婴儿姿势识别的有效性,选用MINI-RGBD数据集[9]进行测试,MINI-RGBD数据集内全部为婴儿平躺姿势时的数据集。MINI-RGBD数据集中由24个关节点(1～24)构成,如图2所示。

图2 MINI-RGBD数据集标签Fig.2 MINI-RGBD dataset annotation

为了提升整体的训练效率,使用ImageNet的权重对于前面卷积部分进行初始化,然后使用MINI-RGBD数据集进行训练,得到最终需要的面向婴儿的2D姿势识别模型。模型训练大约进行20个迭代次数(epoch),整体训练的准确率(accuracy)和损失率(loss)如图3所示。

图3 MINI-RGBD数据集的准确率Fig.3 Accuracy and loss on MINI-RGBD dataset

由图3结果可知,在MINI-RGBD数据集中,该模型训练效果和收敛效果都较好,识别准确率较高,部分识别数据如图4所示。

图4 MINI-RGBD数据集中识别结果Fig.4 Detection result on MINI-RGBD dataset

经过计算,与其他方式的比较如表2所示。

表2 相关算法在MINI-RGBD数据集上的准确率Table 2 Accuracy on MINI-RGBD dataset

如表2所示,基于ResNet的人体2D姿势识别模型,经过在MINI-RGBD数据集上的验证,准确率达到了94.71%,具有较好的稳定性。

2 人体三维关键点姿势识别

2.1 三维姿态识别模型构建

通过卷积神经网络模型从RGB图像提取出人体的二维姿势坐标后,将坐标进行升维,由此获得人体的三维姿势坐标。3D pose baseline[10]是一种将二维姿势坐标进行升维获得3D姿势坐标的典型方式,其通过多个线性层进行升维,将人体姿势二维坐标转换为三维坐标,其网络结构如图5所示。

图5 3D人体姿态基线(3D pose baseline)网络基本结构Fig.5 The basic structure of 3D pose baseline

“baseline”网络方式基本采用全连接层结构,在许多实际应用中识别准确率并不高,基于baseline网络,以DenseNet为样本进行改造,得到新的3D姿势识别网络,如图6所示。

图6 网络整体结构Fig.6 The structure of network

如图6所示网络结构,主要由输入卷积层、Dense块和线性输出层构成。

输入层:设输入为16×2的二维数组,记录16个关键点的二维坐标,首先对该数组进行变换,得到一个32×1的数组,随后进行一个步长为2的一维卷积层,进行归一化和池化,最终获得一个16×1的一维数组。

Dense块:网络由5个Dense块构成,每个Dense块由5个Dense层构成,每个Dense层先经过归一化和ReLU激活函数,然后通过一层一维卷积,如此进行两次。第一个Dense块输出一个224×8的数组;经过第二个Dense块获得496×4的数组;经过第三个Dense块获得1 016×2的数组;经过最后一个Dense块获得一个1 020×1的数组,到达输出层。

输出层:为线性层,最终输出大小为48×1,将该数组变换,即可获得16×3的三维坐标系。网络主要参数如表3所示。

表3 所用的网络的详细参数Table 3 Detailed parameters of network used

表3所示网络结构,将16×2的二维人体关键点坐标放入该网络后,经过输入层及多个Dense块后,通过最终线性层进行输出,获得16×3的三维人体坐标位置。该网络与DenseNet的主要区别在于,所有的2D卷积、池化等部分均换成1D卷积、池化部分,并且将输入部分由三通道改为单通道输入。由此获得整个姿势升维网络。

2.2 模型运算结果及分析

改进后的三维姿势识别网络基于坐标点进行转换,使用MINI-RGBD作为数据集,将数据集按照4∶1分为训练集和测试集,并提取数据集的2D坐标和3D坐标进行训练,运行50个epoch,训练整体的loss曲线如图7所示。

图7 3D姿势识别的损失变化Fig.7 Loss on 3D estimation

从图7可见,模型整体收敛性较好,部分MINI-RGBD数据集图片在该模型中的识别效果如图8所示。

图8 在MINI-RGBD数据集中的3D识别结果Fig.8 3D detection results in MINI-RGBD dataset

目前针对婴儿的数据集较少,为进一步提升网络的识别精度,采用MPII、Human3.6M与MINI-RGBD数据集进行该网络的训练,并分别对各个数据集进行测试,结果如表4所示。

表4 基于SVM的婴儿运动特征分类结果Table 4 Classification results of infant movement features based on SVM

表4 相关算法在不同数据集上的准确率Table 4 The accuracy of correlation algorithms on different data sets

由表4可知,经不同数据集共同训练后的网络准确率实现进一步提升,本文方法在MINI-RGBD数据集的识别准确率达到60.93%,相比pose baseline方法更适用于婴儿的3D姿势识别任务。

3 基于姿势识别的婴儿运动特征分析

3.1 运动参数的提取

在传统的全身运动质量评估领域中,评估人员以婴儿的全身整体运动情况对婴儿的状态进行评估,以婴儿整体运动的复杂程度及变化程度作为评价婴儿的运动能力的整体判断指标,评判者的主观因素往往会较大程度的影响评估结果。针对以上问题,提出一种基于姿势坐标的婴儿运动特征智能分析方法,处理流程如图9所示。

图9 特征分析方式处理流程图Fig.9 The structure of characteristics analysis method

该方式从婴儿的空间坐标关系出发,在婴儿的二维姿势坐标提取及三维姿势坐标转换基础上,根据婴儿的运动特征,通过姿势向量对婴儿运动的角度、加速度、幅度进行提取。

3.1.1 角度特征的提取

首先使用空间向量的方式来提取婴儿关键点的角度,设三维笛卡尔坐标系中存在两个不重合的两个点A和B,其坐标为A(X1,Y1,Z1)、B(X2,Y2,Z2),原点为O(0,0,0)。对于从A到B组成的向量AB,可等效于从原点O引出,表述为

AB=(X2-X1,Y2-Y1,Z2-Z1)

(1)

在3D姿势识别中,使用空间向量夹角的方式来对关节间夹角进行计算。这里以手臂的3个关键点:手掌、手肘、肩膀举例,对角度的推算进行具体说明。

设有一个三维笛卡尔坐标系,手肘为原点E(XE,YE,ZE),手掌H(XH,YH,ZH),肩膀S(XS,YS,ZS)。则手肘的开合角度可通过计算空间向量EH与ES之间的夹角得出,即

ES=(XS-XE,YS-YE,ZS-ZE)

(2)

EH=(XH-XE,YH-YE,ZH-ZE)

(3)

根据向量点乘可得

ES·EH=∣ES∣∣EH∣cosθ

(4)

式(4)中:θ为两个向量之间的夹角,由此可得

(5)

在四元数中,设空间中存在两个向量q1和q2,其空间向量分别表示为q1=a+bi+cj+dk、q2=e+fi+gj+hk,则两向量相乘可表示为

(6)

即可将上述手肘的坐标向量关系夹角计算在四元数内用如下形式表示,设ES为q1,EH为q2,即a=1,b=xS-xE,c=yS-yE,d=zS-zE,e=0,f=xS-xH,g=yS-yH,h=zS-zH,则q1q2可表示为如式(7)所示,于是两向量之间余弦值cosθ可表示为如式(8)所示。

(7)

(8)

3.1.2 婴儿运动速度特征提取

正常的婴儿在进行扭动阶段的运动时,其肢体运动过程流畅且复杂多变,而异常的婴儿在运动的过程有一定的不自然的顿挫感与停滞感,并且其步态的频率也会受到影响[11]。因此可根据婴儿在全身运动时的肢体的速度特性和加速度特性作为婴儿的行为异常指标。

图10 婴儿运动细节提取流程图Fig.10 Flow chart of baby movement details extraction

由图10可知,首先,在关节角度处理前,需要将婴儿视频按帧拆分,得到静态图像序列;然后,基于这些静态图像序列,提取出婴儿的空间坐标序列;其次,从空间坐标序列中提取出所有关节点的角度数据,并通过两帧之间的角度差与时间差计算得出角速度序列与角加速度序列;最后,通过角度、角速度、角加速度的三元序列数组作为婴儿运动分析的基础。因采集视频时使用30帧进行录制,因此时间间隔Δt=0.333 33 s。图11为使用该方式对于某一样本婴儿的左手臂提取的角度、角速度、角加速度。

图11 提取婴儿左手臂的角度、角速度、角加速度Fig.11 Extracted angle, speed, acceleration of one infant left arm

3.2 运动特征分类识别

使用SVM分类器对提取到的婴儿动作特征进行分类,以有效地避免高维度带来的维数灾难,并保持较好的实时性[12],图12为分类方式的流程图。具体步骤如下。

图12 基于SVM的婴儿运动特征分类流程示意图Fig.12 Flow chart of infant movements characteristics based on SVM

步骤1首先提取图2中的标注按照婴儿运动特征的方式进行提取,包括左臂(13,14,15),右臂(10,11,12),左腿(3,4,5),右腿(0,1,2),肩部(12,13),臀部(2,3),对于肩部和臀部,使用参考坐标系为基准坐标系,即夹角为肩部和臀部分别与参考水平面产生的夹角,并由此求出角速度与角加速度。分别获取角度、角速度、角加速度共18个参数,将其进行排列获得一个(18,n)的矩阵,其中n为该样本运动序列的帧数。

步骤2获得样本运动序列后,为了便于处理及分类,将序列特征按照30帧进行分割,得到n/30个小片段,对于不足30帧的结尾部分进行丢弃。

步骤3分割后,对于每个片段进行归一化处理,降低计算复杂程度,归一化公式为

(9)

式(9)中:X′为归一化处理后的数据。

步骤4对SVM模型进行训练,并获得网络最终处理的参数信息。

步骤5通过训练好的SVM分类器对样本进行测试。

该模型在数据处理时,将连续的视频序列拆分成多个小片段,对每一个小片段进行投票处理,将每个片段的结果数量相加,数量最多的则表示该样本的整体为发育正常或发育异常。但在具体处理过程中,因样本特征参数过多,计算较为耗时,且众多特征中存在一些与整体特征无关的数据。要对一些与特征无关数据进行处理与分析,因此使用主成分分析的方式对提取的18个婴儿运动特征进行降维处理,减少无关数据对整体指标产生的影响,以进一步降低计算资源消耗量,提升分类的准确性。

采用PCA算法函数计算,通过方差比例对降维后的信息进行评估,各成分所占的方差百分比如图13所示,提取前8个点作为新的样本输入,并进行SVM分类。

图13 前n个主成分所占方差比图Fig.13 Line chart of variance of the first n principal components

3.3 实验结果与分析

基于前述方法,采用MINI-RGBD数据集对模型进行测试,基于SVM的婴儿运动特征分类结果如表4所示。

由表4可知,该方式在针对婴儿的异常行为识别中有较好的表现。通过主成分分析方式对数据进行降维处理和分类,结果如表5所示。

表5 基于PCA降维后SVM的婴儿运动特征分类结果Table 5 Classification results of infant movement features based on SVM after PCA reduction

由表5可知,对于每个样本来说,正常与异常之比的判断比例有所提高。在同样条件下,两种识别方式的样本平均处理时间如表6所示,可以看出,使用主成分分析对参数输入进行降维,可加快数据的处理速度。

表6 两种方法平均处理时间Table 6 Processing time of two processing methods

4 结论

针对新生儿的全身运动评估问题,通过目标提取、特征提取与分析、机器视觉等方法,将婴儿的运动特征通过计算机分析的方式进行具体量化。

(1)针对婴儿的运动特征,提出使用ResNet与反卷积层结合的方式生成人体2D姿势识别网络,减少了模型参数量和深度神经网络存在的退化问题,将婴儿姿势识别的准确率从94.42%提升到94.71%。

(2)针对3D pose baseline采用全连接层结构导致识别准确率下降的问题,提出基于DenseNet和1D卷积网络的2D姿势坐标到3D姿势的升维模型。经过实验验证,构建的基于单张RGB图像的婴儿3D姿势识别系统,能够完成对于婴儿的3D姿势识别,且识别的准确率从56.67%提升到60.93%。

(3)提出基于姿势识别的婴儿运动特征分析方式。选用四元数表示空间向量关系,提取婴儿运动特征指标,使用主成分分析的方式将婴儿运动特征序列拆分成多个小段,通过投票的方式对婴儿的运动特征进行分类,并对模型输入进行降维,将降维后的特征通过支持向量机进行分类。经实验表明,基于SVM的婴儿特征分类模型和经过PCA降维后的婴儿特征分类模型均能在评判婴儿整体运动指标上获得较好的性能和效果。