基于拓扑非线性动态建模的神经退行性疾病异常步态识别
2022-07-26刘语诗赵秀栩冯鹤云
刘语诗 赵秀栩 冯鹤云 颜 延*
1(武汉理工大学机电工程学院 武汉 430070)
2(数字制造湖北省重点实验室 武汉 430070)
3(中国科学院深圳先进技术研究院 深圳 518055)
1 引 言
神经退行性疾病(Neural Degenerative Diseases,NDDs)患者步态异常,严重影响日常行动,临床症状表现为行走过程中震颤、动作迟缓等步态异常。其中,最常见的疾病患者有 3种:肌硬化症(Amyotrophic lateral sclerosis,ALS)患者(步态如图 1 所示)、亨廷顿病(Huntington’s Disease,HD)患者(步态如图 2 所示)以及帕金森病(Parkinson’s Disease,PD)患者(步态如图 3所示)。由图 1~3 可知,在行走模式上,不同的 NDDs 患者会表现出不同的异常特征,因此,从病人步态信息中提取 NDDs 评估特征和生物标记,研究正常受试者(步态如图 4 所示)和患有NDDs 受试者的步态差异,进行异常步态的检测和识别,对 NDDs 的早期监测、健康风险预警和病程评估都具有重要意义。
图1 肌硬化症步态示意图Fig. 1 Gait diagram of muscular sclerosis
图2 亨廷顿病步态示意图Fig. 2 Gait diagram of Huntington’s disease
图3 帕金森病步态示意图Fig. 3 Gait diagram of Parkinson’s disease
图4 正常受试者步态示意图Fig. 4 Schematic diagram of normal subjects’ gait
在行走过程中,人体从同一只脚跟离地跨出到再次脚跟着地的行进过程被称为一个步态周期,重复该动作的时间间隔被称为步幅。一个步态周期可进一步地被划分为支撑相(下肢接触地面及承重力的时间)和摆动相(脚离开地面向前迈步到再次落地之间的时间)[1-2]。步态动力学能够揭示不同 NDDs 患者的运动障碍与行走模式。在行走过程中,ALS 患者主要表现为肌无力、肌肉萎缩、束缚等引起的肌肉运动障碍[3];HD 患者的特征则是表现为不自主地抽搐[4];PD 患者的步态障碍尤为明显,主要表现为静态震颤、步态冻结等[5]。由于步态异常模式的多样化,相关研究者们将许多生物标志物和分析方法用于异常步态的检测与评估。
利用人体传感信息进行异常步态识别,是健康检测领域快速发展的重要课题之一。近年来,学者们主要从 4 个方面开展异常步态的识别:基于计算机视觉的步态识别、基于肌电信号的步态识别、基于惯性传感器的步态识别以及基于足底压力的步态识别。研究发现,可靠、精确的异常步态监测手段,能辅助医生诊断疾病,也可以用于日常生活中保健与智能疾病的监测。1994 年,麻省理工学院的 Niyogi 等[6]从步态图像中提取时域、频域特征用来识别步态,发现不同个体的步态能够得到有效鉴别,从此基于计算机视觉的步态识别开启了新篇章。Tang 等[7]将步态周期按不同的阶段输入卷积神经网络模型,并结合视频提取有效的连续轮廓差异图,实现了步态检测,在公共数据集上取得了较高的精度。徐俞弢等[8]利用 Vicon 系统获取左右脚踝的运动轨迹,进而分析个人的左右步态对称性。2019 年,赵雨佳[9]提出了一种基于稀疏学习的方法,该方法可筛选出有效的疾病特征,实现对 NDDs 的早期检测,对不同疾病的分类可达到90% 左右的准确率。21 世纪初,Anderson 等[10]首次将肌电信号加入步态动作的研究中,从此,基于肌电信号的步态识别成为一个新的研究方向。2019 年,Becker 等[11]采集了实验者在跑步时的 6 块下肢肌电信号,并通过评估发现,6 块肌肉中的比目鱼肌的肌电信号与步速具有良好的相关性,可通过肌电信号的强弱来判断步速的大小。Zawawi 等[12]提取了步态肌电信号的电压均方根、频率平均值、方差以及标准差 4 个特征,并对肌肉骨骼疾病健康检查任务中的肌电进行分类,实验结果表明,基于支持向量机的分类准确率超过 80%,能够帮助康复中心进行疾病诊断。目前,基于惯性传感器的步态识别是研究较为广泛的步态识别。Mileti 等[13]提出一种可对 PD 患者腿部的加速度数据进行分类的马尔可夫模型,实验结果表明,该方法在异常步态的检测上效果显著。Camps 等[14]提出了基于深度学习的模型,通过从腰部采集传感器数据,来进行异常步态的识别,实验结果证明,腰部的传感器数据可以很好地区分不同类型的步态。Lee 等[15]利用从惯性传感器获取三轴加速度信息和角速度信息来区分不同步态,并在正常人与偏瘫患者的两种步态中得到了验证。通过可穿戴式鞋子中的传感器提取行走过程中的力信号,基于足底压力传感器可以准确获得步幅、支撑相以及摆动相的足底压力信息。Hausdorff[16]提出一种基于分形的分析方法来显示步幅波动时间序列的变化,并利用步幅间隔波动对步态节奏进行统计分析,以利于 PD 检测,该方法主要利用了信号轮数和步态节律的标准差(σ)等特征[17]。此外,还有学者利用统计参数对 NDDs 进行分析[18-19],Wahid 等[20]对 PD 患者和健康受试者之间的时空模型进行了研究,提出了一种混合时空模型[21],该模型可用于步态数据中的 PD 检测,还可对其严重程度进行等级划分。2015 年,Baratin 等[22]运用小波特征证明步态的不对称性,并利用步态的规律性识别步态,验证了步态规律在步态识别中的有效性。2018 年,Ye 等[23]提出一种神经网络自适应能力与模糊逻辑定性方法相结合的自适应神经模糊推理模型,用于神经退行性步态节奏波动的分析。Zeng 等[24]提出一种具有较强判别性的确定性学习方法,用于 NDDs 的分类,取得了良好的分类性能。基于双足运动数据融合的时域、频域分析方法,不仅反映了运动的生理相关性,而且还能够获得各种 NDDs 患者运动不对称的差异特征[25]。2020 年,江俊敏[26]从足底压力信号中提取了多种步态信息,并从非线性动力学的角度判断不同信号的混沌特性以实现对 NDDs 的正常分类。Ren 等[27]提取步态时间序列中的相位同步指数以及条件熵两种特征进行 NDDs 分类。经验模态分解[28]、基于规则的方法[29]、基于距离度量的稀疏编码[30]、多重分形去趋势互相关分析[31]、基于模糊递归图的纹理分析[32]等也是 NDDs 识别中步态节奏波动分析的重要工具。通过对不同特征的表征能力进行大量研究,进一步证明了 NDDs 是引起步态异常的主要因素之一。
本文主要从以下 3 个方面进行研究:
(1)基于足底压力的 NDDs 步态数据库,采用一种非线性动力学特征分析的步态建模方法,从步态周期的不同阶段进行特征提取,该方法能对步态周期间隔时间序列的相空间重构进行拓扑建模,从而提取具有非线性动力学的特征;
(2)在 NDDs 数据集中对本实验方法进行验证,采用留一交叉验证,在 ALS、HD 以及 PD患者与正常组的分类识别实验中,模型的工作特征曲线面积(Area Under Receive-Operator-Curve,AUC)值分别为 0.875 0、0.940 6、0.958 3,具有较高的识别水平;
(3)此外,本实验还采用固定周期滑动窗对数据集进行划分,再次验证了本实验方法的有效性。实验结果表明,在基于 50 个步态间隔的时间序列的异常步态识别中,模型的 AUC 值分别为 0.914 6、0.962 3、0.961 4,明显优于相同数据集的其他非线性特征识别的准确率。
2 材料与方法
2.1 数据集及预处理
本实验采用的 NDDs 步态数据库由美国哈佛医院提供,是目前被广泛使用的步态数据集(具体内容见 http://www.physionet.org/physiobank/database/gaitndd)[33]。该数据库主要包括 64 位受试者:健康受试者 16 名,年龄(39.3±18.5)岁,男性 2 名、女性 14 名;ALS 患者 13 名,年龄(54.9±13.4)岁,男性 10 名、女性 3 名;HD 患者 20 名,年龄(47.7±12.2)岁,男性 6 名、女性 14 名;PD 患者 15 名,年龄(66.8±10.9)岁,男性 10 名、女性 5 名。实验中对不同类型人群在行走过程中的步态数据进行采集,以实现对NDDs 病理生理学机制的研究。该数据集中的步态信号由足底压力传感器采集,传感器内置的模式转换器有 12 位,采样频率为 300 Hz。实验过程中,每个受试者在长 77 m 的走廊中以正常速度行走 5 min。数据集还提供了步态周期的时间信息、左右足的跨步间隔、左右摆动间隔、左右站姿间隔以及其对应的比例信息。本文主要基于步态跨步、摆动以及站姿间隔时间序列 3 种步态阶段研究其动态变化信息。
本实验时长为 5 min,但走廊长度为 77 m,为保证时长,被试人员在行走过程中需要多次折返,而折返过程会导致数据异常,给实验带来干扰。因此,本实验对异常值进行了处理,方法如下:对于每一个时间序列,分别计算出数据中的中值(µ)、标准差(s),对于时间序列中的每个值ti,当ti<µ+2s或ti>µ+2s时,ti会被替换成中值,其他数值不变。此外,由于步态起步过程中所采集的时间序列不够稳定,所以为了最大限度地减少步态数据的启动效应,在构建数据集时,本实验将步态时间序列前 20 s 的数据删除。经上述步骤后,再对数据进行归一化处理,可以大大提高数据在运算过程中的收敛速度,从而提高效率。
2.2 相空间重构
其中, 为延迟嵌入后的时间序列; 为相空间延迟参数;d为相空间的嵌入维数,选择适当的嵌入参数 和d能够提高模型的鲁棒性。在以往的研究过程中,也有许多相空间重建的方法被提出,如平均互信息法[36]、选择最佳延迟参数的相关策略[37-38]以及基于几何信息选择延迟参数的方法[39]和伪近邻的算法[35]等。基于相关研究[40]发现,固定 的尺寸不变,不会影响实验结论的有效性。因此,基于平均互信息法原则及固定的 尺寸,本实验对时间序列进行最优延迟参数的选择。先设置不同的延时参数,然后利用分类器分别进行测试,最后选择 、 作为实验的最佳参数。如图 5 所示,将时间序列映射到空间中形成点云,构建出最佳的相空间系统。
图5 正常步态和帕金森异常步态的三维点云Fig. 5 3D point cloud of normal gait and abnormal gait of Parkinson’s disease
2.3 持续同调与拓扑描述
持续同调是拓扑分析的主要工具之一,对于点云所处的抽象拓扑空间,可通过该工具对其进行分析。分析原理为利用单纯复形序列来描述数据点之间的关系,提取有效拓扑特征[41]。其中,单纯复形是一种利用点(0-单纯形)、线(1-单纯形)、三角形面(2-单纯形)、四面体(3-单纯形)等几何对象来拼接或粘合成整个拓扑空间的数据结构(如图 6 所示)。同理,在高维空间中,由两个及两个以上的单纯形连接而成的形状被称为单纯复形。
图6 单纯形Fig. 6 Simplex
持续同调的建模首先是将拓扑空间中的单个点视为具有半径的 -小球,不同半径参数 的拓扑性质可以采用不同的单纯复形表示。在半径增大的过程中,形成了不同的基于 的单纯复形序列(如图 7 所示),在这个过程中能够获取不同拓扑对象的生存信息,从而实现对点云所处抽象拓扑空间的特征描述。具体构建过程如下:
图7 持续同调的二维点云建模过程Fig. 7 2D point cloud modeling process based on persistent homology
(1)将点云空间中点的半径都设置为 ,当半径较小时,空间中的点相互独立,此时,数据点之间通过 0-单纯形进行构建;
(2)随着 的不断增大,空间中的 -小球慢慢产生交集,产生交集的个体的数量开始增多,数据点之间开始通过 1-单纯形进行构建。随着半径继续增大,更多的 -小球慢慢产生交集,之前产生交集的数据点会不断地消失,并生成新的融合体,构建出新的单纯复形序列。随着产生交集的数据点越来越多,融合体越来越大,单纯复形的构建也随之复杂;
(3)当 增加到无穷大时,所有连接个体融合,之前的所有单纯形也合并成一个更加复杂的单纯复形结构。
在单纯复形构建的过程中会形成不同的拓扑特征:0-阶同调孔洞、1-阶同调孔洞以及n-阶同调孔洞,其中,0-阶同调孔洞如图 8 中的 B0所示,1-阶同调孔洞如图 8 中的 B1所示。在点云的变化过程中,通过持续条码记录不同拓扑特征的持续状态[42],如图 8 蓝色直线所示,直线的长度代表拓扑特征的生存时间,当半径参数不同时,会有不同的拓扑特征出现和消失,且每个特征的生存时间不同。对于每个条形码,都可以用单个序对 进行表示。对于点云所处的拓扑空间,可以用如下集合来表示其特征:
图8 拓扑空间分析以及拓扑印记的提取Fig. 8 Topological space analysis and topological imprint extraction
其中,M为 0-阶同调孔洞的个数;N为 1-阶同调孔洞的个数;每个序对为不同状态时 0-阶同调、1-阶同调出生和死亡的时间。
2.4 拓扑特征提取
为了提取特征方便,将每个拓扑特征条形码的出生时间(bi)和死亡时间(di)分别作为坐标轴的x轴和y轴,转换为如图 9 所示的持续散点图。正常步态和 PD 异常步态的持续散点图信息如图 9 所示,通过散点图可以观察到不同步态提取的拓扑特征具有显著差异,基于该散点图也可以获取不同的信息来进行步态识别。
图9 不同步态的出生死亡散点图Fig. 9 Scatter plot of birth and death in asynchronous state
本研究选取k=1 作为最大值,提取不同步态的 PL 特征,并将其与机器学习相结合进行分类。提取 PL 特征如图 10 所示,以帕金森步态为例,其中蓝色代表 0-阶同调的 PL 特征,红色代表 1-阶同调的 PL 特征。通过观察图 10 可知,正常步态和异常步态的 0-阶同调的 PL 特征并无明显区别,而 1-阶同调的 PL 特征图存在显著区别,所以,本文利用基于拓扑分析的 1-阶同调的 PL 特征来区分健康组与异常组的步态时间序列。
图10 正常步态和帕金森异常步态的 0-阶同调、1-阶同调的 PL 特征图Fig. 10 PL features of order 0 homology and order 1 homology of normal gait and Parkinson’s abnormal gait
2.5 算法评估
本研究基于非线性拓扑特征的机器学习算法对正常步态与异常步态进行评估,主要包括正常组与 ALS 组、正常组与 HD 组、正常组与 PD 组的 3 个二分类问题,由于数据集中包含的对象数量有限,所以本实验采用了留一交叉验证的方法。文献[3,16,24]中存在相同的识别问题,即采用数据集中的一个单独样本作为该任务的测试样本,其余则作为训练样本,以更好地提取有效特征。为进一步说明该方法的有效性,本实验将每个时间序列分割成更短的切片,以生成更大的数据集,利用滑动窗的方法将一个完整步态周期分为左右脚步幅间隔、左右脚摆动间隔以及左右脚站立间隔 6 个时间序列。实验过程中发现,当窗口长度少于 50 个点时,相空间重构就会失败,所以为保证相空间成功构建,提取有效特征,且创建的数据集更大,本实验选择每段的时间序列为 50 个点。通过上述方法对每个类别都作相应拓展后,采用训练集∶测试集为 1∶1 的方式进行实验。
由于每个时间序列都是相互独立的,不同时间序列所构建的拓扑特征是不同的。如图 11 所示,在不同步态周期中,左右脚与地面接触的面积是不同的,但人体体重不会随着位置的移动而发生改变,因此随着面积的改变,足底压力所获取的信息是不同的。此外,步态周期虽然具有一定的规律,但是并不稳定,将不同脚跨步间隔的足底压力信息列入考虑范围,将能够更全面地获取受试者在行走过程中不同状态的步态特征。本实验采用多特征融合的方法,即波动融合(将左脚和右脚的步幅间隔、摆动间隔以及站立间隔都进行融合),然后使用朴素贝叶斯(Naive Bayes,NB)、支持向量机(Support Vector Machine,SVM)和随机森林(Random Forest,RF)3 种具有代表性的分类器对模型进行综合评估,并利用受试者 AUC 值来衡量每个模型的识别能力,AUC值越大,模型的鲁棒性越好。
图11 步态周期示意图Fig. 11 Schematic diagram of gait cycle
3 结 论
本研究基于步态时间序列特征的融合,以验证所提取方法的有效性。首先,基于原始 4 种时间为 5 min 的步态时间序列进行评估,在提取 1-阶同调的 PL 特征后使用留一验证法,然后利用NB、SVM、RF 3 个分类器分别对正常与 ALS、正常与 HD、正常与 PD 3 组进行分类,以 AUC值为结果进行评估,评估结果如表 1 所示。由表 1 可知,特征融合的效果比单一特征效果好,在 ALS 与正常组中,使用 NB 分类器的效果最佳,其 AUC 值为 0.875 0;在 HD 与正常组中,使用 NB 分类器效果最佳,AUC 值为 0.940 6;在 PD 与正常组中,3 种分类器效果均高于平均水平,其中,NB 及 RF 分类器的效果较好,分别为 0.958 3 与 0.958 0。
表1 基于原始数据的评估结果Table 1 Experimental results based on raw data
在重新扩展的数据集上,采用相同的拓扑特征以及分类器对模型进行验证,并以 AUC 值为结果进行评估,实验结果如表 2 所示。由表 2 可知,在 ALS 与正常组中,采用 RF 分类器效果最佳,AUC 值达到 91.46%,明显优于基于原始步态数据的实验结果;在 HD 与正常组中,NB 和SVM 的结果要明显弱于 RF 分类器,最佳 AUC值为 96.23%;在 PD 与正常组中,NB 分类器没有良好的鲁棒性,其最佳分类结果是由 RF 分类器产生的,AUC 值为 96.14%。
表2 基于重新扩建数据集的实验结果Table 2 Experimental results based on the re-expanded data set
4 讨 论
目前,关于步态节律以及半周期的研究都经历了较长的发展期,研究者们采用不同的特征来区分健康受试者与 ALS、HD 和 PD 受试者,以及其他异常步态者。传统的平均值、标准差等统计参数特征提取方法只考虑了有限的一维数据特征,忽略了步态节律在相位空间中的非线性动力学特征。在特征提取的过程中,大部分主要针对步幅以及步幅变化进行研究,对左右脚步幅间隔、摆动间隔以及站立间隔相结合的研究较少,在特征信息的提取过程中,会导致部分信息遗漏。在同一数据集上,将本文方法与其他方法进行对比[26],对比结果如表 3 所示。由表 3 可知,在 ALS 患者与正常受试者步态的检测中,效果最好的是近似熵与模糊熵,但其分类结果只有 71.42%,明显低于本文方法 87.50% 的识别准确率。在 HD 患者与正常受试者步态的识别中,模糊熵的识别准确率最高,但也只达到了77.78%,比本文方法识别的准确率还要低 16%。在 PD 患者与正常受试者步态的检测中,样本熵、模糊熵的非线性特征检测结果较好,然而仅达到 75.00%,与本文方法 95.83% 的识别率仍有较大差距。由近似熵、样本熵、模糊熵 3 种非线性特征的对比可知,在异常步态识别中,模糊熵的表现最好,但仍低于本文所用的 PL 非线性特征。综上所述,在基于非线性特征的异常步态识别中,本文方法具有较为明显的优势。
表3 相同数据集的非线性特征结果对比Table 3 Comparison of nonlinear characteristic results of the same data set
本文提出一种全新的方法用于异常步态的识别,该方法研究了步态相空间的拓扑特征,由于拓扑特征具有随着疾病的干扰而改变的特点,所以这些特征能够作为 NDDs 潜在的生物标志之一。此外,步态节律也会受到信号的非线性以及非平稳性的影响,因此,采用拓扑非线性动态建模的方法能够很好地保留步态特征的空间特性以及非线性特征。由表 1 可知,在异常步态识别的应用中,进一步扩展数据集,拓扑非线性动态建模的方法仍可取得较好的结果,使得该方法的优良性能得到了进一步验证。
综上所述,本文提出的基于拓扑非线性动力学的异常步态检测的优点如下:
(1)基于步态周期的特征提取,考虑了不同阶段的步态特征及左右脚之间的协同信息;
(2)提取特征时,采用一种新的拓扑特征,保留了步态变化过程中非线性动力学的特点;
(3)在 ALS、HD 以及 PD 分类中,本文方法均获得较高的准确率,明显优于其他非线性动力学特征。
5 结论与展望
本文提出了一种基于拓扑特征分析的异常步态非线性分析方法,探讨了拓扑特征在 NDDs 方面的应用,研究了 ALS、HD、PD 患者的步态拓扑特征差异,构造了基于步态拓扑特征信息的机器学习分类模型,实现了 NDDs 异常步态的精准分类。在对 ALS、HD 以及 PD 患者步态的检测任务中,分别获得了 91.46%、96.23%、96.14%的准确率,验证了拓扑非线性特征在步态分析中显著的表征能力,及良好的异常识别能力,为临床或康复中的步态信息分析提供了一种新的思路。