幂律调制多尺度熵及其在生物信号分析中的应用研究*
2020-04-01周声毅卓雁文郑泽宇谢康宁
韩 伟 李 艳 周声毅 卓雁文 汤 池 刘 娟 郑泽宇 谢康宁*
从生物信号区分不同的生理或病理状态具有重要的研究意义和应用价值,如临床上通过心电可以诊断心肌缺血和心律失常等疾病;通过脑电可以监测人体睡眠状态和麻醉深度。人体心电、脑电等生理信号由跨多个时空尺度的相互作用机制共同调控,并受多种因素影响,是典型的非线性复杂时间序列信号。复杂度是一种非线性信号分析方法,近年来得到了广泛的研究,虽然复杂度的概念还未准确定义,但研究者认为其与信号“有意义的结构丰富度”有着直观的联系[1]。在生物系统的复杂度理论中,健康系统具有最强的调控能力和环境适应性,在多个时空尺度上呈现出复杂变化和长程相关性,因此具有最高的复杂度。而病理、衰老等系统,由于调控和适应能力受到损害或减弱,其系统复杂度将降低[2]。最大随机系统和完全有序系统被认为具有最低的复杂度,因为其不具备“有意义的结构丰富度”[3]。Silva[4]等研究认为,生理信号中包含的随机成分和周期成分越多,其复杂度将越低。
多尺度熵(multiscale entropy,MSE)是非线性动力学理论中度量时间序列复杂度的一种算法,相比传统的近似熵、样本熵,MSE可以考虑到信号在多个时间尺度上的动态特性和长程相关性信息,从而全面地度量信号的复杂度,十分适合复杂时间序列信号分析[5-6]。目前,MSE已经被用于生物医学、交通、金融及工业等领域的研究[7-11]。然而,MSE自身也存在一些缺陷和不足,如MSE给混杂了白噪声的生理信号赋予了比原始信号更高的复杂度值,这显然是错误的,因为白噪声属于完全随机信号,会对原始生理信号的结构和自相关性造成污染,因此会使混合信号变得不那么复杂。此外,MSE在不同尺度上熵值比较结果不尽相同的时候难以给出确定性结论。Costa[5]等研究认为,若一个时间序列的熵值在绝大部分尺度上大于另一个时间序列,则前者比后者更复杂;同时研究还指出,为了更好地分析生理过程,除了考虑MSE的系列值,还需要考虑MSE曲线的变化趋势。这种分析方法不够直观,需要一定经验,且在某些特定情况下容易出错。为此,本研究提出了一种改进的MSE,称为幂律调制多尺度熵(power-law modulated multiscale entropy,pMSE),并通过仿真、心电和脑电3种信号分别对其进行了测试和验证。
1 pMSE和MSE算法
1.1 MSE算法
MSE由在不同的时间尺度上计算样本熵(sample entropy,SE)而得到,其核心思想是“粗粒化”过程[12]。设一个有限长离散时间序列{xi}表示为x1,x2,x3,…,xL,共L个点,其MSE计算有以下两个步骤。
(1)对原始序列进行粗粒化变换,生成不同尺度对应的新序列,其计算为公式1:
图1 尺度2和尺度3的粗粒化序列生成过程
(2)计算每个尺度对应序列的SE值,从而得到MSE,其计算为公式2:
式中m为嵌入维数,r为相似容限。一般情况下,m取2,r取0.15σ(σ为序列{xi}的标准差),s取1~20。s范围越大,越能观察到信号在不同尺度上的动态变化特性,但需要的数据点随之增多,计算成本也随之增高。
1.2 pMSE算法
另一种度量信号复杂度的方法是分形,通过分析信号的自相似性来研究其复杂度[13]。其中Hurst指数是提出最早使用最广泛的信号分形研究指数。生理信号的功率谱包含一个1/f分量,即信号的功率随频率的增加呈幂律函数递减,用公式可以表示为:P∝1/fβ,其中P是功率,f是频率,β是幂律指数(Power-law)[14]。当β=0时,信号即为白噪声;当β=1时,信号即常见的1/f噪声,也称闪烁噪声。Eke等[15]通过研究发现,β与Hurst指数存在如下关系:
因此,β也是研究信号自相似性的重要指标,并与信号的复杂度存在一定关联。结合MSE和β,通过多次尝试及仿真验证提出了pMSE,其计算为公式3:
单分形信号的β容易求得,然而真实的生理信号绝大多数为多分形信号,从整体上看并无一个单一的幂律指数,但以微分思想在局部每个尺度附近可以求得一个近似的β,记为βs。结合Costa对MSE解析表达式[5]的分析推导,以及相关数学公式推算,发现当以对数尺度作为横轴时,MSE的值与lns成正比,二者的关系为表达式:
表达式中k为MSE曲线的斜率,当以对数尺度作为横轴时,计算出MSE在每个尺度处的曲线斜率ks便可以求得局部的近似βs。为此,首先对MSE的系列熵值做四阶多项式拟合,通过平滑来减小局部波动带来的干扰,然后对拟合曲线求导得到每个尺度处的曲线斜率,进而得出βs,最后便可以计算出pMSE。
2 pMSE和MSE数据与分析
2.1 仿真噪声数据
对比pMSE和MSE对混合了不同程度白噪声的生理信号的区分情况。在麻省理工学院的开源数据库Physiobank[16]中随机选取一例正常窦性心律人体的心跳间期信号,编号nsr16273,作为基准生理信号。白噪声由MATLAB 2017b生成,先将标准差等比放大至和生理信号同样大小,然后按照0.2倍、0.4倍和0.6倍幅值大小分别叠加在该基准信号上。
2.2 心电信号数据
对比pMSE和MSE对健康、充血性心力衰竭和心房颤动患者的心跳间期信号的区分情况。Physiobank中的心律失常数据库被许多学者用来进行生理信号复杂度相关研究,为便于比较,遵循随机原则,从Physiobank数据库中选取45例数据,分别为健康数据15例,充血性心力衰竭数据14例,以及心房颤动数据16例。
2.3 脑电信号数据
对比pMSE和MSE对清醒和疲劳两种状态脑电信号的区分情况。招募在校大学生16名,年龄范围(25.63±3.26)岁,均为右利手,身体和精神状态良好,近期未服用任何药物。采用连续2 h的英文阅读模拟持续认知负荷任务,诱发受试者的脑疲劳状态。疲劳模型评估使用美国航空航天局任务负荷指数(NASA-Task Load Index,NASA-TLX)量表和卡罗林斯卡嗜睡量表(Karolinska sleeping scale,KSS)。在前额叶Fpz位置记录清醒时和疲劳时的脑电信号各8 min,共12×10^4个数据点。由于清醒和疲劳是生理状态而非病理状态,数据分析结果发现pMSE和MSE在疲劳前后的变化均较小,从绘制的曲线上仅能看出疲劳后的值略有降低,难以直观比较。此外,由于个体的大脑状态差异较大,因而采用支持向量机(support vector machine,SVM)算法比较pMSE和MSE对脑疲劳的分类效果。具体数据处理及分析步骤如下。
(1)对16名受试者脑电数据进行1~40 Hz带通滤波,然后采用滑动窗方法将每个信号分割,滑动过程见图2。
图2 滑动过程示意图
(2)计算每组数据的pMSE和MSE。最终每名受试者在清醒和疲劳两种状态下,分别有使用两种算法计算得到的一个226×20的二维数组。
(3)分别以pMSE和MSE值作为特征,以清醒和疲劳作为监督学习标签,将每名受试者两种状态下的二维数组合并,分别形成一个452×20的数据集。然后采用SVM对每个数据集进行分类,得到对清醒和疲劳脑电的分类准确率。为保证分类结果的鲁棒性,使用分层5倍折叠交叉验证法确定训练集和测试集。
2.4 统计学方法
使用SPSS20.0统计软件对量表和分类准确率数据做配对t检验,所有数据均以均数±标准差()表示,显著性水准以P<0.05为差异有统计学意义。
3 结果分析
3.1 仿真噪声分析
生理信号混合不同程度白噪声后,MSE和pMSE计算出的复杂度变化见图3。
图3(a)显示,MSE给基准生理信号赋予了最低的复杂度,随着混合的噪声量增加,MSE的整体值逐渐增大,代表其复杂度逐渐增大,这一结果与现有复杂度理论不相符。相反,从图3(b)可以看出,pMSE对混合了白噪声的生理信号呈现出了正确的区分效果,随着混合噪声的增多,pMSE值逐渐降低,且边界十分清晰。
图3 生理信号混合白噪声后的MSE和pMSE变化
3.2 心电信号分析
健康人、充血性心力衰竭和心房颤动患者心跳间期信号的MSE和pMSE结果见图4。
图4 健康者及心衰和房颤患者心跳间期信号的MSE和pMSE结果
图4(a)的结果与Costa等[6]的研究结果相一致,由于心房颤动患者的信号具有类似白噪声的趋势,二者的MSE曲线均具有先高后低逐渐下降的特点,因此被认为具有最低的复杂度,由此三种信号的复杂度从高到低依次为健康、心力衰竭和心房颤动。图4(b)显示,pMSE在不需要考虑MSE曲线趋势的情况下,便可以对3种信号的复杂度作出正确区分,从高到低依次为健康、心力衰竭和心房颤动。从多数尺度的整体角度来看,pMSE的效果要显著优于MSE。
3.3 脑电信号分析
对16名受试者进行持续认知负荷任务前与任务后NASA-TLX和KSS量表结果进行比较,其差异均有统计学意义(t=15.20,t=7.96;P<0.01),见表1。
表1 16名受试者脑力负荷任务前后NASA-TLX和KSS量表评估结果()
表1 16名受试者脑力负荷任务前后NASA-TLX和KSS量表评估结果()
注:表中NASA-TLX为美国航空航天局任务负荷指数量表;KSS为卡罗林斯卡嗜睡量表
表1显示,在经过2 h的连续英文阅读任务后,16名受试者的工作负荷指数和嗜睡程度明显上升,该结果表明受试者的脑力负荷较大,完成任务后其疲劳程度显著增加,因此实验建立的脑疲劳模型是有效的,清醒和疲劳可以作为SVM的监督学习标签使用。
以清醒和疲劳两种状态脑电信号的MSE和pMSE结果分别作为特征,使用SVM进行分类,最终的分类准确率结果显示,pMSE的平均分类准确率高于MSE,二者差异具有统计学意义(t=2.30,P<0.05),见表2。结果表明以pMSE作为清醒和疲劳脑电信号的敏感特征比MSE取得了更好的分类效果。
表2 SVM对清醒和疲劳脑电信号的分类准确率()
表2 SVM对清醒和疲劳脑电信号的分类准确率()
注:表中MSE为多尺度熵;pMSE为幂律调制多尺度熵
4 讨论
生物系统的复杂度反映了其在不断变化的环境中适应和发挥作用的能力,疾病和衰老等状态会降低生物体的适应能力,从而降低输出变量所携带的信息[5]。生物系统需要在多个时空尺度上运行,因此其复杂度也是多尺度的。Costa等[6]定义的MSE目的正是量化生物系统在多个尺度上由生理动力学表达的信息,通过MSE可以区分来自不同系统或由不同条件下的相同系统生成的生理时间序列信号。基于这一用途,MSE已在多个领域被证明具有十分巨大的应用价值[17]。然而MSE的本质仍然是熵,熵的增加通常但并不总是与复杂性的增加相关联,通过基于熵的各种度量来衡量的复杂度并不能直接和完全反映生物系统真正的复杂度[5]。因此,MSE的这一缺陷必然导致其在分析生物系统信号时出现一些不足。
为改进和解决MSE的不足,本研究首先基于另一种研究复杂度的方法,即分形和自相似,提出了一种新算法pMSE。进而通过仿真噪声信号、心电信号和脑电信号分别对两种算法进行了分析和对比,其结果发现pMSE可以更加直观、准确的度量生物信号复杂度。在仿真噪声信号测试中,MSE即便考虑到曲线变化趋势,即熵值是否呈现出逐渐递减而类似白噪声MSE的趋势,也难以准确判断混合了白噪声的生理信号和原始信号谁的复杂度更高,尤其是在白噪声成分较少时,即MSE更容易受白噪声干扰,容易得到错误结论。在心电信号分析中,在小尺度上心力衰竭和心房颤动患者的pMSE存在交叉且方差较大,在一定程度上影响了对结果的直观判断,这可能是由信号中的高频干扰而引起,因为在小尺度上熵值主要反映的是信号高频部分的信息,从而导致在小尺度上曲线拟合求取时出现了较大误差[18]。在脑电信号分析中,本研究利用SVM可以对高维数据进行分类及特征差异越大分类越准确的优势,全面而均衡地考虑到了每种算法在所有尺度上的值,其最终结果表明pMSE比MSE更适合用来区分清醒和疲劳。
5 结论
本研究对比pMSE和MSE对不同生物信号的分析结果发现,pMSE可以更加准确地度量生物信号复杂度,更加直观地反映不同信号之间复杂度的大小关系。因此,pMSE可以作为一种改进的MSE算法,用于生物信号复杂度的度量研究。在临床应用中,pMSE对构建检测生理信号复杂性的敏感指标,进而开发用于相关疾病诊断和康复的医疗设备具有一定的实用价值和应用前景。未来将探索pMSE在更多种类生物信号分析中的应用效果,如麻醉深度、睡眠分期、运动步态及动物行为等。