基于EMD和GEP的急性低血压预测方法研究
2014-09-23王运涛姜大志
王运涛,姜大志
(1.江苏科技大学 计算机科学与工程学院,江苏 镇江212003;2.汕头大学工学院 计算机系,广东 汕头 515063)
基于EMD和GEP的急性低血压预测方法研究
王运涛1,姜大志2
(1.江苏科技大学 计算机科学与工程学院,江苏 镇江212003;2.汕头大学工学院 计算机系,广东 汕头 515063)
急性低血压(Acute Hypotensive Episodes,AHE)是ICU重症监护室中患者常见且危害严重的术后发症状之一。AHE的有效诊断与预测,给予医生足够时间实现干预措施,具有十分重要的临床意义。但由于血压时间序列数据高度非线性和复杂性,使得AHE的诊断与预测尤为困难。为此,面向复杂非线性时间序列的建模,本文提出一种基于经验模态分解(Empirical Mode Decomposition,EMD)和基因表达式程序设计(Gene Expression Programming,GEP)的综合方法,并构建相似性匹配模版方法来提高建模的稳定性。应用PhysioNet?中MIMIC-II的数据进行实验分析,发现本方法是有效、可行的。为复杂非线性时间序列数据的建模预测提供了一条可参考的路径。
时间序列;急性低血压;经验模态分解;基因表达式编程
重症监护室(ICU)是守卫病人生命的最后防线,而AHE则是ICU监护中最严重也是最常遇到的术后并发症之一。AHE的一般定义是:在1小时的预测窗口中,任何30分钟或以上的时间内,至少有90%的平均动脉压 (Mean Artery Pressure,MAP)等于或小于60mmHg。AHE的发生往往会导致病人不可逆的器官受损,严重时甚至危及病人的生命。现阶段对发生急性低血压的处理方式主要依靠临床医生的专家经验进行处置,如通过采用针对性心理护理、合理的预防性措施、捕捉先兆症状及生命体征监测等预见性护理措施。这些方法在实际临床工作中费时、复杂且不经济。如果能根据ICU监测的病人各种数据提前预判急性低血压发生,给医生予足够的时间提前采取有效的干预措施,将极大的降低病人可能受到的危害。
实验表明,急性低血压发生与病人的一些监测数据及其变化间存在着一定的关联,通过一段特定时期内的监测数据预测下一段时间内急性低血压发生在临床上是可行的。国内外已有研究人员通过临床收集的病人数据如血压、心率、氧气饱和度等预测AHE的发生。比如Jules Bassale提出用ABP变化和形状特性来预测AHE[1]。Saeed等引进一种时间相似性度量,将时间序列数据转换为直观的符号表示,使用小波分解从多尺度描述时间序列,用以确认ICU潜在发生AHE患者类似的血压时间序列[2]。Frolich等提出使用心率基线作为低血压的主要预测因子[3]。Henriques J和Rocha T提出利用多个神经网络预测1小时预测窗口中的MAP波形值等[4]。在国内,华南理工大学的研究团队用小波变换、支持向量机等方法做了许多先行工作。
人体生理时间序列数据具有高度的非线性性和复杂性,
数据也是如此。面向此类数据,传统的方法暴露出很多弱点。神经网络对学习样本依赖性很高,对于高度复杂的时间序列数据,泛化能力不强,且需要预先指定网络结构,容易陷入局部最优等诸多限制。面向近似无序的数据,支持向量机则很难指定其核函数和参数。对时间序列数据进行小波分解,虽有效但是丢失原数据时域上的信息。EMD是由Huang于1998年提出对信号进行平稳化处理的一种新型时频分析方法[5],该方法基于信号的局部特征时间尺度,将信号中不同尺度的波动或趋势逐级分解开来,把信号分解成多个本征模态函数(intrinsic mode function,IMF)之和,分解出的各IMF突出了数据的局部特征,同时对其进行分析便可准确地把握原始数据的特征,相比小波分解,它能够自适应地将信号分解成不同频率尺度的分量,不用预先指定基函数。GEP是由Candida Ferreira提出一种新型的、用于复杂非线性函数的建模方法[6-7]。GEP在继承遗传算法(Genetic Algorithm,GA)和遗传编程(Genetic Programming)的优点,同时又克服了他们的不足,提高建模效率达2-3个数量级以上。基于上述分析,本文提出一种基于EMD和GEP的建模预测方法,先通过EMD方法对AHE的MAP数据信号进行分解形成若干IMF,然后利用强大的GEP建模能力对各个IMF进行建模,通过对大量的历史患者数据建立其预测模型,并保存为模版,当有新的患者信号时,通过相关度算法寻找若干个最相似模版,然后综合所选模版得出新患者未来一段时间内MAP的数值并根据AHE的定义判断其是否会发生AHE。通过对来自美国PhysioNET的MIMIC-II(Multi-parameter Intelligent Monitoring for Intensive Care II)重症监护数据库的48个训练数据和45个测试数据进行初步实验验证,准确率达到84%,取得了不错的效果,为AHE的建模预测提供了一条可借鉴的思路。
1 基本算法原理
1.1 EMD算法
假设AHE时间序列数据表示为x(t),对其实现EMD分解的具体步骤可描述如下:
1)找出x(t)中所有极大值和极小值点,并用三次样条插值构建出x(t)的上包络线和下包络线。上下包络线的平均包络线设定为m1,将x(t)减去m1可得一个新序列,记为h1。若h1不是一个平稳序列,则重复上述过程,直到平均包络趋向零,即可得第一个本征模态分量(Intrinsic Mode Function,IMF),记为 IMF1。
2)用x(t)减去IMF1得到一个新序列r1,再对r1重复步骤1)得到IMF2,这样一直重复直到剩余分量RES不可分为止。
1.2 GEP算法
GEP类似于生物中完整的DNA/蛋白质系统,DNA代表基因型即遗传体,在GEP中即为染色体,它是用连接运算符连接起来的多个基因。基因是定长的字符串,它由头部和尾部组成。头部包含变量和运算符而尾部只包含变量。头尾长度(分别记为 h,t)有如下关系:t=h(n-1)+1,其中 n为函数集合中所有运算符的最大目数,上面的公式保证了基因总能解码成有效的表达式树。蛋白质代表表现型即功能主体,在GEP中即是由染色体解码成的表达式树。GEP这种机制使得它能够高效地遗传操作,最大化搜索空间,这也使得它在数学建模中显示出巨大的优越性。GEP算法基本流程包括初始化染色体种群、遗传操作(变异、转座、重组等),限于篇幅限制,此处不再详细描述,具体请见。
1.3 自回归模型建模与预测
对于时间序列,我们建立形如y^(k)=f(y(k-1),y(k-2),…,y(k-N))的自回归模型,该模型描述为给定过去N个点历史数据,通过一个函数f,计算出下一个点的预测值。
给定一组时间序列,通过滑动窗口拟合法确定f,算法的伪码如下:
其中带上标符号的表示预测值,不带上标符号的表示实际值。
2 基于EMD与GEP的建模方法
基于EMD与GEP的建模描述如下[8]:1)EMD分解。对初始信号进行EMD分解,得到各个尺度和频率的IMF分量和余项。分析各个IMF分量的特性,总结规律,确立出各个分量预测模型类型和结构。2)GEP演化建模。根据模型的类型结构,确定适应度函数、终结符、函数集以及其他运行参数,经GEP迭代拟合,找出最终适应值最优的模型。3)预测结果综合。应用每个分量模型分别预测,再将各个预测值相加即得到最终的预测结果。基于 与 的组合预测模型示意图如图1所示。
图1 基于EMD与GEP的组合预测模型Fig.1 Based on EMD and GEP forecasting model
MAP信号经EMD分解成多个本征模态函数IMF和一个只有单个极值表示信号趋势的残余 各种 信号的复杂度不同,经EMD分解得到的IMF个数也不尽相同。我们发现,频率低的IMF分量和RES分量构成原信号的主成分,代表了原信号的总趋势,而频率较高的各个IMF分量,主要由信号的非线性随机成分构成,这部分分量相对主成分来说,尺度较小。相对来说,表示主成分的信号由于频率低,对其建模较容易,可以达到较好的建模精度;而高频分量由于随机性强,对其建模难度较大,误差也可能较大,但是由于其尺度较小,对最终的预测影响有限。图2所示为某MAP信号及其主成分和随机成分,从图中可以看出,把握好主成分的模型精度,就能把握信号的总体走势。
图2 信号及其主成分和随机成分Fig.2 The signal’s principal and random component
根据分量特性的不同,采用的模型结构和GEP运行参数也有所变化。通过观察和实验比较,发现对于低频分量,采用时间变量t的基本回归模型建模效果更好,而对于高频分量,采用上述的自回归模型,能够达到满意的建模效果。基本回归模型表示为Model(IMFi/RES)=fi(t)。表1为经过实验比较后选用的GEP运行参数。
表1 GEP运行参数Tab.1 GEP run parameter
3 AHE预测实现
由于AHE预测问题具有特殊性,不仅要求预测结果需要较高的准确率,而且要求能够以最快的速度及时地得到预测结果,因为这样的结果才能为医师对患者进行提前干预争取足够的时间。所以针对本问题将预测过程分为两个阶段,第一阶段,对历史患者数据,经预处理后分别用基于 与GEP的组合建模方法建立模型并保存为模版;第二阶段,对新的患者数据,通过相关度算法,搜索出与已建模数据中最匹配的一些数据,通过这些数据的模型预测,再经过加权得出新的数据未来1 h内的MAP信号,最后根据AHE的定义判断该数据在未来1 h内是否会发生急性低血压。
3.1 实验数据获取
实验数据采用来源于美国PhysioNet网站的MIMIC-II数据库的数据,这些数据均为美国ICU病房病人的真实数据。数据以患者为单位,分为训练数据集和测试数据集,其中训练数据集共有患者数据48个,每个数据都为每秒125 Hz采样的动脉血压 (ABP)数据,测试数据集共有患者数据45个,每个数据都为每秒1 Hz采样的平均动脉压(MAP)数据。训练数据集和测试数据集中均包含有发生AHE和未发生AHE的数据,我们将其定义为H和C,训练数据中H有23个,C有25个;测试数据中H有22个,C有23个。
按照时间序列分析的要求,我们通过预处理将数据均转化为1点/分钟的MAP时间序列。根据医学意义,成人MAP高于140 mmHg属于高血压,而低于35 mmHg则意味着患者已昏迷或死亡,我们定义该范围内的数据为噪点,予以去除。对每个数据规定一个T0时间点,T0之后有 60点(1 h),即我们要判断T0之后的1小时患者是否发生AHE。
3.2 匹配模版方法
信号匹配的算法有很多,如欧式距离法,动态时间弯曲DTW法,多分段形态距离法,符号统计法、信号分解匹配法等。这些方法或者有具体使用限制,或者操作过于复杂,并不适合本问题。本文采用下列相关度公式寻找匹配模版:
Rn表示新的患者数据与第n个已建模数据的相关度,X表示新的患者数据,Yn表示第n个已建模数据(n=1,…48),X和Yn表示X和Yn的均值,size表示拟合数据长度。将计算得到的相关度从大到小排列,然后依据下列公式找出最匹配的模版:
L表示相关度为正数的模版的数量,M表示最匹配模版数量,th为阈值,控制模版数量,根据相关经验一般设置(0.1-0.3)之间。最后依据下列公式预测新患者未来1小时的MAP信号:
式中X(t)表示新患者的预测值,Yi(t)表示第i个匹配模版的预测值,t表示预测时间。
3.3 实验及结果
对测试数据集中的45个患者数据进行预测。预测结果指数可以分为sensitivity(灵敏度)是正确预测发生AHE的概率,即预测会发生 而真实情况下也会发生 的个数与真实情况下发生AHE的个数之比;specificity(特效性)是正确预测不发生AHE的概率,即预测不会发生AHE而真实情况下也不会发生AHE的个数与真实情况下不发生AHE的个数之比;accuracy(正确率)是总的预测准确率,即正确预测发生AHE和正确预测不发生AHE的个数之和与所有病人的个数之比。其公式分别如下:
式中,pos′是真正(正确预测发生 AHE的元组)数,pos是正(发生AHE)元组数,neg′是真负(正确预测不发生AHE的元组)数,neg是负(不发生 AHE)元组数。
实验最终的结果如表2和3所示。
表2 实验结果Tab.2 Experimental results
表3 准确率Tab.3 Accuracy
4 结束语
急性低血压是重症监护室中一种常见的突发疾病,它的发生给患者带来极大的危害,严重时甚至会造成患者死亡。如何利用ICU监测的患者数据提前预判急性低血压的发生是目前国内外正在研究的热点课题。本文提出利用GEP基因表达式高效的函数挖掘和符号回归搜索算法,结合EMD分解算法的自适应特性,应用于ICU急性低血压的预测问题。通过实验测试,准确率达84%。这表明本方法可以作为预测患者急性低血压的发生的一种有效方法。本文受条件所限,小样本实验在训练数据和测试数据质量以及建立模型的过程中存在着很多不确定因素,都可能影响最终的预测准确率。理论上,如果样本数量足够充分,按照本方法得到的预测准确率将会更高。本次研究结果也可为今后进一步研究打下良好的基础。
[1]Bassale J.Hypotension Prediction—Arterial Blood Pressure Variability,Technical Report,2001.
[2]Saeed M.Temporal Pattern Recognition in Multiparameter ICU Data.;Doctoral dissertation,Department of Electrical Engineering and Computer Science,MIT,Cambridge,MA,2007.
[3] Frolich A.Caton D.Baseline heartrate may predict hypotension after spinal anesthesia in prehydrated obstetrical patients[J],Can.J.Anesth.49(2002)185–189.
[4]Rocha T,Paredes S,Carvalho P,et al.Prediction of acute hypotensive episodes by means of neural network multimodels[J].Computers in Biology and Medicine 2011(41):881–890.
[5]Huang Norden E,Z Shen,et al.,The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proc.R.Soc.Lond.A,Royal Society,1998,454(3):903-995.
[6]Ferreira C.Gene expression programming:A new adaptive algorithm for solving problems[J].Complex Systems,2001,13(2):87-129.
[7]Dazhi Jiang,Zhijian Wu,and Lishan Kang,New Method Used in Gene Expression Programming:GRCM[J].Journal of System Simulation,2006,6(18):1466-1468.
[8]Xinqiao Fan,Yongli Zhu.The Application of Empirical Mode Decomposition and Gene Expression Programming to Short-term Load Forecasting[Z].2010 Sixth International Conference on Natural Computation.
Based on EMD and GEP acute hypotension episodes forecast methodology research
WANG Yun-tao1,JIANG Da-zhi2
(1.School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhenjiang 212003,China;2.Department of Computer Science,College of Engineering Shantou University,Shantou 515063,China)
Acute Hypotensive Episodes(AHE)is one of the recurrent postoperative symptoms occurring in intensive care units(ICU),which always result in serious hazard of patients.Early detection and diagnosis of AHE,gives professionals enough time to select a more effective treatment,has important clinical significance.Because that the blood pressure time series data is highly nonlinear and complexity,it makes the diagnosis and detection of AHE particularly difficult.For this purpose,this paper proposes an integrated method based on Empirical Mode Decomposition (EMD)and Gene Expression Programming(GEP)for complicated nonlinear time series modeling,and build a similarity matching models method to improve the stability of the model.The methodology is applied in the context of PhysioNet MIMIC-II(Multi-parameter Intelligent Monitoring for Intensive Care II)Database,experiments show that the methodology is effective and feasible.It is also expected that this study may offer a reference to model and forecast of the complex and nonlinear time series data.
time series;acute hypotensive episodes;Empirical mode decomposition;gene expression programming
TP301;TP181;R54
A
1674-6236(2014)13-0004-04
2014-03-12 稿件编号:201403147
国家自然科学基金项目(61175073);广东自然科学基金(S2013010013974);汕头大学国家基金培育项目(NFC13003)
王运涛(1982—),男,江苏南京人,硕士研究生。研究方向:智能信息处理。