基于LightGBM的血压检测方法研究
2019-10-30吴绍武续育茹
吴绍武,续育茹
(北京工业大学数理学院,北京 100124)
1 引 言
血压作为判断人体健康的一个重要生理指标,它能够直接或间接地反映人体心脏的泵血功能、心率、血管受到的阻力、血管血容量等状况,对于辅助诊断心血管疾病具有重要意义。
当前,日常生活中测量血压常用的方法主要有示波法、柯氏音法、水银式血压计、电子血压计等,其中水银式血压计被公认是无创血压测量的“金标准”[1]。但由于水银式血压计操作要求较高,对于老弱群体极不方便[2]。电子血压计的原理大多是示波法[3-6],但该方法仍存在不足之处,其检测精度无法从根本上得到解决[7]。
目前,多数研究都是利用光电容积脉搏波(PPG)技术来检测脉搏波波形,进而间接地检测血压[8]。由于PPG信号具有易采集、成本低的特点而被广泛应用于血压、血氧饱和度等的研究,所以如果PPG信号可以高精度的检测血压,那么它将可以替代一些繁琐的血压检测方法,对高血压患者或需时刻检测血压的人提供重要帮助。本研究基于PPG信号,利用LightGBM算法对血压进行检测,与以往研究不同的是,本研究加入了历史血压数据。研究表明该方法能够获得更高的精度,其对于个性化血压检测以及临床上的血压检测均具有一定的参考意义。
2 基本原理
2.1 PPG原理
PPG技术是一种无创检测血液容积变化的方法,其原理主要基于朗伯比尔定律和光散射理论[9-10]。当光束(大多为红光或绿光)照射到表皮面时,光束通过穿透(或者反射)的方式被一端(或者同端)的光电接收器接收。而在此过程中,由于肌肉组织和血液的吸收衰减作用,接受器接收到的光强度呈周期性变化[10-11]。把光电接收器接收到的光信号转换成电信号,即可获得PPG信号。
2.2 LightGBM简介
LightGBM模型是GBDT(gradient boosting decision tree,GBDT)算法的一种改进,它是2016年微软亚洲研究院公布的一个开源、快速、高效的算法框架,其核心原理基于决策树算法。它被用于分类、回归等多种机器学习的任务,且被证明了在达到相同的精度下,LightGBM的计算速度比其他模型算法快20倍。其主要原理如下[12-13]:
(1)初始化m棵决策树,训练样本的权重为1/m;
(2)训练子模型f(x);
(3)决定该子模型的话语权∂;
(4)更新权重ε;
(5)得到最终的模型:
Fm(x)=∂0f0(x)+∂1f1(x)+…+∂mfm(x)
(1)
3 数据准备
本研究所使用的数据来自MIMIC数据库,该数据库是MIT麻省理工下属管理的一个公共临床数据库[14]。我们选取了其中12 000条样本,每条样本包含患者的PPG信号、血压(BP)信号以及心电信号。
由于信号序列的长度长短不一,我们初步筛选了其中序列长度大于2 000个点的样本,以保证该序列样本能够包含足够多的周期,方便后续的进一步研究。
4 特征提取
考虑到波传播的延迟性,脉搏波信号的传达时间和血压信号的传达时间不是同步的。为了保证脉搏波信号和血压信号的同时性,我们选择特征提取的PPG信号区间,以及其对应的血压目标区间,见图1。
图1 血压信号和脉搏波信号示意图Fig.1 Schematic diagram of blood pressure signal and pulse wave signal
本研究中,我们以PPG信号为参照对象,确定特征提取区间后,最终提取的特征主要包括:两个波谷点到波峰的水平距离、两个波谷点的水平距离、两个波谷值与波峰值的纵向距离、两个波谷到波峰的斜率、该周期内的统计特征(包括平均值、标准差、总和以及中位数)、当前时刻的前一时刻的舒张压和收缩压。
对于训练标签舒张压和收缩压的选取,我们以PPG波形的波峰点对应的时间为中心,在其前一个周期内,血压中的最大值为收缩压;之后以该收缩压为中心点,其后一个周期内的最小值作为舒张压。
考虑到异常值的影响,我们对特征提取后的样本进行异常值处理。为了方便,我们直接使用剔除的方法,剔除的原则是连续两个收缩压相差不大于40 mmHg,连续两个舒张压相差不大于60 mmHg。最终,我们得到有效样本总数为8 736条。
5 实验结果与分析
为了评估模型的性能,我们选择平均绝对误差(mean absolute error,MAE)和均方根误差(root mean square error, RMSE)进行评估,其表达式分别如下:
(2)
(3)
其中yobs,i是真实值,ymodel,i是模型预测值,n是样本总数。
我们通过LightGBM模型,对舒张压和收缩压分别进行了10折的交叉验证。结果表明,收缩压的MAE为4.710 mmHg,RMSE为7.551 mmHg;舒张压的MAE为2.041 mmHg,RMSE为3.450 mmHg。其MAE均小于5 mmHg,RMSE均小于8 mmHg,达到了AAMI国际电子血压计的标准。血压预测结果与真实值的分布情况见图2。
图2 真实血压和预测血压的分布图Fig.2 Distribution of real and predicted blood pressure
由图2可以发现,模型预测结果除了个别样本的预测误差较大外,大部分的样本预测误差均比较小。为了进一步分析模型的拟合效果,我们分别计算了误差小于5、10、15 mmHg的样本所占百分比,结果见表1。
表1 预测误差分别小于5、10、15 mmHg的百分比Table 1 Percentage of prediction errors less than 5 mmHg,10 mmHg and 15 mmHg respectively
从表1可知,预测误差小于5 mmHg的样本,收缩压占到71%,而舒张压占到91%;误差小于10 mmHg的样本,收缩压占到87%,而舒张压占到97%;误差小于15 mmHg的样本,收缩压占到93%,而舒张压占到99%。从结果还可以看出,舒张压的预测结果明显优于收缩压,同时也说明LightGBM模型很好地学到了其中的特征。
表2是本研究方法与其他研究方法的对照。从表2可以发现,本研究方法中舒张压的误差均优于其他方法;收缩压优于人工神经网络ANN模型,而劣于线性回归模型,我们分析其主要原因可能是因为测试数据不一致导致的。相比其他方法,本研究方法简单高效,易于实现,不用进行小波分解、多级建模等复杂过程也可获得较高的精度,其对波形的检测以及可穿戴设备的血压检测具有一定的参考价值。
表2 本研究方法与其他方法的误差对比Table 2 Comparison of errors between this researchmethod and other methods
为了获得更高的精度,我们可进一步地去噪处理,并尝试对PPG波形进行分解,找出与血压更相关的波形。当然,结合历史血压数据,血压的检测问题可以转换为异常检测的二分类问题与回归问题相结合,这也是我们下一步的研究方向。
6 结论
本研究基于PGG信号,以及历史血压数据,提取了时域上的17个特征参数,作为模型的特征输入,通过LightGBM模型进行10折交叉验证,获得了较高的血压预测精度。本研究所使用的方法,有利于可穿戴设备的个性化血压检测,以及血压检测在临床上的应用。