基于时间序列相似性的患者结局预测模型
2022-06-29王牧雨王妮周阳陈卉
王牧雨 王妮 周阳 陈卉
0 引言
近些年来,电子健康记录的快速增长以及广泛使用推动着疾病风险预测、患者结局预测、疾病亚型分析等临床决策支持研究的进步[1]。根据患者在住院期间的检查、药物、手术等临床数据,可以确定患者之间的相似关系。相似的患者往往有着相似的治疗轨迹和结局,故相似患者的信息往往可以为结局预测、疾病风险预测等提供有力的支撑[2]。
在患者结局预测方面,一些基于静态(即横断面)数据的机器学习模型已取得较满意的结果[3]。且研究表明,基于患者相似性筛选研究队列、构建个性化预测模型,能进一步提升预测效果[4]。尽管如此,目前相似性的计算大多仅纳入了静态数据如人口学信息、基础慢性病信息、单次实验室检查结果等,忽略了患者治疗轨迹中大量的时间序列数据,如多次实验室检验。时间序列数据涵盖更丰富的信息,加入时间序列数据可以有效提升机器学习模型的性能[5],因此利用包含时间序列数据的患者信息计算相似性也有望提升患者结局预测模型的预测效果。为此,本文提出融合时间序列数据和静态数据的患者相似性计算框架,以期提高患者结局的预测准确性。
Medical Information Mart for Intensive Care(MIMIC-Ⅲ)[6]数据集是一个公开的医疗数据集,它涵盖了一所医院重症监护室(intensive care unit,ICU)患者住院期间的各类临床数据,包含着丰富的时间序列信息。相比于使用研究者各自的数据集,使用公共数据集进行研究有着更强的可重现性,有利于研究人员进行不同预测模型的对比。目前,已有研究使用MIMIC-Ⅲ数据集中急性心肌梗死(acute myocardial infarction,AMI)患者的静态数据进行院内死亡预测,取得较好的结果[7]。
故本研究将对MIMIC-Ⅲ数据库中AMI患者的临床数据进行相似性度量,评估基于相似性的预测模型在ICU患者结局预测上的表现,并与经典的机器学习模型进行对比分析,验证时间序列相似性在患者结局预测方面的可行性和有效性。
1 材料与方法
1.1 任务描述
本研究对MIMIC-Ⅲ数据集的数据进行整合,使用基于患者相似性的K近邻(K-nearest neighbor,KNN)模型和其他机器模型同时对AMI患者的结局进行预测,比较预测效果,继而探究基于时间序列相似性的模型是否可以提高患者结局预测的准确率。
本研究主要流程如下:首先对MIMIC-Ⅲ数据集进行数据筛选、清洗、提取和整合,获得入院当天的基线数据和住院全程的数据。所有样本等比随机划分为训练集和测试集,用于建立模型。使用的分类模型包括基于患者相似性度量的KNN模型,不纳入时间序列的支持向量机(support vector machine,SVM)模型以及纳入时间序列的长短时记忆(long short-term memory,LSTM)模型。
预测的患者结局包括院内死亡、长时住院和长时入住ICU。其中,长时住院为住院时长超过7 d[8],长时入住ICU为进入ICU时长超过96 h。
1.2 数据预处理
从整个MIMIC-Ⅲ数据库中筛选出急性心肌梗死患者,剔除其中数据缺失较多、数据明显异常的患者记录,最终纳入本研究的共有3 010人。提取的患者信息包括人口学信息、药物使用情况、影像学报告、疾病诊断、实验室指标、手术操作数据,并按如下方法进行二值化或结构化。
(1) 人口学信息包括性别、年龄、婚姻状况、支付类型,根据是否为男性、年龄是否大于60岁、是否已婚、是否使用医疗保险分别赋值为1和0。
(2) AMI患者经常使用的药物有7类,如血管紧张素受体拮抗剂、β受体阻滞剂等,按照住院期间患者是否服用过分别赋值为1和0。
(3) 从包括胸片和CT在内的影像学报告中提取34个出现频率较高的AMI相关特征,按照整份影像学报告中是否出现相应特征词为该特征变量赋值1和0。
(4) Chronic Conditions Data Warehouse(CCW)涵盖26种慢性基础病,每种疾病都与若干国际疾病诊断ICD-9编码相对应,如ICD-9编码244.0~244.9对应获得性甲状腺功能衰退。根据患者疾病的ICD-9编码对有无某种基础慢病进行疾病特征的二值化。
(5) 提取42项AMI相关实验室指标,其中19项实验室项目(如肌酸激酶同工酶浓度)通常只在入院时检查一次,无法构成时间序列,故将它们作为单独数值型特征。对其余23项实验室指标中的每一项,住院期间多次检测的数值按时间顺序形成一个有时间轴的序列,统称为信号序列,其序列长度1~50不等。
(6) 对影像学检查、实验室检查项目以及手术操作等临床事件,分别按事件发生的先后顺序排列,形成影像学检查序列(长度1~30)、实验室检验项目序列(长度3~1150)、手术操作序列(长度1~20),统称为临床事件序列。
最终,每个患者纳入的所有数据及类型如图1所示。二值型特征和单独数值特征与时间无关,统称为静态信息;事件序列和信号序列是与时间有关的信息,统称为动态信息。
图1 患者数据的类型及包含特征Figure 1 Type and feature of patient data
1.3 患者相似性计算框架
1.3.1 二值型特征的相似性
人口学特征、影像学特征、药物特征以及合并慢性病特征是4类二值型特征,可分别构成一个二值型特征集合。若以A和B分别表示两个患者二值型特征的集合,按式(1)可计算集合间的Jaccard系数,该系数越大则两个患者越相似。
(1)
1.3.2 单独数值型特征的相似性
不涉及时间轴的各单独数值型实验室指标分别进行正态标准化后,组成一个23维的向量,则可计算出一个欧氏距离,表示单独数值型实验室指标相似性。
1.3.3 临床事件序列的相似性
本研究使用编辑距离[9]计算临床事件序列的相似性。设两名患者的某一临床事件的序列为A和B,则二者的编辑距离为由序列A转换成序列B所需要的最少替换、插入和删除的次数。若LA和LB表示两个事件序列的长度,则事件序列A和B的相似性按式(2)定义:
(2)
事件序列包含影像学检查、实验室检查以及手术操作3个,每个序列分别计算相似性得到3个结果,取平均值作为临床事件序列相似性。
1.3.4 实验室信号序列的相似性
由于不同患者实验室检查次数有差异,因此其信号序列长度不同。使用动态时间规整(dynamic time warping,DTW)算法[10]计算长度不同的信号序列的相似性。对于序列A={ai|i=1,…,m}和B={bj|j=1,…,n},构造由序列A、B中元素ai和bj的欧氏距离dij组成的矩阵Dm×n。在该矩阵中找到一条从起点到终点,且满足单调性、有界性和连续性的路径,使得该路径上累积距离最小。用该累积距离反映两序列的相似程度。
信号序列共包含23个实验室检查的结果,每个序列分别计算相似性得到23个结果,取平均值作为患者信号序列相似性。
按照以上4种方法,获得人口学、慢性病、影像文本、药物、单数值型实验室指标、信号型实验室指标和临床事件序列共7个特征层面的相似性。按照各特征对患者结局的影响程度分别赋予权值,加权求和后获得患者层面的相似性度量。
1.4 预测模型
1.4.1 基于相似性的K近邻模型
本研究使用的KNN模型,基于上一小节获得的患者相似性代替经典KNN模型中的欧氏距离,选取与要预测的患者最相似的50名最近邻,投票获得该患者结局的预测结果。
1.4.2 用于静态数据分类的SVM模型
支持向量机是一种监督学习模式下优秀的分类模型。对于线性不可分的数据集进行分类时,使用核函数将样本映射到高维空间使之线性可分。本研究中,根据数据特性,使用高斯核函数进行计算。SVM模型的输入包括患者的所有静态数据,信号序列除去时间信息也作为静态数据进行运算。
1.4.3 用于时间序列数据分类的LSTM模型
LSTM是一种利用门机制的循环神经网络,可以有效利用长距离的时序信息[11]。本研究使用LSTM结构和一个激活函数为Sigmoid的全连接层构造神经网络模型。事件序列由于其数据类型较为特殊,不适合作为LSTM的输入,故将静态数据以及时间信号序列作为输入,获得预测结果。
1.5 模型验证与比较
将整个数据集随机等比划分训练集和测试集,分别用于训练预测模型和验证模型的预测性能。各模型的输入分为患者住院全程数据和入院基线数据,使用接受者操作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)来评价和比较预测效果。在基于相似性的KNN模型中,按照计算相似性使用的动态数据的不同,分为同时使用实验室信号与临床事件序列、仅使用实验室信号序列以及仅使用临床事件序列,可用于不同模型间的性能对比。
2 结果
整合的MIMIC-Ⅲ数据库中AMI患者,共3 010人,其中245人院内死亡,1 867人住院时长超过7 d。这些患者中,在住院期间进入过ICU的共2 984人,其中1 131人进入ICU时长超过96 h。随机划分的训练集和测试集在患者年龄、性别以及3个结局上分布无差别(表1)。
表1 训练集与测试集患者的年龄、性别及结局分布[n(%)]Table 1 Age ,sex and outcomes of patients in trainingset and test set[n(%)]
当用整个住院期间内的数据做预测时[图2(a)],KNN模型根据使用的动态数据类型不同分为3种,其中,KNN2与SVM及LSTM模型的输入数据完全相同,均为静态数据与事件序列。图中可见,KNN2模型(AUC 0.794和0.926)在死亡和长时住院预测上的效果略低于SVM模型(0.825,0.930)和LSTM模型(0.853和0.928),这说明该模型对于信号序列信息利用有待提升。但使用静态数据和事件序列时(KNN3),其模型表现较好(AUC 0.825和0.930),这说明该模型对事件序列信息利用较为充分。将事件序列和信号序列融合后(KNN1),模型的预测效果有显著提升,在死亡和长时住院的预测中AUC值分别为0.877和0.946,远高于SVM和LSTM模型。这说明本研究使用的基于时间序列相似性的KNN模型可以有效融合多类型时间序列数据,达到提升模型性能的目的。
当用入院基线数据做测试时[图2(b)],各模型表现都有所下降。在死亡结局的预测中,KNN模型AUC下降较大,仅为0.680,低于SVM(0.719);但在长时住院和长时ICU的预测上,KNN模型的AUC(0.738和0.728)仍高于SVM模型(0.715和0.708),保持着较好的预测效果。
图2 各模型预测患者结局的性能Figure 2 The predictive performance of all models
3 讨论
MIMIC-Ⅲ数据库有着丰富且完善的患者住院数据,被广泛应用于患者结局预测的研究中[12]。本研究从该数据库中提取出了包含人口学、诊断、影像学报告、药物使用和实验室检查在内的各类特征,进行患者结局的预测。
本研究使用时序相似性度量的方法,融合了4种类型的患者相似性度量,将动态信息与静态信息相结合,进行患者结局预测,取得了满意的效果。使用住院全程数据进行预测,同样仅使用信号序列数据时,本研究提出的KNN模型AUC低于LSTM模型,但融合事件序列类型的数据后,其模型性能有很大提升,远高于SVM和LSTM模型。这也体现出本研究提出的KNN模型相比与参照模型的优势,即可以在有效利用信号序列的同时,融合事件序列类型的数据,实现模型预测效果的大幅提升。Guo等[7]基于MIMIC-Ⅲ数据,使用诺莫图综合多个特征,使用机器学习的方法对心肌梗死患者死亡进行预测,效果同样低于本研究中基于相似性的预测模型。这进一步验证了本研究基于相似性的KNN模型,可以有效利用临床事件序列,并与信号序列数据进行融合,提高预测效果。另一方面,基于相似性的模型在使用住院全程数据进行预测时,其性能相比于仅使用入院基线数据有明显提升。该结果证明融合了时间序列和静态数据相似性的模型,相比只使用静态数据相似性的模型有着更好的预测效果。这主要是因为时间序列更直接反映了患者在住院期间的治疗轨迹,而治疗轨迹与患者的结局有较大的关联,仅使用静态数据不易反映患者的疾病进展和治疗轨迹,故基于时间序列相似性的模型在患者结局预测上表现更好。
本研究使用无监督的方式直接对患者相似性进行了计算,比较患者相似关系,将患者相似性与KNN模型结合,对多个患者结局进行预测。结果证明,纳入时间序列相似性的KNN模型,在ICU患者结局预测方面有着很高的准确性,可以为对医生改善治疗方案、降低死亡率提供帮助。
本研究的数据来源于公共数据集,主要用于验证本研究提出的相似性计算框架是否可以有效挖掘患者间的相似关系,提升模型性能,并与使用该数据集的其他研究进行模型性能的对比。但本研究未使用临床场景内的数据进行验证,在模型的临床应用价值的验证上有一定局限性。
4 结论
基于时间序列患者相似性的模型相比基于静态数据相似性的模型,有着更高的信息利用率,对患者结局也有着更好的预测效果。