人工智能辅助诊疗在脓毒症管理中的应用进展
2023-04-20杨美程李润发陈辉李建清刘澄玉
杨美程,李润发,陈辉,李建清, ,刘澄玉*
(1.东南大学仪器科学与工程学院 数字医学工程全国重点实验室,江苏 南京 210096;2.东南大学附属中大医院重症医学科 江苏省重症医学重点实验室,江苏 南京 210009;3.南京医科大学生物医学工程与信息学院,江苏 南京 211166)
脓毒症是一种由感染导致宿主反应失调而危及生命的器官功能障碍疾病,其患病率及死亡率均较高[1]。根据2020 年《柳叶刀》发布的研究报告显示,全球每年有接近4 900 万脓毒症患者,约1 100 万人死于其并发症,占全球总死亡病例的20%[2];2020 年中国流行病学研究表明,我国重症监护病房(intensive care unit,ICU)脓毒症发病率为20.6%,死亡率高达35.5%[3]。目前,医院患者救治负荷持续增大,特别是在诸如新冠疫情等重大突发公共卫生事件发生时尤其突出,医疗资源处于持续饱和状态,患者管理面临前所未有的压力。因此,如何基于医学大数据分析以及利用人工智能(artificial intelligence,AI)等手段,通过医工交叉创新,减轻医生负担,提高疾病防治效率,是未来智能化医疗体系建设的关键和重点。在AI 算法中,根据训练所需样本提供信息以及反馈方式的不同,将其主要分为3 类,分别是监督学习(supervised learning,SL)、无监督学习(unsupervised learning,UL)和强化学习(reinforcement learning,RL)。本文主要围绕这3类方法分别对AI 在脓毒症早期预警、临床分型以及精准化治疗方面的应用进行综述。
1 脓毒症早期预警
“中国预防脓毒症行动”主张对脓毒症要做到“早预防、早发现、早干预,降低脓毒症的发生率和病死率”的“三早两降”要求,并提出了“脓毒症前状态”和脓毒症“未病先防,既病防传”的防治理念[4]。研究表明,若无法及时筛查出脓毒症,可能导致抗菌药物等治疗手段延误,导致死亡率增加[5-6],特别是在脓毒性休克患者中更为显著,研究表明每延误治疗1 h 与死亡率增加3.6% ~ 9.9%相关[7]。因此,实现对脓毒症的早期预警和及时诊断至关重要。
SL 表示在训练AI 模型时,需要提供有标签信息的训练数据,使得AI 模型能够学习输入数据(特征)至输出数据(标签)之间的映射关系,常用于脓毒症的早期预警任务。下文主要从传统机器学习模型和深度学习模型的角度,分别介绍基于临床数据利用SL 进行脓毒症早期预警方面的研究进展。
1.1 机器学习模型
在临床研究中,各种临床指标和临床评分最早被用于脓毒症早期识别,如全身炎症反应综合征 标 准(systemic inflammatory response syndrome,SIRS)、序贯器官衰竭评分(sequential organ failure assessment,SOFA)、改良早期预警评分(modified early warning score,MEWS)以及英国国家早期预警评分(national early warning score,NEWS)等。尽管这些评分的应用对诊疗有所帮助,但这些工具的诊断精度差异很大,并且多数预测价值较差,难以满足脓毒症“三早两降”的要求[8]。电子病历(electronic health records,EHR)记录了患者的基本信息资料,入院后的生命体征,实验室检查,药物使用,出入量记录,护理记录等数据,涵盖了描述患者生命健康情况变化的各类信息[9]。如何有效分析这些数据之间的内在关联,挖掘临床相关特征并建立脓毒症早期预警模型是研究重点。随着EHR的完善和普及,使得利用大数据训练AI 模型自动给出患者实时发展为脓毒症的风险概率成为可能[10]。基于传统特征工程,即需要依据一定的临床先验知识设计模型输入特征的机器学习最早应用于脓毒症早期预警。
2016 年,Calvert 等[11]利用美国麻省理工学院计算生理学实验室、贝斯以色列迪康医学中心联合发布的“多参数智能监测数据库-Ⅱ(multiparameter intelligent monitoring in intensive care Ⅱ,MIMIC-Ⅱ)”[12]分析了2001—2008 年间的1 394 名重症患者,使用其中记录的收缩压、脉压、心率、呼吸频率、体温、白细胞计数、pH、血氧饱和度以及年龄这9个指标,利用多变量分析方法构建了Insight 机器学习模型来预测基于SIRS 定义的脓毒症事件。结果表明,Insight 在脓毒症事件发生之前3 h 预测95%置信区间(confidence interval,CI)下的接受者操作特征曲线下面积(area under the receiver operating characteristic curve,AUC)为0.83(95%CI:0.80 ~0.86)。随后,Mao 等[13]在上述研究基础上只使用6 个生命体征指标并基于梯度提升树算法(gradient boosting machine,GBM)构建了进阶版Insight 模型,且对来自多中心队列研究当中的68 万余名患者进行了测试,结果显示提前4 h 预测严重脓毒症的AUC为0.85(95%CI:0.79 ~ 0.91)。然而,上述研究只使用了少数指标,未充分利用EHR 记录的信息,无法挖掘更复杂的特征并建立与脓毒症事件的映射关系。同时,研究中对于脓毒症事件发生时间点的定义仍然具有一定的争议性。Faisal 等[14]构建了一种逻辑回归(logistic regression,LR)模型,基于常规收集到患者的首次生命体征和血液测试记录,预测急诊入院后脓毒症风险,脓毒症事件则根据EHR记录的国际疾病分类确定,模型学习数据来源则为英国约克医院的26 247 患者。该模型测试结果表明,在医院内部测试集上的AUC 表现为0.78,在来自北林肯郡和古尔医院的30 996 患者外部测试数据集上的AUC 结果为0.79。虽然该研究纳入了更多的实验室检查等信息,但未实现患者入院后脓毒症风险实时预测。
2018 年,来自美国埃默里大学Nemati 等[15]基于Weilbull-Cox 比例风险模型构建了人工智能脓毒症专家(artificial intelligence sepsis expert,AISE)模型,用来预测患者入ICU 后每小时患脓毒症的风险。该训练数据集纳入了来自两家埃默里大学医院的2.7 万余例成人重症患者,并基于心率和血压时间序列以及从EHR 提取出的患者基本信息、生命体征以及实验室检查等数据,共设计了65 个变量作为特征向量,同时根据最新发布的脓毒症3.0 定义及诊断标准[1]定位脓毒症发生的时间点。结果显示,AISE 在训练队列和来自开源数据库“重症监护医学数据集-Ⅲ(medical information mart for intensive careⅢ,MICMIC-Ⅲ)”[9]外部验证队列的4.2 万余名患者测试时,提前4 ~ 12 h 预测脓毒症发生的AUC均为0.83 ~ 0.85。此外,该研究团队还利用类似于深度学习中显著性图的方法来计算每个特征的重要性,为实时预测结果提供了可解释的信息。该研究成果发布之后引起了重症监护领域的广泛关注。然而,由于医院EHR 数据的隐私性保护,使得对于绝大多数AI 专业研究人员无法获取大量带脓毒症标签的患者数据。截至2019 年,大多数非临床研究人员的研究数据均来源于MIMIC-Ⅱ和更新后的MIMIC-Ⅲ数据库。
2019 年, 第20 届 全 球 生 理 测 量 挑 战 赛(CinC2019)[16]发布了以“基于临床数据的脓毒症早期预警”为主题的竞赛,旨在为研究人员提供一个开源、同质化的脓毒症早期预警AI 算法测试平台。此次CinC2019 竞赛共发布了来自3 个不同医疗机构共计6 万余名ICU 患者的数据。每名患者数据包括入ICU 后每小时40 个临床变量的记录,并提供了具体的脓毒症患病时间点作为模型训练标签。此外,竞赛团队还专门从临床实际应用角度设计了一个评估算法优劣的评分机制,用于在奖励早期预警的同时尽量减少误报警的产生。超过100 支团队参与了此次竞赛,最终Yang 等[17]提出了一种可解释的脓毒症预测器(explainable AI sepsis predictor,EASP),获得了最高的评分。EASP 基于临床先验知识设计的168 个临床特征,利用GBM 作为预测分类器实现脓毒症的实时预测,最终提前6 h 预测的准确率AUC为0.85,敏感性为0.90,特异性为0.74。此外,该研究团队在实现模型性能最优后,基于Shapley 值 可 解 释(Shapley additive explanations,SHAP)方法[18]对模型进行了全局和个体化的可解释性分析,大大提升了模型在临床实际应用的可操作性。
此外,为进一步评估基于EHR 数据的AI 模型在临床部署应用的有效性,Shimabukuro 等[19]和Tarabichi 等[20]开展了随机对照试验(randomized controlled trial,RCT)验证了在脓毒症AI 预警模型的帮助下能够有效改善患者结局。2022 年Adams等[21]针对脓毒症警报系统(targeted real-time early warning system,TREWS)进行的一项多中心前瞻性研究,结果显示对于那些医护人员在警报发生后3 h 得到确认后的患者,其住院死亡率相对减少了18.7%,表明TREWS 具有早期识别脓毒症患者并改善患者预后的潜力,为相关研究提供了有力的参考。
然而,上述研究所使用的数据采集频率较低,生命体征基本每小时记录一次,实验室检查等指标每天采集1 ~ 2 次,因此对于脓毒症的预测或诊断仍具有一定的滞后性[22]。利用床旁监护仪所记录的原始生理信号(包括心电、血压、脉搏、血氧饱和度、呼吸等)波形数据或诸如1 Hz 采样生命体征数值型高频数据,能够提取更精细化的特征并更及时反馈患者疾病进展情况。Huston 等[23]进行的生理研究表明,基于心电的心率变异性(heart rate variability,HRV)可能为炎症反应提供有用的信息参考,并且HRV 和复杂性指数(例如熵)已被提议作为脓毒症等疾病引起的神经免疫系统失调的替代标记[24]。此外,Shashikumar 等[22]收集了来自埃默里大学附属医院242 名患者的ICU 床旁监护仪高分辨率(2 Hz 采样)心率和血压数据,并使用多变量建模方法发现基于多尺度熵的心率和血压动态测量是成人脓毒症的独立预测因子;随后该团队又提出了一种新的对心率和血压生理时间序列进行多尺度网络的表示方法,并证明了其在成人脓毒症早期预测中的实用性,并且相较于传统熵分析特征AUC准确率从0.66 提升至0.78[25]。HRV 分析同样在早产儿迟发性脓毒症(late-onset sepsis,LOS)的预测研究中使用最为广泛。Griffin 等[26-27]在弗吉尼亚大学新生儿ICU(neonatal ICU,NICU)的前瞻性验证研究发现,HRV 相关指征能够为早期诊断LOS 提供有效信息,具有临床应用价值。然而,上述研究大多未充分利用多通道生理信号信息,且大多基于监护仪数值型生命体征进行建模。Mollura 等[28]则对来自MIMIC-Ⅲ波形数据库中142 名ICU 患者的心电和血压生理信号波形数据进行建模,提取了包括HRV、谱分析等在内的68 个波形相关特征,预测准确率AUC 为0.92。Cabrera-Quiros 等[29]采集了NICU 64 名早产儿的原始心电和呼吸波形信号用于提前3 h 预测LOS 的发生,结果显示联合心电、呼吸以及体动特征能够有效提高模型准确性;呼吸、血氧饱和度或心率和血氧饱和度之间的相关性也被证明对于LOS 早期预测具有重要意义[30]。León 等[31]则证明了生理信号时间序列的可视图分析对于LOS预测的性能提升,LOS 前6 h 的AUC 从0.81 提升至0.88;Peng 等[32]重点分析了从多生理信号中提取的体动信息对临床早期判断脓毒症的有效性,在GBM 的AI 模型下6 h 前预测LOS 的AUC 准确 率达到了0.88。同时,SHAP 可解释分析表明,体动信息对于其所提出模型的贡献度十分重要,为将来利用非接触式的视频体动分析预警脓毒症研究提供了有力参考。
1.2 深度学习模型
传统的机器学习模型首先需要人工依据一定的临床先验知识进行特征工程设计,再使用LR、GBM、Cox、随机森林(random forest,RF)等方法学习特征至标签之间的映射关系。随着计算能力和云计算的发展,以及更多临床数据的开放,使得基于端到端的深度学习方法应用逐渐广泛,这种方法能够让模型自动学习出好的特征表示以替代人工设计的特征,从而最终提升预测模型的准确性。Kam 等[33]于2017 年在Insight 模型研究基础上设计了基于长短期记忆网络(long short-term memory,LSTM)的深度学习模型,相较于Insight模型准确率提升了4.7%。时域卷积网络(temporal convolutional network,TCN)[34]作为一种能够处理时间序列数据的卷积神经网络结构,也常被用于构建脓毒症预测模型。Rosnati 等[35]基于TCN 架构融合高斯过程和注意力机制提出了MGP-AttTCN模型,用于解决EHR 数据不规则采样导致数据缺失的问题,并利用注意力机制分析了脓毒症患者一段时间内指标变化与脓毒症风险之间的关联;Lauritsen 等[36]同样基于TCN 架构设计了可同时预测脓毒症、急性肾损伤和急性肺损伤的AI 模型,其中对于提前24 h 预测脓毒症发生的AUC 为0.80,优于传统SOFA 和MEWS 评分以及基于GBM 传统机器学习模型,并且利用逐层相关性传播(layer-wise relevance propagation,LRP)方法对TCN 模型进行可解释分析,也实现了全局和个体化的可解释分析。上述研究大多基于EHR 的结构化数据训练AI,Goh等[37]则结合自然语言处理技术挖掘EHR 中非结构化的临床文本记录信息构建模型,结果表明与仅使用结构化数据相比,可提前24 h 预测脓毒症的AUC从0.78 升至0.90。
然而,在临床实际问题中,首先由于不同医院间医疗设备的差异,会导致生理参数测量的差异性;其次,由于不同医疗机构患者来源不同,人口统计资料会产生差异,患者严重程度也会有差异,导致患者异质性突出;再者,医护人员对于患者的治疗手段也存在差异,这些均会导致不同医疗机构患者数据特征空间分布存在差异,即域偏移[38]。2021年,Wong 等[39]在数百家医疗机构验证了一个应用较为成熟的脓毒症预警机器学习模型(epic sepsis model,ESM),结果表明在27 697 例患者的研究队列中,ESM 预测AUC 准确率只有0.63,远低于最初构建模型时所报告的0.76 ~ 0.83。此外,尽管越来越多的医疗机构正逐步完善EHR 系统,不断收集患者数据,但大多无标签标记,无法训练大规模模型,而直接将从其他机构训练好的模型部署到新医疗机构易导致模型准确率无法得到保证。因此,提高脓毒症早期预警模型的泛化性是实现跨医疗机构部署应用的基础。基于深度学习神经网络的迁移学习是解决该问题最常见的方法。迁移学习作为一种能够利用从源域学到的知识应用到目标域的方法,在图像处理以及自然语言处理等方面取得广泛应用,为改善医疗健康领域AI 模型的泛化能力提供了理论基础[40-41]。Holder 等[42]利用迁移学习中的模型参数微调方法改善了预测脓毒症血管加压药时机模型的泛化性能,准确率提升了4%。Ding 等[43]利用半监督域自适应同时结合Self-paced 集成方法解决脓毒症预测泛化性能,在仅使用少量部署目标医院数据以及其他无标签数据的情况下,将模型准确率提升了6.5%。Shashikumar 等[44]则利用共形预测思想度量域间样本距离差异,对那些AI 模型无法有效预测的样本“说不”,为解决脓毒症预警模型误报警和泛化性问题提供了新的思路。
2 脓毒症临床分型
目前临床上尚未发现能够使脓毒症患者持续受益的治疗方法,这是因为脓毒症是一种异质性综合征,不同脓毒症患者之间可能对治疗的反应存在差异[45]。UL 指从不包含目标标签的训练样本中自动学习到有价值信息,发现数据中潜在的模式和结构,从而将数据划分为不同的类别或群组。如何有效利用UL 基于收集到的临床数据表征患者生理状态,进而对异质性的脓毒症患者进行分型,评估这些分型与临床特征和生存结局的关系,是当前研究的重点。将脓毒症患者划分为不同的亚类群体后,可以帮助临床医生了解不同群体患者的特点,进行更有针对性治疗和个性化的监护管理;或在相关临床试验中能够尽可能纳入同质性患者,减少异质性干扰,提升临床试验质量[46]。下文主要从传统潜剖面分析(latent profile analysis,LPA)统计方法、聚类以及轨迹建模3 个方面展开相关研究的梳理。
2.1 潜剖面分析
LPA 是一种从多维数据中识别和描述不同潜在剖面或模式的统计学方法。LPA 能够将观测单位划分为具有相似观测变量模式的剖面,以揭示数据集中的隐藏结构,在临床分型应用时帮助识别患者不同的生理状态从而进行分组,有助于理解患者的异质性。Zhang 等[47]回顾性分析了近1.5 万名脓毒症患者入ICU 后第一天的临床和实验室检查数据,应用LPA 方法定义了4 种脓毒症表型,其中表型1 人群占比最多,死亡率最低为16.9%;表型2 人群主要以呼吸功能障碍为主;而表型3 主要表现为多器官功能障碍,死亡率最高,达到45.4%;表型4 人群则以神经功能障碍为主。此外,该研究还利用多变量逻辑回归模型分析了不同表型对于液体复苏剂量的反应情况。之后,Shald 等[48]在Zhang 等[47]的研究基础上于320 名脓毒症人群中外部验证了LPA分出的4 种表型的进展情况,结果证实了各亚型之间死亡率、住院时间、无呼吸机天数和液体平衡状态方面的差异。上述研究表明,使用患者入ICU 第一天的数据通过LPA 进行亚类分型后,临床医护人员能够从呼吸、神经、器官功能表现等方面对脓毒症患者分组,并在药物给液治疗方面相对应给予不同的剂量。然而,LPA 作为一种基于概率统计模型,虽然结果更具有统计学意义,但其建立在诸如数据正态分布、独立性等严格假设上,模型假设依赖性强,同时应用时计算成本高,不利于大规模应用。
2.2 聚类
聚类作为常用的UL 方法,用于找寻数据内在的分布结构,将相似的观测样本分组到不同的类别中,致使在类别内部具有高度的相似性,而类别之间则具有较大的差异性,有助于识别潜在的疾病亚群。相较于LPA 而言,聚类简单直观,计算效率高,不依赖于假设,可用性强。一项利用临床大数据和AI 探索脓毒症表型的大型回顾性研究中,Seymour等[46]根据20 189 例脓毒症患者的人口统计学、生命体征、炎症指标、器官损伤等数据,利用K-means聚类方法提取出了α、β、γ、δ 共4 种脓毒症表型。其中,α 表型患者(33%)使用升压药物剂量最小,病死率最低;β 表型患者(27%)年龄相对更大,且患有慢性疾病和肾功能不全的比例更高;γ 表型患者(27%)炎症表现明显,肺功能障碍比例相对较高;而δ 表型患者(13%)更多发生肝功能不全及休克,病死率最高达到了40%。该研究在独立队列43 086名脓毒症患者人群中进行了验证,结果表明这4 种表型的28 天和365 天病死率显著不同,并且炎症标志物的水平也存在显著差异。同时,在利用3 项随机临床试验数据(涉及4 737 名患者)进行药物治疗模拟试验时发现,这些脓毒症表型对标准化治疗表现出了不同的反应,为将来进一步药物随机对照试验纳入同质性患者提供有力参考。Kudo 等[49]同样利用K-means 聚类方法对来自日本的3 694 名脓毒症患者利用凝血指标进行了分型,并使用广义估计方程评估不同表型下血栓调节蛋白治疗与患者28天生存结局之间的关联。国内Ma 等[50]设计了一项涉及25 家医疗机构的脓毒症表型研究,利用有限混合模型和K-means 聚类将1 437 名脓毒性休克患者划分为5 类,类别1 患者占比最多,视为基本人群;类别2 患者表现为疾病进展最为严重,死亡率达到41%;类别3 患者表现为肾功能障碍;类别4 患者则主要为呼吸衰竭;类别5 患者死亡率最低(20%)。在识别5 个亚类人群后,该研究团队进一步使用动态治疗方案(dynamic treatment regime,DTR)模型估计个体化给液和去甲肾上腺素剂量,以改善患者结局,并在美国的一个多中心ICU 数据库(eICU collaborative research database,eICU-CRD)进行了外部有效验证,表明提出的模型能够有效将异质性的患者区分开来,并进行有针对性的药物治疗。
然而,上述研究大多直接将收集到的临床数据利用聚类方法进行临床表型研究,随着深度学习的发展,先对临床数据进行高阶表示,再进行UL 的研究也越来越受到关注。来自加州大学圣迭戈分校的研究团队根据患者入急诊后6 h 的数据,首先利用神经网络基于40 个临床指标构建了一个预测脓毒症发生的模型;随后对该模型中间层所学习到的非线性特征表示聚类以此获得临床表型;最终实验结果显示共将患者分为4 种表型,研究同时分析了各表型临床统计差异以及对抗菌治疗结局的差异[51],表明当收集到患者入急诊后6 h 数据后,临床工作人员即可对该患者进行分型,并根据该亚组对于抗菌治疗结局情况相对应的提前调整用药方案。
2.3 轨迹建模
基于LPA 或聚类的大多数脓毒症分型研究使用生物标志物或临床数据的静态信息来识别脓毒症表型。然而,脓毒症发展是动态的,其生物学和生理反应可能会在几分钟到几小时内发生演变[52]。脓毒症的这种“时序不稳定性”表明实验室检验和生命体征的静态变量可能无法识别随时间变化的表型[53]。利用纵向(随时间变化)数据进行轨迹建模可以更准确地识别出反映患者病程的脓毒症表型。2019 年,Bhavani 等[54]利用12 413 名患者最开始记录的72 h 内温度数据,基于群组轨迹模型识别了“高温慢消退”“高温快消退”“正常体温”以及“低温”这4 种温度轨迹。其中低温组年龄最大,合并症最多,炎症标志物水平最低,院内死亡率最高(9.5%);高温慢消退组最年轻,合并症最少,炎症标志物水平最高,死亡率为5.1%;高温快消退组死亡率最低(2.9%)。该研究团队后续又于2020年发布了一项前瞻性研究成果,验证了设计的温度轨迹表型与特定的细胞因子反应具有一致性[55]。2022 年,Bhavani 等[56]进一步在20 729 名疑似感染住院患者的多中心回顾性分析中,利用住院前8 h内的生命体征(温度、心率、呼吸频率和血压)序列,同样基于群组轨迹模型,根据生命体征的不同轨迹确定了4 个表型。这些轨迹表型具有不同的基线临床特征、实验室检查、器官功能障碍以及结局,随机对照试验表明不同表型对平衡晶体液与生理盐水反应也具有差异。Zhang 等[57]基于eICU-CRD 数据库,利用潜在生长混合模型根据ICU 期间的SOFA评分识别出5 种不同的轨迹类别,其中轨迹1 和轨迹2 显示,随着时间的推移,SOFA 评分不断增加,并且分别在第16 天和第27 天发展为持续性危重疾病,而其余轨迹的SOFA 评分则表现为稳步下降。Liu 等[58]则利用对脓毒症的风险轨迹进行建模,最后划分为4 种表型,其中最高风险组和最低风险组脓毒性休克的患病率分别为76.5%和10.4%,死亡率分别为43%和18%。虽然轨迹建模能够简单直观的对患者进行纵向分型,但难以处理多指标下的高维度数据以及捕获不同时间序列之间的相关性。深度学习在处理高维度时间序列方面具备优势,但如何表征患者随时间的状态变化并进行有效分组,是未来重要的研究方向。
3 脓毒症精准治疗
脓毒症涉及机体多系统,与多器官生理变化均密切相关,其发病根本机制到目前尚不明确,对于脓毒症和脓毒性休克患者的管理方案也具有争议[59]。尽管在2021 年,欧洲危重病医学会和美国重症医学会联合发布了最新版的脓毒症与脓毒性休克管理国际指南,但仍提到需要个体化对待患者,进行有针对性地干预和治疗[60]。
3.1 基于临床分型的精准治疗
为了解决脓毒症的异质性问题,更加有针对性地给予相关治疗,先前研究先将脓毒症患者分成不同的亚型,再探究各类亚型对不同药物或剂量对于患者结局的影响,从而实现对于不同脓毒症群体的治疗管理。Seymour 等[46]在划分α、β、γ、δ 这4种脓毒症表型后,探究了不同表型对于早期目标导向治疗的反应差异;Kudo 等[49]利用凝血指标对脓毒症进行了分型,评估不同表型下血栓调节蛋白治疗与生存结局之间的关联;Ma 等[50]则在识别5 个亚类人群后,进一步使用DTR 模型估计个体化的给液和去甲肾上腺素剂量,从而有效地进行针对性治疗;Boussina 等[51]在识别表型后探究表型和抗菌治疗之间的关联;按照温度轨迹对脓毒症患者进行的免疫分型,为相关治疗提供了参考[55];基于生命体征轨迹建模的表型则有助于平衡晶体液和生理盐水的药物精准化治疗[56]。上述研究为有效理解脓毒症患者的异质性具有重要意义,并为不同表型患者制定更加精准化的治疗方案提供了重要支持。然而,此类精准化治疗依然是面向某个群体的手段,仍然无法达到面向单个患者,更加精细化、个性化治疗的要求。因此,如何根据单个脓毒症患者的疾病进展变化针对性做出剂量和使用策略的调整仍然是临床难点。
3.2 基于强化学习的精准治疗
RL 指一种旨在与状态环境不断交互,为每个状态寻找最佳策略以获取最大收益的AI 方法,与临床医生做出治疗决策以改善患者预后目标任务接近[61]。DL 不需要给出“正确”策略作为监督信息,只需要给出策略的(延迟)回报,并通过调整策略来取得最大化的期望回报。RL 核心要素包括状态、动作、策略、状态转移概率以及即时奖励。应用RL已被证实能够在脓毒症患者治疗过程中根据患者状态的变化给予药物推荐[62]。
2015 年,Tsoukalas 等[63]利用部分可观察马尔可夫决策过程(partially observable Markov decision process,POMDP)模型,基于临床实践、专家知识等首先定义了RL 应用药物推荐的相关要素,并基于回顾性的1 492 例脓毒症患者的EHR 数据自动学习到抗生素选择的最优化策略。该研究结果显示,POMDP 模型推荐的抗生素选择策略能够有效改善脓毒症患者预后。2017 年,Nemati 等[64]应用深度RL 基于MIMIC-Ⅱ提供数据进行最佳肝素给药策略的推荐。此外,早期、及时的液体治疗或复苏和必要的血管活性药物使用是脓毒症和脓毒性休克积极治疗的基本措施[60]。2018 年,Komorowski 等[61]利用强化学习进行脓毒症患者血流动力学治疗推荐工作,引起了广泛关注。该团队基于MIMIC-Ⅲ数据库,纳入了17 083 名脓毒症患者包括人口统计资料、疾病史、生命体征、实验室检查、液体出入量和血管活性药物剂量等在内的48 个临床变量数据;并重点关注患者脓毒症发生之前24 h 至发生后48 h 过程,将这72 h 按照4 h 步长划分为多变量的离散时间序列,从而利用RL 研究整个过程患者的疾病状态变化与该区间内液体复苏以及血管活性药物使用的关联。Komorowski 等[61]将4 h 内患者数据进行K-means 聚类,将患者状态划分成不同类别作为RL要素中的状态空间;将液体和血管活性药物剂量离散为5×5 矩阵,作为动作空间;根据患者院内死亡或90 天死亡结局作为最终的奖惩目标;将训练数据集中观察到在每次动作后各状态的变化次数来估计状态转移矩阵;模型的策略为由患者在某区间内状态估计的最优动作,即液体复苏和血管活性药物的剂量,以改善患者结局。在独立的验证队列eICUCRD 中测试模型,结果表明相较于实际临床医生给出的用药方案,由RL 给出的治疗略下患者的生存率更高,能有效改善患者预后。同时,该研究团队还开源了数据提取过程、RL 原始算法代码,为脓毒症个性化药物治疗推荐研究搭建了开放性平台。后续,其他研究团队在此基础上,相继在状态空间表示、强化学习算法、奖惩函数设置上分别进行优化,以提高推荐剂量的准确性,并进一步在外部独立测试集上进行了验证[65-66]。
然而,虽然上述研究回顾性证明了RL 的有效性,但在风险度非常高的领域,如医疗尤其是重症监护方面,由于安全性和信任度的限制,医生依然难以信任AI 推荐的策略。因此,确定推荐治疗方案是否安全,提高对其可能导致不良结果的高风险认知非常重要。2021年,来自微软研究院的Fatemi等[67]提出了一种基于RL 的治疗高风险识别方法(deadend discovery,DeD),DeD 不同于传统药物治疗剂量推荐研究,旨在提示避免使用可能会导致不良结局的治疗方案,识别出患者的高风险状态。该实验结果表明,DeD 识别出对于某些高风险患者,有11%的治疗干预可能会增加患者死亡的风险。利用不确定度量方式提高RL 的安全性也是当前研究的重点。针对脓毒症药物治疗推荐,Festor 等[68]分析了其中存在的偶然不确定性和认知不确定性,进行不确定性度量分析,输出推荐结果的置信度,使得临床医护人员能够根据输出结果的不确定度对患者进行分级管理,对置信度低的患者给予更高关注,置信度高的患者给予低关注。此外,由于不同地区的患者之间存在异质性、临床治疗手段存在差异、EHR电子系统非标准化以及数据的隐私保护等问题,使得直接将RL 模型跨医疗机构部署应用成为巨大的挑战。联邦强化学习作为一种能够在保护数据隐私前提下,跨数据源上联合训练模型的方法,将会成为未来应用RL 进行精准化治疗研究的热点[69]。
4 结语与展望
AI 技术的发展为临床医护人员对脓毒症的管理提供了智能化的解决方案。应用AI 能够从脓毒症患者的早期发现、及时干预,到发病后根据疾病进展状态进行分组管理、针对性的监护,再到个性化药物治疗方案的提供,这一整个脓毒症管理流程中发挥重要作用。这对于构建智能化的临床辅助决策系统,建立起脓毒症诊疗的新体系,降低临床负担,具有重要意义。随着云计算、信息化系统、物联网等技术的快速发展,利用穿戴设备对脓毒症患者出院后的身体健康状况进行实时跟踪,降低二次住院率,最终实现脓毒症患者从发病前到康复过程、从院内到院外的全周期管理,也是又一个重要的发展方向。然而,目前仍需要对AI 的实际临床应用效果保持严谨态度和清醒的认识。在药物的研发中,通常需要经过药物发现、临床前研究、临床试验“三部曲”才能进入医药市场用于治疗疾病,这往往可能需要数十年的时间并投入大量研发经费。同样,当前用于脓毒症辅助诊疗的AI 仍属于新兴领域,绝大多数为回顾性研究,仍处于算法开发阶段,仅有很少AI 模型被批准用于临床使用并大规模部署。在未来,相关研究需不仅仅停留于模型算法准确性本身,而应该更加聚焦于如何将模型真正应用于临床,提升模型的可解释性、可泛化性以及安全性能,深入临床与医护人员讨论如何使AI 能真正给予其帮助。此外,仍然需要更多的RCT 实验和前瞻性临床试验来验证算法的有效性,并不断提升、改善AI 模型。然而,尽管当前某些核心技术还尚未成熟,但随着诸如ChatGPT大语言模型等新技术的发展变革,以及越来越多的研究人员参与到其中,AI 在进一步构建智能化的脓毒症患者全周期管理体系中将发挥越来越重要的作用。