人工智能在慢加急性肝衰竭预后评估中的应用研究进展

2024-05-08龚红梅

医学新知 2024年4期

龚红梅，毛青，蒋黎

陆军军医大学第一附属医院感染病科（重庆 400038）

慢加急性肝衰竭（acute-on-chronic liver failure, ACLF）是一种多种诱因所致的以慢性肝病发生急性肝功能恶化为表现的综合征[1-2]，是我国最常见的肝衰竭类型[3]，是慢性肝病患者的主要死因，早期病死率高达50%～90%[4-5]。肝移植仍然是ACLF 患者有益的治疗策略，但由于费用昂贵和供体稀缺，只有少数患者可以接受肝移植[6]。因此，早期发现、准确评估预后并尽早干预对改善ACLF 患者的疾病转归至关重要。近年来，不同地区不同国家先后报道了不同病因谱的ACLF 预后预测模型，以帮助临床决策，但这些传统的ACLF 预测模型基本采用以数据驱动的方式，利用注册表数据或回顾性队列构建，更倾向于评估长期结果。近年来，人工智能（artificial intelligence，AI）在肝病领域中的不断深入应用与AI 方法、计算能力的显著进步以及大型数据队列的可用性不谋而合。在临床建模预测预后时，AI 面对复杂问题进行复杂分析的能力相对单纯的数据分析更有运用前景。由此，可利用AI 探讨ACLF 预后模型的构建并辅助医疗决策。本文拟综述AI 在ACLF 预后预测中的应用进展，利于临床医生对ACLF 预后评估的认识开拓新的思路。

1 ACLF常用的预后评分模型

目前，我国临床预测ACLF 常用的预后评分模型有终末期肝病模型（MELD 评分系统）、在MELD 基础上建立的MELD-Na 评分系统、基于MELD 模型增加血清Na+和年龄两个指标的iMELD 评分系统、慢性肝功能衰竭序贯器官衰竭评估（CLIF-SOFA）评分、由CLIF-SOFA改良的简化器官功能评分系统（CLIF-C OF）和ACLF 特定预后评分（CLIF-C ACLF），以及中国重症乙型病毒性肝炎研究小组ACLF 标准（COSSH- ACLF 和COSSH-ACLF II）等。不同评分系统针对的评估人群、评估目的、评估指标以及评分公式各有不同（表1）。

表1 我国ACLF常用预后评分模型Table 1 Commonly used prognostic scoring models for ACLF in China

由于导致肝损伤的病因不同、慢性肝病的阶段不同（是否合并肝硬化）以及发病后有无合并肝外器官功能衰竭不同，目前国际上尚无统一的ACLF 诊断标准以及预测ACLF 患者的评分模型。随着ACLF 预后评分模型不断推陈出新，特别是结合我国自身肝病患者的特性，动态、个体化的评估患者的预后模型在临床上得以运用，有助于临床医生及时制定治疗方案和适时变更治疗策略，但仍均需大样本、多中心的临床试验加以验证。同时现有的预后评分模型主要基于传统的统计方法开发，在多元线性回归模型的基础上构建。然而，人体是一个复杂的生物系统，大多数临床特征具有多维和非线性关系。因此，用现有的统计技术预测肝脏疾病的预后有其局限性。

2 AI用于ACLF的预后评估

AI 是指如何利用计算机的硬软件，发挥人类自然智能的功能，如解决问题和实施决策[8]。AI融合了各种经典的现代机器学习技术、自然语言处理以及其他预测、预后、概率和仿真建模方法，已成为医疗保健各个领域实践中的有效工具。在肝衰竭领域，AI 模型不但能进行预后评估，还有助于提高对影响ACLF 发病率和死亡率各种作用机制的理解[9]。

2.1 AI在临床医学运用中的术语及定义

目前，机器学习、深度学习和“大数据”等AI 工具正处于不断发展中，在临床和基础研究中的应用认知也不断提高。AI 领域常用术语及其定义如表2 所示。

表2 AI领域常用术语及其定义Table 2.Common terms and definitions in the AI field

2.2 机器学习在ACLF中的应用

机器学习（machine learning，ML）是一个涉及计算机科学和统计学的广阔领域，通过模拟人类的学习行为，产生算法来分析数据并学习规律和预测模型，从而解释复杂且（或）大型的数据，完成某种特定的任务。ML 依照模型分类可以分为监督学习和无监督学习。人类的学习过程是通过不断重复所做工作而使自身能力得以增强和进步，而ML 则是通过现有的经验从数据中通过算法自动分析获得模型，以此利用学得的模型对未知的数据进行预测。ML 模型通过数学函数或规律从数据集（包括训练集、验证集和测试集）中进行训练或学习，并提供分类和预测输出，通常具有很高的精度[10]。ML 的工作流程一般经过五个步骤：首先是获取数据；其次对数据进行基本处理，包括一些缺失、异常的数据；然后是特征工程，即将原始数据分解、聚合、转化为更能表达问题本质特征的过程；再次是模拟训练，包括不同的算法学习；最后是模型评估，不同的模型有相应的评估方式。开发的ML 模型是否有效基本先决条件包括良好的数据质量、方法的适当性和对结果的评估分析。

传统的疾病风险预测模型基于统计学中的单变量或多变量进行回归分析，从具有大量特征（或维度）的数据集中提取风险标志物，实践证明尚存局限。而ML 或许能允许在没有预知风险标志物或影响因素的情况下建立风险预测模型。目前已有几项ML 在ACLF 预后评估中的尝试。

Verma 等研究显示ML 可用于改善对ACLF患者预后的评估[11]。该项研究的AI 模型数据来自2 481 名患者，符合亚太肝脏研究学会ACLF研究联盟（AARC）诊断标准，包括人口统计学特征、发病诱因、有无肝硬化及肝硬化并发症、是否有合并症、脓毒症、实验室检测和严重程度评分等共65 个变量，连续记录90 天用于AI 建模，分别在第0 天、第4 天和第7 天进行评估，发现极端梯度提升交叉验证模型（the extreme gradient boost-cross-validated model，XGB-CV）预测30天临床结局的曲线下面积（AUC）为0.976，表现了尚佳的预测能力。同时，XGB-CV AI 模型对总体人群7 天生存率的评估无论是AUC 还是准确度上都优于AARC 专门开发的APASL-ACLF 模型以及MELD 评分。另外，该研究团队还构建了一种新的AARC-AI 模型，使用包括第7 天的血肌酐、血清Na+、INR、循环衰竭、白细胞数量以及第4天脓毒症与否等重要变量来预测30 天的结局，该模型的AUC 显著优于第7 天MELD 评分（0.878 vs.0.759，P＜0.007），也高于第7 天的APASLACLF 模型（0.878 vs.0.847，P=0.007）。AARC-AI模型预测的准确性在印度新德里肝脏和胆道科学研究所招募的188 例ACLF 患者的队列中也得以证实（AUC=0.965）[11]。不过，该研究的局限性在于关于脓毒症作为变量纳入容易造成结论偏倚，因为脓毒症的判断针对不同研究者可能有不同解释。此外，入院后的数据有所缺失，使用多重插补数据也会使结果评估引入偏差；并且ACLF 定义来自APASL 的标准，难以推广至欧美。尽管如此，研究结果仍可以被看作是推动ACLF 患者AI 研究的基石[12]。

欧洲肝脏研究会慢性肝衰竭联盟（EASL- CLIF C）提出ACLF 定义，即EASL- CLIF C ACLF 诊断标准是首个基于多中心临床注册研究（CANONIC 研究）的数据而得[7]。Garcia 等[13]利用CANONIC 数据库中符合EASL-CLIF C ACLF标准的患者为对象，将患者死亡率历史相关数据来训练ML 模型，但真实数据中难免存在不可避免的数据缺失，该研究对于缺失数据，一是采用找到缺失值变量的Mode 值替换缺失值，二是采用随机正态分布生成的数字替换缺失值，该数字与缺失值的变量具有相同的平均值和标准差。在替换缺失数据后，可形成各种ML 训练模型，通过预处理好的数据使用极致梯度提升树（eXtreme gradient boosting，XGBoost）和Logistic 回归模型，评估预测死亡率的有效性。结果表明，ACLF 患者第1 天和第29 天死亡率AUC 分别为0.97 和0.76，证明在诊断后几天内预测患者死亡率的总体准确性较高。该研究优势在于面对真实世界数据缺失方面能提供可靠解决方案，其通过结合不同的标准来替换缺失值、平衡目标类别变量、选择有价值的患者特征和对ML 模型的超参数来预测ACLF 相关死亡率，从而验证数据准备方法的有用性。

分类和回归树（classification and regression tree，CART）又称决策树，属于ML 监督学习中的一种算法，既可以处理分类问题又可以处理回归问题。Shi 等[14]尝试利用CART 分析预测HBV 感染所致的ACLF（HBV-ACLF）患者3 个月的死亡率。CART 分析确定了总胆红素、年龄、血清钠和INR 四个独立变量作为HBV- ACLF 的预后因素，以及低（死亡率为4.2%）、中（死亡率为30.2%～53.2%）、高（死亡率为81.4%～96.9%）三个风险组，与低风险组相比，中、高风险组受试者死亡率分别增加了1.68 倍和0.74 倍。采用多元Logistic 回归分析，以上述4 个独立因素建立新的Logistic 回归模型（LRM）。CART 模型的预测准确性与LRM 相似，AUC 分别为0.896 和0.914（P=0.382），超过了MELD 评分（0.667，P＜0.001）。这种基于AI 的CART 模型可以预测HBV-ACLF 患者3 个月的死亡率，并利于进行患者的风险分层，便于临床医生对于诊疗的尽早决策。

肝移植（liver transplantation，LT）虽然是治疗肝衰竭的重要手段，但并非所有的ACLF 患者行LT 后都能逆转或改变预后，如何预测ACLF 患者LT后的生存率也是临床迫切需要解决的问题。既往很少有研究报道传统的评分系统或预测模型对LT 后ACLF 患者的短期结局具有良好的预测价值。Yang 等[15]针对132 例接受LT 的ACLF 患者进行回顾性研究，建立了支持向量机（SVM）、逻辑回归（LR）、多层感知器（MLP）和随机森林（RF）四个ML 模型，用于患者90 d 生存预测。ROC 曲线显示，在预测短期生存率方面，ML 模型中表现最好的RF 模型AUC（0.940）远大于传统模型中预测最佳的MELD 评分（0.704）。反映与传统模型相比，ML 模型在预测LT 后ACLF 患者的短期预后方面表现良好。基于ML 模型的预测，更有希望优化器官分配和提高移植存活率[16]。

综上所述，ML 为改进现有的ACLF 预后和预测模型提供了新的机会，并有可能在短期内显著影响疾病的决策轨迹，为更多患者带来生存获益。以ACLF 人群为对象构建的ML 方法或可更好地理解病理生理学，适应或重新定义当前的定义，概述新的表型，或影响前瞻性试验设计[17-19]。

2.3 人工神经网络在ACLF中的应用

人工神经网络（artificial neutral network, ANN）是以大脑神经解剖学为灵感启发的一种算法模型。ANN 模型把每个神经元看作一个计算单元，所有神经元相互连接以构建一个模型网络。信号从第一层（输入层）传播到最后一层（输出层），可能要经过多个隐藏层。训练一个ANN 包括将数据划分成训练集和测试集，训练集有助于定义网络的结构并找出节点之间的各种权重，测试集可评估ANN 预测期望输出的能力。在训练过程中，调整中间神经元连接的权重以优化分类。对更高性能的竞争导致了神经网络架构的日益复杂，能够处理更复杂更宏大的问题，从而产生了DL 的概念。ANN 能够捕获数据中复杂的非线性关系，允许复杂的监督和无监督学习任务。ANN 和其他ML 技术之间的一个重要区别在于ANN 可以自己学习训练数据中的哪些特征对分类或预测任务很重要，而不是由某领域专家告诉哪些特征要使用[20]。对于人体这个复杂的生物系统，大多数临床特征具有多维性和非线性关系，ANN 在结构和功能上模仿生物神经系统，更能适应临床数据的特征，建立非线性统计模型来应对。

Zheng 等[21]最早运用ANN 构建预测HBV- ACLF患者3 个月死亡风险模型，并与MELD 评分相比较。模型纳入402 例符合APASL 诊断标准的HBV-ACLF 患者，训练队列280 例，验证队列122 例。ANN 主要局限性是过度训练，即训练集上表现良好，而在相对独立的验证集上表现较差。为了避免过度训练，研究者还在训练队列中进行了交叉验证。使用血清钠、TBil、年龄、PTA、血红蛋白（Hb）和HBeAg 阳性率构建ANN，在训练队列中，与基于MELD 的评分系统相比，ANN预测3 个月死亡率的准确性较高（AUC=0.869），在验证队列中，同样优于基于MELD 的评分系统（AUC=0.765）。该研究的局限性在于研究人群仅来自一个中心，现阶段的ANN是在内部队列（交叉验证）上构建和测试的，可能导致来自其他中心的数据会构建出不同的预后模型，这就需要对更大人群进行多中心、前瞻性研究。此外，队列仅随访了3 个月，患者的动态分析可能会比单次测量更重要、更有意义。

Hou 等[22]通过ANN 系统构建预测HBVACLF 患者28 天和90 天死亡率的预后模型。该研究回顾性分析了684 例HBV-ACLF 患者，其中，训练队列423 例，验证队列261 例，以年龄、肝性脑病、血清钠、凝血酶原活性、γ-谷氨酰转移酶、乙型肝炎e 抗原、碱性磷酸酶和总胆红素等变量建立ANN 模型。ROC 分析表明，与MELD、MELD-Na、CTP 和CLIF-ACLF 评分系统相比，ANN 模型对训练队列中28 天和90 天死亡率的预测准确性更高。这可能归因于ANN 的复杂、多维和非线性优势。这项研究的优势在于首先它是一个多中心的研究，涉及的患者来自我国不同地区的八家医院，样本代表性更好。其次，该研究建立的预测模型在不同中心的不同队列中进行了交叉验证，确保了所构建的模型能够得到独立和有效的验证。再次，一般来说，包含更多的受试者、更多的变量等可能会带来更高的模型准确性，在训练和验证组中，90 天死亡率预测准确率分别为91.3%和81.8%。最后，该研究还首次提供了预测28 天死亡率风险的ANN 模型，在训练队列中的总体预测准确率为94.8%，在验证队列中为74.8%。

除此之外，Musunuri 等[23]也探讨了ANN 在预测ACLF 患者相关死亡率中的价值。预测30 天死亡率和90 天死亡率的准确率分别为94.1%和88.2%，AUC 分别为0.915 和0.921。ANN 在预测患者短期死亡率方面具有较高的准确率，它可以自动化和简化识别那些死亡风险较高的患者，对协助临床医生进行决策、对需要紧急肝移植的患者进行分诊、预测死亡率和并发症方面具有巨大的潜力。

通过不断归纳演绎的过程发现，ANN 可减少由新数据集引发的错误，建立的ANN 模型或可更准确地为ACLF 患者提供28 天和90 天死亡风险的准确预测。此外，ANN 在快速、准确地管理非线性复杂生物系统方面具有明显优势，比多元Logistic回归和多元线性判别分析模型更准确[24-25]。然而，ANN 也存在不足：第一，由于ANN 是一种黑盒模型，其内部运行机制和决策过程往往难以解释，不利于研究者发现潜在的影响结果的混杂因素，这可能会降低模型的可信性和接受度；第二，训练数据过于复杂后会产生上文提及的过拟合问题；第三，需要超量数据样本才能实现预期的效果，计算资源需求大，对数据质量和数量要求高。尽管如此，在大数据时代，临床工作者有希望从各个医疗中心共享有关HBV- ACLF 患者病例的大量临床数据，而足够的相关变量和大样本量将使ANN 模型更加精准。

3 AI的局限性

将AI 技术临床大范围推广的局限在于：第一，随着AI 在医疗保健领域的迅速扩张，监管机制也需一同精进，尤其是在ML 应用程序方面[26]。第二，受AI 影响的决策将在责任分配方面带来分歧，基于算法的决策和临床医生决策之间的界限将变得更加模糊[27]，如果发生误诊，法律责任不明，如是检验检查医师、临床医生还是程序设计人员来承担法律责任？[28]第三，AI 的数据共享存在伦理和法律上的考量：如果AI 模型的获取数据本身带有某些过滤因素，则会生成带有性别或种族等偏见的内容；在保护个人数据和维护隐私方面，如果考虑到黑客攻击和数据盗窃的风险，人们对使用有可能泄露患者病史的人工算法的兴趣是否会降低？第四，对AI 工具的高度依赖不利于临床医生自身技能的提高和进步。AI 工具也有诊断错误的时候，临床医生应该在AI 实施的初始阶段保持警惕。虽然机器可以做出准确的预测，但最终还是须依靠医护人员根据患者的特性、环境和道德标准为患者做出决策。

尽管大多数用于开发ML 算法的证据来自临床前研究，目前尚未在临床实践中和传统方法进行直接比较，也缺乏真实世界的应用研究，但AI在ACLF 领域中越来越多的应用也让研究者感到鼓舞。

4 结语

ACLF 具有短期高病死率特点，病情进展迅速，早期诊断及干预至关重要。尽管众多预后评分模型不断涌现，但目前在临床上常用的预后模型大多基于回顾性研究采用传统的统计学方法获得，在准确性、方便性以及广泛适用性等方面仍存有缺憾。现代AI 技术越来越多地应用于ACLF诊治预防预测研究，AI 有助于减少人为错误，改善治疗方案，调整治疗决策。未来AI 在肝病学中的应用需要进一步的研究和验证。