机器学习在HBV感染相关疾病中的应用

2021-12-26芮法娟刘翠红郭朝阳杨红丽刘传礼徐琊芸任万华秦成勇

临床肝胆病杂志 2021年7期

芮法娟,薛旗,刘翠红,郭朝阳,杨红丽,刘传礼,徐琊芸,任万华,秦成勇,李婕,

1 山东第一医科大学附属省立医院 a.感染性疾病科，b.超声诊疗科，济南 250021；2 山东大学附属省立医院感染性疾病科，济南 250021

据世界卫生组织(WHO)估计，全世界每年约有2.57亿人患慢性乙型肝炎(CHB)，约有88.7万人死于HBV感染引起的肝衰竭、肝硬化(LC)和肝细胞癌(HCC)[1]。患者一旦进展为包括肝衰竭和HCC在内的终末期肝病，预后极差，病死率明显增加。因此，寻求更加准确的疾病临床转归预测方法是提高终末期肝病救治率的关键所在。机器学习(machine learning,ML)是提高临床决策能力的有力工具，它可以从大的、复杂的数据集中检测出难以识别的模式，从而实现精确可靠的预测[2-3]。本文就ML在HBV相关肝病中的应用作一综述，并展望其应用前景。

1 ML概述

ML是人工智能的一个领域，涉及到创建自动学习系统。算法通过输入的数据进行自动学习，在可接受的精确度范围内预测输出值，确定数据中的模式和趋势，即通过自主“学习”来理解识别复杂模式，而不需要人为干预[4-5]。根据处理的数据是否需要人为标记将ML技术分为有监督学习、无监督学习和半监督学习三类[6]。有监督学习技术解决的问题分为输入变量映射为连续输出函数的回归问题和输入变量映射为离散类别的分类问题，是应用最广泛、效果最好的方法[7]。ML的常见算法有：支持向量机(support vector machine,SVM)、随机森林(random forest,RF)、逻辑回归(logistic regression,LR)、朴素贝叶斯(Naïve Bayes,NB)、决策树(decision tree,DT)、K-近邻(K nearest neighbor,KNN)、多层神经网络 (multilayer perceptron,MLP)[8-9]。各个算法的主要特点见表1。

2 ML在CHB中的应用

Khan等[16]采用拉曼光谱结合模式技术研究119例不同年龄、不同性别的HBV感染者的血清样本。正常血清样本和HBV血清样本在某些拉曼光谱带上的强度略有变化，峰位无变化(如625、678、748、810、820、950、1003、1018和1275 cm-1，病理标本的强度均高于正常标本，1128、1220、1250和1650 cm-1，病变样品的强度降低)。采用SVM算法识别肉眼看不到的差异，建立识别正常、HBV血清的模型，其准确度、敏感度、特异度分别为98%、100%、95%。CHB患者治疗期间HBsAg血清清除率与预后相关。一项纳入2235例CHB患者的研究[12]，使用多种ML算法(极端梯度提升、RF、DT、LR)确定预测HBsAg血清学清除率的模型，其曲线下面积(AUC)分别为0.891、0.829 、0.619和0.680。极端梯度提升模型的AUC最高，对HBsAg血清学习有较好的预测作用。对来自亚洲和欧洲人群的完整HBV基因组进行超深测序，并首次对HBV准种的多样性进行了全面调查，采用ML方法建立对HBeAg状态进行最佳分类的模型，发现nG1896A是CHB患者HBeAg状态分类中最具预测性的突变，此研究有利于直接对患者分层制定治疗策略[17]。一项对122例CHB患者的研究[18]，基于RF、KNN、SVMML方法构建诊断和预测HBV感染患者炎症水平的有效模型。结合9个基因(DLX3、ALPK1、YBX1、ZNF75A、SPP2、TTLL4、TTLL7、AGAP3和DCTN4)的表达、性别、年龄和3个临床参数(AST、ALT和HBV DNA)，RF模型是诊断CHB炎症分级的最有力模型，预测概率达0.827±0.037。

3 ML在HBV相关肝纤维化和LC中的应用

慢性HBV感染是发展为纤维化、LC和HCC在内的晚期肝病的主要危险因素。5年内，10%～20%的慢性肝炎患者发展为LC，6%～15%的LC和慢性肝炎患者发展为HCC，其5年生存率低于5%[19]。肝纤维化程度可预测长期后果，在肝纤维化的早期阶段进行临床干预可以减缓LC的发展并降低发展为HCC的风险[8,20]。肝活检是评估肝纤维化和LC分期的金标准，但由于它是有创性、费用昂贵、占用过多人力资源、存在取样误差而受到限制[19]。开发一种替代肝活检的经济、可重复的、无创工具已经得到广泛认可[21]。先进的ML算法在肝纤维化和LC分期具有很大的潜力。

3.1 成像领域影像诊断是可以全面评估整个器官的一种无创性诊断方法。实时组织弹性成像(real-time tissue elastography,RTE)是一种对肝纤维化准确评估的无创性成像技术。一项对我国乙型肝炎肝纤维化实时弹性成像的多中心研究[8]，从513例接受肝活检的受试者中获得了11个RTE图像特征，并建立了一个辅助性研究平台判断肝纤维化分期的决策支持系统。研究使用四种经典的分类器(SVM、NB、RF和KNN)来构建决策支持系统。研究结果表明，在区分HBV感染无肝纤维化时，SVM的敏感度最高(0.929 7)，特异度最低(0.462 5)，NB模型敏感度最低(0.796 7)，特异度最高(0.825 0)；区分中度纤维化与高水平纤维化时，RF模型在判断肝脏是否出现严重的HBV感染以及临床上是否需要抗病毒治疗时获得了最高的准确度(0.880 9)和特异度(0.960 0)。一项选取复旦大学中山医院接受肝部分切除术和术前肝脏剪切波弹性成像的354例患者的研究[22]，根据其灰阶超声图像和相应的弹性图像，采用传统的ML和深度学习方法提取和分析了超声图像数据集特征，并对其进行分类。SVM算法在二分类(肝纤维化等级分为 S0/S1/S2与S3/S4两类)准确度最高(89.9%)，在三分类(肝纤维化等级分为S0/S1与S2/S3与S4三类)准确度最低(75.3%)。有研究[2]基于ML，使用常规放射组学、原始射频(original radiofrequency,ORF)和微流量造影(contrast-enhanced micro-flow,CEMF)特征来评估显著的肝纤维化，发现与常规放射组学相比，ORF和CEMF特征对肝纤维化阶段有更好的预测能力，多参数超声模型比单一模式下的特征表现出更好的性能(平均AUC为0.78～0.85)。

3.2 血清学标志物对124例LC合并CHB患者和115例CHB患者的常规临床参数(年龄、AST、ALT、凝血酶原时间、血小板计数、红细胞分布宽度、血红蛋白)进行研究，利用MLP建立预测HBV相关LC预测模型[23]。MLP预测模型的AUC为0.942，高于广泛应用的LC预测工具FIB-4(0.726)、APRI(0.817)；MLP分类器的最佳截止值为0.281，与FIB-4和APRI相比，准确度(89.9%)、敏感度(95.2%)和特异度(84.2%)最佳。此研究应用常规临床参数，通过ML方法实现LC和非LC患者的区分，证实基于血清肽构建分类器是预测HBV相关LC的有用工具[23]。对上海中医药大学附属曙光医院、厦门中医院568例HBV感染者的研究[24]表明，根据患者年龄、AST、ALT和血小板计数，构建线性判别分析、RF、梯度增强、DT ML模型，可以实现早期、晚期肝纤维化和LC的诊断，显著提高了肝纤维化的诊断准确率。同时证明引入约登指数可平衡各组间的敏感度，进一步提高肝纤维化诊断模型的实用价值。血清代谢标志物与CHB晚期肝纤维化相关。一项基于HBV相关肝纤维化患者和正常对照者代谢组学的研究[25]，使用4种代谢标志物(牛磺胆酸、酪氨酸、缬氨酸、亚麻酸)构建RF ML模型，以区分慢性肝病患者和正常对照组、LC和纤维化患者、晚期纤维化和早期纤维化，其AUC分别为0.997、0.941、0.918。模型的AUC均高于APRI、FIB-4和AST/ALT比值，具有较高的敏感度和特异度[25]。

4 ML在HBV相关HCC中的应用

HCC已成为世界上最常见的癌症之一，每年有50万例确诊[26-27]。超过80%的HCC发生于LC，主要与慢性HBV感染有关[15]。早期诊断HCC可大大改善预后，有更好的长期生存率和降低复发风险的手术治疗[15]。

由于甲胎蛋白的敏感度和特异度较低，而且当肿瘤<2 cm时，成像技术很少能够诊断HCC。Wang等[15]研究了80例HCC和67例LC患者的血清肽谱，以发现新的非侵入性特异性血清生物标志物。根据SVM分配的权重的平方排序，选择了9个m/z比(分别为819、1076、1341、2551、3156、3812、4184、4465和4776)构建分类器，结果表明，多层神经网络算法对HBV相关LC患者HCC的早期诊断的结果最优，获得了90.0%的敏感度、79.4%的特异度和85.1%的总体准确度。甲胎蛋白的临界值为20 ng/ml时，敏感度为62.5%，特异度为79.4 %。本研究使用多层神经网络联合甲胎蛋白对HBV相关LC患者HCC的早期诊断更有效，敏感度为87.5%，特异度增加到88.2%。临床上用常规技术很难检测到HBV相关的早期肝癌。Tao等[28]对384例HBV相关HCC和无癌HBV感染者的血液样本进行研究，基于循环肿瘤DNA的体细胞拷贝数畸变开发基于血液的非侵入性方法，对早期HCC检测。当考虑队列中的所有患者时，RF算法的AUC为0.893。通过发展加权随机森林驱动(wRF驱动)算法，可以进一步提高肝癌早期检测的准确性。

5 ML在HBV相关慢加急性肝衰竭中的应用

慢加急性肝衰竭(ACLF)多见于HCV或HBV相关LC患者[29]。最初由Malinchoc建立的MELD评分常用于判断重型肝炎的严重程度和预后，但在预测乙型肝炎相关肝衰竭方面不够准确[30]。一些基于器官功能的评分系统可以提高MELD评分的预测精度，但过于复杂。HBV相关ACLF(HBV-ACLF)常伴有多器官功能障碍、急性失代偿和高短期病死率的特点[31]。临床需要更准确、更方便的方法来预测HBV-ACLF的发生。

对1047例HBV-ACLF患者的研究[30]表明，基于多元logistic回归分析结果，建立了LR模型，将年龄、TBil、血清钠和血浆凝血酶原时间作为3个月病死率的独立预后因子，其预测准确度为89.4%。除LRM外，在分类回归树分析中，对单变量逻辑回归分析中的10个显著变量进行评估，确定4个潜在变量(TBil、年龄、血清钠和国际标准化比值)是HBV-ACLF患者总生存率的显著预测因子。分类回归模型和LRM具有良好的预测准确性，AUC分别为0.896和0.914，明显高于MELD评分(AUC为0.667)。Bagging算法的分集策略简单有效，可以减少方差，避免过拟合[32]。对131例HBV-ACLF患者随访3个月，采用Bagging算法建立生存状态分类模型，分析HBV-ACLF短期死亡的影响因素，研究结果证实，年龄、凝血酶原活动度、血浆凝血酶原时间、白蛋白、血尿素、血钠、血小板、甘油三酯、血浆纤维蛋白原和中性粒细胞百分比是影响HBV-ACLF短期死亡的十大重要指标。此外，Bagging算法模型预测HBV-ACLF的3个月病死率明显强于MELD评分，AUC分别为0.974 3、0.698 5[32]。

6 结论

ML能够准确预测人们感兴趣的结果，然而系统如何产生特定输出方面不一定完全被理解，因此被称为“黑盒”[33-34]；ML的临床应用还存在着可信度、可解释性、可用性等障碍。许多关于ML的前沿研究，虽然在理论上很有效果，但还没有发展到日常临床应用[4,33]。ML广泛应用之前，可信度特别重要。按照组合、来源、代表性和完整性来描述数据集，优先考虑ML系统的再现性、稳健性，以及增加对ML系统输出可信度的评估可提高ML的可信赖度[33]。

毫无疑问，ML以其智能化的分析模式在分析数据方面具有优势。ML已经在现实世界中得到了应用，在疾病的预测、疾病的辅助诊断、疾病的预后评估、新药研发、健康管理、医学图像识别等方面取得不少成果[6,35]。如果能够实现多中心、大样本(>500例)的数据训练，可以建立更高精度的预测模型[32]。ML领域与乙型肝炎相关肝病有机结合，对肝病患者进行早期准确的诊断与预测，有助于CHB的临床决策支持，并通过改进患者分层直接制订治疗策略；采用多种算法也可以让预测的结果更加精准。

利益冲突声明：所有作者均声明不存在利益冲突。

作者贡献声明：芮法娟负责文献检索，资料分析，撰写论文；薛旗、刘翠红、郭朝阳、杨红丽、刘传礼、徐琊芸参与收集数据，修改论文；任万华、秦成勇参与论文修改；李婕负责课题设计，拟定写作思路，指导撰写文章并最后定稿。