机器学习算法在临床相关性术后胰瘘预测中的研究进展
2023-03-22郑继盛吕梦雨宫淑萍赵晓敏
郑继盛,吕梦雨,宫淑萍,赵晓敏
尽管胰十二指肠切除术(PD)的死亡率已经下降至2%以内[1-2],但临床相关性术后胰瘘(clinically relevant postoperative pancreatic fistula,CR-POPF)的发生率仍然高居于3%~45%的发生率[3-5],严重危害着病人的围术期预后及生命安全[6-8]。CR-POPF预测模型可以帮助医护人员对胰瘘高危病人进行早期识别,从而进行早期干预等临床决策[9]。同时,随着电子病历的大量积累以及大数据时代的到来,机器学习(machine learning,ML)变得越来越流行[10-13],机器学习是一门聚焦于计算机如何从数据中学习的科学学科,汇聚统计学和计算机科学为一身[12]。与传统Logistic回归构建的预测模型相比,机器学习算法具有更强大的从数据中提取信息的能力[14],即更能从复杂的预测因子与结局的对应中找出规律,找到更多潜在的预测因子信息等[15]。基于机器学习算法的风险预测模型对待数据更加包容,对特征的处理及筛选更加灵活,预测结局事件的发生更加精确[16],可以对病人的照护产生积极的影响[17],已在众多预后并发症的风险预测研究中展示出优异的表现[18-20]。现介绍常见的机器学习算法及基于机器学习算法的胰瘘预测模型,以期为临床实践和后续研究提供参考。
1 基本概念
1.1 CR-POPF CR-POPF是胰腺导管上皮与其他上皮表面的异常通道,内有源自胰腺富含酶类的液体。诊断标准为术后≥3 d任意量的流液中淀粉酶浓度高于正常血清淀粉酶浓度上限3倍以上,同时必须有相应临床表现[3]。
1.2 机器学习 机器学习是一门研究计算机如何从数据中学习并挖掘信息的科学学科。主要是用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。机器学习根据所处理数据种类的不同,可以分为有监督学习、无监督学习、半监督学习和强化学习等类型。监督学习和无监督学习应用较多,其中监督机器学习算法已经被广泛用于分类或预测疾病症状的发生发展[21]。常见的无监督学习算法包括逻辑回归(Logistic Regression,LR)、支持向量机(support vector machine,SVM)、K-近邻法、决策树(decision tree,DT)、随机森林(random forest,RF)、极限梯度提升、人工神经网络(artificial neural network,ANN;或neural network,NN)等[22]。
2 常见机器学习分类算法
2.1 LR LR是一种传统的统计学方法,被应用于机器学习中解决二分类问题。LR模型是一种概率模型,是以某一事件发生与否的概率P为因变量,以影响P的因素为自变量建立的回归模型,分析某事件发生的概率与自变量之间的关系,是一种非线性回归模型。LR模型优点在于简单易行,计算负担较小,算法经典,操作方法与结果呈现更加成熟。缺点在于模型可能存在欠拟合、精度不高等问题,此外模型假设较为严格,如线性关系,无强影响点,无多重共线性等假设。
2.2 SVM SVM是由Cortes等[23]引入的基于统计学习理论中VC维理论和结构风险最小化原理基础上的机器学习方法[24]。SVM意于找到一条将数据分类的最优超平面,超平面类型随数据维度而变化,其通过最大化超平面及安全边际来寻找最优系数,从而得到最佳分类表现。SVM有着可以解决小样本、高维度及非线性特征等问题的优点,且模型泛化能力较强。但在处理非线性问题时,需要选择合适的核函数,常用的核函数包括:线性核函数、多项式核函数、径向基核函数及sigmod核函数,对于解决该问题,可能需要多次的参数调节以获得特定数据集的最优参数。此外SVM对于数据缺失敏感,且仅适用于处理二分类问题。
2.3 决策树 决策树可用于对分类结局与连续结局的预测,分别为分类树与回归树。其表现为树形结构的模型形状来描述数据分类,其树的根为输入数据,通过多次树杈分裂,最终连接到叶节点(即终端节点),完成对结局的预测或归类[25]。这种自上而下的过程叫做“递归划分”,而这个过程是贪婪的,意为每次分裂都追求最小化的错误预测或分类,这会导致模型偏差变小,方差变大,造成模型的过拟合。决策树的优点在于模型易于理解与解释,容易发现数据的内在规律以支持临床决策,并且也适用于非线性数据,对于数据缺失等问题的包容性较强[26]。
2.4 随机森林 随机森林是一种较新型、高度灵活的机器学习算法,其能够用于分类和回归问题,在医疗领域常用作疾病预测模型的构建[27]。RF基于集成学习的核心思想[28],将多棵决策树合并在一起,以单棵决策树作为基本单元,以获取更优的预测表现。RF在缓解了决策树的过拟合问题的同时,又提高了模型的精度。但RF并没有继承决策树强大的解释性,且在低维及小数据集的表现较差。
2.5 ANN ANN是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统[29]。其核心原理是模拟人脑思维的运行方式。ANN将整个思维过程分为输入层、隐藏层和输出层,输入层即预测因子,隐藏层存在的神经元通过调整各节点之间的连接权重值进行信息处理,输出层呈现归类结果。ANN在分类问题中准确度极高,并且对待非线性或未知关系等各种数据问题有着较强的容错能力[30]。但ANN对于小数据集同样存在容易过拟合的问题,且在隐藏层的学习过程不可知,模型可解释能力较差。
3 机器学习算法在CR-POPF预测中的应用
3.1 回归树模型在CR-POPF预测中的应用 Perri等[31]前瞻性地分析了2017年7月—2019年12月各在2所医院行胰十二指肠切除术的病人,根据医院不同划分训练集(566例)与验证集(456例)。作者将训练集中单因素分析P小于0.2以及可能存在临床潜在影响的变量纳入多变量逻辑回归方程,经逻辑回归后在训练集中确定主胰管直径(MPD)、美国麻醉医师协会(ASA)麻醉风险评分以及体质指数(BMI)与CR-POPF独立相关(P<0.05),通过递归分隔回归树来确定出最能预测CR-POPF的变量。最终,构建出了由MPD直径与BMI构成的回归树模型,AUC为0.70(95% CI:0.63~0.77),其中MPD的截断值为5 mm(<5 mm与≥5 mm),BMI的截断值为25 kg/m2(<25 kg/m2与≥25 kg/m2),作者依此模型将训练集病人分为低中高CR-POPF风险层级,并验证不同风险组之间CR-POPF风险存在显著性差异。使用相同的变量与截断值,该回归树模型在验证集中的表现依旧较好,AUC为0.65(95% CI:0.59~0.61),但验证集中的风险分层中低风险组与中风险组的CR-POPF风险并无统计学差异。该研究提供了一个简单易行可重复的临床预测CR-POPF风险工具,在有其预测精度的前提下,其操作仅一步或两步便可对病人发病风险进行分层,有着非常高的临床实用性。此外该模型也揭露出MPD直径与BMI对于CR-POPF的重要影响及影响程度,这充分说明了决策树模型的“容易发现数据的内在规律以支持临床决策”的特点[32]。
3.2 RF与NN模型在CR-POPF预测中的应用 Han等[33]回顾性收集2007年1月—2016年12月在韩国首尔三星医疗中心接受胰十二指肠切除术的1 769例病人,分析其38个可能与CR-POPF相关的术前及术中变量,并对数据进行中位数插补处理缺失,分类变量设置哑变量等处理。在变量的筛选上,该研究并没有使用传统的基于单因素分析后多因素分析,而是直接使用机器学习算法中的递归特征消除(recursive feature elimination,RFE),该算法与逐步回归筛选变量的思想类似,首先根据ML算法取得的特征重要性程度,移除最不重要的特征,通过AUC对特征移除前后的模型进行比较,最终止于所需要的特征数量[34]。在不进行特征选择下作者通过RF与NN分别进行了3次建模与验证(验证采用重复10次的5折交叉验证),建模变量与个案与其AUC分别为:仅分析完整数据的38个变量的数据集(RF:0.67,NN:0.74),分析中位数插补后不含血清C-反应蛋白、淀粉酶、脂肪酶和CA19-9水平的34变量数据集(RF:0.67,NN:0.72),分析中位数插补后38变量的数据集(RF:0.68,NN:0.71)。而通过RFE对变量筛选后,将CR-POPF风险因素确定为16个,并依照筛选后变量进行NN建模后,其AUC由0.71增至0.74,得到了较好的预测效能。在模型的呈现上,由于NN对于过程的可解释性差,故最优呈现方式即通过网页计算器或App进行使用,作者将使用了REF的NN模型集成为交互式界面,嵌入于Web网页中开放访问与使用(https://popfrisk.smchbp.org/),极大地提升了模型的临床实用性。
有研究也通过CT扫描获取的与胰腺解剖和病人特征相关的放射学和形态学特征的变量构建了LR模型与RF模型[35],在数据分析前由于数据集中结局事件的不平衡,作者使用了一种数据集扩充技术,即合成少数过采样技术(synthetic minority oversampling technique,SMOTE),对少数类事件生成了更多的样本[36]。此外,LR模型的变量筛选使用了L1正则化技术(Lasso回归),这使构建的模型拥有了较小的方差,可以避免过拟合的问题[37-38]。最终LR与RF模型表现分别为0.807与0.749,预测效能较好。本研究的意义在算法方面,使用了L1正则化的LR模型与RF模型来预测CR-POPF,表现出了较好的模型性能;同时在CR-POPF预测因子方面提出了更为客观的放射学与组织学指标,增强了模型客观性与可重复性。
3.3 深度学习在CR-POPF预测中的应用 Mu等[39]使用深度学习中卷积神经网络算法,通过对对比增强CT(contrast-enhanced computed tomography,CE-CT)的定量分析,生成了可以术前预测CR-POPF的深度学习评分(deep-learning score,DLS)。同时作者将经典的瘘管风险评分系统[40](fistula risk score,FRS)与DLS进行预测CR-POPF效能的比对,结果表明DLS在训练集、验证集及测试集中表现均优于FRS,AUC为:训练集0.85(0.80~0.90)vs.0.78(0.72~0.84);验证集0.81(0.72~0.89)vs.0.76(0.66~0.84)及测试集0.89(0.79~0.96)vs.0.73(0.61~0.83)。同样有研究也通过基于机器学习算法对非对比增强CT(non-contrast-enhanced computed tomography)所获得的纹理特征进行CR-POPF预测,并在该数据集中使用FRS与替代胰瘘风险评分[41](alternative fistula risk score,a-FRS)与其ML的预测效能进行比较,结果表明基于ML的纹理特征分析对CR-POPF的预测效能最高(AUC:0.95 vs.0.76/0.72)。
4 展望
真实临床环境下CR-POPF的高发生率决定了其预测模型需要更高的准确性与实用性来支持临床决策与管理,以降低CR-POPF发生率及其带来的不良临床影响。机器学习算法得益于日趋增加的临床数据,也发展于研究者对临床结局事件预测精度的追求,不同的数据需要匹配不同的机器学习算法与模型呈现方式,在这一方面外文文献表现较好,但目前国内尚无基于机器学习算法的CR-POPF预测模型的研究。希望未来进一步增加对CR-POPF模型的开发,以及使模型应用机器学习等算法提高预测效能与临床实用性。