基于神经网络的术后并发症风险预测模型研究进展
2022-12-07李耿霖宋文铸赖悦园李炜玥陈璐
李耿霖 宋文铸 赖悦园 李炜玥 陈璐
术后并发症是指手术操作引起的其他组织器官的损伤、缺失、功能障碍等。术后并发症的发生不仅消耗医疗资源,同时加重患者的生活负担,也在无形中影响医患关系。如何减少术后并发症的发生一直是医学研究的热点。术后并发症风险预测模型的建立可以帮助医生预测患者发生术后并发症的可能性,可早期筛查高危风险人群,通过减少术前相关危险因素和避免术中可能引起术后并发症的相关操作等来降低术后并发症发生的概率。随着人工智能技术与医疗行业的深度融合,研究者借助计算机建立神经网络模型来进行术后并发症风险的预测,现对各种术后并发症的神经网络预测模型研究进展进行综述。
1 人工神经网络概述
在许多医学领域,机器学习(ML)已经是增加诊断和预后准确性的有效工具[1]。最常用的ML算法有随机森林、人工神经网络和Logistic回归[2]。人工神经网络是通过模拟人类脑神经元处理信息的逻辑方式而建立的模拟逻辑算法,拥有强大的信息处理和分析能力。1943年McCulloch和Pitts提出的M-P模型标志着人工神经网络的诞生[3]。目前人工神经网络已经发展出多种类型,包括前馈神经网络(FNN)和递归神经网络(RNN)等,并在医学诊断及医学决策领域发挥作用[4]。
尽管人工神经网络种类繁多,结构各异,但大致可分为输入层、隐含层和输出层。在输入层中设定好数据的特征变量,即可能导致最终结果的因素,数据集经过标准化处理后输入系统。隐含层有多个节点,信息在此进行处理加工,进行神经元的拟合,神经元间通过不同权值以不同强度建立非线性连接,而后在输出层得到拟合结果。通常采用受试者工作曲线(ROC)中曲线下面积(AUC)、准确度、敏感度、F1测量值(F1)等指标评价模型的预测效果。
2 基于人工神经网络的术后并发症风险预测模型
2.1 前馈神经网络 目前,基于人工神经网络的术后并发症风险预测模型多采用前馈神经网络。常见的模型有多层感知器、卷积神经网络、BP神经网络等。Hofer等[5]建立了3个前馈神经网络模型用于预测术后急性肾损伤(AKI)、再插管和死亡率,模型具有完全连接层,采用梯度下降算法。输入的数据集来自UCLA大学59 981例手术病例,其中80%为训练集,20%为测试集。输入层采用药物剂量、失血量、生命体征等46个特征变量。并测试了一个多任务学习模型,该模型被用于综合预测每种并发症的可能性。而后将人工神经网络模型与传统ASA评分进行比较。结果显示,各项目中预测效果最好的神经网络模型在各个方面均优于ASA评分。预测AKI效果最优模型的AUC为0.792,预测再插管效果最优模型的AUC为0.879,预测死亡率效果最优模型的AUC为0.907,综合预测并发症效果最优模型的AUC为0.874。该实验显示,使用人工神经网络可以建立预测效果优于传统ASA评分的预测模型。
2.1.1 多层感知器(MLP) MLP是一种多层前馈人工神经网络,可以将输入的多个数据集映射在单一的输出数据集上,多采用乙形函数作为激活函数。Cao等[6]采用斯堪的纳维亚肥胖手术登记(SOReg)的患者数据构建基于MLP、卷积神经网络(CNN)、RNN 3种人工神经网络的术后并发症风险预测模型。训练集采用2010~2014年在SOReg中注册登记的37 811例患者数据,测试集采用2015年的6 250例患者数据。输入层采用患者年龄、糖化血红蛋白、BMI、WC、手术年份5个连续特征和性别、睡眠呼吸暂停等11个二元特征。输出结果为是否在术后30天内出现Clavien-Dindo分级中3b级以上的严重术后并发症。考虑到严重术后并发症的低发生率(3.2%),采用合成少数类过采样技术(SMOTE)生成一个SMOTE数据集用于训练,以解决数据类别不平衡问题。结果显示,采用SMOTE数据集训练后的三类人工神经网络AUC均有所提升,其中MLP模型的性能最为理想,AUC从0.60提升至0.84;CNN模型的效果与之相似,AUC从0.58提升至0.79;而RNN模型的最高AUC仅为0.65,未能达到预期值。但在测试集中,三类模型测试集的AUC均明显低于训练集,显示神经网络存在明显的过拟合,这可能是因为SOReg中缺乏部分重要的围术期特征,可以从其他数据库中提取更多患者特征加以改进。He等[7]提出了一种基于改良MLP的肺癌术后风险并发症预测模型,称为医学多层感知器(MediMLP),并且将MediMLP和Grad-CAM算法在一个共享模型中同时执行,使得该模型可以同时执行预测患者是否会有术后并发症的二元分类任务和发生何种术后并发症的三元分类任务。输入数据集采用华西医院胸外科8 459例术后患者的电子病历(EMRs),输入层采用患者姓别、年龄、手术史等72个特征变量。使用真实分布率(TPR)、F1、AUC和精度(ACC)作为二元分类的指标,结果表明,MediMLP各项指标均优于传统MLP。使用微TPR、微F1和汉明损失作为多标签分类的评估指标,将Grad-CAM与其他特征选择方法做比较,Grad-CAM的三项指标结果为0.618、0.602、0.053,显示出良好的特征提取性能,并发现留置引流管时间是影响术后并发症的首要关键特征。但由于数据集不够大,导致提取的关键特征变量过少,无法全面评估影响术后并发症的因素。考虑到PCP通常使用X线图像,可以尝试通过X线图像将肺癌PCP的MediMLP扩展到CNN。
2.1.2 CNN CNN是一种含有卷积计算的具有深层结构的多层神经网络。这种模型可把特征提取、下采样和传统的神经网络整合起来,直接使用图像像素进行特征变量的识别分析[3]。Wei等[8]构建了基于CNN的PET-CT监测模型,用于监测非小细胞肺癌(NSCLC)患者术后肺炎病毒感染风险。输入集采用120例NSCLC患者的病例特征,将患者随机分为A组(CT)、B组(PET-CT)、C组(基于人工神经网络模型的PET-CT)、D组(基于CNN模型的PET-CT诊断),每组30例,并进行感染监测。结果表明,基于CNN模型的PET-CT图像识别的准确率(ACC)、敏感度和特异性分别为99.31%、100%和98.31%。D组患者手术伤口感染率和肺部感染率分别为6.54%和15.38%,低于其他三组(P<0.05)。A组、B组、C组、D组患者术后并发症发生率分别为32.4%、30.2%、28.75和8.7%,由此可见,基于CNN模型的PET-CT图像在NSCLC患者术后肺炎病毒感染监测中具有较好的准确性、敏感度和特异性,可有效预防患者肺部和手术伤口感染,提高患者术后恢复效果。但由于样本量过少,该模型缺乏代表性。Rouzrokh等[9]构建了一个CNN模型以评估全髋关节置换术(THA)后髋关节脱位风险。该模型采用13 970例原发性THA患者在5年随访期间的影像学表现,包括1 490张脱位THA的X线片。训练CNN目标检测模型(YLO-V3),以股骨头为中心裁剪图像。训练ResNet18分类器,以根据裁剪成像预测随后的髋关节脱位。ResNet18分类器使用ImageNet权重初始化,并使用PyTorch上运行的FastAI(V1.0)进行训练。该模型平均性能(标准偏差)准确度为49.5(4.1%),敏感度为89.0(2.2%),特异性为48.8(4.2%),阳性预测值为3.3(0.3%),阴性预测值为99.5(0.1%),AUC为0.767(3.6%),显示该模型最重视股骨头和髋臼组件。该模型具有较好的敏感度和阴性预测值,有助于临床医生基于影像预测模型判断术后髋关节脱位风险。Ye等[10]基于CNN和偏移特征(MF),在深度偏移特征算法下进行超声图像引导肝癌微波消融效果研究。构建了一种新的超声图像诊断算法CNNMF,记录术后消融点、并发症及消融时间。与基于主成分分析(PCA)和反向传播(BP)的AdaBoost和PCA-BP算法比较准确度、特异性、敏感度,并计算了3种算法的F1值。CNNMF算法的4项数据分别为96.31%、89.07%、91.26%和0.79%,明显大于AdaBoost和PCA-BP算法。与传统算法相比,CNNMF算法对肝癌超声图像具有更好的诊断性能。Zheng等[11]建立CNN模型对MRI和CT图像进行处理,然后对图像信息进行统计分析,探究基于深度学习的CT和MRI图像在肝癌介入治疗评价中的作用。深度学习模型处理后的MRI和CT图像增强区域的残差情况分割效果较好,能准确显示病变的存在,诊断效率在0.7以上。Zhu等[12]建立了基于CNN的术后股骨头坏死的风险预测模型。利用X线平片混合患者变量开发的深度学习方法,使用术后盆腔X线片和输出回归X线片变量训练了CNN模型。混合列线图基于患者和X线片变量来确定预测性能,与单独的临床方法相比,神经网络提升了列线图的临床价值。Yoon等[13]依据AO/OTA分类方法,建立基于神经网络的CT图像自动多分类股骨粗隆间断裂检测模型。根据骨折位置对原始CT图像进行调整和重排,并应用非锐化掩蔽滤波器。使用快速区域CNN(R-CNN)对9种不同类型的IT骨折和无骨折进行多分类,同时采用贝叶斯优化方法来确定最优的超参数值。该研究提出的自动多分类IT股骨骨折检测模型可以让临床医生更快、更准确地识别骨折区域,诊断不同类型的股骨骨折。Elhage等[14]使用常规术前影像的神经网络模型从369例患者和9 303张图像中开发并验证了3个神经网络模型。计算每个模型的AUC、准确度、敏感度和特异性并进行比较。结果显示,手术复杂性预测模型AUC为0.744,感染预测模型AUC为0.898,性能较好,且手术复杂性风险预测模型较专家医生更准确;预测术后肺衰竭的模型AUC为0.545,效果较差。说明基于术前常规成像构建的人工神经网络模型可较好地预测腹壁重建手术的复杂性和术后感染情况。显然,CNN在图像分析方面拥有独特优势,但由于身体结构影像具有复杂性和多变性,模型需要学习大量的影像图片。
2.1.3 BP神经网络 BP神经网络是基于误差反向算法的多层前馈网络,其核心是梯度下降法[15]。Xu等[16]构建了一个基于BP神经网络的胃肠道肿瘤手术后疲劳(POF)的风险预测模型。输入数据集采用598例患者数据,POF总发生率为58.7%,其中463个样本用于训练集。输入层采用Logistic回归筛选的7个特征变量共19个单元,包括肿瘤分期、社会支持等。该模型的敏感度为88.60%,特异性为74.87%,AUC为0.892[95%CI(0.860,0.919)],预测性能优于Logistic回归和分类回归树(CART)模型。
2.2 RNN Rank等[17]利用RNN对术后AKI进行预测,且能够在症状出现之前预测术后AKI。在常规采集96个参数的基础上,建立了用于心肺术后AKI实时预测的RNN。训练集从15 564个数据中挑选2 224个,独立测试集为350个患者数据。得出AUC为0.893[95%CI(0.862,0.924)]。但独立测试集的数据过少,评估结果还有待验证。Wang等[18]建立了嵌入式电子病历(EMR)信息知识体系,收集8个临床科室首页的患者病历和疾病诊断代码数据进行统计分析。采用自然语言处理-双向递归神经网络(NLP-BIRNN)算法对病历进行优化。将BIRNN与CNN和RNN在准确度、症状准确率和症状回忆率方面进行了比较,表明该神经网络具有较高的价值。改良的RNN可以对EMR数据进行预处理,包括数据处理、清理和筛选。NLP-BIRNN的准确度、症状准确率和症状回忆率均优于CNN和未优化RNN模型。
2.3 结合特殊特征变量筛选及分类的人工神经网络 特征变量筛选可以剔除无意义的临床指征分析,减少神经网络的过拟合,同时利于模型更准确地指出各关键因素对并发症的影响程度。Farrokhi等[19]建立了4个基于ANNs的深部脑刺激手术(DBS)术后并发症预测模型。输入数据集采自501例接受DBS手术患者。采用Logistic回归分析评价危险因素,特征变量包括年龄、性别、BMI、临床诊断、吸烟史、免疫抑制、高血压(手术后90天内服用药物)、糖尿病诊断、手术靶点(VIM、STN、GPi)和手术侧(左、右、双侧)。采用SMOTE平衡数据类别,采用中位数插补法处理连续变量缺失值。最佳模型在预测任何并发症(AUC 0.86)、12个月内的并发症(AUC 0.91)、返回手术室(AUC 0.88)和感染(AUC 0.97)时表现出较高的辨别能力。并分析出年龄、体质指数、手术侧、性别和帕金森病的诊断是有影响的特征。Mai等[20]也建立了一个结合Logistic回归分析识别自变量的神经网络模型,以预测接受半肝切除术的肝细胞癌患者后严重肝衰竭风险。输入数据集为353例患者数据,输入层采用血小板计数、凝血酶原时间、总胆红素、天门冬氨酸转氨酶和标准化的未来肝脏残存量5个特征变量,训练集AUC为0.880[95%CI(0.836,0.925)],测试集AUC为0.876[95%CI(0.801,0.950)],显示了良好的拟合效果和性能,有助于外科医生识别中高危风险。但以上两种模型的样本量均过小,需要在更多临床数据训练下进一步验证模型性能。
Han等[21]构建了一个带递归特征消除(RFE)算法的神经网络,用于预测胰十二指肠切除术术后胰瘘(POPF)的发生率。RFE是一种特征选择方法,用于识别最终神经网络模型中使用的特征子集,该方法去除关联最弱的特征变量,直到达到最大AUC。输入数据集采集自三星医疗中心的1 769例接受胰十二指肠切除术患者,输入层采用手术前血清C反应蛋白、淀粉酶、脂肪酶和糖类抗原(CA)等38个特征变量,采用中位数插补法处理连续变量缺失值。未使用RFE算法的神经网络模型AUC为0.71,使用RFE算法后AUC提升至0.74。通过AI算法确定了16个POPF的危险因素:胰管直径、体质指数、术前血清白蛋白、脂肪酶水平、术中输液量、年龄、血小板计数、胰腺外肿瘤位置、联合静脉切除、合并胰腺炎、新辅助放疗、美国麻醉医师协会评分、性别、胰腺软组织、潜在心脏病和术前内镜胆道减压。该应用程序已免费发放于网络平台,可用于选择需要特别强化治疗的患者,并在术前制定有效的治疗策略。
将输入数据集进行术前、术中、术后数据分类,可以独立判断不同类别的数据是否有利于预测性能。Xue等[22]建立了逻辑回归、支持向量机、随机森林、梯度增强树(GBT)和深度神经网络(DNN)5种机器学习模型用于预测AKI、谵妄、深静脉血栓形成(DVT)、肺栓塞(PE)和肺炎5种术后并发症的风险。输入数据集采集自111 888例患者,分为术前和术中两个数据集,并将特征变量分为54个术前变量和16个术中变量。采用固定值插补法等多种方法处理缺失数据,并测试缺失数据集对于模型预测性能的影响。DNN模型对于PE的预测效果最好,AUC为0.831[95%CI(0.824,0.839)]。仅使用术前数据集的预测性能优于仅使用术中数据集的预测性能;联合数据集对所有并发症的预测性能最好。然而,仅使用术前数据集的模型表现几乎相同。联合数据集和术前数据集之间的AUC差值:肺炎为0.019,AKI为0.032,DVT为0.016,PE为0.009,谵妄为0.002,可见术中数据集对于模型的预测性能影响较小。当添加输入数据缺失的变量时,不同输出结果的模型AUC均有一定程度的增加。Bhandari等[23]建立了一个神经网络模型用于预测影响患者术后恢复的手术中事件(IOE)和手术后事件(POE)。该模型包含两个密集层,每个密集层后有一个dropout层,以防止网络的过拟合,密集层采用整流线性单元(ReLU)进行非线性激活,输出层采用Sigmoid激活函数,使用Adam优化器对所有模型进行训练以最小化函数损失。输入数据集采集自Vattikuti集体质量倡议(VCQI)中接受机器人辅助的肾部分切除术患者。IOE发生率为5.62%,POE发生率为20.98%。IOE预测模型使用1 690例患者和38个特征变量的数据构建;最佳模型AUC为0.858 [95%CI(0.762,0.936)],PR-AUC为0.590[95%CI(0.400,0.759)]。使 用1 406例 患 者和59个变量的数据对预测模型进行训练;最佳模型AUC为0.875[95%CI(0.834,0.913)],PR-AUC为0.706[95%CI(0.610,0.790)]。该模型可以预测影响患者术后恢复效果的术中和术后操作,通过模型的隐含层设计较好地解决过拟合问题,未来可以在大量数据的训练下进一步提升拟合性能。
3 总结与展望
许多神经网络模型在术后并发症的预测中有良好的拟合效果,AUC可达0.7以上,基于不同算法的神经网络模型在不同领域各有优势,为临床研究提供了多样化的选择。研究者可以在单一神经网络基础上加以改进和融合,使得预测工具的适用范围更广。但是,缺乏足够的训练集数据进行学习、存在过拟合现象、缺乏临床实践检验等问题尚存在于现有模型中。输入数据的缺失,以及不恰当的标准化处理是过拟合的主要原因。采用SMOTE技术可有效解决症状发生率过低而导致的数据类别不平衡,插补法可用于处理连续变量的缺失值。Logistic回归可分析结局事件的独立影响因素[24],RFE算法可以识别关联性弱的特征变量,输入层使用筛选后的特征变量,可以减少模型的过拟合,提高模型的拟合效果。也可优化设计模型隐含层,如尝试使用不同的隐含层数,使用dropout层等。此外,建立人工神经网络对于编码人员的要求较高,编码人员对主要诊断选择和疾病分类编码都会影响模型的性能。人工神经网络模型的建立与完善有助于制定更合理的治疗方案和术后护理措施。医生可根据不同专科的手术,在相应模型研究的基础上,综合考虑相关影响因素,选择最优神经网络模型,避免高危因素,以降低患者发生术后并发症的概率,减轻患者痛苦。