基于深度学习算法开发和验证的肝细胞癌预后预测模型：一项大样本队列和外部验证研究

2021-07-20韦英婷覃家盟樊金莲梁敏周海华翚东李婷

中国癌症防治杂志 2021年3期

韦英婷覃家盟樊金莲梁敏周海华翚东李婷

肝细胞癌（hepatocellular carcinoma，HCC）是常见的消化道恶性肿瘤，肝切除术是主要的治疗方法之一，但 5 年复发率高达 70%［1⁃2］，5 年总生存率仅为37%［3］。准确评估HCC患者的生存情况对选择治疗策略有重要意义。但是肝癌异质性大，患者的预期寿命仍难以准确评估。临床预测模型的开发有助于提高临床医师评估患者预后的能力［4⁃5］。目前基于HCC预后影响因素已经开发了一系列预测模型，但外推性、准确度仍不足［6⁃8］。近年来，随着庞大数据库出现和计算能力增强，一些新颖的预测分析方法不断涌现［9］。其中深度学习是人工智能的一个子学科，有助于研究人员分析大量数据，通过预测解决问题［10］。在过去的十余年中，深度学习在医疗保健中的使用越来越多［11⁃12］。在临床研究中，深度学习主要用于提供更准确的预测结果以评估肿瘤患者的预后［13⁃14］。随着患者病理学和遗传信息的可用性增加，深度学习可能成为预测生存的新工具［15⁃16］。本研究收集美国国立癌症研究所的监测、流行病学和最终结果（Surveillance，Epidemiology and Results，SEER）数据库中的数据，采用深度学习算法DeepSurv开发了一种可预测HCC患者1、3、5年生存率的模型，并选择本院HCC患者验证模型的可推广性，以期通过个性化预测模型更好地帮助临床医师做出治疗决策或临床试验设计。

1 资料与方法

1.1 研究设计与对象

本研究为回顾性队列研究。选择2011年1月—2015年12月SEER数据库中经病理确诊的HCC患者为训练队列用于构建模型，随访截至2019年12月；选择同期于本院经病理确诊的HCC患者为外部验证队列用于评估模型，随访截至2019年6月。遵循TRIPOD报告指南［17］开发和验证模型。纳入标准：⑴病理明确诊断为HCC；⑵年龄≥18岁；⑶HCC为第一原发性癌。排除标准：⑴尸检获取或只有死亡报告上的病例；⑵非HCC相关性死亡者；⑶合并其他肿瘤者；⑷随访信息不完整者。本研究经本院理论委员会审核批准。由于本研究为回顾性研究且数据匿名分析，因此不需要患者知情同意。

1.2 数据提取及定义

训练队列数据采用SEER*stat 8.3.5软件（http：//www.seer.cancer.gov/seerstat）在SEER数据库中提取。该数据库于1973年建立，记录了美国部分州县40余年来肿瘤患者的相关信息，是目前美国最具代表性的大型肿瘤登记注册数据库之一［18］。外部验证队列数据从本院电子病历系统中提取。收集患者的性别、年龄、种族、组织学分级、TNM分期、肿瘤大小、转移情况、手术情况、生存时间、生存状态等资料。组织学分级以ICD⁃O⁃3为标准分为Ⅰ级、Ⅱ级、Ⅲ级、Ⅳ级；TNM分期以AJCC第7版为标准。

1.3 预测结局

本研究将HCC患者的相关性死亡作为研究终点，主要预测结局为1、3、5年总生存率。总生存期（overall survival，OS）定义为患者确诊到死亡或随访截止的时间。

1.4 DeepSurv算法

DeepSurv算法是将深度学习技术应用于非线性Cox回归的风险网络，其网络是一种深度前馈神经网络，通过网络学习权重，预测患者协变量对其危险率的影响［19］。其中构建DeepSurv模型网络参数设置是关键。首先，需要设置网络层数和各层节点数，其中输入层节点数为预后影响因素的个数，不需要用户输入；输出层只有一个节点，即对数风险函数。其次，需要调节相关参数，关键参数有学习率、学习率衰减、激活函数选择、正则化及优化方法等。

1.5 RFS算法

RFS算法是一种用于右删失生存数据进行分析的随机森林方法，引入了生存森林的事件保留原则，可用于定义总体死亡率，是一种简单的可解释的死亡率度量，可以用作预测结果［20］。构建RFS的一般流程：⑴模型通过“自助法”（Bootstrap）将原始数据以有放回的形式随机抽取样本，建立样本子集，并将每个样本中37%的数据作为袋外数据排除在外。⑵每个样本随机选择特征构建其对应的生存树。⑶利用Nelson⁃Aalen法估计随机生存森林模型的总累积风险。在R语言环境下随机森林的建模过程主要包含两个重要参数：ntree（树的数目）和mtry（随机选择特征的数目）。

1.6 统计学方法

计量资料以均数±标准差（x±s）表示；分类数据以n（%）表示，组间比较采用χ2检验；采用Kaplan⁃Meier法计算生存率，组间比较采用log⁃rank检验。在训练队列中采用Cox比例风险回归分析影响OS的因素，计算风险比（HR）及其对应的95%可信区间（CI），采用Schoenfeld残差法检验等比例假设。由于本研究的预测变量较少，因此采用影响OS的独立因素构建DeepSurv和RFS模型。为防止过度拟合，选择合适的模型参数，模型训练均采用5折交叉验证。分别在训练队列和外部验证队列中对DeepSurv、RFS和Cox模型进行评价。采用C⁃index和校准曲线评价模型的区分度和校准度，计算方法采用Bootstrap法，重抽样次数为1 000次。同时采用时间依赖的C⁃index评估模型区分度的持续性。为评估模型的危险分层能力，首先采用X⁃tile软件计算风险概率的最佳临界值；其次根据最佳临界值将患者分为低风险组、中风险组和高风险组；最后采用log⁃rank检验比较各组生存曲线的差异。采用R 3.4.3 软件（https：//www.r⁃project.org/）中的survival程序包构建Cox比例风险回归模型，采用randomForestSRC程序包构建RFS模型；采用Python 3.0中的TFDeepSurv深度生存分析包构建DeepSurv（https：//github.com/jaredleekatzman/DeepSurv）模型；其余数据均采用R 3.4.3软件分析。本研究以双侧P＜0.05为差异有统计学意义。

2 结果

2.1 一般资料及生存情况

在SEER数据库中筛选了78 456例HCC患者，最终纳入符合标准9 730例构成训练队列；在本院电子病历系统中共筛选了731例患者，最终纳入符合标准405例构成外部验证队列。在训练队列中，中位随访44个月时死亡5 836例（60.0%），中位OS为24.0个月（95%CI：23.0～25.0个月），1、3、5年生存率分别为64.2%、40.5%、30.7%，见图1A；在外部验证队列中，中位随访41个月时死亡236例（61.5%），中位OS为21.0个月（95%CI：17～28.0个月），1、3、5年生存率分别为61.4%、38.6%、27.1%，见图1B。两个队列中，诊断时的平均年龄分别为（65.0±10.9）岁和（65.1±11.3）岁，均以男性为主（训练队列男性占75.8%，外部验证队列男性占76.3%），其余资料比较见表1。

图1 HCC患者的Kaplan⁃Meier生存曲线Fig.1 Kaplan⁃Meier curves of HCC patients

表1 训练队列和外部验证队列中HCC患者的基线资料Tab.1 Characteristics of HCC patients in the training cohort and external validation cohort

2.2 训练队列中影响OS的独立因素

在训练队列中采用Cox比例风险回归模型分析影响HCC患者OS的因素。单因素Cox回归分析显示，性别、种族、年龄、组织学分级、T分期、N分期、M分期、肿瘤大小、转移、手术与OS有关（均P＜0.05）。多因素Cox回归分析显示，年龄、组织学分级、T分期、N分期、M分期、肿瘤大小、转移、手术是影响OS的独立因素（均P＜0.05），见表2。

表2 影响HCC患者OS的Cox回归分析*Tab.2 Cox regression analysis for OS in HCC patients*

2.3 预测模型的开发

选择影响OS的独立因素年龄、组织学分级、T分期、N分期、M分期、肿瘤大小、转移、手术，基于5折交叉验证构建DeepSurv、RFS和Cox模型。DeepSurv模型最优网络设置：输入层有9个节点，隐藏层有两层（第一隐藏层有7个节点，第二隐藏层有4个节点），输出层有1个节点；学习率为0.05，学习率衰减为1.0，激活函数为rule，正则化方法为sgd。RFS模型最优参数设置：ntree为500，mtry为4，其余参数均为默认设置或自动学习。Cox模型方程：风险概率=年龄≥60岁×0.129+组织学分级Ⅱ×0.151+组织学分级Ⅲ×0.532+组织学分级Ⅳ×0.552+T2期×0.167+T3期×0.458+T4期×0.542+Tx期×0.354+N1期×0.273+Nx期×0.124+M1期×0.312-手术×1.267+肿瘤大小3～5 cm×0.237+肿瘤大小＞5 cm×0.536+转移×0.281。TNM分期方程：风险概率=T2期×0.051+T3期×0.970+T4期×0.881+Tx期×0.834+N1期×0.545+Nx期×0.384+M1期×0.922。

2.4 预测模型的评估与比较

在训练队列和外部验证队列中，深度学习算法DeepSurv的C⁃index均高于RFS、Cox回归以及TNM分期（均P＜0.05），RFS、Cox回归的C⁃index高于TNM分期（均P＜0.05），见表3。比较每种模型预测性能的持续性趋势，发现无论在训练队列还是外部验证队列，DeepSurv在整个计算期间（第1～60个月），C⁃index均高于RFS、Cox回归以及TNM分期，见图2。一致性曲线亦发现，无论在训练队列还是外部验证队列中，DeepSurv的1、3、5年的校准曲线亦显示出良好的校准度，见图3。

表3 预测模型的区分度评价Tab.3 Discrimination evaluation of predictive model

图2 时间依赖的ROC曲线评估模型区分度的持续性Fig.2 Time⁃dependent ROC curves evaluated the persistence of model discrimination

图3 校准曲线评估预测1、3、5年总生存率的校准度Fig.3 Calibration curves estimated the calibration for predicting the survival rate at 1,3,and 5 years

2.5 DeepSurv模型的危险分层能力

在训练队列中，以DeepSurv模型预测患者的风险概率，X⁃tile软件计算风险概率的最佳临界值，根据最佳临界值0.87、2.93将患者分为低风险组（＜0.87）、中风险组（0.87～2.93）和高风险组（＞2.93），任意两组之间的生存曲线差异均有统计学意义（均P＜0.001），见图4A；在外部验证队列中亦获得相同的结果，见图4B。表明DeepSurv预测模型具有良好的危险分层能力。

图4 Kaplan⁃Meier曲线评估DeepSurv模型的危险分层能力Fig.4 Kaplan⁃Meier curves evaluated the risk stratification ability of DeepSurv model

3 讨论

本研究基于大样本数据库SEER和深度学习算法DeepSurv构建了可预测HCC患者1、3、5年总生存率的模型，并将该模型与机器学习算法RFS、Cox回归和TNM分期构建的模型进行比较，发现DeepSurv模型的预测性能优于RFS、Cox回归和TNM分期。本研究同时证明了深度学习可提供一种新颖的解决方案，通过个性化预测模型能更好地帮助临床医师做出治疗决策或进行临床试验设计。

鉴于简单性和相对准确性，TNM分期已成为临床实践中预测HCC患者预后的常用指标之一，但不能精确评估预后。目前主要通过结合临床和病理变量改善TNM分期的预测能力。本研究中Cox比例风险模型将性别、年龄、组织学分级、肿瘤大小、转移、手术等与TNM分期相结合，发现其C⁃index无论在训练队列还是外部验证队列中均高于TNM分期。Cox比例风险模型是一个半参数模型，可用于计算观察到的协变量对事件发生风险的影响［21］。医学研究人员常使用该模型评估预后协变量在死亡或癌症复发等事件中的重要性，并随后告知患者其治疗选择［22］。Cox比例风险模型假设患者的死亡风险是其协变量的线性组合，该假设称为“等比例假设”。然而在真实世界的数据集中，等比例假设往往不能满足［23］。因此，需要更丰富的生存模型，以更好地将生存数据与非线性风险函数拟合。

在拥有大量患者健康数据的电子时代，可以将深度学习或将机器学习整合到电子健康记录中，从而为临床医师提供有价值的预后信息［24⁃25］。本研究分别采用深度学习算法DeepSurv和机器学习算法RFS构建预测HCC患者1、3、5年总生存率的模型，在训练队列和外部验证队列中，DeepSurv和RFS的C⁃index均大于Cox回归和TNN分期，且DeepSurv的C⁃index最大，表明DeepSurv具有最高的模型区分度，校准曲线亦表明DeepSurv有较好的校准度，危险分层系统也发现DeepSurv模型可将HCC患者区分为低、中、高风险3组。DeepSurv算法是将深度学习技术应用于非线性Cox回归的风险网络，其网络是一种深度前馈神经网络，通过网络学习权重，预测患者协变量对其危险率的影响［19］。医学数据具有高可变性，非线性相互作用和异构分布［26］。在这种情况下，深度学习技术可能是一种更合适的预测方法，因为其已被证明可处理具有复杂、非线性、异构分布的大数据集［26⁃27］。此外，深度学习的独特之处在于可以应用布尔逻辑、绝对条件、条件概率和其他非常规策略对数据建模。但深度学习也存在一定缺陷：一是错误或分类不当的数据将影响模型的质量［15］；二是分析缺乏透明度。虽然深度学习涉及多个分析层，可能做出有意义的预测［9］，但这些分层通常无法被有意义地解释［28］。如本研究中的Cox回归和TNM分期结果可用具体的数学公式呈现，但DeepSurv和RFS算法难以做到。

本研究采用深度学习算法构建预测模型，并进行了外部验证，证明所构建的模型具有一定外推性；样本量大，有足够的随访时间；模型的构建采用了5折交叉验证，避免了过度拟合或欠拟合，以上保证了本研究结果的可靠性。但本研究也存在以下局限性：⑴本研究为回顾性研究，无法避免回顾性偏倚及随访依从性等造成的偏倚。⑵训练队列和外部研究队列来自不同国家，虽然DeepSurv模型在内部验证和外部验证下均表现良好，但不同种族人群可能会限制模型的适用性，即使本研究多因素Cox回归表明种族并不是影响HCC预后的危险因素，但仍需进一步研究。⑶本研究虽然构建了预测模型，但未对其进行部署。临床环境中使用深度学习算法的方式有很多种，可以在网站上发布机器学习模型的界面，如Azure Machine Learning Studio支持此功能，临床医师可以将患者数据输入基于Web的表单中以预测HCC患者1、3、5年总生存率。此外可将训练好的深度学习模型直接集成到电子病历系统中，这是最有效但也是最难实现的方法［29］。

综上所述，本研究采用深度学习算法DeepSurv构建可预测HCC患者生存的模型，该模型的预测变量为年龄、组织学分级、TNM分期、肿瘤大小、转移、手术，较TNM分期预测模型可以更好地预测HCC患者的生存期。在大数据时代，深度学习和人工智能通过提高对患者风险估计的量化能力而在评估预后方面起重要作用，为开发更准确预测预后方法提供了新的方向。