进展期胃癌生存预测:基于增强CT深度学习模型的构建
2024-04-23张文娟张利文邓娟任铁柱徐敏周俊林
张文娟,张利文,邓娟,任铁柱,徐敏,周俊林
胃癌是全球最常见的消化道恶性肿瘤,在我国发现的胃癌病例中,大部分为进展期胃癌(advanced gastric cancer,AGC),早期胃癌仅占约11.5%[1]。尽管近年来早期诊断和多学科治疗策略均有所改进,但由于复发率高,接受了根治性手术的AGC患者的生存率仍然很低,5年生存率低于20%[2]。准确地预后评估对个体化治疗方案的选择和疗效评价至关重要,但由于肿瘤异质性,部分相同TNM分期的AGC患者存在明显的疗效差异,预后结果不一[3-4]。因此,如果能提出比现有的TNM分期更加准确的预后评估方法,将患者进行风险分层,提供更个性化的概率预测,将更有助于临床决策。增强CT是临床上最常用的胃癌诊断及术前分期方法,随着大数据及人工智能技术的发展,基于增强CT的影像组学模型在多种肿瘤中均有较好的预后预测价值,为肿瘤的预后预测提供了强有力的依据[5-8]。但影像组学分析中需要精准分割病灶来保证提取特征的稳定性,而深度学习(deep lear-ning,DL)技术的最显著的特点就是可以通过多隐层神经网络进行自主学习,通过深层非线性网络结构无限逼近复杂函数,直接获得与数据相关联的特征,实现让机器自主学习并提取数据特征[9]。因此,相比人工方法,基于DL技术提取的影像组学特征(例如形状、大小和纹理)与临床结果的相关性更大[10]。基于以上研究背景,本研究中采用一种已经被广泛认可的残差卷积神经网络(residual convolutional neural network,RCNN)算法并基于术前三期增强CT图像来构建并验证AGC生存风险预测DL模型,旨在进一步提高对AGC患者的术前影像诊断水平,改善患者的预后。
材料与方法
1.病例资料
回顾性搜集2013年1月-2015年12月在本院经病理证实且进行了术后随访的AGC患者的临床和影像学资料。纳入标准:①经病理证实为胃腺癌;②经国际抗癌联盟(Union for International Cancer Control,UICC)及美国肿瘤联合会(American Joint Committee on Cancer,AJCC)第8版TNM分期中临床TNM分期 (clinical TNM,cTNM)明确诊断为为进展期胃癌且无远处转移(≥T2+M0);③行根治性切除术及D2淋巴结(第一站及第二站区域淋巴结)清扫术,且为R0切除(切缘无肿瘤残余);④送检淋巴结数≥15;⑤手术前2周内行腹部CT平扫和三期增强扫描;⑥有完整的基线临床资料和随访资料;⑦术前行胃镜活检。排除标准:①术前接受放、化疗;②CT图像有伪影;③胃充盈不良。
患者的基线临床资料及随访信息应包括以下内容。①一般资料:年龄、性别;②胃镜检查结果,包括肿瘤部位、Borrmann分型、WHO组织学病理分级;③血清学肿瘤标记物:癌胚抗原、CA125;④病理结果:pTNM分期、WHO组织学病理分类;⑤影像评估:影像医师分析肿瘤的CT征象并进行TNM分期(cTNM)。⑥随访信息:记录每例患者自接受手术至死亡或最后随访日期的时间间隔。所有患者在胃癌根治术后至少随访1年。患者在术后的前2年内每3~6个月复查一次,在随后的3~5年中每6~12个月复查一次,随访内容包括临床病史、体格检查、血液学检查、功能状态评分(performance status,PS)、体重监测、胃镜、腹部彩超和CT等。本研究中患者的随访时间为3~74个月,中位随访时间为32个月。
最终共纳入符合研究要求的连续337例AGC患者,将患者按照7:3的比例随机分为训练集(training set)和验证集(external validation set),训练集有237例,验证集有100例。
2.CT扫描方法
患者检查前禁食6~12 h,检查前20 min饮用温开水1000~2000 mL使胃腔充盈,并肌肉注射20 mg山莨菪碱,以抑制胃肠道蠕动。
使用Discovery CT750 HD宝石能谱CT机,扫描参数:120 kVp,160 mA,0.4~0.6 s/r,探测器准直宽度64×0.625 mm,矩阵512×512,视野350 mm×350 mm,扫描层厚5 mm,螺距0.992,重建层厚1.25 mm。经肘静脉团注等渗对比剂碘佛醇(320 mg I/mL),注射流率3.0 mL/s,行动脉期、静脉期和延迟期三期增强扫描,延迟时间分别为30~40、60~80和120 s。
3.DL模型的构建和验证
在注射对比剂后30~35 s(动脉期)在CT图像上即可见累及黏膜层的肿瘤(T1,早癌)出现强化,而侵犯肌层的肿瘤(≥T2,进展期胃癌)的强化高峰时间一般在60~70 s之后(静脉期)出现,强化时间明显晚于黏膜层且持续时间较长,因此本研究中选择静脉期图像进行肿瘤ROI的勾画和分割。由2位经验丰富的放射科医师在每例患者的增强CT静脉期图像中选择肿瘤最大层面及相邻的2个层面,分别独立勾画矩形框将肿瘤区域(包括肿瘤病灶及其邻近的组织结构)包含进去。使用ITK-SNAP 3.6.1软件(www.itk-snap.org)进行图像分割。
残差网络(residual network,RN)可以增加深度学习网络的深度,同时不会引起训练集中误差的增多[11],残差学习结构可以通过前向神经网络结合捷径连接实现,整个网络仍然可以通过端到端的反向传播进行训练。本研究中基于残差网络的原理,构建了一个18层的端到端的RCNN(图1),大小为224×224。模型由8个残差块组成,这些残差块可以通过捷径连接高效传输梯度,并加速网络收敛,输入端为原始CT图像。我们还定义了专门的损失函数(loss)来训练模型进行风险预测,其计算公式:
(1)
图1 基于RCNN的深度学习模型及其诺莫图构建的主要步骤和方法。
CS=1为观察状态的患者人数,C是事件总数,指患者的终点事件被观测到。在本研究中,终点事件指在随访时间终点患者的生存结局;i表示患者集合序号,j是在随访时间大于第i个患者患者集合中的患者序号。Si=1表示这个集合里面的患者随访终点事件是被观测到的。A(Tj)是一个患者集合,在该集合中,要求所包含的患者随访时间都比第i个患者随访时间长。Tj 是随访期间的生存时间,β:表示深度学习模型的参数,Dβ(χi)是DL模型的输出,代表患者的生存风险概率。
同时采用数据增强、dropout和微调等技术对模型进行训练以避免数据过拟合。本研究中使用Imgaug库来扩大数据集。数据增强技术包括翻转、转换、旋转、缩放、加性高斯白噪声和剪切等步骤。此技术仅适用于训练集,在将增强数据输入DL模型之前,将所有CT图像的大小调整为224×224,并将每个被调整大小的切片堆叠为三通道图像。利用数据增强技术,可将包含237例患者的711帧CT的训练集数据放大8倍,最终共有5688帧图像输入DL模型进行生存风险预测模型的训练。然后,使用验证集中100例患者的300帧图像(未应用数据增强技术)来验证模型。本研究中构建的RCNN的输入端为患者的CT图像,输出端为每个患者的1、2、3年生存概率,与Cox模型中log-risk函数的估计相同。以每例患者所有层面CT图像输入DL模型获得的预测概率的平均值作为此例患者的生存风险概率。通过定义flatten层之后的dropout层来细化ResNet18,将全连接层(fully-connected layer)定义为sigmoid激活函数的输出。
本研究中采用随机初始化的方法加载图像并构建模型。所有实验均在一个计算集群中进行:4个服务器NVIDIA TiTAN Xp(12TB帧缓存),基于深度学习的框架软件Tensorflow 1.10.0(www.tensorflow.org)和程序包Keras 2.2.4(www.tensorflow.org/guide/keras)。使用公式(1)作为损失函数来训练模型。Batch_size设置为24,学习率设置为0.001,迭代的epoch设置为1000,并在Keras库中使用Adam优化器进行默认设置,使用earlystup和reducelronpla-tea的回调和一些默认设置来有效地训练模型。
DL模型的验证:本研究中采用Kaplan-Meier(KM)曲线研究DL模型与生存期之间的潜在联系。以训练集中得到的中位风险评分作为截断值,得分低于截断值的患者被归为低风险组,其它患者被归为高风险组。采用校准曲线(calibration curve)评价基于DL预测模型获得的预测风险结果与实际结果的一致性。计算Harre一致性指数(Harrell’s concordance index, C-index)和风险比(hazard ratio,HR)比较不同模型的预后价值。通过决策曲线分析(decision curve analysis,DCA)观察在一定的阈值概率下不同模型的净收益。
4.统计学分析
使用R3.6.1软件(http://www.R-project.org)进行统计分析。组学特征和临床变量的比较采用Mann-WhitneyU检验和χ2检验;采用单因素及多因素Cox回归分析筛选与预后高度相关的特征;对模型KM曲线的比较采用Log-Rank检验;采用G-rho Rank检验计算HR。以P<0.05为差异有统计学意义。
结 果
1.临床变量分析
训练集和验证集中临床特征的比较结果详见表1。2个数据集之间临床特征的差异均无统计学意义(P>0.05)。
表1 训练集及验证集中患者临床特征的比较
单因素和多因素Cox回归分析结果见表2。结果显示,cT分期、cN分期及CA125是患者生存期的独立临床风险预测因子。
表2 AGC患者生存期的独立危险因素
2.模型的构建
我们在研究过程中发现,模型中的残差块和恒等映射不仅可以提高学习能力,而且可以解决退化问题,尤其是在数据集有限的情况下。因此,我们构建了基于RCNN的端到端DL模型,以显示风险预测模型的学习能力。通过数据增强技术重新生成5688帧图像输入到DL模型中,最后输出每个患者的风险预测概率。
经Cox单因素及多因素分析,cT分期、cN分期及CA125是预后预测的独立影响因子,构建包含这3个预后因子的临床模型。同时,基于DL模型获得的风险预测概率和临床模型中的变量,采用风险比例线性回归方法建立临床-DL综合模型并绘制其诺莫图(图2)。诺莫图可实现个体化预测胃癌患者1、2、3年生存期的生存概率。
图2 基于综合模型的诺莫图。 图3 DL模型的KM曲线,纵坐标为生存概率,横坐标为时间。可见随着时间的增加,低风险组和高风险组患者的生存概率存在差异,说明DL模型可将患者分为不同的风险亚组。a)训练集;b)验证集。 图4 临床模型的KM曲线,纵坐标为生存概率,横坐标为时间。可见随着时间的增加,低风险组和高风险组患者的生存概率存在差异,说明临床模型可将患者分为不同的风险亚组。a)训练集;b)验证集。
3.模型预测效能的评估
基于DL模型的输出结果,可以将训练集和验证集中的患者分别分为两个不同的风险亚组:低风险组和高风险组。在训练集中,高风险组和低风险组中患者的中位生存时间分别为21和57个月;在验证集中,则分别为14和28个月。
为了评价和比较DL模型和综合模型的预测效能,采用KM曲线分析基于模型的输出结果对患者进行危险度分层的效能,结果见图3~4。在训练集和验证集中,DL模型和临床模型都可以成功地将患者分为高风险组和低风险组,说明两个模型均可将患者进行危险度分层,具有较好的预后预测能力。此外,综合模型在训练集和验证集中均显示出最佳的预测效能,其C-index值最高,DL模型在训练集和内部验证集中的HR最高,表明DL模型预测的高危人群较其它模型预测的高危人群有更高的死亡危险(表3)。
表3 三种预测模型的C-index和HR值
综合模型的校准曲线显示其具有良好的风险预测效能(图5)。校准曲线显示综合模型的诺莫图与完美拟合曲线(Perfect-fit)之间的对比,显示出不论是在训练集还是验证集中,综合模型预测的生存风险概率和实际随访观察到的1、2、3年生存概率之间具有很好的一致性。DCA结果表明综合模型较DL模型和临床模型为患者提供了更大的临床净收益(图6)。
图5 综合模型诺莫图在训练集中的校准曲线,综合模型的预测结果和完美曲线之间拟合良好,表明其预测效能较高。 图6 DL模型、临床模型及综合模型的临床决策曲线,显示综合模型的净收益优于其它两个模型。
讨 论
胃癌组织的高度异质性以及复杂的病因使得预测患者的预后具有很大的挑战性。随着胃癌综合治疗方法的发展及多学科诊疗模式(multiple disciplinary team,MDT)的推广,我们旨在寻求通过更加多元化的生存预测工具来满足胃癌个体化诊疗的需求和期望。DL模型具有以下优点:①通过层次神经网络结构提取与临床问题直接相关的多层次抽象特征;②不需要对肿瘤边界进行耗时的勾勒标注,并考虑到了肿瘤周边微环境以及肿瘤与附着组织的关系;③相应的软件等工具快速且使用方便,其端对端的设计,只需操作者将原始CT图像进行输入,无需进一步的人工干预即可直接获得临床问题的预测结果。
本研究中开发并验证了一个基于残差网络的端到端的DL生存预测模型,旨在通过输入术前CT图像即可获得胃癌患者在接受根治性切除术后的生存期预测结果。DL模型在训练集和验证集中将预后有差异的胃癌患者分为高、低危不同分组的能力显示出良好的结果;而且,将DL模型与临床模型融合构建的综合模型较DL模型具有更好的预测性能。同时,针对DL模型常见的过拟合问题及为了更好的提高模型的预测性能,本研究中采用损失函数、Dropout和微调技术等一系列方法来训练模型。He等[11]的研究结果表明残差块和恒等映射可以提高模型的学习能力,解决退化问题。我们的研究结果亦显示,在某些情况下残差网络也可以解决CT图像分析的退化问题。
迄今为止,大多数的DL应用聚焦于疾病诊断过程中的检测和分类[12-13]。在预后研究方面,Cox比例风险(cox proportional hazard,CPH)模型是目前最常用的癌症患者生存分析方法,但由于该方法的假设结果是协变量的线性组合,其预测结果可能过于简单[14-16]。研究者们最近转向利用AI算法从医学图像中提取信息建立模型来进行肿瘤患者生存期的预测,这些方法目前在提高肿瘤复发和生存预测的准确性方面发挥着重要作用。如Chi等[17]将人工神经网络(artificial neural networks,ANN)应用于生存分析,因为ANN可以很容易地考虑变量间的相互作用,建立非线性预测模型,从而提供比传统方法更灵活的生存时间预测。他们的研究中比较了两个不同的乳腺癌数据集的人工神经网络的结果,显示神经网络能成功预测复发概率并将预后分层。Kim等[16]采用基于DL的生存预测算法DeepSurv对口腔癌患者进行生存预测,并与随机生存森林模型(random survival forest,RSF)和CPH模型进行比较。结果显示3种模型中,DeepSurv的表现最好,在训练集和验证集中的C-index值分别达0.810和0.781,优于RSF的0.770、0.764和CPH的0.756、0.694。Matsuo等[16]比较了DL神经网络模型和CPH模型在预测宫颈癌患者生存中的作用,与CPH模型相比,DL模型在预测无进展生存期(progression free survival,PFS)方面显示出更好的性能;而且研究中发现当加入更多特征时,DL模型的性能进一步提高。Wang等[18]从245例高级别浆液性卵巢癌患者的8917帧CT图像中训练新型深度学习网络,提取预后生物标志物,并开发了一个结合DL特征和CPH的DL-CPH模型,对患者的个体复发风险和3年复发概率显示出良好的预测性能。本研究中提出的DL模型同样也表现出了较高的预测预后性能,优于TNM分期以及基于传统的临床病理风险因素的模型。
在本研究中,Cox回归分析结果显示cT分期、cN分期以及CA125是生存风险预测的独立预测因子。TNM分期是预测AGC患者预后最常用的评估系统[19-20]。既往的研究结果显示累及浆膜的肿瘤(T3/T4)和N2/N3分期的胃癌复发率高[21],T2/T3和T4期胃癌的腹膜转移、血行转移和淋巴结转移的5年累积复发率分别为8.0%和53.6%、13.0%和33.1%、7.7%和31.2%[22-23]。淋巴结是否发生转移也是胃癌的重要预后指标,同样是T3/T4a的患者,淋巴结转移阴性(N0)和淋巴结转移阳性(N+)的胃癌患者,其1、3、5年生存率分别为68.9%和66.4%、41.4%和33.1%、33.1%和25.9%。我们前期的研究也表明,cT4a/T4b和/或cN2/N3患者与cT2/T3和/或cN0/N1患者相比,具有更大的早期复发风险[24]。CA125是常见的血清学肿瘤标志物,术前血清CA125水平与胃癌的侵袭性和生存期有一定的相关性[25];而且是评估腹膜转移的敏感标志物,如崔等[26]的分析了术前血清CA125及CEA、CA199、CA242和AFP等实验室指标对胃癌腹膜转移的临床诊断价值,结果显示CA125对胃癌腹膜转移的诊断价值最高,AUC为0.964。在本研究中,上述提到的cT分期、cN分期以及CA125均与预后有关,被纳入DL诺莫图,根据不同指标的权重,计算出每个患者的风险预测概率,再根据截断值进行危险度分层。
尽管本研究中基于CT增强静脉期图像采用RCCN方法构建的DL模型的预测性能较好,但也存在一些局限性:①本研究是单中心回顾性研究,下一步有必要搜集多中心、前瞻性的数据以获得DL模型更泛化及稳健的预测性能;②本模型仅基于术前CT图像构建DL模型,若能结合病理图像及其它类型的图像可能会有更重要的发现。
综上所述,基于残差卷积神经网络构建的DL模型对AGC患者生存期具有良好的预测价值,相对于TNM分期,DL生存风险模型的诺莫图可提供更具体、更个性化的预测概率。