深度学习技术结合MRI 在前列腺癌中的应用
2023-08-16吴翰昌边云邵成伟
吴翰昌,边云,邵成伟
前列腺癌是男性最常见的泌尿生殖系统肿瘤。有文献[1]报道,2023 年全球前列腺癌的预期发病率将居第1 位,死亡率居第2 位。尽管亚洲的前列腺癌发病率显著低于欧美国家,但发病趋势正逐渐接近发达国家[2]。多参数MRI(multiparametric MRI,mpMRI)目前是前列腺癌诊断中应用最广泛的影像学方法,但其仅限于识别恶性程度较高的临床显著前列腺癌(clinically significant prostate cancer,csPCa),难以发现非临床显著前列腺癌(non-clinically significant prostate cancer,ncsPCa),而且在诊断csPCa时常常会忽视其子病灶[3],也难以对前列腺癌的恶性程度有效分级。传统的影像分析方法在前列腺癌的精准治疗上遇到了瓶颈问题,而近年来人工智能(artificial intelligence,AI)技术迅猛发展,有诸多研究对这些问题进行了探索[4-5]。
深度学习是AI 领域的一个重要分支,其最主要的研究方法是利用计算机模拟人脑数十亿个神经元,通过函数代替神经元构建人工神经网络,自动对输入数据进行分析,总结数据的高维特征和规律。在现实生活中,以神经网络为代表的深度学习技术,已经广泛应用于人脸识别、自动驾驶等领域。在训练一个神经网络的过程中,需要将同一个训练集样本的输入、输出模式反复作用于模型,神经网络能够按照一定的规则自动调节神经元之间的拓扑结构和连接强度,使最终输出值满足要求,随后在进一步的训练集中不断迭代升级,神经网络最核心的特征就是“学习”,数据量越大,识别效果越好。在医学领域应用的探索中,影像科的海量图像数据正好契合了深度学习技术的使用场景。卷积神经网络(convolutional neural network,CNN)是深度学习中最具代表性的一类模型,先后诞生了AlexNet、GoogLeNet、ResNet、DeepLab 等诸多不同结构的神经网络,与此相似的还有以U-net 为代表的全卷积神经网络,都在医学影像的应用中逐步迭代,逐步进入临床实践。目前,深度学习技术已经广泛应用于临床,在前列腺的研究中有较多的成果,但也存在诸多局限,本文就目前该技术在前列腺癌中的研究现状予以综述。
1 前列腺影像的自动分割
由于前列腺的体积小,其病灶和分区关系密切,故准确自动器官分割对于临床研究具有重要价值。临床上经常需要根据前列腺的体积、分区和病灶位置制定放疗计划,同时靶向活检穿刺等也需要明确、清晰的前列腺病灶分割。单纯手动操作费时、费力且一致性较差[6-7],如果AI 技术能自动化地帮助医生处理图像,将极大地减少临床工作量。
Zhu 等[8]共纳入163 例前列腺穿刺病人的T2WI及扩散加权成像(DWI)影像数据,建立了级联Unet 模型,训练2 个模型分别识别前列腺全腺体和外周带,再将两者识别结果综合分析获得最终的外周带分区,对前列腺全腺体轮廓识别的Dice 相似系数(dice similarity coefficient, DSC)达到92.7%,外周带DSC 为79.3%。Cuocolo 等[9]在U-net 的基础上,还比较了高效神经网络(efficient neural network,ENet)以及高效残差分解卷积神经网络(efficient residual factorized ConvNet,ERFNet)这两种语义分割网络的性能,利用开源数据集ProstateX[10]建立模型,输入T2WI 识别前列腺全腺体和移行带,并将两者之差判定为外周带,结果发现ENet 模型效果最好,实现分割整个前列腺腺体的DSC 为91%,移行带为87%,外周带为71%。Bardis 等[11]对242 例前列腺癌病人的数据进行研究,建立3 个U-net 模型分别用于前列腺的初步定位,识别前列腺的全腺体、移行带和外周带,结果显示识别全腺体DSC 为94%,移行带91.4%,外周带77.6%。
2 前列腺癌病灶的检测
欧洲泌尿放射学会依据mpMRI 制定的结构化前列腺影像报告和数据系统(prostate imaging reporting and data system version, PI-RADS) v2.1 版评分细则是目前公认的评估csPCa 的最优标准[12],其诊断敏感度、特异度可以达到87%、74%[13]。但诊断可靠性依赖肿瘤的大小和恶性程度,尤其是对于ncsPCa 诊断效能极其有限[14-15],因此前列腺穿刺活检术仍然是诊断所必须的流程。但在诸多大样本研究中,前列腺活检的阳性检出率均不超过50%[16-17],有近50%的病人接受了不必要的有创检查,因此临床上急需一种无创的工具进一步优化诊断流程。如果深度学习技术结合MRI 能够建立模型自动检测病灶,既可以避免不必要的有创操作,也可以为靶向穿刺提供依据,提高阳性率的同时大幅度减少有创操作带来的术后并发症。
Schelb 等[18]纳 入312 例 病 人T2WI、DWI 训 练U-net 模型,能识别肿瘤并生成概率图,在计算前列腺癌的概率≥0.33 时,检测全部病灶的敏感度、特异度分别为45%、79%,与PI-RADS≥4 分评估效能相仿(55%、80%)。Sanford 等[19]利用ResNet50 在687例病人中建立5 分制分类器模型,输入T2WI、DWI、表观扩散系数(ADC)、动态增强(dynamic contrast enhanced,DCE)的数据,该模型基于医生标注预测PI-RADS 评分,与PI-RADS 评分的一致性为58%;模型评价为5 分时与PI-RADS 评分的一致性为80%,但阳性预测值(92%)高于PI-RADS 评分(89%)。然而,该模型依赖医生的手动勾画,缺乏自动检测病灶的能力。
在此基础上,Mehralivand 等[20]创新性设计了一个3D U-net 和3D ResNet34 结合的级联模型,纳入1 390 例病人,能够以T2WI、DWI 为输入组,同时实现自动检测病灶并对病灶进行分类2 个步骤。模型评分与医生的总体一致性为30.8%,在分类为5 分时一致性能够达到52.5%,模型与医生一致评估病灶为阳性时,阳性预测值可以达到82.3%。尽管缺少全部的病理验证,且模型评分与医生评分之间的一致性较差,但该研究结合2 种神经网络建立了连贯的病灶检测并分类的模型,更符合真实世界临床应用。而且三维神经网络能从二维图像中提取三维特征,更好地分析病变的整体空间结构。Arif 等[21]在符合主动监测条件的292 例ncsPCa 病人中,建立3DCNN 模型,输入T2WI、ADC、DWI 数据识别csPCa。该模型可以识别体积最小为0.03 cm3的病灶,并且在体积>0.5 cm3的病灶时,其敏感度、特异度、受试者操作特征曲线下面积(AUC)分别为94%、74%、0.89。尽管该研究纳入病人存在选择偏倚,缺乏高级别前列腺癌数据支持,但仍表现出良好的检测效能。
在利用深度学习方法结合mpMRI 建立前列腺癌病灶检测模型的过程中,由于方法学、金标准和病人群体的差异,直接比较已发表的模型之间的效能是困难的;而开源数据集ProstateX 包含了详尽的病人基线信息及完备的病理资料,包括DCE 序列容积转移常数(Ktrans),可以支持多种研究之间进行比较。同样是基于ProstateX,Aldoj 等[22]利用3D-CNN建模发现以ADC+DWI+Ktrans的组合可以达到最高诊断效能(AUC 值0.897);而Pellicer-Valero 等[23]建立的3D Retina U-Net 模型则显示T2WI+ADC+DWI+Ktrans的输入组合最佳,实现在测试集中识别全部病灶的敏感度、特异度、AUC 分别为94.1%、78.8%、0.898。这些研究也提示,深度学习构建的模型可能超越传统的诊断思维,能更加有效地结合不同序列中的信息做出综合诊断,而具体哪些序列的数据和算法结合是最有效的,还需要更多的探索。深度学习技术不断推出新的神经网络,其部分模型对于病灶检测的准确度,尤其对csPCa 的评估,甚至能超过PI-RADS 的评估效能。目前对这些模型的稳定性和普适性还缺乏验证,但前景值得期待。
3 前列腺癌Gleason 分级评估
Gleason 评分能直观地评价前列腺癌的恶性程度,是评估病人预后和指导治疗方案的决定性因素。2014 年国际泌尿病理协会结合病理和预后提出了新的Gleason 分级分组系统(Grade Groups,GG),用1—5 组定义前列腺癌的恶性程度。GG=1 组的病灶对应ncsPCa;GG≥2 组的病灶则对应csPCa。分组越高,恶性程度越高。目前前列腺穿刺活检仍是GG 评估的唯一方式,但活检为有创性且存在难以避免的选择偏倚,与前列腺全切术后病理一致性也仅为54%[24]。而影像学可无创地对器官做出全面评估,并且一些研究也通过分析病理影像特征、前瞻性队列研究等方法证明了mpMRI 与Gleason 评分的相关性[25-27],但还不能成为预测Gleason 评分的方法。深度学习技术能够结合MRI 多个序列并挖掘影像的高维特征,在建立预测模型方面有明显优势,为预测基于mpMRI 的Gleason 评分提供了新思路。
Khosravi 等[28]开发了基于GoogLeNet 的模型,研究显示鉴别GG=1 组和GG≥2 组的病灶AUC 为0.78,区分GG≥4 组和GG=1 组病灶的AUC 为0.86。Aldoj 等[22]基于多通道3D CNN 进行分析,利用开源数据集ProstateX 建立前列腺癌的分类器,研究显示区分GG≥2 组和GG=1 组的病灶的敏感度、特异度、AUC 分别为81.9%、86.1%、0.897。
单独的前列腺癌GG 分组在神经网络中是一个分类任务,但需要匹配检测病灶的功能,才可以实现自动评估。Duran 等[29]以U-net 为骨架提出了ProstAttention-Net,实现端到端的前列腺分割、病灶检测及GG 分组评估,在公开数据集ProstateX-2 实现对GG 分组的Kappa 一致性评分为0.418。Cao 等[30]提出一个以DeepLab-ResNeT101 为骨架的Focal-Net,依据417 例病人的前列腺切除术后病理及T2WI、DWI 数据建模,该模型同样能够实现自动检测病灶并生成GG 分组1—5 组的概率图,鉴别GG≥2 组和GG=1 组的病灶AUC 值为0.81,GG≤2组和GG≥3 组的AUC 值0.79,但对GG>3 组病灶的鉴别效能欠佳。另外,Pellicer-Valero 等[23]提出的3D Retina U-Net 模型,能够实现在病灶检测的基础上同时对病灶予以GG 分组,这将是未来研究的主要趋势。然而,GG 分组在活检取材和评估过程中具有随机性和主观性,而前列腺癌又有多灶性的特点,对于如何获得更准确的病理结果并与影像相对应,值得进一步研究。
4 前列腺癌预后预测及疗效评估
深度学习技术在诸多肿瘤领域都已用于术后疗效评估、预后预测、治疗方案选择等,在前列腺癌的治疗中结合MRI 研究也是一个新的热点。
根治性前列腺切除术(radical prostatectomy,RP)是局限性前列腺癌治疗的标准方法,但手术后10 年内约有27%的病人会发生生化复发(biochemical recurrence,BCR)[31]。BCR 预示着术前可能有潜在的转移癌细胞未能发现,对于这部分病人及早进行干预对其总体生存期至关重要。Zhong 等[32]研究91 例RP 术后病人(29 例发生BCR),利用Inception-ResNet-v2 输入T1WI、T2WI、DWI 序列的组合,提取了1 536 个影像组学特征和45 个组学标签,模型在测试集中预测BCR 发生的准确度为50.0%,预测BCR 未发生的准确度为86.1%,测试集的总体分类准确度为74.1%。Yan 等[33]纳入485 例RP 术后的病人,基于T2WI 提取并最终选择了155 个影像组学特征,用深度学习生存分析构建预测BCR 的模型,可实现预测无BCR 生存期的一致性指数为0.802,在预测BCR 3 年、5 年发生率中,AUC 值分别为0.84、0.83。在与其他传统预测方法的比较中,该模型可以显著降低假阳性率,使近1/3 的病人避免过度治疗。
利用深度学习方法对肿瘤的治疗反应进行建模预测,常见于各种肿瘤的研究。内分泌联合根治性放疗治疗局限性前列腺癌的疗效与RP 的结果相似[34]。也有一些研究者[35-36]基于机器学习方法对放疗反应进行评估,但还未结合深度学习的神经网络进行研究。如果深度学习技术结合MRI 产生的智能影像能对前列腺癌的治疗反应做出评估以及预后预测,对制定个性化治疗方案意义重大。
5 小结与展望
mpMRI 诊断前列腺癌的优势明显,PI-RADS 评分系统诊断效能稳定,但在临床应用中仍存在一些局限,用传统方法难以解决。深度学习技术在医学影像领域应用极其广泛,神经网络在不断迭代优化中,基于各种神经网络建立的模型也可以通过输入数据不断学习,识别图像的准确率可以持续提升。目前,深度学习结合MRI 的研究已经深入到前列腺癌诊治中的各个步骤,尤其是不考虑条件、费用的前提下,mpMRI 也是极佳的前列腺筛查工具[37]。如果AI 诊断技术逐步成熟,能够在工作中辅助医生批量处理图像,在精确诊断的同时大幅度地减少医生的工作量,将会大幅度优化影像医学的应用。但目前的研究还存在诸多挑战,包括影像结果缺乏病理金标准的对照,如何在神经网络中处理多序列数据的问题,多中心、多种扫描设备、扫描协议造成的数据多样性等问题,也导致多数研究的结果稳定性、普适性欠佳。而且大部分基于深度学习建立的模型,需要医生手动勾画兴趣区,这个过程耗时耗力,也限制其进一步临床应用。在今后的研究中,随着深度学习算法和MR 技术的进步,可为前列腺癌的进一步研究提供更多可能。