APP下载

机器学习在膀胱癌影像学诊断中的研究进展

2024-04-08韩增泰仇度旺王锡明

中国中西医结合影像学杂志 2024年1期
关键词:膀胱癌组学肌层

李 娜,刘 洋,韩增泰,仇度旺,王锡明

1.滨州医学院医学影像学院,山东 烟台 264003;2.山东中医药大学附属医院放射科,山东 济南 250014;3.山东省济南市章丘区人民医院影像科,山东 济南 250200;4.山东第一医科大学附属省立医院影像科,山东 济南250021

2020 年全球膀胱癌新发病例45.4 万例,死亡病例20.4万例;其中,男性新发病例34.9万例,死亡病例16.5 万例;女性新发病例10.5 万例,死亡病例3.9 万例。膀胱癌发病率在全球范围呈上升趋势,可能与吸烟率上升、人口老龄化、环境污染等因素有关[1]。膀胱镜活检是膀胱癌诊断的金标准,但随着影像技术的不断发展,CT 和MRI 能够更准确地评估肿瘤的大小、位置和浸润情况,在膀胱癌的诊断、分期和治疗中发挥重要作用[2]。

CT 尿路造影(computed tomography urography,CTU)作为膀胱癌检测和分期最常用的成像方式,其对膀胱癌的诊断敏感度和特异度高达93%和98%[3],但CT 检查在膀胱癌局部分期中存在局限性,如CT检查对<5 mm 膀胱肿瘤的检出率较低、对浸润膀胱肌层深度的评估有限,可能会导致肿瘤分期的误差[4]。MRI作为一种重要的影像学检查手段,可提供更强的软组织对比,且有较多的功能学成像序列,有助于区分肿瘤与周围组织的界限,对评估膀胱肿瘤的浸润深度及淋巴结转移具有独特优势,但其也存在可能高估浸润深度的问题。而PET/CT 主要用于评估淋巴结侵犯和远处转移,不能用于膀胱癌原发病灶的评估[2]。

传统影像学诊断方法依赖于医师的肉眼观察,常存在主观性和误差。影像组学则是从影像学图像中挖掘高通量定量特征(影像组学特征),使用机器学习方法建立模型,将其应用于临床决策支持系统,以提高对疾病诊断、分级,以及预后、转移等预测的准确率[5]。近年来,随着深度学习与计算机视觉的快速发展,卷积神经网络(convolutional neural network,CNN)成为新的研究热点[6]。

1 机器学习在肿瘤影像学诊断中的应用概述

机器学习是人工智能的一个研究领域,通过从数据样本中学习规律并建立算法,可有效地进行泛化,从而在没有明确指令的情况下执行任务[7]。

根据对数据的标注方式,可将机器学习分为监督学习、非监督学习两大类。监督学习作为使用最为广泛的类型,通过使用数据及其对应的标签(x,y)训练模型,使得算法能够识别两者之间的规律,从而对新的数据(x*)给出预测(y*),主要方式有分类、回归算法。而非监督学习通过给模型输入无标签的数据,让模型自行寻找数据的结构,从而发现隐藏模式或结构,主要方式有聚类、降维、特征工程等[8]。

相对于传统的统计学,机器学习无需对数据的分布做严格的假设,且能有效地捕捉数据间的非线性关系,处理大规模数据,因此机器学习在医学影像学领域成为强大的建模工具,可用于挖掘海量图像数据,揭示潜在的复杂生物机制,使个性化精准癌症诊断和治疗计划的制订成为可能[6]。

目前,对肿瘤的影像学信息进行分析和建模的方式有2 种,一种是影像组学研究(特征工程),另一种是基于深度学习的研究(非特征工程),前者使用其他研究者已定义好的组学特征,如使用pyradiomics软件包进行组学特征提取,而后者将图像直接输入到深度学习网络中进行训练,无需单独特征提取[6]。

影像组学特征可揭示肉眼无法观察到的疾病模式和特征,这些影像组学特征主要包括:①强度特征(直方图特征),是图像灰阶直方图的简单统计学描述,包括病变的平均灰度、最大灰度、最小灰度、标准差、方差、峰度、偏度等。②形状特征,描述了病变或感兴趣区域(ROIs)的几何学特征,包括病变的大小、长宽比、周长、面积、体积、球形度、紧凑性等。③纹理特征,描述了病变的纹理,如病变的灰阶共生矩阵、灰阶长度矩阵和灰阶区域矩阵等[9]。

在提取到多个影像组学特征后,研究者使用Wilcoxon检验、最小绝对收缩和选择算法(least abso‐lute shrinkage and selection operato,LASSO)回归、递归特征消除支持向量机(recursive feature elimina‐tion support vector machines,SVM-RFE)等方法进行特征筛选,而后使用决策树、随机森林、支持向量机或深度学习等机器学习方法建立模型[9-11]。此处的深度学习方法区别于非特征工程的深度学习,前者将传统影像组学的特征作为深度学习的神经网络的输入层,而后者直接将图像信息作为神经网络的输入层。相较于影像组学方法,非特征工程的深度学习方法更灵活,无需手工设计特征,能够识别传统影像组学无法提取的特征,是目前新的研究热点[6,12]。

目前,机器学习在肿瘤影像诊断方面的应用主要包括:肿瘤分期分级、病理学分类、预后判断、治疗评估等方面[6,9,13]。机器学习在肿瘤病理学分类方面的研究多以实质脏器为主,如脑肿瘤[11]、肝脏肿瘤[14]、胰腺肿瘤[15]、肺癌[16-17]等,而膀胱肿瘤等空腔脏器肿瘤的相关研究较少;一方面是因为膀胱等空腔脏器的肿瘤及其周围组织的形状受脏器充盈度的影响,对图像分割、识别、配准等造成困难,另一方面,在组织学上,超过90%的膀胱肿瘤为移行细胞癌,而其他亚型如鳞状细胞癌和腺癌不常见,约占5%和2%[18],故本研究主要总结机器学习在膀胱肿瘤的分期、预后判断及治疗评估中的应用。

2 机器学习在膀胱癌分期分级中的应用

膀胱癌根据是否侵犯膀胱逼尿肌分为肌层浸润性膀胱癌(MIBCs)和非肌层浸润性膀胱癌(NMIBCs),NMIBCs 占膀胱癌的70%,经尿道膀胱肿瘤切除术治疗后5 年总体生存率可达90%,而MIBCs 的主要治疗为根治性膀胱切除术,其5年生存率仅60%~70%,因此,早期准确诊断并精准评估是否发生肌层浸润对指导临床治疗和评估患者预后至关重要[19]。CT虽是临床最常用的影像学评估方法,但其空间分辨力不足以区分膀胱壁各个层次,不能准确评估膀胱肌层的浸润深度,因此用于区分T1期和T2期或区分T2a期和T2b期存在明显局限性[20-21]。MRI 软组织分辨力高,能实现DWI和动态对比增强扫描,但仍存在扫描时间长、有禁忌证、易高估肿瘤范围、敏感度不够高等限制[22]。基于这些局限性,很多研究利用影像组学或深度学习来建立模型,进而对膀胱癌进行更加精准的分期分级。

Garapati等[23]纳入84例膀胱癌患者的CTU图像,采集肿瘤的形态学特征和纹理特征,分别使用线性判别分析、神经网络、支持向量机、随机森林等建立模型来进行肌层浸润的预测;线性判别分析算法的准确率最高(91%),其次是神经网络算法(88%),然后是支持向量机算法(84%);但该研究样本量较小,未进行外部验证,且未明确描述纳入的特征。Zhang等[24]基于441 例膀胱癌患者肾实质期的CTA 图像建立深度学习模型,预测肿瘤是否有肌肉浸润;该研究与传统的影像组学研究不同,首先通过半自动工具勾画出肿瘤VOIs,后经裁切和标准化,形成通道数、层数、高度、宽度为2×64×64 mm×64 mm 的4D 张量数据,这种数据结构可输入到CNN 的U-Net 模型中进行训练;该模型在内部验证集中的敏感度为0.733,特异度为0.810,在外部验证集中的敏感度为0.710,特异度为0.773,在验证集的特异度超过对照组诊断医师,但敏感度较差,考虑的原因是诊断医师为了避免漏诊更倾向诊断为MIBCs。Yang 等[25]采用迁移学习的方法训练CNN 模型,在其对比的8种模型当中,VGG16(包括13个卷积层和3个全连接层)结果最佳,其AUC在测试集中最高为0.997。

在利用MRI 图像的研究中,多使用T2WI、ADC、DWI 等序列,T2WI 可清楚显示肿瘤的边界,DWI 和ADC 可明确显示肿瘤由于高细胞密度导致的水分子弥散受限引起的信号变化,与T2WI 相结合可提高对肌层浸润的特异度和敏感度[2,22]。Lim 等[26]提取了36 例患者的膀胱肿瘤和瘤周组织的影像组学特征,使用logistic 回归建立模型预测肌层浸润。Zheng等[27]选取199例患者的T2WI图像,勾画出肿瘤和5 mm的基底部分2个ROIs,提取影像组学特征,并用LASSO回归提取出23 个特征建立列线图模型,该模型在加入了肿瘤大小的临床特征后AUC在验证集中达0.876。Xu等[28]则使用DWI序列提取影像组学特征,并建立随机森林模型,该模型对肌层浸润的诊断敏感度(0.873)显著高于经尿道活检(0.655)。

膀胱是排泄尿液的器官,尿液中的氟代脱氧葡萄糖在膀胱内迅速聚集,干扰对肿瘤原发病灶代谢的判断,因此PET/CT 主要用于评估淋巴结侵犯和远处转移[29]。Girard 等[30]纳入173 例MIBC 患者,使用盆腔淋巴结最大标准化摄取值、盆腔淋巴结最大直径的乘积、原发膀胱肿瘤最大直径的乘积建立随机森林模型,该模型对盆腔淋巴结转移的预测与专家共识无显著区别。

3 机器学习对膀胱癌治疗反应性及预后的评估

即使接受根治性膀胱全切术及盆腔淋巴结清扫,仍有50%的MIBCs 患者会发生远处转移,因此新辅助化疗成为MIBCs 治疗方案的重要组成部分[19]。在新辅助化疗、膀胱全切术前评估患者治疗反应性及预后,对实施精准个性化的治疗、减少并发症、改善预后有重要意义。

目前,临床常用的评估肿瘤治疗反应性的方法包括WHO标准和实体瘤反应评估标准(RECIST),前者依据治疗前后最大径及其垂直径乘积的变化百分比进行评估,后者仅依据最大径变化百分比,因此对肿瘤的反应性评估有明显局限性[31]。Cha 等[32]使用62 例膀胱癌患者CT 图像数据集来训练深度学习CNN 进行肿瘤分割和治疗反应性评估,通过与WHO标准(AUC 为0.65)和RECIST 标准(AUC 为0.63)对比发现,深度学习CNN 模型对于化疗后完全缓解患者的预测准确率更高(AUC 为0.73),且传统影像组学方法与深度学习方法对治疗反应性评估的准确率相当[33]。后续该学者基于123 例肌层浸润膀胱癌患者新辅助化疗前后的CT 图像,在模型中引入了放射学特征,建立基于深度学习和影像组学的联合模型,结果发现,CNN 模型的AUC 为0.73~0.86(放射科医师的AUC 为0.76~0.77),该决策支持系统能够显著提升医师预测肌层浸润患者对新辅助化疗反应性的准确率[34]。而Wu 等[35]在Cha 等[32-34]的基础上对比了不同深度学习模型架构的预测效能,发现通过使用预训练模型的权重,即迁移学习的方法,能够提升模型的准确率,重新训练模型的最佳AUC 为0.86,优于基线模型。

约50%的NMIBCs患者未经治疗即可发生MIBCs,治疗后的复发率为70%~80%[36],及时发现有助于临床医师尽早干预治疗。Xu 等[37]从71 例膀胱癌患者术前MRI 的T2WI、DWI、动态增强扫描图像中提取影像组学特征,使用SVM-RFE 进行变量筛选,同时引入包括性别、年龄、肿瘤分级、肿瘤大小、数量及既往手术记录等临床病理特征,建立基于影像组学和临床特征的联合预测模型,其在验证集中对肿瘤的复发预测准确率高达80.9%(AUC为0.838)。

Sun 等[38]通过列线图分析对163 例患者的临床数据,通过影像组学和深度学习模型分析图像数据;这些描述符被输入反向传播神经网络模型中,用于生存预测;研究结果证实结合临床特征、影像组学特征和深度学习特征等多模态数据,能够提升对膀胱癌患者生存期预测的准确率。

4 挑战与展望

机器学习在评估膀胱癌的分期、分级、治疗反应性及预后等多方面应用广泛,但仍存在明显的局限性:①多数研究为单中心的回顾性研究,纳入的患者数量较少,缺乏外部验证[39];②CT、MRI 等的扫描参数等未统一,如CT 的管电压、管电流、重建层厚、迭代重建算法、重建矩阵、增强扫描期相、对比剂用量等[40],MRI 则有更多的因素影响,即使单个研究中扫描技术也难以统一;③缺乏特征筛选、建模方式、模型优化、模型评估等的标准。

此外,因神经网络的复杂结构缺乏可解释性,只有充分了解其内部机制,才能更好地为临床决策服务。基于影像组学的研究往往采用更加复杂的算法,如随机森林,但其基本变量为已定义好的、有明确公式和意义的影像组学特征,因此笔者使用变量重要性、SHAP(shapley additive explanations)、LIME(local interpretable model-agnostic explanations)等方法来提升机器学习模型的可解释性。

机器学习研究方向的趋势包括标准化、多模态和数据共享。标准化包括影像数据采集方法的标准化和数据处理的标准化,如美国泌尿外科学会(AUA)开发的描述膀胱癌的多参数MRI 表现的膀胱成像报告和数据系统(VI-RADs),规范了T2WI、DWI、ADC、DCE 序列的扫描参数,该系统对膀胱癌的分级和分期更具敏感性和特异性,因此基于VI-RADs 的MRI组学研究将成为下一步研究的重点。而多模态,已有学者将“影像基因组学”应用于膀胱癌预后判断中,在纳入了影像组学、转录组学后能显著提升模型预测效能[41],未来将会有更多的模态数据联合,包括影像模态和分子遗传模态,但这类研究的样本量可能较少。数据共享对大样本数据集的收集、建立稳健的模型和模型的验证至关重要,是未来该领域走向成熟的必经之路。

综上所述,机器学习在膀胱癌的影像诊断中有良好的应用前景,能显著提高诊断准确率,在个性化诊疗及临床决策支持方面有巨大优势,未来需更多的前瞻性、大样本、标准化的研究推动这一交叉学科的不断发展。

猜你喜欢

膀胱癌组学肌层
VI-RADS评分对膀胱癌精准治疗的价值
Analysis of compatibility rules and mechanisms of traditional Chinese medicine for preventing and treating postoperative recurrence of bladder cancer
口腔代谢组学研究
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
TURBT治疗早期非肌层浸润性膀胱癌的效果分析
非肌层浸润性膀胱癌诊治现状及进展
膀胱癌患者手术后症状簇的聚类分析
非肌层浸润膀胱肿瘤灌注治疗研究进展
代谢组学在多囊卵巢综合征中的应用
miRNA-148a在膀胱癌组织中的表达及生物信息学分析