基于深度学习自动分割模型的DWI影像组学模型预测前列腺癌盆腔骨转移
2021-12-26刘想崔应谱韩超孙兆男张耀峰王祥鹏张晓东王霄英
刘想,崔应谱,韩超,孙兆男,张耀峰,王祥鹏,张晓东,王霄英
前列腺癌多见于老年男性,其发病率位于男性恶性肿瘤的第2位,约为15%[1]。骨盆和脊柱是前列腺癌最常见的远处转移好发部位,转移发生率高达65%~90%[2]。对于骨转移患者,在积极治疗原发病灶的同时应预防和治疗骨转移及骨相关事件[3]。因此,在临床实践中及时准确地检出骨转移病灶是重要的诊断任务之一。
临床上根据症状和前列腺特异性抗原(prostate specific antigen,PSA)水平来判断有无转移灶,但敏感性和特异性均欠佳[4]。研究发现,有32%的去势抵抗性前列腺癌(castration-resistant prostate cancer,CRPC)患者在临床上被认为无转移症状而在行影像学检查时发现有转移灶[5]。检测前列腺癌骨转移的影像学方法包括CT、MRI以及核素骨扫描,这些方法具有较高的敏感度但特异度低[6]。扩散加权成像(DWI)是前列腺癌多参数(multiparametric,mp)-MRI检查的功能成像序列之一,对前列腺癌骨转移的检测敏感度高于常规MRI,且较核素骨扫描的敏感性、特异性及准确性更高[7-8]。但DWI图像上骨盆结构和信号复杂,骨转移灶表现多样,假阳性和假阴性病灶仍会对诊断造成困扰[9]。
影像组学是一种可对多种医学图像进行特征提取和建模的技术手段,目前已被广泛用于疾病的诊断和鉴别诊断、临床分期、治疗评价和预后评估中[10-13]。但影像组学建模对图像标注要求较高,人工标注耗时且标注区域的差异也会影响模型的效能[14]。本研究基于DWI图像,在应用3D U-Net深度学习网络[15]对盆腔骨结构进行自动分割的基础上,建立影像组学模型来判断前列腺癌患者的盆腔骨质结构有无骨转移灶。
材料与方法
本回顾性研究获得了伦理委员会的批准(2019-170),按照本单位人工智能(artificial intelligence,AI)模型训练规范执行研究方案。
1.用例定义
根据本单位AI项目管理方法,首先定义研发mpMRI盆腔骨质结构分割与骨转移灶检出的AI模型的用例(use case)。主要内容:模型的编号、临床问题、场景描述、模型在实际工作中的调用流程及模型的输入和输出数据结构等。定义AI模型的返回结果为下腰椎、骶尾骨、髂骨、髋臼、股骨头、股骨颈、坐骨和耻骨的坐标,以及上述分割区域内有无骨转移灶等。
2.数据入组
骨盆结构分割模型训练:从本院PACS系统回顾性搜集2017年1月-2020年1月的747例盆腔mpMRI图像,纳入标准:①临床怀疑为前列腺癌或前列腺癌治疗后(手术、放疗或内分泌治疗)因复查而行盆腔mpMRI扫描的患者;②有完整的盆腔DWI图像;③无原发性盆腔骨疾病(原发性骨肉瘤、骨囊肿、血液系统疾病及骨折等)。排除标准:①有盆腔骨质结构手术史;②同时存在其它恶性肿瘤病史;③图像质量差(存在运动伪影和化学位移伪影等);④扫描范围不全,未包括大部分盆腔骨质结构。排除371例不满足要求的患者后,最终有614例患者的数据入组,用于训练自动分割盆腔骨质结构的3D U-Net模型。
骨盆结构分割模型外部验证和骨转移分类模型的构建:自PACS系统中检索到2020年2月-2020年12月在本院经病理证实为前列腺癌且此次盆腔mpMRI扫描前未进行过任何治疗的275例患者(排除标准同上),其中经临床综合诊断(综合PSA水平、临床症状、MRI检查和其它影像检查)认为存在盆腔骨转移的前列腺癌患者161例,不存在盆腔骨转移者114例。此样本的数据既作为骨盆结构分割模型的外部验证集,又用于有无骨转移灶分类评估的影像组学建模。
3.DWI扫描参数
本研究所纳入的病例均为匿名化病例,图像来源于5台MR扫描仪,扫描参数见表1。
表1 不同仪器的DWI成像参数
4.数据标注
将DICOM格式的高b值DWI图像转换为Nifty格式。由一位低年资放射科住院医师(阅片经验3年)使用ITK-SNAP3.6.0软件在DWI图像上分别沿着盆腔各骨质结构的边缘进行手工勾画和标注,所标注的图像标签如下。1:腰椎;2:骶骨;3:左侧髂骨;4:右侧髂骨;5:左侧髋臼;6:右侧髋臼;7:左侧耻骨;8:右侧耻骨;9:左侧坐骨;10:右侧坐骨;11:左侧股骨头;12:右侧股骨头;13:左侧股骨颈;14:右侧股骨颈。由一位放射科专家(阅片经验≥15年)对标注进行修改确认。以确认后的图像标签作为盆腔骨质结构分割模型的金标准。
5.分割模型的训练
对614例患者的DWI图像进行预处理:size = 64×224×224(z,y,x),自动窗宽、窗位。按照8∶1∶1的比例将患者随机分为训练集(train set,n=490)、调优集(validation set,n=62)和测试集(test set,n=62),进行3D U-Net模型的训练。模型训练使用的硬件为GPU NVIDIA Tesla P100 16G,语言程序包括Python3.6、Pytorch 0.4.1、Opencv、Numpy、SimpleITK等,Adam为训练优化器,学习率(learning rate)设为10-4,训练次数(Epoch)为250,每次读取的图像数量(batch size)为1。
6.分类模型的训练
对前列腺癌患者进行有、无盆腔骨转移分类评估的影像组学模型的构建,分别在手工标注和自动分割的盆腔骨质结构基础上进行,从标注和分割出的图像和标签中进行特征提取,所提取出的特征用于建立组学模型,处理步骤包括数据均衡、数据归一化、特征降维、特征选择和模型建立等,每个步骤的数据分析方法和相关参数见表2。
表2 建立影像组学模型的主要处理步骤和相关参数
在本研究的组学分类模型建立过程中,为了消除分类训练集数据的不均衡(有转移灶与无转移灶例数比为161/114),我们通过降采样的方式来使正/负样本平衡;采用Min-Max对特征矩阵进行归一化处理;由于提取特征的空间维度较高,我们采用皮尔森相关系数(Pearson correlation coefficients,PCC)对数据进行降维,变换后的特征矩阵的特征向量相互独立;在建立模型之前,使用常用的递归特征消除(recursive feature elimination,RFE)算法进行特征选择并对特征进行排序,选择前20个特征作为最佳特征子集;最后,选用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)分类器基于DWI图像建立预测盆腔范围内骨转移的分类模型。按照7∶3的比例将此样本集中的275例患者随机分为训练集(train set,n=193)和测试集(test set,n=82),进行影像组学建模和测试。为确定该模型的参数(如特征的数量),我们应用5折交叉验证法来评估模型的分类性能,并选择最佳的模型参数。最终根据各自系数加权的最佳特征的线性组合,建立用于前列腺癌盆腔骨转移分类的组学模型。
7.模型评价
分割模型评价:利用测试集和外部验证数据对3D U-Net模型的分割性能进行评估。将模型预测的每个盆腔骨质结构标签与相应的手工标注标签进行比较,定量评估模型对8个标签和整个盆腔结构的分割性能,评价指标包括Dice相似系数(Dice similarity coefficient,DSC)、Jaccard相似系数(Jaccard similarity coefficient,JSC)和Hausdorff表面距离(Hausdorff surface distance,HSD)[16-19]。DSC和JSC是衡量两个像素集合之间相似性的度量指标,取值范围为0~1,数值越大,代表两个集合之间的相似度越高;HSD也可作为两组像素点集之间相似程度的度量指标,它是两个点集之间距离的一种定义形式,度量了两个点集间的最大不匹配程度。
分类模型评价:计算分类模型中每个样本的影像组学得分(rad-score)[11],应用sigmoidal函数将组学得分转换为盆腔骨质结构存在骨转移灶的概率P(取值范围为0~1)。使用受试者工作特征曲线(ROC)来评估分类模型的效能,计算ROC曲线下面积(area under curve,AUC),根据最大化约登指数值的截断值来计算模型的诊断符合率、敏感度和特异度。
8.统计描述
使用SPSS 20.0软件和MedCalc 14.8软件进行统计分析。符合正态分布的计量资料以均值±标准差表示,不符合正态分布的连续变量表示为中位数(上、下四分位数)。采用克鲁斯卡尔-沃利斯(H-K)检验用于比较盆腔骨质结构分割模型中训练集、调优集和测试集的临床特征[年龄、总PSA(total PSA,T-PSA)、游离PSA(free PSA,F-PSA)及F/T-PSA]。ROC曲线分析用于评估骨转移诊断模型在训练集和测试集中的性能,基于手工标注和自动分割的影像组学分类模型的AUC值的比较采用Z检验。以P<0.05为差异有统计学意义。
结 果
1.入组病例临床特征
不同数据集中患者的临床特征及图像数据来源情况见表3。用于盆腔骨质结构分割模型训练的614例患者的年龄为67(62,79)岁,其中326例为前列腺增生患者[年龄64(53,75)岁],154例为病理证实的前列腺癌患者[年龄:70 (62,78)岁];134例(134/614)前列腺癌患者在进行mpMRI扫描前进行过内分泌治疗或放疗[平均年龄:70(61,79)岁]。用于建立盆腔骨转移分类组学模型建立的275例患者中,161例为有骨转移灶患者[年龄72(63,81)岁],114例为无骨转移灶患者[年龄71(62,80)岁]。
表3 不同数据集中患者的临床特征及数据来源的病例分布情况
此外,在分割模型样本组中,训练集,调优集和测试集之间的临床特征(年龄、F-PSA、T-PSA、F/T-PSA)的差异均无统计学意义(P>0.05)。在分类模型样本组中,训练集和测试集之间的年龄、T-PSA和F-PSA的差异均无统计学意义(P>0.05),而测试集中的F/T-PSA显著低于训练集(P<0.05)。
2.分割模型的效能
3D U-Net分割模型对不同盆腔骨质结构的分割性能见表4。在测试集中,对盆腔骨质结构整体分割的DSC、JSC 和HSD分别为0.87±0.03、0.77±0.04和(21.75±12.08)mm;在外部验证数据集中,其DSC、JSC和HSD分别为0.82±0.06、0.71±0.08和(16.27±4.35)mm。在单独的8个盆腔骨质结构中,除耻骨(测试集DSC:0.69±0.13;JSC:0.54±0.13;外部验证集DSC:0.69±0.14;JSC:0.54±0.14)和髋臼(测试集DSC:0.79±0.08;JSC:0.66±0.09;外部验证集DSC:0.79±0.09;JSC:0.66±0.11)外,模型对其余骨质结构在测试集和外部验证集中的DSC均在0.80以上、JSC均在0.70以上。
表4 U-Net分割模型的性能
3.分类模型
组学模型中特征的选择:在提取的1070个特征中,RFE算法根据反复构建模型所返回的feature_importances属性筛选出最好的(或最差的)骨转移病灶分类特征,在这个过程中将不重要的特征消除,最终留下排名最靠前的最重要的20个特征(表5)。在选出的20个特征中包括2个基于形状(shape-based)的特征、2个一阶(first order)特征,4个灰度行程长度矩阵(gray level run length matrix,GLRLM)特征、5个灰度相关矩阵(gray level dependence matrix,GLDM)特征、3个灰度共生矩阵(gray level co-occurrence matrix,GLCM)特征和4个灰度区域尺度矩阵(gray level size zone matrix,GLSZM)特征。训练集和测试集中每个样本有、无盆腔骨转移灶的概率分布见图1。
表5 RFE算法筛选出的20个特征的分类和名称
图1 分类模型中各样本存在骨转移的概率分布图。a)训练集;b)测试集。 图2 组学分类模型预测骨转移的ROC曲线。a)基于自动分割图的组学模型在训练集中的ROC曲线,AUC= 0.945;b)基于自动分割图的组学模型在测试集中的ROC曲线,AUC=0.965;c)基于手工标注图的组学模型在训练集中的ROC曲线,AUC= 0.967;d)基于手工标注图的组学模型在测试集中的ROC曲线,AUC=0.975。
组学模型的分类性能:基于自动分割和手工标注图像的影像组学模型对盆腔骨质结构内有、无骨转移的分类效能见表6和图2。在测试集中,基于自动分割和手工标注的组学模型对盆腔骨转移分类效果均较好(图3~6),AUC值分别为0.965(95%CI:0.899~0.993)和0.975(95%CI:0.914~0.997),差异无统计学意义(Z=-0.442,P=0.658)。
表6 基于自动分割和手工标注的影像组学模型对盆腔骨质结构内骨转移的分类性能
图3 测试集中前列腺癌患者,男,78岁,右侧髂骨转移。a)DWI示右侧髂骨高信号转移灶(箭);b)U-Net模型分割后骨质结构,DSC=0.88,组学模型预测存在骨转移的概率为0.93(箭所示,真阳性结果)。图4 测试集中前列腺癌患者,男,56岁,无盆腔骨转移。a)DWI示盆腔骨质范围内无高信号灶;b)U-Net模型分割后骨质结构,DSC=0.89,组学模型预测存在骨转移的概率为0.65(假阳性结果)。 图5 测试集中前列腺癌患者,男性,69岁,右侧耻骨转移。a)DWI示右侧耻骨高信号转移灶(箭);b)U-Net模型分割后骨质结构,DSC=0.58(耻骨结构未被正确分割),组学模型预测存在骨转移的概率为0.40(假阴性结果)。图6 测试集中前列腺癌患者,男,73岁,左侧股骨颈转移。a)DWI示左侧股骨颈高信号转移灶(箭);b)U-Net模型分割后骨质结构,DSC=0.84,组学模型预测存在骨转移的概率为0.45(箭,假阴性结果)。
讨 论
前列腺癌骨转移以成骨性病灶为主,以多发性和跳跃性分布为主,且成骨性改变和溶骨性改变同时存在[3,20]。mpMRI对于前列腺癌骨转移的诊断具有较高的敏感性和特异性,当全身骨显像和CT均不能确定骨转移灶的存在时,通常可行mpMRI[6]。mpMRI包括常规序列(T1WI和T2WI)与功能序列(DWI、DCE-MRI和MRS)。其中,DWI对于前列腺癌骨转移的检测敏感度高于常规序列,DWI是对机体内水分子微观运动的评估,可提供定量(如ADC值)和定性(如信号强度)信息用于疾病的诊断和鉴别[21]。在本研究中,我们在对盆腔骨质结构进行分割的基础上,基于DWI图像建立了一个用于检出前列腺癌患者有无盆腔骨质结构范围内转移灶的影像组学模型,该模型在测试集中的骨转移患者检出符合率为89.02%,AUC可达0.965。
影像组学是近年来出现的一种新型图像后处理技术,通过对医学影像图像进行定量、高通量的分析和处理,提取出一系列肉眼无法直接观察到的信息,揭示肿瘤生物学特征与图像之间的关系,用于建立描述性和预测性的模型,从而帮助医师做出诊断[22-23]。该技术目前已广泛应用于各种临床场景。Ma等[11]基于mp-MRI图像(T2WI、DWI 和DCE)特征建立的术前预测前列腺癌术后包膜侵犯的组学模型,在测试集中AUC为0.833,且其预测敏感度明显高于放射科医师(75.00% vs. 46.88%~50.00%)。Xie等[14]应用基于纹理分析的组学模型来进行子宫肌瘤和非典型平滑肌瘤的鉴别,发现患者年龄、肿瘤边缘及子宫内膜腔是鉴别二者的重要特征,基于该特征所建立的组学模型准确率可达73.9%,可达到放射专家的诊断水平。在本研究中,基于DWI图像所建立的组学模型所选取的20个特征中,排在最前面的为基于形状的两个特征:shape_Sphericity和shape_SurfaceVolumeRatio。由于本研究中所入组的骨转移患者存在骨盆骨质形态明显异常,有局部或弥漫的破坏或膨大,这类影像特征与无骨转移患者的盆腔骨质有很大差别,因此,基于shape特征能很好地预测转移与非转移。而在选择的20个特征中,基于灰度分布的特征有16个,这反映了有骨转移灶的盆腔骨质结构和无骨转移灶的盆腔骨质结构在灰度分布方面具有较大的差异。
为排除盆腔DWI 图像中骨质结构以外的其他高信号强度物质(如神经组织、淋巴组织及肠内容物等)对骨转移灶检出的干扰[9],本研究将基于深度学习的盆腔骨质结构分割模型置于前列腺癌患者盆腔骨转移分类的组学模型之前,旨在应用连贯的人工智能技术来实现疾病的诊断。该分割模型在测试集中的DSC、JSC 和HSD可达到0.87±0.03、0.77±0.04和(21.75±12.08)mm。在用于分类模型的数据集中,其DSC、JSC和HSD也可达到0.82±0.06、0.71±0.08和(16.27±4.35)mm。良好的盆腔骨质结构分割是后续进行骨转移灶检出的基础。但对单独的8个盆腔骨质结构分割性能进行分析时,我们发现,模型对耻骨的分割效果(测试集:DSC=0.69±0.13,JSC=0.54±0.13;外部验证集:DSC=0.69±0.14,JSC=0.54±0.14)明显劣于其它骨质结构,这可能与耻骨体素在整个盆腔骨质结构中所占的比例少、且部分盆腔扫描范围未扫及耻骨层面而导致耻骨结构数量偏少有关。因此,在前列腺癌患者盆腔骨转移的分类结果中,组学模型对于仅存在耻骨转移的患者易出现漏诊(图4e~f)。
在本研究中用于分割模型训练和分类模型训练的数据均为连续性的回顾性收集,数据共来源于本院的5台仪器设备,其场强(3.0T/1.5T)及b值(b=500、800和1000 s/mm2)均有所差异。不同设备来源的数据所建立的模型可更好的体现模型的泛化性能,这是本研究的一个特色。
分割效果对分类性能的直接影响是多数序贯研究的局限性[24]。因此,对于本研究而言,增加用于分割模型训练的数据量,尤其是增加耻骨层面的数据量,是提高整个组学分类模型的关键。此外,本研究还存在以下局限性:(1)本研究仅在患者水平进行了盆腔范围内有无前列腺癌骨转移的判断,而没有对单个盆腔骨质结构或从病灶水平进行探讨。未来我们还应该进行骨质结构水平及病灶水平的转移灶检出,从而实现盆腔范围内前列腺癌骨转移的检出及定位。(2)本研究未将组学模型的分类性能与放射科医师的诊断效能进行对比。在后续的研究中,我们将对两者效能进行对比。(3)本研究仅应用了单个的DWI序列进行有无骨转移病灶的分类,尽管该序列在骨转移灶检出的过程中必不可少,但其对于成骨性改变的检出仍存在一定的局限性,因此在之后的研究中我们考虑在模型中加入其它序列(如ADC图、T1WI等),以此来提高模型对所有类型转移灶的预测性能[25]。(4)本研究所有入组的数据均为前列腺癌患者,因此只能代表此一种恶性肿瘤骨盆转移的现状,临床场景较为单一。对于其它来源(如直肠癌、膀胱癌等)的转移瘤,我们未做分析,在后续的研究中我们将考虑补充同时期来源于其它恶性肿瘤的骨盆转移瘤病例。
综上所述,本研究基于深度学习分割DWI图像上盆腔骨质结构的影像组学模型可以较好地鉴别盆腔范围内的前列腺癌骨转移灶,可承担前列腺癌mpMRI辅助诊断的部分工作。