乳腺DBT 影像组学对乳腺肿块良恶性的鉴别研究
2020-11-23姜文研牛淑娴张梦瑶崔林鹏周晓娅罗娅红
姜文研,牛淑娴,张梦瑶,崔林鹏,董 越,艾 华,周晓娅,于 韬,罗娅红
(1.辽宁省肿瘤医院(中国医科大学肿瘤医院)医学影像科,辽宁 沈阳 110042;2.中国医科大学生物医学工程系,辽宁 沈阳 110122;3.济宁医学院基础医学院分子医学与化学实验室,山东 济宁 272067)
近年来,乳腺癌发病率逐年升高,严重威胁着全世界女性的生命健康[1]。乳腺癌的早诊早治是有效提高患者预后的关键[2]。临床上对乳腺癌的早期筛查长期依赖于价格低廉且操作相对简单的X 线检查,然而,由于常规乳腺X 线扫描为固定角度的二维成像,X 线图片中存在大量密度较高的腺体或其它正常人体组织,会对乳腺病灶区域造成部分遮挡,不利于医生对乳腺病灶的识别和诊断[3]。乳腺DBT成像是按照一定角度旋转X 线球管进行的三维扫描过程,再经过计算机后处理重建输出一系列高分辨率的断层图像,可以有效解决乳腺组织重叠遮挡的问题,能极大提高乳腺疾病的检出率,降低召回率,减少假阴性和假阳性,具有重要的临床价值[4-5]。由于DBT 扫描进入临床乳腺癌早期筛查应用的时间较晚,当前尚没有针对DBT 影像的较为成熟的计算机辅助(Computer-aided diagnosis,CAD)分析方法,临床上主要依靠有经验的医生通过肉眼观察DBT 图像,并基于病灶的形态、尺寸和灰度变化等特征给出诊断结论[6]。
近年来,基于影像组学的CAD 技术在医学影像分析领域发展较快,受到了医学影像工作者的高度重视。影像组学通过提取和筛选临床影像数据中的量化特征,转化为可挖掘的高维度数据,用于建立计算机预测模型,能够准确反应肿瘤的深层生物学特性,从而为临床提供辅助诊断决策支持[7-8]。影像组学的分析流程主要包括:①影像病灶区域(ROI)的勾画;②影像特征的提取和筛选;③计算机风险预测模型的建立和验证[9]。当前已有针对乳腺X 线[10]、超声[11]和MRI[12]数据的影像组学分析报告,但针对乳腺DBT 影像则鲜见报道[13],因此缺乏一种用于乳腺DBT 数据的可靠的影像组学分析方法和预测模型。
1 资料与方法
1.1 患者情况
本研究回顾性收集了2017 年9 月—2018 年4月在辽宁省肿瘤医院就诊的160 例女性患者的乳腺DBT 影像数据,其中经过病理确定为良性和恶性患者数量分别为82 例和78 例。入组标准为:①年龄大于18 岁;②病理检查前进行乳腺DBT 扫描。排除标准为:①同时患有其它肿瘤疾病;②有乳腺手术史或放化疗史;③处于孕期;④影像数据不完整或存在伪影。本研究方案和内容通过辽宁省肿瘤医院伦理委员会的批准。
1.2 乳腺DBT 扫描和图像预处理
乳腺DBT 扫描采用辽宁省肿瘤医院的Hologic乳腺DBT 扫描仪(Hologic Selenia Dimensions,USA)。扫描参数:X 线管电压20.0~49.0 kV(Step=1.0 kV),电流300.0~400.0 mAs,扫描时间<4.0 s,重建时间2.0~5.0 s,像素尺寸70.0 um。扫描图像按照1.0 mm间距重建后进行分层输出分辨率为2 457×1 996 的二维图像。使用Hologic 乳腺分析工作站(Secure-ViewDx,USA)对图像进行检测分析。产生的DICOM图像保存于医院PACS 系统,由一名具有15 年工作经验的医生使用ITK-SNAP(3.6.0 版本)对乳腺肿块区域(ROI)和边缘进行精确勾画,输出MHA 格式ROI 文件。
1.3 影像特征提取和筛选
通过Python(3.6.5 版本)编程,从DBT 图像ROI区域中提取影像组学特征,主要包括一阶统计量特征、灰度共生矩阵、灰度区域大小矩阵(Gray-level size zone matrix,GLSZM)和灰度行程纹理矩阵(Gray-level runlength matrix,GLRLM)、形态学特征和小波变换特征[14]。使用最大相关最小冗余(mRMR)算法[15]和LASSO 回归分析对提取的特征进行降维筛选[16]。使用SPSS 软件(24.0 版本)计算筛选特征值的均值与标准差,使用统计学Wilcxon 秩合检验方法计算特征P 值。
1.4 构建诺模图模型
通过LASSO 回归计算各影像组学特征的权值系数,使用R 语言“rms”软件包(3.5.1 版本)绘制诺模图模型。
1.5 机器学习分类器
本研究选取了三种常用的机器学习分类器进行测试比较,支持向量机(SVM)、随机森林(RF)和K-最近邻(KNN),三种分类器算法均由Matlab(2016a版本)编程实现。
1.6 验证方法
绘制ROC 曲线对诺模图模型的良恶性鉴别能力进行衡量。使用最大约登指数方法计算获得ROC曲线的最佳阈值[17],计算AUC 值、准确度(ACC)、敏感性(SEN)和特异性(SPE)。绘制决策曲线(DCA)计算阈值概率范围内的净效益来评估本研究建立的诺模图模型的临床价值。本研究所使用算法的运行平台为一台具有6 核心3.7 GHz Intel i7-8 700 CPU和128 GB 3 000 MHz DDR4 RAM 的台式计算机。
2 结果
2.1 图像展示
本研究收集乳腺癌患者DBT 医学影像,由影像科医生勾画ROI 区域(图1),根据此ROI 区域构建分类器进行分析和研究。
2.2 影像组学特征
本研究从患者DBT 图像中提取的影像组学特征经mRMR 和LASSO 降维筛选后,计算了单独特征预测AUC 值和统计学P 值 (表1)。由表1 可见AUC>0.65 且P<0.05 的影像组学特征对乳腺肿块具有良好的鉴别能力。表1 筛选出的7 个特征中,有2个属于时域特征,5 个属于小波域特征。
图1 乳腺癌恶性与良性DBT 影像与ROI 区域。图1a:恶性乳腺癌患者右侧乳房的DBT 影像。图1b:良性乳腺癌患者右侧乳房的DBT 影像。Figure 1.The malignant and benign DBT image and the ROI region of the breast cancer.Figure 1a:A DBT image of the right breast of malignant breast cancer.Figure 1b:A DBT image of the right breast of benign breast cancer.
表1 筛选获得的乳腺肿块良恶性鉴别的DBT 影像组学特征
2.3 构建诺模图模型
本研究构建了用于乳腺肿块良恶性鉴别的诺模图风险预测模型(图2a),患者乳腺肿块的恶性风险可由计算得到的分数在总分数轴上(Total Points,范围0~100),垂直于轴向下画一条直线与模型底部的总风险轴(Probability,范围0.1~0.9)相交,从而得到风险值。校正曲线表明建立的诺模图模型对预测风险和真实标签(病理检测结果)之间具有良好的一致性(图2b,2c)。其中,校正曲线的横轴和纵轴分别代表诺模图模型计算得到的风险值和真实标签值;经过原点的45°斜线以及图中的虚线分别代表理想诊断结果和诺模图模型的预测结果,虚线与45°斜线越靠近,表明所建立的诺模图模型的鉴别效果越好。本研究建立的诺模图模型在训练集和测试集上的良恶性鉴别AUC 值均较高,分别可以达到0.942 和0.928(图2d,2e)。
诺模图模型的决策曲线见图3,横轴和纵轴分别代表阈概率值和净获益率;蓝色曲线代表假定全部患者均为良性乳腺肿块,红色曲线代表构建的诺模图模型,黑色直线代表假定全部患者均为恶性肿块。由决策曲线分析可知,当阈值概率大于0.07 时,本研究建立的诺模图预测模型对乳腺肿块患者有着更大的获益性,表明该模型具有良好的临床应用价值和潜力。
图2 用于乳腺肿块良恶性辅助鉴别的诺模图模型。图2a:诺模图模型。图2b:诺模图模型在训练集上的校正曲线。图2c:诺模图模型在测试集上的校正曲线。图2d:诺模图模型在训练集上的ROC曲线。图2e:诺模图模型在测试集上的ROC 曲线。Figure 2.A nomogram model for auxiliary differentiation of benign and malignant breast masses.Figure 2a:Nomogram model.Figure 2b:Calibration curve of nomogram model on training set.Figure 2c:Calibration curve of nomogram model on test set.Figure 2d:ROC curve of nomogram model on training set.Figure 2e:ROC curve of nomogram model on test set.
图3 基于诺模图模型绘制的决策曲线(DCA)分析。Figure 3.Analysis of decision-making curve (DCA) drawn based on nomogram model.
2.3 机器学习分类器对比
机器学习分类器广泛应用于医学影像分析领域,本研究对比了三种常见分类器对乳腺肿块的良恶性鉴别能力(表2),由表2 可见KNN 分类器在AUC 值、准确率和敏感性三个指标方面均优于SVM和RF 分类器,而SVM 分类器在AUC 值和准确率方面均最低,不适用于乳腺肿块的良恶性鉴别。
表2 机器学习分类器对乳腺DBT 影像肿块良恶性的鉴别
3 讨论
乳腺DBT 扫描为新近发展起来的一项乳腺癌早期筛查技术,已有临床工作证明乳腺DBT 通过旋转改变扫描角度,能够对乳腺肿瘤及正常组织进行清晰成像,诊断效果显著优于传统的X 线检测,特别适合于亚洲女性的乳腺癌早期筛查工作[18]。由于乳腺DBT 扫描进入临床应用的时间较短,目前缺乏相关计算机辅助分析的研究,2019 年Bevilacqua 等[13]初步提出了一种乳腺DBT 影像的CAD 分类方法,但该研究使用的临床样本量仅为39 例,缺乏临床价值。
为了深入探讨对乳腺DBT 影像进行计算机辅助分析的影像组学技术,本研究收集了160 例经病理验证的乳腺肿块DBT 影像数据,并进行了人工勾画病灶区域和提取影像组学特征。经mRMR 和LASSO 算法筛选后得到的7 个具有良好鉴别能力的影像组学特征中,有1 个属于GLRLM 特征,1 个属于形状特征,还有5 个属于小波变换特征。其中,GLRLM_Run Entropy 特征主要反应影像灰度变换特性,本研究结果表明,与良性肿块相比,恶性肿块在DBT 影像中表现出更大的灰度变化 (如表1 所示,GLRLM_Run Entropy 特征值在恶性组中比良性组中更大)。而Shape_Minor Axis Length 形状特征表明乳腺肿块的形状变化对良恶性有重要影响。此外,在DBT 影像中对良恶性鉴别力最强的7 个影像组学特征里有5 个是属于人类难以理解的小波域特征,这或许可以部分解释临床医生对乳腺DBT 影像的良恶性鉴别存在一定的困难(在很多情况下需要同时参考同一病灶的MRI 影像才能给出诊断结论)的原因。
诺模图是近年来在医学图像的影像组学分析领域中广泛使用的一种形象直观的风险评估模型方法,已有大量研究表明诺模图模型在针对乳腺的医学影像分析中具有良好的临床应用价值[19-20]。为了利用获得的影像组学特征建立计算机辅助模型,本研究进一步绘制了基于乳腺DBT 影像的良恶性鉴别诺模图模型,在测试集中获得了0.928 的高AUC值,并具有良好的特异性(0.839)和敏感性(0.926),表明建立的诺模图模型具有较低的误诊率和漏诊率。DCA 分析也表明模型展示出良好的临床应用潜力。
本研究的一些局限性如下:①本研究使用的乳腺DBT 影像样本量相对较小(160 例患者)。但由于乳腺DBT 检测为新近引入我国的一项乳腺早期筛查新方案,因此当前已积累的数据量确实较少,2019年国外一项最新的乳腺DBT 影像组学分析也仅使用了39 例患者[13]。在今后的研究中我们拟继续扩大样本量以提高建立模型的可信性。②本研究使用的影像数据均来自同一家医院,可能会存在一定的数据偏倚性。未来的研究中,我们拟进一步联合多家医院的采集多中心数据,从而建立鲁棒性更强的计算机辅助分析模型。③本研究对乳腺肿块ROI 的勾画为人手工操作,较为耗时耗力。在下一步研究中我们拟采用深度学习自动分割方法对ROI 区域进行自动分割勾画,以节省医生的精力。
本研究针对临床乳腺DBT 影像进行了特征提取和筛选,并建立了用于良恶性鉴别的诺模图模型。结果表明所建立的模型具有良好的鉴别准确性、特异性和敏感性,具有较好的临床应用潜力,适合于乳腺早期筛查工作中的计算机辅助分析。