基于迁移学习的乳腺肿瘤超声图像智能分类诊断
2019-03-22,*,,,
,*, , ,
(1.暨南大学附属第一医院医学影像中心,广东 广州 510630;2.广东财经大学信息学院,广东 广州 510630)
早期检测和诊断乳腺癌对治疗方案的选择至关重要[1-3]。目前超声已广泛应用于乳腺癌的临床诊断和治疗[4]。但声像图分辨率低,器官之间边界模糊、噪声较多,使判读图像难度较大;此外,乳腺图像判读的主观性强,易致漏诊或误诊[5-6]。研究利用人工智能和数字图像处理等技术,辅助临床提高超声诊断乳腺肿瘤的准确率、降低漏诊率及误诊率具有重要意义[7-8]。常规医学影像计算机辅助诊断(computer-assisted diagnosis, CAD)分为3步:①图像预处理与边缘检测;②图像特征提取;③图像分类,将量化的图像特征数据作为输入,通过构造分类器识别图像中的复杂模式,从而最终区分各种病变。目前常用的图像分类方法为决策树(decision tree, DT)、贝叶斯分类器(bayes classifier, BC)、神经网络(neural network, NN)及支持向量机(support vector machine, SVM)等。分类器是基于特定的样本数据集训练而获得,通常可达到预期效果;但对新的图像样本,分类器需重新训练,适应性有限,且工作重复[9-10]。
新人工智能方法迁移学习运用自身已学习并存有的知识对相关领域内的不同问题进行求解[11-12]。迁移学习能挖掘2个相互关联但又彼此不同的图像间的某些特征和变化,使标注数据和其他监督信息可在相互关联的图像之间实现迁移和重复使用[13-14]。本研究采用迁移学习对乳腺肿瘤声像图进行分类,以期提高人工智能方法对超声图像的分类效率。
1 资料与方法
1.1 一般资料 选取2014年1月—2017年8月于我院接受手术治疗并经病理证实为乳腺肿瘤的447例(447个病灶)患者,均为女性,年龄15~90岁,平均(40.5±14.0)岁。根据病理结果将其分为2组,良性组315例,年龄15~85岁,平均(35.6±11.8)岁,病灶最大径0.32~5.20 cm,平均(2.21±0.90)cm;恶性组132例,年龄29~90岁,平均(51.9±12.3)岁,病灶最大径0.40~10.30 cm,平均(2.60±1.47)cm。本研究经我院伦理委员会批准,所有患者均签署知情同意书。
1.2 仪器与方法 采用Philips iU22、iU-Elite超声诊断仪,高频线阵探头,频率10~16 MHz。嘱患者取仰卧位或侧卧位,常规扫查双侧乳腺及腋窝,记录病灶大小、形态、边缘、内部回声、后方回声、钙化及纵横比等特征。根据2013年美国放射学会的乳腺影像报告和数据系统(breast imaging reporting and data system, BI-RADS)第2版标准进行分类,BI-RADS 2~3类为良性,4~6类为恶性。由2名超声科主治医师采用盲法完成,意见不同时经讨论达成一致。
1.3 图像预处理 为减少原始声像图中病灶周围组织对提取病灶边缘的干扰,以手工方式选取ROI(图1、2)。
1.4 边缘检测 对Roberts、Sobel、Prewitt、Log和Canny算子进行对比,选择合适的边缘检测算子。图3和图4分别为1例良性和1例恶性乳腺肿瘤声像图边缘提取结果对比,其中采用Roberts、Sobel和Prewitt算子对图像的边缘检测效果不理想,Sobel与Prewitt算子的检测效果相近,Log算子检测效果一般,Canny算子的检测效果较好,本研究最终选取Canny算子。
1.5 特征提取 采用主成分分析(principal component analysis, PCA)方法提取乳腺声像图中肿瘤纹理、边缘锋锐程度、肿瘤几何形状、肿瘤图像亮度特征、回声特性等特征[2]的所有变量,删去重复和相互关联的变量,建立两两不相关的新变量,使新变量尽可能少,保留反映乳腺肿瘤原有特征的信息。通过PCA方法分析,选择的计算机定量分析特征指标包括肿瘤面积、坚固度、边缘粗糙度、邻域灰度差矩阵(neighborhood gray-tone difference matrix, NGTDM)粗糙度、肿块后方与周围区域回声差异、水平方向高频分量和垂直方向低频分量的直方图(horizontal high frequency and vertical low frequency components-histogram, HL-H)能量及纵横比,分别对应病灶大小、形态、边缘、内部回声、后方回声、钙化及纵横比等超声指标。
1.6 主动迁移学习算法[15]采用Matlab 7.0软件,Windows XP操作系统。随机选取147例(恶性46例,良性101例)为训练集和300例(恶性101例,良性199例)为测试集。算法步骤:①设M为初始训练样本数,Q为从K个域中取的样例集合,W为未标记样本集,T为算法迭代次数,N为每次迭代搜索到的样例数;②对每个域中的M个数据样例进行随机标记,进而形成初始训练集R;③在初始训练集R基础上训练K个域的分类器;④从W中找出N个最少图像特征损失的样本进行标记,并记为X;⑤按照R←R∪(W*,X*)更新训练集R,从Q中移除W;⑥输出K个域的分类器。
表1 恶性组与良性组超声图像特征定量分析比较(±s)
表1 恶性组与良性组超声图像特征定量分析比较(±s)
组别肿瘤面积(cm2)坚固度边缘粗糙度恶性组(n=132)0.20±0.081 678 869.00±4 129 946.00114.79±74.95良性组(n=315)0.19±0.06578 283.50±619 759.6673.91±32.77t值1.1874.7128.243P值0.682<0.001<0.001组别NGTDM粗糙度肿块后方与周围区域回声差异HL-H能量纵横比恶性组(n=132)0.57±0.262.94±9.870.002±0.0010.004±0.002良性组(n=315)0.47±0.171.36±3.220.003±0.0010.006±0.002t值5.2022.5914.8406.593P值0.0010.0010.0410.874
图1 乳腺肿瘤原始声像图 图2 手工选取ROI
图3 不同算子对良性乳腺肿瘤超声图像边缘检测效果对比 A.原始声像图; B.Roberts算子; C.Sobel算子; D.Prewitt算子; E.Log算子; F.Canny算子
1.7 统计学分析 采用SPSS 19.0统计分析软件。对数据进行正态分析和方差齐性检验,计量资料以±s表示,计数资料以构成比表示;采用两独立样本t检验比较2组各项定量超声指标的差异。P<0.05为差异有统计学意义。
2 结果
2.1 声像图特征定量分析 恶性组与良性组坚固度、边缘粗糙度、NGTDM粗糙度、肿瘤后方与周围区域回声差异及HL-H能量的差异均有统计学意义(P均<0.05);而肿瘤面积及纵横比差异均无统计学意义(P均>0.05)。见表1。
2.2 超声诊断效能 以病理结果为金标准,超声诊断乳腺恶性肿瘤的敏感度为96.21%(127/132),特异度为66.35%(209/315),阳性预测值为54.51%(127/233),阴性预测值为97.66%(209/214),准确率为75.17%(336/447)。
2.3 主动迁移学习算法分类识别结果 以病理结果为金标准,测试集中,主动迁移学习算法诊断乳腺恶性肿瘤的敏感度为96.04%(97/101),特异度为98.49%(196/199),阳性预测值为97.00%(97/100),阴性预测值为98.00%(196/200),准确率为97.67%(293/300)。
3 讨论
图像纹理、边缘锋锐程度、肿瘤几何形状、肿瘤图像亮度、回声特性等超声特征有助于诊断乳腺癌,其中乳腺超声声像图纹理特性、肿瘤几何形状及回声特性是鉴别乳腺肿瘤良恶性的主要依据[16]。本研究对乳腺肿瘤超声声像图的7个定量特征参数进行分析,其中乳腺恶性肿瘤的肿块坚固度、边缘粗糙度、NGTDM粗糙度均高于良性肿瘤,提示声像图中恶性肿瘤形态不规则、边缘不光整、内部回声不均匀的可能性更高,且恶性肿瘤后方与周围区域回声差异更加明显,与既往研究[17]结果一致。
Nascimento等[18]发现形态学特征用于病变分类比纹理特征更佳,且减少的特征集比全组的特征集表现更好。本研究在提取图像特征时,集中选取乳腺肿瘤超声诊断中的二维特征指标,剔除血流参数指标如肿块血流信号分级和血流阻力指数,结果显示良恶性乳腺肿瘤之间,除肿瘤面积和纵横比外,坚固度、边缘粗糙度、NGTDM粗糙度、肿块后方与周围区域回声差异及HL-H能量的差异均有统计学意义(P均<0.05),提示经PCA方法选择的7个定量超声指标较为合理。
图4 不同算子对恶性乳腺肿瘤超声图像边缘检测效果对比 A.原始声像图; B.Roberts算子; C.Sobel算子; D.Prewitt算子; E.Log算子; F.Canny算子
Zhang等[19]建立深度学习自动提取图像特征数据的剪切波弹性学习架构,并对乳腺良恶性肿瘤进行鉴别,结果表明,采用深度学习提出的特征诊断乳腺恶性肿瘤的敏感度为88.6%,特异度为97.1%,准确率为93.4%,提示深度学习可能在乳腺癌的临床计算机辅助诊断中具有潜在的应用价值。但是,该研究对训练的计算需求较大,未进行数据增强,且未分析同一病灶的多幅图像间的相关性和变化。主动迁移学习算法可对属于同一个病灶的多个乳腺肿瘤的超声图像样本数据进行集中自动标记,避免分别标记带来的额外计算,从而提高分类效率。本研究采用主动迁移学习算法,能有效地在相似图像之间进行信息共享和迁移,诊断乳腺恶性肿瘤的敏感度为96.04%,特异度98.49%,准确率97.67%,提示迁移学习方法识别良恶性乳腺肿瘤的声像图有较高的分类诊断效率。
综上所述,主动迁移学习能有效识别良恶性乳腺肿瘤声像图,且准确率较高,有助于避免超声科医师判断的模糊性和主观性,从而使超声诊断乳腺肿瘤更加准确、可靠。