人工智能技术在乳腺结构扭曲检出中的研究进展

2022-02-16刘家玲何子龙陈卫国

国际医学放射学杂志 2022年6期

刘家玲何子龙陈卫国

国际癌症研究机构2020年的最新研究表明，乳腺癌已取代肺癌成为全球发病率第一大癌症[1]。在常见乳腺X线摄影筛查中，结构扭曲（architectural distortion,AD）是继肿块和钙化之后与乳腺癌相关的第3种异常特征，其在乳腺癌X线征象中是最早被发现的，但是有较高的漏诊率及假阳性率[2-3]。AD常表现为边缘模糊的腺体结构异常改变，因与背景密度差异细微，易与纤维腺体组织重叠而表现隐匿，特别在致密型乳腺中更容易被漏诊。对于无手术史及外伤史的AD，放射科医生多建议进行活检以除外乳腺癌。因此，如何有效提高乳腺AD检出的敏感性及准确性，避免不必要的手术活检尤为重要。近20年来，随着人工智能（artificial intelligence,AI）技术的发展，研究人员借助AI不断改进传统计算机辅助诊断（computer aided diagnosis,CAD）模型泛化能力差的缺点来提高AD检出率。本文就机器学习（machine learning,ML）及深度学习（deep learning,DL）在乳腺X线摄影中AD检出方面的研究进展予以综述。

1 AD

在第5版美国放射学会乳腺影像报告和数据系统（Breast Imaging Reporting and Data System,BIRADS）中将AD定义为：腺体正常结构被扭曲，但未见明显的肿块影，包括从一点发出的放射状影或毛刺影，以及乳腺实质局灶性边缘的收缩或扭曲[4]。美国放射学会推荐对非术后变化或脂肪坏死的疑似AD病灶进行活检，以排除恶性肿瘤的可能，但活检阳性预测值总体较低[5]。为了避免不必要的活检，有研究者[6-9]提出基于CAD技术、ML及DL的AI方法来提高AD检出率。

2 传统CAD技术

CAD通过综合运用计算机、数学、统计学、图像处理与分析等方法，进行图像预处理、分割/异常检测、特征提取与选择以及良恶性分类。为了更好地帮助放射科医生解决AD检出率低、假阳性率高的问题，研究者们将CAD技术应用于AD检出，根据AD的灰度、纹理及形态学特征，提出利用统计分析、频率域分析、模型分析及形态学分析方法，实现对疑似AD的兴趣区（ROI）进行特征选择与提取。如Rangayyan等[6]使用Gabor滤波获得图像方向场后提取曲线结构，并利用相图分析上述结果。该研究对19例含有AD的乳腺X线影像进行了测试，敏感度达84%，每幅影像的假阳性病灶为7.8个。Tourassi等[10]通过计算分形维数进行分形分析，在乳腺X线影像数字化数据库（digital database for screening mammography,DDSM）中的112个含AD的ROI和1 388个正常乳腺组织的ROI上测试，结果显示受试者操作特征曲线下面积（AUC）为0.89±0.02。综上，传统CAD技术能在一定程度上降低AD漏诊率及提高检出率，有助于放射科医生提高检测乳腺癌的敏感度。但传统CAD技术需参照预先手动定义的计算公式提取某一特征，难以有效解释变化多样的AD特征。可见，在实际应用中基于传统CAD技术检测模型的泛化能力较差，亟需提出更为切合临床需要的乳腺AD检测技术。

3 AI技术在AD检出中的应用

3.1 ML尽管研究者一直在优化CAD技术，但现有的算法对乳腺AD的检出性能并没有达到令人满意的水平，因此国内外研究者提出基于ML的CAD算法以提高AD检出率。龚等[7]对19个含AD的ROI和19个正常乳腺组织的ROI进行频域小波变换，以支持向量机（support vector machines,SVM）建立分类模型，获得的准确度为92.1%，敏感度为89.5%，特异度为94.7%。Biswas等[11]构建基于高斯混合模型的乳腺影像纹理概率模型，利用SVM区分19个含AD的ROI和21个正常乳腺组织的ROI，结果显示敏感度为81.3%，每幅影像有3.6个假阳性病灶。Guo等[12]通过计算空隙度和分形布朗运动模型来表征乳腺的纹理特征，利用SVM区分正常乳腺和含AD的ROI，对来自乳腺影像分析协会（mammographic image analysis society,MIAS）数据库中的19个含AD的ROI和41个正常乳腺组织的ROI进行检测，结果显示AUC值为0.875。Narváez等[13]提出基于图形理论和线性显著性域的方法，通过提取ROI区域内和边缘的线性结构信息，按照不同的权重组成新的特征向量，最后以SVM建立分类模型，对来自DDSM中的123个含AD的ROI和123个正常乳腺组织的ROI以及19个来自MIAS数据库的含AD的ROI和19个正常乳腺组织的ROI进行检测，结果准确度分别为89%和87%，敏感度分别为85%和95%，特异度分别为93%和84%，AUC值均为0.93。Zyout等[14]采用基于二维经验模式分解（bidimensional empirical mode decomposition,BEMD）算法的多尺度分形分析，从MIAS数据库中提取19个含AD的ROI和207个正常乳腺组织的ROI，以SVM建立分类模型，得到的准确度为91.7%。Banik等[15]通过Gabor滤波器和相图分析自动提取出4 224个ROI，其中301个ROI含AD，对每个ROI计算分形维数、功率角扩散熵、Law’s纹理能量以及Haralick纹理特征，结果显示贝叶斯分类器、Fisher线性判别分析以及单层前馈神经网络的AUC值分别为0.76、0.75和0.78；使用贝叶斯分类器和留一法时的敏感度分别为0.80和0.90，每幅影像假阳性病灶分别为5.8和8.1个。Kamra等[16]使用空间灰度共生矩阵、基于分形特征和傅里叶功率谱的组合来表征AD纹理特征，分别在θ=0°、45°、90°及135°4个方向进行量化；以SVM建立分类模型，对DDSM数据库中的146个含AD的ROI和75个非AD的ROI进行评估，准确度达92.94%，敏感度达93.33%；对MIAS数据库中的58个含AD的ROI和108非AD的ROI进行评估，准确度达95.34%，敏感度达92.30%。

3.2 DL随着计算资源和大规模标记数据的快速增长，DL技术用于乳腺X线影像的研究不断丰富。基于DL算法的CAD系统直接运用影像训练和构建模型，从原始输入数据中自动学习数据特征来替代手工提取的传统方法，实现端到端的自主学习，使CAD系统水平提升了一个层次。de Oliveira等[17]设计了一种基于卷积神经网络（convolutional neural network,CNN）的自动编码器，作为CAD的特征描述符来检测AD。该模型使用从175例含AD和175例不含AD的乳腺X线影像中提取的140 000个ROI进行训练，分别使用所提出的自动编码器和其他常见的特征描述符对分类器的性能进行验证，结果显示，该自动编码器的性能略高于其他描述符，其准确度为75.3%，AUC值为0.83。Oyelade等[18]提出了一种具有卷积层-卷积层-池化层结构的CNN模型，通过使用数据增强技术提高其性能来检测AD。该方法对MIA数据库中的5 136个ROI、INbreast数据库中的410个全图像、MIA数据库中的322个全图像和CBS-DDSM数据库中的55 890个ROI进行训练，结果显示准确度为93.75%。Rehman等[19]为了克服传统深度神经网络只对特征图像使用单通道处理的缺点，基于计算机视觉算法进行AD检测及深度二维V-net64 CNN进行AD分类。分别对PINUM、CBIS-DDSM和DDSM数据库中的3 462例、3 568例和5 500例的乳腺X线影像进行评估，结果显示模型准确度分别为0.95、0.97和0.98。Lakshmanan等[20]提出使用边缘结构的几何特性检测乳腺AD；该方法使用各向同性SUSAN滤波器来确定包含AD的ROI，利用相位一致性计算这些区域的边缘特征，采用反向传播神经网络（back propagation neural network,BPNN）对可疑区域进行分类；该研究分别对MIAS、DDSM及Lakeshore医院中的60例、100例及100例乳腺X线影像进行测试，结果显示敏感度分别为89%、89.8%和97.6%，特异度分别为90.9%、85%和96.7%。Du等[21]采用顶底帽变换和指数变换对图像进行增强，并利用非下采样轮廓波变换来增加影像对比度并降低噪声，其次采用改进的脉冲耦合神经网络对AD进行检测。对DDSM中的2 500例乳腺X线影像进行测试，结果显示其特异度为98.73%，准确度为93.16%，AUC值为0.93。

综上所述，相比于传统CAD、ML等AD检测方法，基于DL方法通过模拟人脑的思维方式，对图像进行复杂的卷积操作，可以提取并学习到比传统算法更深层次的特征。深度神经网络可以从输入的原始像素中学习得到乳腺AD局部的纹理、形状和边缘等低层特征，结合各种滤波器组合的中间层特征，得到不断抽象的高层语义特征，从而描述ROI的全局特征信息。这样既降低人工设计特征的负担，又可以得到从原始输入到高层语义的有效特征表达，从而提升检测效果。但通过增加网络深度和复杂度来提高神经网络的非线性表达能力的同时，也增加了对神经网络的训练难度。目前已发表的相关文献[17-19]表明，基于CNN的乳腺AD检测方法是最为广泛的DL目标检测方法，在保证检测算法敏感性的同时，又大幅度降低了假阳性率，一定程度上可以为放射科医生提供更准确的参考意见。

4 小结与展望

基于CAD及AI技术的乳腺AD检测可以分为图像预处理、分割与病变检测、特征提取、选择、分类5个步骤。由于图像往往存在噪声且缺乏锐度，故需要通过图像增强和增加对比度进行图像预处理，如利用小波变换和Gabor变换等方式对图像进行增强，以提升和改进乳腺AD检测的效果。为了减少周围组织或背景对ROI检测的干扰，大多研究者利用阈值法将ROI从背景或周围组织中分离出来，其中Otsu阈值分割算法是应用最普遍的。图像特征提取中使用较多的图像特征，包括纹理特征、边缘特征、形态学特征及几何特征等，统计分析、频率域分析、模型分析、形态学分析以及DL模型等方法得到了广泛应用，其中绝大多数的相关研究采用了Gabor过滤器和相图分析。图像分类方法中使用最多的是SVM方法；另外，Softmax、贝叶斯分类、线性判别分析、人工神经网络等分类方法使用也比较频繁。目前，应用于乳腺图像分析的DL模型主要包括CNN及其改进模型。由于神经网络需要大量的数据进行学习，但充足且带有注释的影像标记样本通常难以收集，导致数据缺乏完整性。因此，采用迁移学习和数据增强方法可解决因标记样本过少导致过拟合问题，同时可为样本不足问题提供有效的解决方案。

综上所述，AI在乳腺X线影像的应用比较广泛，无论是基于ML的方法，还是基于DL的方法都有大量成果，这些方法能提高放射科医生诊断的准确性并有助于做出更好的决策。虽然全视野数字乳腺X线摄影（full－field digital mammography,FFDM）是临床指南推荐的首选筛查方式，但该检查方法的影像重叠较多，影响AD检出的准确性。数字乳腺断层摄影（digital breast tomosynthesis,DBT）能消除乳腺组织重叠的影响，从而减少AD的漏诊，因此可联合使用DBT和FFDM来提高AD检出率。一些研究[22-24]在DBT影像上使用CAD技术检测AD，结果表明，相比FFDM，其检出AD的准确性更高，假阳性更低，但仍需大样本的DBT影像进一步验证。另有一些研究者[25-26]提出应用基于生成性对抗网络（generative adversarial network,GAN）的图像生成方法以提高模型性能。另外，Wan等[27]提出在AI支持系统的辅助下，可以在一定程度上提高低年资放射科医师对恶性AD的检出率。

目前业界普遍认为，设计合理目标函数优化方法，减少医学图像数据人工标注的成本是未来研究重点之一。每种算法都有其局限性，目前的单一分类器都不能完全解决所有的问题或者达到应用系统的要求，采用多算法融合可以将不同算法优缺点互补，从而得到更高效、更具鲁棒性的CAD系统，这也是将来研究主要关注点之一。

总之，基于ML和DL的AI技术特征表达具有强大的数据描述能力，其在识别精度和模型泛化能力方面比传统CAD方法更胜一筹，通过不断改进方法、提升医学图像采集技术和增加标记样本集数量，可进一步完善基于乳腺X线影像的乳腺AD检测方法。