APP下载

基于深度学习的乳腺X线辅助诊断系统对乳腺钙化检出和良恶性分类的临床价值

2024-10-30翟天旭张敏伟张子秋孔德懿李德春

分子影像学杂志 2024年1期
关键词:深度学习乳腺癌人工智能

摘要:目的" 探讨基于深度学习的乳腺X线辅助诊断(DL)系统对乳腺钙化检出和良恶性分类的临床价值。方法" 回顾性分析在2020年1月~2022年12月在徐州市中心医院接受双侧乳腺X线检查的400例患者的头尾位和内外斜位影像资料。以2位具有15年以上乳腺X线诊断经验的副主任医师对乳腺钙化的一致判断作为标准组,由1位低年资住院医师、1位高年资主治医师和DL系统分别盲法独立阅片,经过4周洗脱期后,由联合模型(低年资医师+DL系统)再次盲法独立阅片。结合双向表χ2检验,评价不同乳腺ACR类型、钙化形态和分布、BI-RADS分类对钙化检出的影响,并采用ROC曲线下面积(AUC)评价低年资住院医师、高年资主治医师、DL系统和联合模型(低年资住院医师+DL系统)对可疑钙化检出的性能差异。结果" 1600幅图像(400例患者)共检出BI-RADS 3级及以上可疑钙化975处。低年资住院医师A,高年资主治医师B、DL系统和联合模型对钙化检出的敏感度分别为81.95%、96.62%、93.03%、96.41%。高年资主治医师B、DL系统和联合模型对钙化检出的敏感度不受乳腺ACR类型、钙化形态和分布、BI-RADS分类影响,而低年资住院医师A对钙化检出的敏感度受其影响。联合模型(低年资住院医师+DL系统)在预测钙化良恶性方面具有良好的AUC值、敏感度和特异性,分别为0.891、90.0%和88.2%,和低年资住院医师之间存在差异(Plt;0.01)。在DL系统帮助下,低年资住院医师的诊断性能得到明显改善,AUC值由0.740提升到0.891。结论" DL系统对BI-RADS 3级及以上可疑钙化检出敏感度高且具有较高的良恶性钙化分类性能,与高年资主治医师相当。在DL系统的帮助下,低年资医师可以减少钙化漏诊、误诊,提高乳腺癌筛查和诊断的准确性。

关键词:乳腺X线摄影;可疑钙化;深度学习;乳腺癌;人工智能

Clinical value of a deep learn‑based mammography assisted diagnosis system for breast calcification detection and benign and malignant classification

ZHAI Tianxu1, ZHANG Mingwei1, ZHANG Ziqiu1, KONG Deyi2, LI Dechun1

1Affiliated Xuzhou Clinical College of Xuzhou Medical University, Xuzhou 221009, China; 2Department of Radiology, Xuzhou Central Hospital, Xuzhou 221009, China

Abstract: Objective To investigate the clinical value of the deep learning-based mammography-assisted diagnosis (DL) system for breast calcification detection and benign and malignant classification. Methods A retrospective analysis was performed on the craniocaudal and internal and external oblique imaging data of 400 patients who underwent bilateral mammography in Xuzhou Central Hospital from January 2020 to December 2022. The unanimous judgment of two associate chief physicians with more than 15 years of experience in mammography diagnosis was used as the standard group, the images were blinded and independently reviewed by 1 junior resident, 1 senior attending physician, and the DL system, respectively. After a 4-week washout period, the images were blinded and independently reviewed by the combined model (junior resident+DL system) again. Combined with two-way table chi-square test , the effects of different ACR types, morphology and distribution of calcification, and BI-RADS classification on the detection of calcification were evaluated. The area under the curve (AUC) was used to evaluate the difference in the detection of suspicious calcification among junior residents, senior attending physician, DL system and combined model (junior resident+DL system). Results A total of 975 suspicious calcifications of BI-RADS3 grade and above were detected in 1600 images (400 patients). The sensitivities of junior resident A, senior attending physician B, DL system and combined model were 81.95%, 96.62%, 93.03% and 96.41%, respectively. The sensitivity of senior attending physician B, DL system and combined model to calcification detection was not affected by breast ACR type, morphology and distribution of calcification, and BI-RADS classification, while the sensitivity of junior resident A was affected by it. The combined model (junior resident + DL system) had high AUC value, sensitivity and specificity in predicting the benign and malignant nature of calcifications, with 0.891, 90.0% and 88.2%, respectively, which differed from that of the junior resident (Plt;0.01). With the help of the DL system, the diagnostic performance of the junior resident was significantly improved, and the AUC value increased from 0.740 to 0.891. Conclusion The DL system is highly sensitive to the detection of suspicious calcifications of BI-RADS 3 grade and above, and has a high classification performance of benign and malignant calcifications, which is comparable to that of senior attending physician. With the help of the DL system, the junior resident can reduce the missed diagnosis of calcification and misdiagnosis, and improve the accuracy of breast cancer screening and diagnosis.

Keywords: mammography; suspicious calcification; deep learning; breast cancer; artificial intelligence

收稿日期:2023-07-05

基金项目:江苏省十四五医学重点学科项目(ZDXK202237); 徐州市科学技术局社会发展项目(KC15SH061)

作者简介:翟天旭,在读硕士研究生,E-mail: 382852742@qq.com

通信作者:李德春,硕士,主任医师,E-mail: 18952171358@189.cn

乳腺癌是全球最主要的癌症之一,也是导致女性癌症死亡的主要原因[1]。早期乳腺癌被认为是可治愈的,早发现、早治疗对于改善患者预后具有重要意义[2]。钙化是早期乳腺癌的重要甚至唯一征象,对于钙化敏感度很高的乳腺X线检查是检测乳腺疾病的重要影像手段[3]。目前我国医学影像资料年增长率远超放射科医师数量年增长率,放射科医师处理影像数据的压力不断增大[4]。人工阅片诊断钙化过程中由于注意力下降和视觉疲劳等因素,导致放射科医师易漏诊密度低、面积小的钙化及致密型乳腺中的钙化[5]。近年来,随着人工智能技术的飞速发展,基于深度学习的计算机辅助诊断(CAD)已经逐渐整合到放射科诊断乳癌疾病的日常工作中[6-7]。既往研究已经探讨了DL系统与放射科医师对于不同类型乳腺钙化检出能力的差异,证实了DL系统可以帮助低年资医师提高对不同类型乳腺钙化的检出能力[5, 8-10]。但既往研究仍未对DL系统与放射科医师对于良恶性钙化分类性能的差异进行探讨;另外,放射科医师独立阅片和在DL系统帮助下联合阅片两次阅片之间未经历“阅片洗脱期”,首次独立阅片对后续联合阅片的影响无法避免。

本研究旨在分析DL系统与放射科医师对于不同类型乳腺钙化的检出能力和良恶性钙化分类性能差异,探讨深度学习辅助诊断系统的临床价值。本研究在既往研究的基础上,进行了以下创新:本研究在国内此类研究中首次提出“阅片洗脱期”的概念,即放射科医师独立阅片和在DL系统帮助下联合阅片之间必须有一定时间间隔,尽量消除首次独立阅片对后续联合阅片的影响;不仅对DL系统和放射科医师对于不同类型钙化检出能力进行了比较,而且通过对ROC曲线和曲线下面积(AUC)的分析探讨了DL系统和放射科医师对良恶性钙化分类性能的差异,进一步探讨了基于深度学习的DL系统是否在放射科医生日常工作中发挥着重要作用,现报道如下。

1" 资料与方法

1.1" 一般资料

回顾性分析2020年1月~2022年12月在徐州市中心医院接受双侧乳腺X线检查的14 844例女性患者,筛选出400例以钙化为唯一病变征象的患者,年龄23~76(49.7±4.15)岁。纳入标准:行双侧腺X线检查前未进行手术切除、放化疗、穿刺活检等治疗;图像质量清晰符合诊断要求,头尾位和内外斜位影像资料完整;图像中仅含钙化病变。排除标准:行双侧腺X线检查前进行手术切除、放化疗、穿刺活检等治疗;图像质量不符合诊断要求,头尾位或内外斜位影像资料不完整;图像中含有肿块、结构扭曲、不对称致密等征象。本研究获得徐州市中心医院医学伦理委员会审核批准(批件编号:XZXY-LK-20231010-0158)。

1.2" 图像采集

图像采集设备为Hologic Selenia Dimensions数字乳腺X线机(美国Hologic),阳性靶面材料为钨,阴性靶面材料为铑和银。自动选择参数或自动曝光控制由设备自动选择。曝光电压范围22~39 kV,曝光电流范围3~500 mA,常规拍摄患者双侧乳腺头尾位和内外斜位图像,采集方法均符合中华医学会放射学分会乳腺学组制定的乳腺X线摄影检查和诊断共识[11]。

1.3" 图像处理与参照标准建立

1.3.1" 可疑钙化检出的参照标准" "由2位具有15年以上乳腺疾病诊断经验的副主任医师依据2013年美国放射学院发布的乳腺影像报告和数据系统(BI-RADS)第5版对图像进行盲法独立阅片,记录乳腺ACR类型并对钙化进行分析,记录其BI-RADS分级、形态、分布。当2位医师评估结果不一致时,经讨论后得出最终结果,并以此作为参照组。由DL系统、低年资住院医师A(3年乳腺X线诊断经验)和高年资主治医师B(7年乳腺X线诊断经验)分别盲法独立阅片,经过4周洗脱期后,由联合模型(低年资住院医师A+DL系统)再次盲法阅片,记录4种方法检测出BI-RADS 3级及以上可疑钙化的数量及对可疑钙化BI-RADS分级、形态、分布的评估。

1.3.2" 可疑钙化良恶性分类的参照标准" "公布2位具有15年以上乳腺疾病诊断经验的副主任医师检测出的975处BI-RADS 3级及以上可疑钙化,但暂不告知低年资住院医师A和高年资主治医师B可疑钙化的BI-RADS分级,规定BI-RADS 3级、4A级及4B级钙化共765处为良性倾向钙化,4C级和5级钙化共210处为恶性倾向钙化。由DL系统、低年资住院医师A和高年资主治医师B分别盲法独立阅片,经过4周阅片洗脱期后,由联合模型(低年资住院医师A+DL系统)再次盲法阅片,分别记录4种方法对每一处可疑钙化的BI-RADS分级评估,与标准组对照计算4种方法的敏感度、特异性、阳性预测值和阴性预测值。

1.4" DL系统

DL系统为医准智能乳腺X线摄影辅助诊断系统,开发公司:北京市医准智能科技有限公司,版本号:V1.0。以标准协议的DICOM数据输入,自动检出钙化并分级、分类。

1.5" 统计学分析

采用SPSS25.0统计分析软件,计量资料符合正态分布以均数±标准差表示;计数资料以n(%)表示,采用χ2检验评估DL系统、医师A,医师B和联合模型的钙化检出敏感度,双向表χ2检验评估不同乳腺ACR类型、钙化形态和分布和BI-RADS分类对DL系统、医师A,医师B和联合模型检出钙化的影响;通过ROC曲线和AUC评价4种方法预测钙化良恶性的性能,采用Delong检验比较不同方法AUC的差异。以Plt;0.05为差异有统计学意义。

2" 结果

2.1" DL系统、放射科医师和联合模型之间对钙化检出敏感度的比较

2.1.1" 不同乳腺ACR类型对4种方法检出可疑钙化敏感度的影响" "1600幅图像中共检出BI-RADS 3级及以上可疑钙化975处,其中BI-RADS 3级钙化54处、4A级385处、4B级326处、4C级154处、5级56处。DL系统、医师A、医师B和联合模型对不同ACR乳腺构成的钙化检出情况显示,医师A钙化检出敏感度低于医师B、DL系统和联合模型(χ2=109.588、54.640、105.655,Plt;0.05);在DL系统帮助下,联合模型和医师B在不同ACR乳腺构成的钙化检出敏感度差异无统计学意义(χ2=0.061,P=0.805)。4种方法对于b、c和d类乳腺钙化检出敏感度差异有统计学意义(Plt;0.05),对于a类乳腺钙化检出敏感度差异无统计学意义(Pgt;0.05,表1)。

2.1.2" 不同形态、不同分布的钙化对4种方法检出可疑钙化敏感度的影响" "DL系统、医师A,医师B和联合模型对不同形态、不同分布的钙化检出比较情况显示,在钙化分布上,4种方法漏检钙化主要为呈区域性分布和团簇样分布的细小多形性钙化、不定形模糊钙化,主要是由于其范围小、密度较低,在腺体背景的衬托下难以发现(图2)。4种方法对于弥漫分布和线样分布钙化的检出检出敏感度的差异无统计学意义(Pgt;0.05);对其余3种分布钙化,医师A与医师B和联合模型钙化检出敏感度的差异有统计学意义(Plt;0.05),而联合模型与医师B钙化检出敏感度的差异无统计学意义(Pgt;0.05)。对于不同形态钙化,4种方法对点状钙化的检出敏感度的差异无统计学意义(Pgt;0.05);对其余4种形态钙化,医师A与医师B和联合模型钙化检出敏感度的差异均有统计学意义(Plt;0.05),而联合模型与医师B钙化检出敏感度差异无统计学意义(Pgt;0.05,表2~3)。

2.1.3" 不同BI-RADS分级的钙化对4种方法检出可疑钙化敏感度的影响" "DL系统、医师A、医师B和联合模型对不同BI-RADS分级钙化检出的敏感度比较结果显示,4种方法对于BI-RADS 3级、5级钙化检出敏感度的差异无统计学意义(Pgt;0.05)。医师A与医师B、DL系统和联合模型对不同BI-RADS分级钙化检出的敏感度差异主要是BI-RADS 4级钙化的漏检,共865处BI-RADS 4级钙化,医师A检出700(80.92%)处,医师B检出831(96.07%)处,DL系统检出807(93.29%)处,联合模型检出828(95.72%)处;医师A与医师B、DL系统和联合模型对于BI-RADS 4级钙化检出敏感度的差异有统计学意义(χ2=97.445、58.938、91.831,Plt;0.05),而医师B和联合模型对于BI-RADS 4级钙化检出敏感度的差异无统计学意义(χ2=0.132,P=0.716,表4)。

2.2" DL系统、放射科医师和联合模型之间对良恶性钙化分类性能的比较

联合模型的诊断能力优于低年资住院医师A(Plt;0.01)。低年资住院医师在有人工智能辅助时,诊断能力得到明显改善,AUC值从0.740增加到0.891,主要是由于诊断敏感度的提高。DL系统的诊断能力优于联合模型(Plt;0.01,表5、图1,2)。

3" 讨论

近年来,随着计算机计算力的普遍提高和医院开始重视医疗数据的收集累积,包括大量的医学影像资料,拥有自动分析图象能力的深度学习引来越来越多的关注[12]。人工智能深度学习在乳腺癌筛查领域已经取得了一定的进展,相关研究主要围绕提高肿块和钙化检出的准确率展开[13-15]。基于卷积神经网络的深度学习技术被证明可以提高乳腺癌筛查的准确性和效率。本研究中,DL系统对BI-RADS 3级及以上可疑钙化检出的敏感度为91.0%,漏检钙化主要为不定形模糊钙化和细小多形性钙化,其形态小而模糊(图2)。在既往报道中AI对检出不同形态或分类钙化的敏感度在64.9%~100%区间内[8,16]。

精确检出乳腺钙化并准确预测钙化良恶性具有重要意义。良性钙化患者可以避免焦虑、良性活检和不必要的治疗干预,而真正的高危患者可以快速进一步确认治疗策略,以防延误治疗时机。但在当前的临床实践中,放射科医师对乳房 X光摄影图像的主观解释各不相同。据报道,只有59.0%和63.0%的放射科医师在乳房 X 线摄影筛查中达到了推荐的异常判读率和特异性水平[17]。在目前专业放射科医师短缺的情况下,由于放射科医师的工作量较大,放射科医师的表现可能会在更大规模的乳房X光筛查中受到进一步影响[13]。本研究中,DL系统在可疑钙化的检出和可疑钙化的良恶性分类两方面均优于低年资住院医师,提示人工智能在乳腺X线检查方面具有良好的应用前景,有望在乳腺癌筛查中发挥重要作用。

此外,本研究中联合模型(低年资住院医师+DL系统)对可疑钙化的分类性能明显高于低年资住院医师A,却低于DL系统,这提示医师A对部分可疑钙化进行良恶性分类时在得知DL系统的诊断结果后仍然坚持了自己的判断。在之后对医师A的回访中,证实了这一点。

亚洲女性的乳腺密度较欧美女性更高[18],而乳腺密度和乳腺癌风险成正相关关系,乳腺X线摄影对于致密性乳腺检测的敏感度和特异性是有限的,放射科医师筛查乳腺癌的敏感度会随着乳腺密度的增加而降低[19]。本研究中,DL系统和低年资住院医师对于a类乳腺钙化检出敏感度差异无统计学意义,对于b、c、d类乳腺钙化检出敏感度联合模型(低年资住院医师+DL系统)明显高于低年资住院医师,提示DL系统可以帮助低年资住院医师减少因乳腺密度高导致的钙化漏检。由DL系统在致密型乳腺中快速找出病灶,与放射科医师共同分析诊断、相互印证补充,对提高乳腺可疑钙化诊断的准确率具有重要意义。有研究认为不同乳腺密度对低年资住院医师检出钙化有影响,而对DL系统无影响[9],这与本研究结果一致。

本研究的主要局限性:首先,本研究为单中心调查,由于许多患者因缺乏病理报告而被排除,因此本回顾性研究可能存在对患者的选择偏倚;其次,乳房X光摄影图像来自同一台设备且纳入研究的400例患者大多数来自中国淮海经济区,DL系统对于其它品牌乳腺X线机拍摄和其他地区女性的乳房X光摄影图像的钙化检出敏感性及良恶性分类性能需要进一步验证。后续研究将联合多中心并增加样本量予以进一步验证,以增加研究结论的可靠性。

综上所述,DL系统对乳腺钙化检出和良恶性分类性能方面显著优于放射科低年资住院医师,不弱于放射科高年资主治医师。DL系统的应用有助于低年资放射科医师减少漏诊、误诊,尤其可以减少不定形钙化、细小多形性钙化、BI-RADS 4级钙化的漏检,提高低年资医师对BI-RADS 3级及以上可疑钙化良恶性分类的准确率。

参考文献:

[1]" "Bray F, Ferlay J, Soerjomataram I, et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA A Cancer J Clinicians, 2018, 68(6): 394-424.

[2]" "Harbeck N, Gnant M. Breast cancer[J]. Lancet, 2017, 389(10074): 1134-50.

[3]" "Son J, Lee SE, Kim EK, et al. Prediction of breast cancer molecular subtypes using radiomics signatures of synthetic mammography from digital breast tomosynthesis[J]. Sci Rep, 2020, 10(1): 21566.

[4]" "金征宇. 人工智能医学影像应用: 现实与挑战[J]. 放射学实践, 2018, 33(10): 989-91.

[5]" "王小琦, 刘" 鹏, 陈" 赜, 等. 基于深度学习的乳腺X线摄影钙化检测系统对乳腺可疑钙化的检出效能[J]. 中国医学影像技术, 2019, 35(12): 1784-8.

[6]" "Fenton JJ, Taplin SH, Carney PA, et al. Influence of computer-aided detection on performance of screening mammography[J]. N Engl J Med, 2007, 356(14): 1399-409.

[7]" "Niu SH, Huang JH, Li J, et al. Application of ultrasound artificial intelligence in the differential diagnosis between benign and malignant breast lesions of BI-RADS 4A[J]. BMC Cancer, 2020, 20(1): 959.

[8]" "李" 欣, 梁" 森, 黄正南, 等. 乳腺X线AI智能病灶检测[J]. 放射学实践, 2018, 33(10): 1029-32.

[9]" "周" 娟, 王婷婷, 李" 明, 等. 基于深度学习的乳腺X线摄影钙化检出系统评估[J]. 中华放射学杂志, 2019, 53(11): 6.

[10]" "哈婷婷, 潘" 俊, 王洪光, 等. 基于深度学习的乳腺X线摄影病灶检出系统的临床价值[J]. 中国医学影像技术, 2019, 35(12): 1789-93.

[11]" 中华医学会放射学分会乳腺学组. 乳腺X线摄影检查和诊断共识[J]. 中华放射学杂志, 2014, 48(9): 711-7.

[12]" Oliver A, Freixenet J, Martí J, et al. A review of automatic mass detection and segmentation in mammographic images[J]. Med Image Anal, 2010, 14(2): 87-110.

[13] Liu HH, Chen YH, Zhang YZ, et al. A deep learning model integrating mammography and clinical factors facilitates the malignancy prediction of BI‑RADS 4 microcalcifications in breast cancer screening[J]. Eur Radiol, 2021, 31(8): 5902-12.

[14] Lotter W, Diab AR, Haslam B, et al. Robust breast cancer detection in mammography and digital breast tomosynthesis using an annotation-efficient deep learning approach[J]. Nat Med, 2021, 27(2): 244-9.

[15]" Zhang F, Wu SD, Zhang C, et al. Multi-domain features for reducing 1 positives in automated detection of clustered microcalcifications in digital breast tomosynthesis[J]. Med Phys, 2019, 46(3): 1300-8.

[16]" Lei CQ, Wei W, Liu ZY, et al. Mammography-based radiomic analysis for predicting benign BI-RADS category 4 calcifications[J]. Eur J Radiol, 2019, 121: 108711.

[17]" Lehman CD, Arao RF, Sprague BL, et al. National performance benchmarks for modern screening digital mammography: update from the breast cancer surveillance consortium[J]. Radiology, 2017, 283(1): 49-58.

[18]" 彭芳芳, 沈坤炜. 中西方女性乳腺密度与乳腺癌发病关系的研究进展[J]. 中国癌症防治杂志, 2020, 12(4): 469-74.

[19]" 徐泽园, 秦耿耿, 陈卫国. 致密型乳腺影像筛查技术及研究进展[J]. 国际医学放射学杂志, 2019, 42(3): 312-6.

(编辑:熊一凡)

猜你喜欢

深度学习乳腺癌人工智能
绝经了,是否就离乳腺癌越来越远呢?
乳腺癌是吃出来的吗
胸大更容易得乳腺癌吗
2019:人工智能
人工智能与就业
别逗了,乳腺癌可不分男女老少!
数读人工智能
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究