五种人工智能技术在基层乳腺癌超声筛查中的应用比较
2022-05-03鲁京慧张宏艳王亚娟张楠
鲁京慧 张宏艳 王亚娟 张楠
[摘要]目的利用人工智能技術辅助基层乳腺癌超声筛查,为基层医疗数字化服务提供实证依据。方法收集 2019年3月至2021年3月在北京市朝阳区安贞社区卫生服务中心体检及自2004年北京市两癌筛查项目实施以来本单位的两癌筛查的女性的乳腺超声图像,筛选出 BI-RADS 分级3级及以上的乳腺结节图像271例,查找患者随访记录,抽取60例上级医院病理诊断为乳腺癌的图像,60例由上级医院病理确诊的乳腺良性结节图像。利用 Python(随机不放回抽样)随机抽取50例乳腺癌及50例良性结节组成试验组,剩余的10例乳腺癌及良性乳腺结节10例组成测试组。标记感兴趣区(ROI)。提取并筛选图像纹理特征。建立人工智能(AI)模型,其中包括支持向量机(SVM),随机森林(RF),贝叶斯(NB),神经网络(NN),选择树(XGB)5种建模方法。利用 ROC 曲线评价 AI 模型性能。比较 AI 模型之间的性能。结果试验组:5种模型(RF、SVM、NB、NN、XGB)性能的 ROC 曲线的 AUC 值(95%CI)分别为0.806(0.743~0.869),0.835(0.777~0.898),0.859(0.852~0.939),0.843(0.779~0.906),0.906(0.871~0.942)。NN 与 XGB 模型差异无统计学意义(P >0.05), NN 与 XGB 性能明显优于其他3种 AI 模型,差异有统计学意义(P <0.05)。测试组:5种模型(RF、SVM、NB、NN、XGB)性能的 ROC 曲线的AUC 值(95%CI)分别为0.973(0.912~1.000),0.867(0.689~1.000),0.880(0.726~1.000),0.893(0.751~1.000),0.960(0.875~1.000)。5种 AI模型性能两两相互比较,差异无统计学意义(P >0.05)。结论5种 AI 模型均可辅助乳腺癌超声筛查。其中 NN 及 XGB 性能较为突出,可辅助超声诊断乳腺癌。
[关键词]超声;人工智能;乳腺癌;纹理特征;数字医疗
[中图分类号] R445.1 [文献标识码] A [文章编号]2095-0616(2022)07-0163-05
Comparison of five artificial intelligence technologies in the ultrasonic screening of breast cancer at the grass-roots level
LU Jinghui1 ZHANG Hongyan2 WANG Yajuan3 ZHANG Nan1
1. Department of General Medicine, Anzhen Community Health Service Center, Chaoyang District, Beijing 100011, China;2. Department of Ultrasound, Anzhen Community Health Service Center, Chaoyang District , Beijing 100011, China;3. Department of Maternal and Child Health Care, Anzhen Community Health Service Center, Chaoyang District, Beijing 100011, China
[Abstract] Objective To utilize artificial intelligence technology to assist the ultrasonic screening of breast cancer at the grass-roots level, and provide empirical evidence for medical digital service at the grass-roots level. Methods The breast ultrasound images of women who underwent physical examination in Chaoyang District Anzhen Community Health Service Center in Beijing from March 2019 to March 2021 and received two-cancer screening in our unit since the implementation of the two-cancer screening project in Beijing in 2004 were collected.271 breast node images rated as Breast Imaging Reporting and Data System (BI-RADS) category 3 and above were screened out, the follow-up records of patients were searched, and 60 images showing breast cancer pathologically diagnosed in higher-level hospitals and 60 images showing benign breast nodules pathologically diagnosed in higher-level hospitals were selected. By Python (random sampling without replacement), 50 cases of breast cancer and 50 cases of benign nodules were randomly selected and allocated to the experimental group. The remaining 10 cases of breast cancer and 10 cases of benign breast nodules were composed of the test group. The region of interest (ROI)was marked. Image texture features were extracted and screened out. Artificial intelligence (AI) models were established, covering five modeling methods: Support Vector Machine (SVM), Random Forest (RF), Naïve Bayes (NB), Neural Network (NN) and eXtreme Gradient Boosting (XGB). The Receiver Operator Characteristic (ROC) curve was used to evaluate the performance of AI models. The performance of various AI models was compared. Results With regard to the experimental group, the area under the curve (AUC) values (95%CI) of ROC curves indicating the performance of models established by five AI methods (RF, SVM, NB, NN and XGB in order) were respectively 0.806(0.743-0.869), 0.835(0.777-0.898), 0.859(0.852-0.939), 0.843(0.779-0.906) and 0.906(0.871-0.942). There was no statistically significant difference between NN and XGB models (P >0.05). The performance of NN and XGB models was significantly better than that of the other three AI models, with a statistically significant difference (P <0.05). With regard to the test group, the AUC values (95%CI) of ROC curves for testing the performance of five AI models (RF, SVM, NB, NN and XGB in order) were respectively 0.973(0.912-1.000), 0.867(0.689-1.000), 0.880(0.726-1.000), 0.893(0.751-1.000) and 0.960(0.875-1.000). The performances of the five AI models were compared with each other, and the difference was not statistically significant (P >0.05). Conclusion All 5 AI models can assist the ultrasonic screening of breast cancer. The performance of NN and XGB models is outstanding, which can assist ultrasonic diagnosis of breast cancer.
[Key words] Ultrasound; Artificial intelligence; Breast cancer; Texture features; Digital medical treatment
根据《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中提出完善基层医疗体系建设,提高基层医疗服务质量及加快数字化发展等建议[1],将数字技术应用于基层医疗中来提高基层的医疗水平成为基层医疗的一个研究议题。2017年7月,国务院发布了《新一代人工智能发展规划》(简称《规划》)[2],在规划的指導下,医疗是中国人工智能战略的重要领域。2019年1月1日起根据《北京市妇女联合会关于优化整合北京市两癌筛查和长效体检工作的通知》文件内容[3],北京地区女性进行免费乳腺癌筛查。
乳腺癌居中国女性恶性肿瘤的首位,乳腺癌已成为城市中病死率增长最快的癌症[4]。早期乳腺癌的生存率明显高于中晚期乳腺癌,乳腺癌早发现早治疗成为降低病死率的关键。乳腺超声检查由于其廉价,便携及无射线等特点,成为筛查早期乳腺癌的重要手段。研究显示乳腺超声准确率为79.8%~94.35%[5-7],超声诊断的准确率严重依赖于操作者的经验及技术水平。但是基层超声医师技术参差不齐,所以乳腺超声准确率并不高。近年来新兴的人工智能技术提高了很多诊断方法的准确率并且减少操作者之间的差异[8-9]。利用 AI 技术可以规避操作者带来的差异,短时间内提高初学者乳腺超声的准确率。
1资料与方法
1.1 一般资料
收集2019年3月至2021年3月在北京市朝阳区安贞社区卫生服务中心体检及自2004年北京市两癌筛查项目实施以来本单位两癌筛查的女性的乳腺超声图像。纳入标准:乳腺结节图像 BI-RADS 分级3级及以上。排除标准:既往诊断为乳腺癌。共筛选出符合条件的图像271例。查找患者随访记录,取60例上级医院病理诊断为乳腺癌超声图像,60例由上级医院病理确诊的乳腺良性结节图像。利用 Python(随机不放回抽样)随机抽取50例乳腺癌及50例良性结节组成试验组,剩余的10例乳腺癌及良性乳腺结节10例组成测试组。试验组入组患者均为女性,年龄31~86岁,平均(59.0±10.4)岁。测试组入组患者均为女性,年龄41~78岁,平均(61.0±8.9)岁。
1.2 方法
利用 Image J(fiji)图片处理软件处理原始图片,标记感兴趣区(region of interest, ROI)。利用 Python 提取图像纹理特征。利用 Python 筛选有价值的纹理特征并建立人工智能(artificial intelligence, AI)模型,利用哈佛大学3DQI 实验室平台软件建立 AI 模型,其中包括支持向量机(support vector machine, SVM),随机森林(random forest, RF),贝叶斯(Naïve Bayes, NB),神经网络(neural network, NN),选择树(extreme gradient boosting, XGB)5种常用的建模方法。见图1。
1.3 观察指标
利用 BORUTA 算法进行重要特征筛选,利用受试者工作特征曲线(receiver operator characteristic curve, ROC)的曲线下面积(area under the curve, AUC)值、敏感度、特异度、精确度评价 AI 模型性能。敏感度=TP/(TP+FN),特异度=TN/(TN+FP),精确度=TP/(TP+FP)。真阳性(true positive, TP);假阳性(false positive, FP);真阴性(true negative, TN);假阴性(false negative, FN)。
1.4 统计学方法
应用Medcalc(V20.0.3)统计学软件进行数据分析,计量资料用均数±标准差(x ± s)表示,采用 t 检验,利用 Mann-Whitney U 秩和检验方法比较 AI 模型之间的性能, P <0.05为差异有统计学意义。
2结果
2.1 筛选重要特征
试验组提取的重要乳腺癌纹理特征分别是: Height、MinFeret、Minor、Area、FeretAngle、Perim。见图2。
2.2 试验组模型性能及相互比较
试验组 RF、SVM、NB、NN、XGB 模型性能的 ROC 曲线的 AUC 值(95%CI)分别为:0.806(0.743~0.869),0.838(0.777~0.898),0.843(0.852~0.939),0.895(0.779~0.906),0.906(0.871~0.942),见表1。5种 AI 模型性能两两相互比较,NN 模型的 AUC 值小于 XGB 模型,差异无统计学意义(P >0.05)。N N模型的 AUC 值大于 RF 、SVM 和NB 模型,差异有统计学意义( P <0.05); XGB 模型的 AUC 值大于 RF、SVM 和 NB 模型,差异有统计学意义(P <0.05),见表2。
2.3 测试组模型性能及相互比较
测试组 RF、SVM、NB、NN、XGB 性能的 ROC 曲线的 AUC 值(95%CI)分别为:0.973(0.912~1.000),0.867(0.689~1.000),0.880(0.751~1.000),0.893(0.726~1.000),0.960(0.875~1.000),见表3。AUC 值由高至低分别为 RF、XGB、NN、NB、SVM,两两相互比较,差异无统计学意义(P >0.05),见表4。
3讨论
本研究筛选出特征均来自一阶纹理特征,表明形态特征仍然是 AI 模型中判断乳腺肿瘤良恶性的重要特征。形态特征很容易被人眼识别,所以也从侧面印证经过长时间严格训练的超声医师裸眼判断肿瘤性质准确率可以在90%以上[12]。
目前 AI 技术辅助乳腺超声的临床研究往往只应用1种 AI 算法或者是1家公司的 AI 辅助诊断系统[13-16],虽然结果都可以提高乳腺超声诊断的准确性,但缺乏不同方法间的对比,本试验应用5种 AI 方法建立模型,期待能选出较为适合乳腺超声的 AI 模型。在本研究中5种 AI 模型的 AUC 值均大于0.75,均可在临床上作为筛查的方法,其中 NN 及 XGB 模型表现较为优异,其 AUC 值均大于0.85,敏感度、特異度及精确度均大于0.70,证明这两种模型性能优良,可以作为诊断技术应用于临床。
在5种 AI 模型中选择出 NN 及 XGB 模型,与其他类似的研究结果大致相同[17-19]。对于小样本的试验 XGB 技术性能更为突出,本试验也符合这一特点[20]。
本研究测试测试组模型性能,所有模型均表现良好,但并未显示出试验组显示的差异。可能是由于以下原因:首先测试组样本量少,测试组与试验组数据源自同一中心,试验数据同质性高,导致性能表现良好。其次测试数据样本量少,无法体现不同方法之间的差异。
本研究存在以下不足,首先是样本量有限,在以后的研究中不断充实数据,可改善因数据不足导致的缺陷,如过拟合、数据偏倚等问题。其次单中心研究重复性差,以后的研究中我们会加入图形正态化模块,适用于更多中心的图片分析。最后本研究还没有整合成单个独立的运行平台,需要应用多家的软件完成此项工作,在后续的研究中,我们也会致力于运行平台建设,方便临床医生操作及应用。
[参考文献]
[1]中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议[C].中国企业改革发展2020蓝皮书,2020:371-386.
[2] 《新一代人工智能发展规划》[J].科技导报,2018,36(17):113.
[3]北京市卫生和计划生育委员会,北京市财政局,北京市总工会,北京市妇女联合会关于优化整合北京市两癌筛查和长效体检工作的通知[J].北京市人民政府公报,2018(31):68-77.
[4]商木岩,郭帅,张强,等.中国乳腺癌筛查现状[J].实用癌症杂志,2020,35(11):1911-1914.
[5]朱德仓.B 超及钼靶 X 线在乳腺疾病诊断中的对比分析[J].影像研究与医学应用,2020,4(16):48-49.
[6]吐那依木·依克木.乳腺 B 超鉴别乳腺癌的能力分析[J].影像研究与医学应用,2020,4(7):223-224.
[7]彭苑娴.B 超在诊断乳腺占位性病变中的诊断价值[J].黑龙江医药,2020,33(1):183-185.
[8]徐可文,许波,吴英,等.机器学习在超声图像中的应用综述[J].计算机工程与应用,2021,57(4):11-17.
[9]马梦伟,秦耿耿,徐维敏,等.基于 X 线及超声乳腺影像报告和数据系统构建机器学习模型预测乳腺癌分子分型[J].中国医学影像技术,2020,36(12):1814-1819.
[10]王慧珠,苑婉茹,王新霞,等.规培医生应用医学影像 AI 辅助诊断乳腺肿块及使用意愿调查研究[J].现代医药卫生,2021,37(10):1755-1757.
[11] Jeongmin Lee,Sanghee Kim,Bong Joo,et al.Evaluation of the effect of computer aided diagnosis system on breast ultrasound for inexperienced radiologists in describing and determining breast lesions[J].Medical Ultrasonography,2019,21(3):239-245.
[12]臧爱华,姜明,孟聪,等.人工智能系统评估 BI-RADS 4类乳腺肿块的应用价值[J].中华医学超声杂志(电子版),2021,18(8):795-799.
[13]吕明慧,周帅,朱强.基于深度学习乳腺超声计算机辅助诊断系统研究进展[J].中国医学影像技术,2020,36(11):1722-1725.
[14]杨意,姜伟.超声新技术在乳腺良恶性病变诊断中的应用进展 [J]. 肿瘤预防与治疗,2020,33(11):894-900.
[15] 赵添羽,苗术,李靖宇,等 . 乳腺肿瘤超声图像识别模式分类方法的对比研究 [J]. 影像研究与医学应用,2021,5(8):56-57.
[16] 李林翰 . 基于图神经网络的乳腺超声图像小样本分类和生成研究 [D]. 成都:四川大学,2021:1-63.
[17] Zhou BY,Wang LF,Yin HH,et al.Decoding the molecular subtypes of breast cancer seen on multimodal ultrasound images using an assembled convolutional neural network model: A prospective and multicentre study[J].EBioMedicine,2021,74:103684.
[18] Hoyt K,Warram JM,Umphrey H,et al.Determination of Breast Cancer Response to Bevacizumab Therapy Using Contrast-Enhanced Ultrasound[J].Ultrasound in Medicine,2010,29(4):577-585.
[19] Wei Y,Su Z,Li W,et al.Partial dependence of breast tumor malignancy on ultrasound image features derived from boosted trees[J].Journal of Electronic Imaging,2010,19(2):023004.
[20] Moustafa AF,Cary TW,Sultan LR,et al.Color Doppler Ultrasound Improves Machine Learning Diagnosis of Breast Cancer[J].Diagnostics (Basel),2020,10(9):631.
(收稿日期:2021-12-10)