AI辅助肺结节诊断的可视化知识图谱分析
2023-12-03李艳红任俊宇孙希文黄海量
李艳红 任俊宇 孙希文 黄海量
肺癌作为全球发病率第二、死亡率第一的恶性肿瘤,严重影响人类健康。肺结节作为肺癌的初期表现,及时地发现和准确地诊断其良恶性使患者及早接受治疗,避免错诊漏诊,对于肺癌防治及肺结节的治疗具有重要的意义[1]。CT 图像作为肺结节诊断的首选,具有无创及分辨率高等优点,美国肺部筛查试验的报告[2]表明,使用CT 图像进行诊断使得肺癌死亡率降低20%。但是由于肉眼难辨别肺结节,早期肺癌从影像上不易诊断,仍然存在较高的误诊率和漏诊率。随着近年AI 技术的快速发展与应用,其在肺结节的辅助诊断方面发挥着重大作用。
本研究借助文献可视化工具CiteSpace 构建各种可视化知识图谱,梳理AI 辅助肺结节诊断的研究进展,发现该领域的关键文献、重点期刊、活跃作者、核心机构等,厘清它们之间的合作情况以及自身状态,有助于该领域的研究者或科研团队把握发展方向,寻求更有效合作和科研成果的传播,推动AI 更好地赋能肺结节诊断。
方法
1. 文献检索
以Web of Science (WOS)核心合集数据库为检索的数据来源。
检索策略: 所有字段为(ai OR artificial intelligence OR deep learning OR machine learning OR computer - assisted diagnosis OR computer aided diagnosis) AND pulmonary nodule,获得相关文献1 468篇。
CiteSpace 5.5 R2 软件选项设置如下。Time Slicing: from 2003 JAN to 2023 JAN, #Years Per Slice: 1; Selection Criteria: g-index, k=25。其含义为以1年为单位时间来划分2003—2023年的数据,取出每个单位时间内g 指数为前25 的节点进行可视化。
2. 分析方法
将检索得到数据全记录与引用的参考文献从WOS 中导出后导入到CiteSpace,绘制相关可视化知识图谱,依次分析合作作者、合作机构、合作国家、作者共被引、期刊共被引、文献共被引和关键词共现。通过综合对应时间跨度内结点的出现频次、中心度以及突现性强度等参数分析AI 技术在辅助肺结节诊断方面的研究现状、热点及问题。
结果
对CiteSpace 软件生成结果的说明:合作图谱和共被引图谱中,N 表示节点/数量,出现频次或被引频次越多,N 值越大,相应的节点就越大。采用节点的年轮表示方法,节点的年轮圆圈半径表示不同年份发表论文或者被引的频次,某一时间段年轮越宽,则对应时间段出现或被引次数越高。E 表示节点之间的连线,连线存在表示出现或共引关系。连线的粗细,表示共现或共引的强度,连线的颜色则对应节点第一次共现或共引的时间。颜色从冷色到暖色的变化表示时间从早期到近期的变化[3]。CiteSpace 用中介中心性来测度节点在网络中的重要性。突现性强度是目标在短时间内呈快速上涨趋势的情况,可以揭示研究热点。共现或共被引图谱中的紫色外圈标注,表明该结点中心性大于0.1,代表一个领域的关键点或转折点。
1. 共现分析
1.1 作者分布
作者共线可视化图谱可以提供有影响力的研究团队和潜在的合作者信息,可以帮助研究者建立合作关系[4]。它根据施引文献中作者合作的情况绘制,两作者出现在同一篇文章中即视为一次合作。图1 的作者共现图谱中N=739,E=1 564。节点主要呈现5 簇分布,簇与簇之间界限清晰。图2 是该领域中发文突现性强度较大的TOP10 作者,可见呈阶段式更迭,我国学者占一席之地。李强是该领域发文量排名第十位的作者,曾引领研究热点。在AI 辅助肺结节诊断发文量TOP10的作者中,排名第1位的发文量(26)远大于其他作者,第2 至10 位的作者发文量差距较小,中心性指标均远小于0.1。
图1 作者共现图谱
图2 突现性较高的TOP10作者
1.2 机构分布
AI 辅助肺结节诊断方面发文量TOP10 的机构以高校为主。TOP10 中,美国机构3 所,为排名第1、7、8 的芝加哥大学、纽约大学、哈佛大学医学院;韩国机构2 所,为排名第4、10 的国立首尔大学、蔚山大学;中国机构5 所,为排名第2、3、5、6、9 的上海交通大学、复旦大学、东北大学、中国科学院以及华中科技大学。芝加哥大学于2003年开启该方面的研究,中心性最高,达0.14,为该研究领域的开创者,且深耕于此领域的时间最长。上海交通大学中心性仅次于芝加哥大学,为0.10,亦为该领域的核心研究机构。图3 机构共现图谱中N=549,E=936。左上方以芝加哥大学为代表的节点簇之间连线较多。右上角的中国研究机构节点簇之间连线也较为紧密,但与国外研究机构之间的连线较为稀疏。芝加哥大学是唯一一所具有紫色外圈的研究机构。根据图4 突现性分析,上海交通大学近3年科研成果井喷式出现,发展迅速。
图3 机构共现图谱
图4 突现性较高的TOP 5机构
1.3 国家分布
图5 国家共现图谱中N=62,E=270。德国、日本、巴基斯坦、意大利、美国这5 个国家内圈均有较为明显的红色年轮,其中巴基斯坦、德国的红色圈占年轮面积比例较大,它们早期为此领域做出较大贡献。具有紫色外圈的国家有美国、中国、印度、英国、韩国、巴基斯坦,这6 个国家均具有大于等于0.1 的中心性,其值分别为0.69、0.16、0.15、0.12、0.10、0.10。AI 应用于肺结节方面发文量最高的3 个国家分别是:中国(478 篇)、美国(466 篇)和日本(118 篇),中美两国的发文量显著高于位居第3 的日本。
图5 国家共现图谱
2. 共被引分析
2.1 作者共被引
作者共被引分析通过分析不同作者发表的文献同时被其他文献引用的情况,从而确定作者之间研究主题的关系[5]。由图6 作者共被引图谱可知,代表早年被引作者的紫色节点联系紧密,代表近年被引作者的红黄色节点簇亦联系紧密,二者之间有少量的相互交融,网络的颜色逐渐过渡,过渡节点较大。紫色节点相对于红黄色节点半径都较小。根据图7,突现性较高的TOP5 被引作者其突现性均出现在2018年及以后。文献被引频次排名前10 位作者都不具有大于0.1的中心性。
图6 作者共被引图谱
图7 突现性较高的TOP5被引作者
2.2 期刊共被引
期刊共被引分析是指2 个期刊共同出现在第3 个期刊所发布施引文献的参考文献目录中,通过它可以对期刊进行定位和分类[6]。由图8 可知,突现性较高的TOP5 被引期刊其突现性均自2020年及以后出现。从图9 期刊共被引图谱可见节点数目和连线众多,不同期刊之间均存在连线。在肺结节领域被引频率排名前3 的期刊是RADIOLOGY、MED PHYS、IEEE T MED IMAGING,排名第5到10位的期刊被引频次较相近,各期刊中心性均不超过0.1。
图8 突现性较高的TOP5被引期刊
图9 期刊共被引图谱
2.3 文献共被引
参考文献共被引是指2 篇文献共同出现在第3 篇施引文献的参考文献目录中。图10 文献共被引知识图谱中早期深色节点到近期浅色结点均匀过度,过度节点较大,与图6 作者共被引图谱类似。除去相关指南和倡议,被引量位居前三的文献分别为:低剂量CT 筛查降低肺癌死亡率,CT 图像中肺结节检测:使用多视图卷积网络减少假阳性,CT 图像中肺结节自动检测算法的验证、比较和组合:LUNA16挑战。各文献的中心性指标均尚未达到0.1。
图10 文献共被引图谱
另外发现,参考文献突现性最持久的4 条文献突现性集中出现在2003—2014年,其研究主题分别为:早期肺癌行动项目:基线筛查的总体设计和结果;基于改进模板匹配技术的螺旋CT图像肺结节自动检测;螺旋CT 肺结节自动检测:计算机辅助诊断系统的临床应用;CT 扫描中肺结节的计算机检测。自2017年以来突现性最强的两篇文章研究主题分别为:低剂量胸部计算机断层扫描三维深度学习的端到端肺癌筛查,2018年全球癌症统计数据:GLOBOCAN 估计全球185个国家36种癌症的发病率和死亡率。
3. 关键词共现分析
共现关键词反映了AI在肺结节领域的研究重点。该领域出现频次排名前20 的关键词有:肺结节,肺癌,分类,计算机辅助诊断,深度学习,CT,诊断,划分,计算机辅助检测,断层摄影技术,卷积神经网络,胸部CT,自动检测,CT 图像等。由图11 可见,高频出现词之间联系紧密。研究AI 辅助诊断肺结节2018—2023年出现的突现词,发现突现强度较高的五个词分别为:假阳性减少,卷积神经网络,机器学习,深度学习,人工智能。
图11 关键词聚类标签图谱
讨论
肺结节可指示多类病灶的存在,诸如:肿瘤、炎症、结核、结缔组织疾病等,且结节形态各异、大小不一,肉眼识别大小至亚厘米级别的肺部小结节尤其困难,而密度较低的磨玻璃结节识别更加不易[7]。临床医生诊断识别肺结节需要耗费大量时间精力,仍难以避免误漏诊现象。因此,借助AI算法等现代科技帮助临床医生识别诊断肺结节,对提高就诊效率和降低误漏诊率有重要意义。利用文献可视化工具CiteSpace对相关文献进行分析,主要讨论和结论如下:
已有诸多机构开展过或正在开展AI 辅助肺结节诊断相关工作。研究机构以高校为主,各国科研机构之间的合作较少。科研产出较多的机构主要分布在美国、中国。美国作为较早将计算机辅助诊断应用于临床试验的国家,中心性位居第1 且远超其他国家,处于核心地位。芝加哥大学作为美国该领域研究的开创者,自2003年开始AI 辅助肺结节诊断的研究,研究成果自此至2009年激增,至今仍具有最高的机构中心性。值得注意的是,以上海交通大学、复旦大学为首的中国研究机构作为后起之秀,近10年来研究成果迅速增多。中国机构目前发文量位居全球第1(478 篇),领先美国发文量(466 篇)。国内各高校研究机构的合作网络较为紧密,但与国外起步较早的知名研究机构合作较少。上海交通大学自2020年来研究成果激增,具有世界第2 名的中心性影响力。基于此,我国研究机构应积极利用国内外已有研究成果,深化与国内外研究机构的合作,保持近年来迅猛的研究势头,争取在AI 辅助肺结节诊断方面取得更广泛的合作成果。
AI 辅助肺结节研究领域存在权威期刊,也有短期内成长的期刊,各期刊联系广泛,目前尚未出现核心期刊。RADIOLOGY 为该领域起步最早的期刊,在2003—2013年发展迅速,该时段对应于美国研究机构产出最多的时段。快速成长型期刊集中出现在2020年以后,可能因为关注或迎合了切中该研究领域要害的核心技术。该研究该领域的期刊多元化发展,影响因子较高的期刊未必是核心期刊,如LECT NOTES COMPUT SC 的被引量位居第10 位,但其中心性高出被引量位居第1 名的RADIOLOGY 4 个百分点。提示研究学者关注权威期刊的同时,也应了解新兴成长的期刊。
该研究领域尚未出现核心作者和核心文献,各国研究正多线并行开展。被引量高的和突现性强的文献值得关注。2018年出现部分作者被引频次激增的现象,可能因为同年出现了具有影响力的研究成果,是该研究领域的重要时点。早期研究学者与最新研究成果有联系但较弱,算法的更迭带来研究热点和方向的变化。关键词分析表明“神经网络算法”自2017年起逐渐被研究者们所关注,和“CT”“计算机辅助诊断”成为AI辅助肺结节研究领域中的热点研究话题。该领域研究者应结合近年AI 最新成果充分发掘潜在问题,拓宽研究思路。
AI 在肺结节领域研究的重点是利用基于深度学习开发的AI 软件提取肺结节特征,对其进行选择和分类,减轻影像科医师工作负担的同时提升鉴别肺结节良恶性的精确度[8],以便进行后续的病因诊断分析和治疗工作。此领域受AI 算法迭代更新影响较大,后继应该更关注AI 算法等新技术的使用以及近年来新研究结果的迭代。我国医学影像AI 产业仍处于发展阶段,机遇与挑战并存[9],我国科研机构、团体和学者应继续保持积极探索的态度,不囿于国界、机构和专业范围,在基础诊断的基础上,辅以AI新技术、新算法的应用,力争在AI 辅助肺结节诊断方面取得更大突破与进步。