2000—2022年人工智能应用于食管癌领域全球研究的可视化分析
2023-02-11涂嘉欣叶惠清张小强林雪婷杨善岚邓莉芳吴磊
涂嘉欣,叶惠清,张小强,林雪婷,杨善岚,邓莉芳,吴磊*
食管癌包括食管腺癌和食管鳞状细胞癌,其是全球第七大常见癌症(按发病率),第六大致死癌症(按死亡率),新发病例死亡率高于50%[1]。近20年,食管癌在诊断、治疗、预后等方面取得了重大进展,尤其新兴的人工智能(artificial intelligence,AI)逐渐被应用于医疗卫生中的疾病诊断、基因组数据分析等许多领域[2-3],这在一定程度上提高了食管癌诊断结果的准确率[4-5]。随着AI在食管癌领域研究的剧增,研究人员快速了解该领域的最新发展和研究热点十分重要。因此,本研究对2000—2022年AI应用于食管癌领域的全球研究进行了文献计量分析,总结AI在食管癌领域的应用和发展历程,阐明AI在其中的研究进展、热点和新兴趋势,以帮助该领域研究者更好地把握未来的研究方向。
1 资料与方法
1.1 资料来源及检索策略 检索Web of Science Core Collection(WoSCC) 的 Science Citation Index Expanded(SCI-E)数据库,检索时间2000-01-01至2022-04-06。所有检索工作于2022-04-06完成,以确保没有数据更新。共检索到文献1 074篇,剔除非英语2篇、与主题不相关141篇、文献类型不符(非研究类、综述类文章)12篇、重复发表1篇,最终得到918篇有效文献,具体检索策略见表1。
表1 2000—2022年AI在食管癌领域研究文献检索策略Table 1 List of esophageal cancer studies using AI published from 2000 to 2022
1.2 数据处理 文献数据由2名课题组成员分别下载(下载格式为纯文本文件)和分析,以确保数据的准确性和研究的重复性,其导出内容包括全部信息(标题、作者、单位)以及所有引用文献。Microsoft Excel 2019、CiteSpace(5.8R3-64bit)和 VOSviewer(1.6.18)被用于数据分析与可视化。可视化软件时间片固定为1年,阈值设定g-index=25,最终绘制作者、机构、关键词共现图谱,同时结合词频、中心性等客观数据,评估分析对象的研究热度、重要程度。
2 结果
2.1 文献发表 2000—2022年共检索到AI应用于食管癌领域的文献918篇。自2000年起AI应用于食管癌领域的发文量稳步增加,根据增长趋势划分为两个阶段:2000—2016年为迟缓期,发文量从6篇增至40篇;2017—2022年为快速增长期,发文量从62篇突增至216篇。近10年(2012—2022年)AI在食管癌领域的研究发文量占2000—2022年AI在食管癌领域的研究发文量的80%以上(761/918)。918篇文献的H型指数(H-index)和平均引用次数分别为74和25.37次。引用文献数量增长趋势基本与发文量保持一致,截至2022-04-06共计引用文献总量达23 490篇(图1)。
图1 2000—2022年全球AI应用于食管癌领域相关研究的年发文、引文数量Figure 1 Annual number of publications and citations of global esophageal cancer research using AI from 2000 to 2022
2.2 国家、机构、作者合作分析 60个国家、118家机构、5 979位作者参与了AI在食管癌领域应用的研究。
关于AI应用于食管癌领域,发文量排名前3位的国家分别是中国(306篇)、美国(238篇)、英国(113篇)。连线粗细(total link strength,TLS)反映各国之间合作关系密切程度,以美国为中心开展的研究众多,美国-中国合作最为密切,其次是美国-新西兰,见图2。
图2 2000—2022年全球AI应用于食管癌领域相关研究国家合作VOSviewer可视化图(前10位)Figure 2 VOSviewer-generated collaboration map of top 10 research countries related to esophageal cancer studies using artificial intelligence from 2000 to 2022
机构合作强度排名前3位的分别是阿姆斯特丹大学(TLS=72)、凯瑟琳娜医院(TLS=64)、埃因霍芬大学(TLS=53)。美国梅奥医学中心是衔接美国、中国、荷兰3国机构研究成果的中介机构,见图3。
图3 2000—2022年全球AI应用于食管癌领域相关研究机构合作VOSviewer可视化图(发文量>15篇)Figure 3 VOSviewer-generated collaboration map of institutions published more than 15 esophageal cancer studies using artificial intelligence from 2000 to 2022
总发文量>10篇的作者中,发文量前3位是荷兰作者Jacques J G H M Bergman(16篇)、日本作者Tomohiro Tada(12篇)、荷兰作者Fons Van Der Sommen(12篇)。作者之间合作关系密切与发文量不呈正相关,如日本Tomohiro Tada发文量第二,但与其他作者合作强度值是9人中最低(TLS=7)。荷兰作者内部合作比其他国家作者更为密切,见图4。
图4 2000—2022年全球AI应用于食管癌领域相关研究作者合作VOSviewer可视化图(发文量>10篇)Figure 4 VOSviewer-generated collaboration map of authors published more than 10 esophageal cancer studies using artificial intelligence from 2000 to 2022
2.3 共被引分析 共被引作者39 962位,共被引文献42 992篇(按引用次数计算)。根据CiteSpace采用剪枝选择寻径网络法+裁剪单切片网络+裁剪合并,最终得到最大相邻节点数(link retaining factor,LRF)=3.0、调节连线在时间上的跨度不大于10年Look Back Years(LBY)=5、最低被引次数e=1.0、网络节点数量N=158、连线数量E=222、网络密度Density=0.004的共被引用文献网络。法国的作者Freddie Ian Bray、美国的作者Prateek Sharmal和日本的作者Yoshimasa Hories共被引频次排名前3位,分别为89、87、56次。总被引次数前3位作者依次为美国的Prateek Sharma、瑞典的Jesper Lagergren和美国的Thomas William Rice,见表2。
表2 2000—2022年全球AI应用于食管癌领域相关研究作者共被引次数(前10位)Table 2 Total co-citations of esophageal cancer studies using artificial intelligence from 2000 to 2022 by author (top 10)
表3列出了共被引文献排名前10的基本信息,其中Gastrointestinal Endoscopy和Ca-A Cancer Journal for Clinicians杂志发表文章数量合计过半,总量上中国研究者发表文章占到4篇。聚类分析图谱中模块聚类值Q=0.946 9,模块平均轮廓值S=0.844 8,表明其聚类效果佳(Q>0.3),网络同质性好可信度高(S>0.7)。共被引文献主要涉及研究领域在放射组学、内窥镜、肿瘤分割、光学相干断层扫描(图5)。瑞典的作者Jesper Lagergren和美国的作者Thomas William Rice中介中心性均>0.1,表明在共被引文献网络中十分重要,其发表的文献是衔接不同聚类模块之间的核心。图6时间演变用不同颜色表示,线条颜色代表聚类出现时间,“观察者偏差”模块在聚类最早出现(灰色);线条上的节点出现时间表示该聚类块文献首次引用时间,表明“数字生物学标志物”模块聚类是这里面最晚出现(2016年)。
表3 2000—2022年全球AI应用于食管癌领域相关研究共被引文献(前10位)Table 3 The analysis of co-cited esophageal cancer studies using artificial intelligence from 2000 to 2022(top 10)
图5 2000—2022年全球AI应用于食管癌领域相关研究共被引文献聚类分析图谱(前14位聚类团)Figure 5 The cluster analysis map of co-cited esophageal cancer studies using artificial intelligence from 2000 to 2022(top 14 clusters)
图6 2000—2022年全球AI应用于食管癌领域相关研究共被引文献主要聚类团共被引文献出现时间演变规律Figure 6 The co-citation cluster analysis of time evolution about co-cited documents in main clusters from 2000 to 2022
圆圈颜色表示文献引用时间变化规律,可以发现“内窥镜”“放射组学”“深度学习”近两年热度高(红色);圆圈大小则表示引用次数多少,“人工智能”“深度学习”“内窥镜”聚类圆圈大,表明这3个领域被引用频次极高,处于研究热点。
2.4 关键词 共计3 861个关键词被纳入研究,癌症、食管癌和腺癌关键词出现频率超100次,其次鳞状细胞癌、诊断、生存、巴雷特食管、分类、深度学习、风险、预后、表达等关键词频率相对较高(超50次)(图7)。根据年发文量增速变化趋势,分为2000—2016年、2017—2022年2个阶段对全球食管癌领域的AI应用的关键词演变过程进行分析。
图7 2000—2022年全球AI应用于食管癌领域相关研究关键词共线图谱VOSviewer可视化图(出现频率≥50次)Figure 7 VOSviewer network visualization of the collinear map of keywords (frequency ≥ 50) in esophageal cancer studies using artificial intelligence from 2000 to 2022
2.4.1 2000—2016年 CiteSpace最终得到LRF=3.0,L/N=10,LBY=5,e=1.0,N=421,E=901,Density=0.010 2的共被引用文献网络,此时期癌症、食管癌、巴雷特食管等关键词词频高但共线关系较差。风险成为除癌症类别关键词外出现的较高频次(23次)的关键词(图8)。关键词中心性>0.10及其词频结果统计见表4。结直肠癌、癌症、上皮小细胞癌、小细胞癌、突变、上皮组织癌、巴雷特食管癌、食管癌、乳腺癌、p53等关键词中心性较高。2000—2016年研究主要内容为癌症诊断、鉴别、风险、表达,具体以结肠癌、胃肠道癌、小细胞癌、乳腺癌等癌症为中心关键词。
图8 2000—2016年全球AI应用于食管癌领域相关研究关键词CiteSpace可视化共现图谱Figure 8 CiteSpace-generated visualized co-occurrence map of keywords in esophageal cancer studies using artificial intelligence from 2000 to 2016
2.4.2 2017—2022年 CiteSpace最终得到LRF=3.0,L/N=10,LBY=5,e=1.0,N=289,E=485,Density=0.011 7的关键词共现网络,该期间关键词数量有所增加且共线关系更为紧密。除食管癌、人工智能检索词出现频次高外,机器学习、深度学习、卷积神经网络词频出现骤增,特别深度学习出现频次达到65次,是除检索词以外较高词频关键词,表明此时期对深度学习研究较多,AI在食管癌领域的应用以深度学习为主(图9)。关键词中心性>0.10及其词频结果统计见表5,反映出生物学标志物、基因、表达、发育不良、计算机辅助检测、准确度、氟-18标记氟代脱氧葡萄糖(氟-18FDG)断层扫描等关键词的强中心性。同时对比表4、结合图6可以看出,此时期主要研究内容从总体癌症研究(含食管癌)转为对食管癌主要标志物、鉴别、检查、诊断、放化疗研究,同时围绕AI中的机器学习、深度学习、卷积神经网络作为主要应用方法。
图9 2017—2022年全球AI应用于食管癌领域相关研究关键词CiteSpace可视化共现图谱Figure 9 CiteSpace-generated visualized co-occurrence map of keywords in esophageal cancer studies using artificial intelligence from 2017 to 2022
表4 2000—2016年全球AI应用于食管癌领域相关研究中心性>0.10关键词信息表Table 4 Keywords with centrality greater than 0.10 in esophageal cancer studies using artificial intelligence from 2000 to 2016
表5 2017—2022年全球AI应用于食管癌领域相关研究中心性>0.10关键词信息表Table 5 Keywords with centrality over 0.10 in esophageal cancer studies using artificial intelligence from 2017 to 2022
2.4.3 关键词突现 关键词突现检测参数设置最小持续时间为1,其余设置默认。最终检测到近22年世界食管癌AI领域共有突现词33个。前25位突现关键词具体信息(按照首次出现研究前沿时间排序)见图10。早期(2001—2008年)以p53、突变为主的食管癌基因相关研究为主;逐步出现了对食管癌风险因素的研究(2007—2013年);中期(2013—2018年)主要以食管癌分类、检查新技术(断层扫描)以及食管癌和不同癌症之间区分、鉴别和比较为研究重心;期间穿插食管癌治疗方法更新研究(放化疗,2017—2018年);再到自2018年开始首次高频出现的关键词——数据库,表明该领域首次有大量文章开始对食管癌相关数据库信息进行探索,并且研究方法在不断更新深入——如深度学习、卷积神经网络、机器学习(2019—2022年),尤其是深度学习一词突现强度排在33个突现关键词首位(突现强度为13.89),说明在食管癌AI领域的深度学习是现阶段研究热点。同时综合关键词变化发现,计算机辅助食管癌检查已经跃升为计算机辅助食管癌诊断,标志着食管癌AI研究领域已经迈入新阶段(2020—2022年)。
图10 2000—2022年全球AI应用于食管癌领域相关研究突现关键词信息(前25位)Figure 10 Top 25 burst keywords in esophageal cancer studies using artificial intelligence from 2000 to 2022
3 讨论
随着大数据分析时代的到来,研究人员需要充分了解其研究领域的发展,与系统综述或荟萃分析不同,文献计量分析使用VOSviewer和CiteSpace等可视化软件对特定时间段所有文献进行综合分析,直观了解研究发展趋势,以预测未来研究热点[6]。本研究首次通过文献计量分析总结了AI在食管癌领域中的应用现状,直观地揭示了AI在食管癌的发展趋势和未来研究热点。
就发文量而言,在过去一段时间AI在各领域得到了迅速发展[7]。2016年起,AI在食管癌领域中的应用也呈指数爆发式增长[8]。特别是在过去的10年(2012—2022年),AI在食管癌领域的研究发文量占2000—2022年AI在食管癌领域的研究发文量的80%以上。可以预见,未来将有更多的国家和研究人员参与AI在食管癌领域的研究。中国发表的AI在食管癌领域的研究共306篇,同时在共被引文献分析中,中国研究者发表了该领域重要文献4篇,但与其他国家合作强度上却较弱,美国、荷兰之间则合作更为紧密,在机构、作者的合作图谱分析中也得以印证。
引文量可以反映文章的传播程度和期刊的影响力,从而表明研究质量和研究者的学术地位[9]。在共被引作者分析中,来自美国的多位作者在共被引次数和总引用次数中均位列前3,表明在该领域美国仍为主导地位。中国在本领域科研影响力还远远不够,主要原因:(1)可能是中国食管癌的AI研究起步较晚,且合作较少未形成研究体系,在世界范围学术影响力较低;(2)AI的核心算法缺乏创新,与国际先进研究人员合作较少;(3)与现阶段国内普遍存在的科研质量不高有关。诚信则是科研质量和影响力最基础的保障,2018年印发的《关于进一步加强科研诚信建设的若干意见》有助于规范、监督国内科研诚信,逐步改变国际学科主导、中国高发文低引用现况[10]。在AI应用于食管癌领域共被引文献研究中以Gastrointestinal Endoscopy(IF=9.43) 和 Ca-A Cancer Journal for Clinicians(IF=508.70)期刊最为重要,其中Gastrointestinal Endoscopy的总引文数量远超其他期刊,表明该杂志在该领域有重要影响力。可以预见,未来将有更多关于AI在食管癌中应用的文章优先发表在上述期刊上。共被引分析除了通常用于评估文章或作者的相关性,还可以作为评价作者个人学术影响力的指标[11-12],如中国研究者共被引次数最高的研究中GUO等[13],该研究主要以深度学习模型证明了内窥镜图像和视频数据集的高灵敏度和特异度,同时论证了实时计算机辅助诊断系统可以帮助内窥镜医生诊断癌前病变和食管腺癌。
从共被引文献聚类结果来看研究的前沿变化,最早的研究集中在“肿瘤分割”[14],目前的研究热点是“深度学习”[15]和“内窥镜”[16]、胃肠内窥镜[17],表明早期食管癌的研究主要侧重于食管肿瘤类别的划分、分割,然后转向使用深度学习等其他技术来实现诊断准确性、快速诊断和早期诊断。关键词频率可反映整体研究热点变化,整体关键词分为三大类,分别为癌症、腺癌和食管癌,提示早期研究主要是作为癌症分析的部分内容(食管癌种类的区分、识别),具体研究内容包括风险、诊断、预后。但该时期受限于所用的分析技术,数据分析仍处于小范围、浅显分析。
关键词频率分析的2个阶段分析提示:(1)2000—2016年为AI在食管癌领域研究的发展早期(迟缓期),风险识别、p53等为当时的研究前沿,这与当时其他癌症如前列腺癌领域AI研究大为不同,后者此时主要以癌筛查方法、手术治疗方法为主要内容[18];(2)2017—2022年为AI在食管癌领域研究的快速增长期,计算机辅助诊断、计算机辅助治疗成为AI主要应用方向,如在早期检查、准确区分癌前病变和肿瘤病变,确定手术治疗期间浸润性肿瘤边缘,监测疾病进展和获得性耐药,以及预测肿瘤侵袭性、转移模式和复发风险,医学成像技术和生物标志物为食管癌诊断、治疗和进展监测提供了技术支持。这表明在这一阶段更深技术层面的AI开始发挥作用。
整体而言,食管癌领域AI的应用表现出滞后性。在延迟了至少10年后,才开始与其他癌症一样开展全面AI应用于食管癌的探索,出现这一现象的原因可能与AI在癌症领域应用转化处于初级阶段、推广应用效果受限有关[19]。未来有关食管癌预后生存及风险因素的模型探究势必将成为热点。此外,在2018年首次突现了数据库一词,显然随着大数据的出现,对大量数据的处理和应用已经成为一种重要的研究方法。通过大数据,研究者可以应用AI对食管癌进行全面的分析和深入的研究。但同时数据获取需要大量的人力和财力,使得数据收集非常困难,这可能也是大多数研究缺乏合作的原因之一。最后,本研究尚存在一定的局限性,此次仅纳入英文文献,这可能导致其他语言的优秀文献缺失(如我国2020年曾提倡将“论文写在祖国大地上”[20]),存在一定的文献选择偏倚。在未来的研究中,可合并中国知网、万方数据知识服务平台、PubMed、Scopus和Google Scholar等数据库所有文献,并进行比较以获得更全面的结果。
4 展望
在疾病诊断和治疗方面,AI目前已显示出较好的性能、较高的精度。随着AI的进一步发展,食管癌整体朝着精准检查、诊断和治疗的方向发展。未来AI应用于食管癌的挑战可能主要存在于食管癌个体化数据收集(除指标以外信息,如基因信息)、数据质量(如数据差异之种族差异)、数据处理规范(电子健康记录结构不一致)、AI代码复现(尚不能做到共享代码并重现、推广已有结果)、辅助诊断可信度决策(结果经受实践检验才能真正可信)。
作者贡献:涂嘉欣、吴磊提出研究设想及总体研究方案的构建,负责论文的撰写与修改,并对文章负责;叶惠清、林雪婷收集、清洗和保留研究数据(包括软件代码),以供研究使用和结果重现;张小强、吴磊为研究提供资金支持,对研究活动进行规划,执行的监督和领导,学科专业问题指导;杨善岚、邓莉芳对图片格式及文字修订,整理参考文献。
本文无利益冲突。