人工智能在癌症研究领域的文献可视化分析
2021-03-11杨文静吕章艳冯小双王维任建松池慧杜然然
杨文静,吕章艳,冯小双,王维,任建松,池慧,杜然然
0 引言
人工智能(artificial intelligence,AI)是在计算机科学、神经心理学等多学科基础之上发展起来的一门综合性交叉学科,在疾病诊疗等方面具有较多应用场景[1],癌症是人工智能应用的主要领域之一[2]。癌症是危害我国人民健康的主要疾病之一[3],如果可以利用人工智能技术探索癌症的发生和发展,为癌症的早期筛查、临床诊断、精准治疗和生存预测等方面提供快速、有效、准确的方法学手段,则可以某种程度上降低癌症发生率和死亡率。为更好了解国际人工智能在癌症研究领域的现状和发展趋势,通过检索近10年人工智能在癌症研究领域的文献,绘制科学知识图谱,发现人工智能在癌症领域的研究热点和前沿,以期为中国人工智能在癌症研究中的应用提供参考。
1 资料与方法
1.1 资料来源及检索策略
以Web of Science(WOS)数据库核心合集为数据源,分别收集相关检索词,讨论并制定最终检索策略具体检索策略如下:(TS=("artificial* intelligence*"OR "deep learning" OR "machine learning" OR"Computer Vision" OR "Automatic Speech Recognition"OR "Natural Language process*”OR“Neural Network”OR“Knowledge Graph”))AND (TS=("Cancer*" OR"Malignancy*" OR "carcinoma*"))。初步检索完成后,按纳入标准纳入文献。文献筛选由两组人员分别在网页上进行,核对并通过讨论或通过第三组人员处理不一致意见。为避免数据库更新引起的误差,所有数据检索、筛选及下载在2019年12月19日完成。
纳入标准:(1)文献发表时间为2010—2019年,包括在线优先发表文献;(2)文献类型为“ARTICLE”;(3)文献内容与人工智能在癌症领域应用研究相关。排除标准:(1)会议论文、信件及评论等;(2)研究主题与人工智能在癌症领域应用研究无关文献;(3)重复文献,信息不完整文献。将初步检索获得的文献归类、整理,共获得文献6 242篇。通过两次筛查文献,剔除重复文献57篇;通过人工判读文献标题和摘要,剔除与主题不相关的文献35篇;通过文献管理软件查询和分析功能,剔除19篇记录信息不完整文献,最终共获得相关文献6 131篇。
1.2 研究方法
1.2.1 统计分析 本研究采用Citespace5.5.R2软件进行分析,不同国家发表文章的质量高低用文章被引频率反映,被引频率越高,文章质量越高,文章被引频率=文章被引次数/文章总数。在国家合作分布图谱中,圆的辐射面积越大,合作频次越高;国际合作中心度排名越高,合作的密切程度越高,影响力越大。高频关键词和高中心性关键词分别通过关键词的频次和核心程度反映人工智能在癌症研究领域的热点。突现词的历史共现频次反映人工智能在癌症领域应用研究的前沿。
1.2.2 参数设置 时间跨度(Time Span)设置为2010–2019年,选择每一年为一个时间切片(time slice),共10个时间分段。网络节点关联强度选择Cosine算法,设定时间片阈值为50,即数据抽取对象为前50(Top 50)。选择最小生成树精简算法(minimum spanning tree)对网络修正裁剪,并且根据研究需要选择相应的节点类型,绘制相应的科学知识图谱。
2 结果
2.1 人工智能在癌症研究领域应用的研究现状
自2010年以来全球围绕人工智能在癌症研究应用领域的文献呈现持续增长的趋势,尤其在2017—2019年间共发表文章3625篇,占近10年文章总数的59.13%,美国和中国在该领域研究的趋势与世界整体发展趋势保持一致,见图1。
图1 2010—2019年人工智能在癌症研究领域发文量比较Figure 1 Comparison of amount of published articles about artificial intelligence in cancer research,2010-2019
对开展人工智能在癌症领域应用相关研究的前10名国家进行分析,结果显示,发文量最高的前三位国家分别是美国(2 151篇)、中国(1 341篇)、英格兰(425篇),其中,美国和中国的发文量远高于其他国家,见图2。
虽然中国人工智能在癌症研究领域发文量排名靠前,但是从被引频率比较发现,美国发表文章的被引频率一直处于世界平均标准以上,而中国文章的被引频率在2010—2019年间均低于平均标准,文章研究质量仍需进一步提高,见图3。
图2 人工智能在癌症研究领域发文量前10名国家Figure 2 Top 10 countries with amount of published articles about artificial intelligence in cancer research
图3 中美人工智能应用于癌症研究文章的被引频率比较Figure 3 Comparison of citation frequencies of articles about artificial intelligence in cancer research between China and USA
2.2 研究国家及机构的合作分析
选择网络节点为“Country”,运行CiteSpace软件,得到研究人工智能在癌症领域应用研究的国家间合作图谱。其中,美国的辐射面积最大,以2 098次合作频次位于世界首位,中国以1 328频次位居第2,见图4。
国际合作中心度前10位的研究机构中可以发现,美国的研究机构有4家、德国有2家、新加坡有2家,荷兰和英国分别有1家,见表1。我国的合作频率虽然较高,但是在合作的中心度排名中,并未有研究机构位于前列,我国的中国科学院仅位于第20名。
表1 国际合作中心度排名前10位的研究机构Table 1 Top 10 research institutions of international cooperation centrality
2.3 人工智能在癌症研究领域的文献共被引结果
在CiteSpace节点中选择“Cited Reference”,阈值选择中设置“Top 50”,时间分区选择“1”,得出排名前10的文献信息,见表2。
2.4 人工智能在癌症研究领域的热点
对关键词词频变化的分析可知,排名前10位高频关键词的中心性整体较高,与其他关键词关系紧密,见表3。关键词时区视图显示在不同时间段关键词之间的联系紧密程度,见图5。
表3 2010—2019年人工智能在癌症研究领域的高频和高中心性关键词Table 3 High frequency and centrality keywords of artificial intelligence in cancer research,2010-2019
表2 人工智能应用于癌症研究领域的前10位共被引文献Table 2 Top 10 co-cited articles about artificial intelligence in cancer research
图4 人工智能在癌症研究领域的国家合作空间分布Figure 4 Spatial distribution of artificial intelligence in field of cancer research
图5 人工智能在癌症研究领域关键词时区视图Figure 5 Keyword time zone view of artificial intelligence in cancer research
2.5 人工智能在癌症研究的突现词
设定网络节点为“Keyword”,词语类型选择突现词(Burst Terms),结果显示人工智能在癌症研究领域近十年词频变化率较高的突现词有人工神经网络、蛋白质、模型、发现、分类、遗传算法、回归、逻辑回归、模式识别、微阵列等,这些突现词反映了近十年人工智能在癌症研究领域前沿,根据突现词出现的强度排序进行分析,可以看出人工智能的方法学研究是前沿之一,见表4。
表4 人工智能在癌症研究领域应用的突现词Table 4 Burst keywords of cooperation among countries on artificial intelligence in cancer research
3 讨论
3.1 人工智能在癌症领域的研究已成为国际热点
近年来人工智能在医学研究中的应用不断加深,癌症领域的研究成为人工智能的热点,美国在该领域已走在世界前列。本研究发现,人工智能在癌症研究领域的相关文献数量逐年上升,美国是发文量最多的国家,文章被引频率始终高于世界平均水平,研究机构的合作中心度较高、数量最多,而且这些研究机构多为综合性大学(具有系统内医学院或医学中心)和癌症研究专业医疗机构,为人工智能在癌症领域的跨学科研究创造了良好的合作条件,加之美国政府在人工智能领域研究经费投入大,专利产出多[4],因此具有较强的影响力。中国发文量位于第二,与美国相比,虽然有国家政策文件支持[4],研究活跃度高,研究成果增长迅速[5],医疗人工智能技术有一定的储备[6],但是,存在研究主体单一、机构间合作不足、低被引论文比例较高[4]、资金投入与美国仍存在差距[5]、研究方向侧重于现有技术和应用研究[6]、底层基础技术与前沿技术研究薄弱[5]等问题。针对上述情况,一是建议高校研究机构加强与医疗卫生机构和企业的合作。高校研究机构提供技术研究,医疗卫生机构提供数据和应用场景,与技术优势互补的企业合作[6],进一步推动人工智能在癌症研究领域的应用;二是建议增加研究资金投入,加强对核心技术的研究与创新。在传统优势技术方向上持续投入,确保领先地位,在前沿技术方向上增加投入,进行专项研发和攻坚[4],争取达到世界一流水平并引领技术发展。另外,人才培养、伦理法律将是世界人工智能研究共同的未来战略突破点[4]。
3.2 人工智能可应用于癌症基础研究和临床研究多个方面
从人工智能在癌症研究领域中的热点可以发现,其在分子生物学、细胞组织学、临床诊断、治疗和预后预测等方面均可应用,涉及基础研究和临床研究多个方面,应用范围较为广泛。
从高频和高中心性关键词和关键词时区分布图可以发现,人工智能在癌症研究的热点主要包括:一是人工智能应用于乳腺癌的临床诊断和治疗。2010年开始主要是利用神经网络技术对乳腺癌进行分类,2012—2014年主要对肿瘤的质地变化进行分析,提高放疗的准确性,2015—2018年研究的方向主要是将机器学习、深层卷积神经网络等人工智能技术应用于CT、MRI、超声等临床诊断;二是人工智能在癌症基础研究中的应用。2010—2013年主要在细胞中研究基因表达,在组织中进行光谱学方法的敏感度分析,2014—2016年通过体外研究癌细胞的转移、生长、信号通路和突变,2017年起开始对腺癌进行研究。三是人工智能在构建癌症模型中的应用。2010—2013年利用机器学习建立预测模型,对化疗患者进行Logistics回归分析,进行危险因素研究,后期引入定量构效关系等方法进行模型的管理和验证,2017年开始人工智能与大数据相结合,在肿瘤异质性和肿瘤放射学方面进行研究,致力于降低癌症的死亡;四是人工智能的方法学研究。利用分类器、支持向量机等工具,通过微阵列、随机森林、自然语言处理等算法来改进人工智能的方法和技术,从而对信息进行处理和优化,预测癌症的发生和发展;五是人工智能在肺癌诊断和检测中的应用。2010年人工智能在肺癌中的应用,主要是利用人工神经网络研究生物标志物。2013—2014年癌症的诊断和检测是研究的热点,尤其在鳞癌中。2019年机器学习在肺癌中应用成为热点。
通过对高频和高中心关键词分析发现,国际人工智能在乳腺癌领域的研究较多[7],主要方法包括人工神经网络、机器学习、模型和算法,可涉及预测、表达和生存等内容,但是在关键词时区视图中,发现研究热点不仅涉及乳腺癌的临床诊断和治疗,通过人工神经网络及机器深度学习研究肺癌诊断和检测也是热点之一[8],因为人工智能在X线、CT、核磁、超声、病理诊断以及放射治疗方面的研究也较多,所以也可以用于其他癌种。同时,通过人工智能在基因表达、细胞组织学、信号通路、基因突变等方面的应用,可研究肿瘤的生长、转移;人工智能结合大数据,通过机器学习等方法构建模型,进行图像分析[9],预测生存状况及治疗情况;人工智能利用分类器、向量机等工具,通过算法、机器学习、微阵列、随机森林等方法预测癌症的发生都是当前研究的热点。
蛋白质的研究是人工智能应用于癌症研究的前沿领域。前期微阵列技术为基因的研究提供了方法学基础,标准化的微阵列数据集包含数千个基因表达和数百个样本,将异常癌组织中表达的基因与正常组织中表达的基因进行比较,可以很好地了解疾病病理,并可以更好地诊断和预测基因的表达[10],基因的表达必然涉及蛋白质的研究,蛋白质研究可以贯穿癌症发生、发展、转移、诊断和治疗的全过程[11],因此利用人工智能的方法对影响癌细胞生长全过程的蛋白质进行研究是前沿领域。
3.3 人工智能方法学研究突破可为癌症研究带来新机遇
根据人工智能在癌症研究领域文献共被引结果,分析人工智能在癌症研究领域应用的知识基础,主要包括以下几个方面:一是人工智能在应用时需要借助的软件,包括LIBSVM[12]和Scikitlearn[13]。LIBSVM是支持向量机的库,目标是帮助用户轻松地将人工智能的技术应用于其使用程序;Scikit-learn是一个Python高级编程语言的模块,专注于将人工智能分析的结果展示给非专业人员;二是人工智能的基础是机器学习,多种方法可以提高机器学习和分析结果的准确性。通过深度学习建立深层卷积网络,深度卷积神经网络体系结构在大规模视觉识别时,可以提高网络内部计算资源的利用率,提高处理图像、视频、语音和音频的能力,从而实现分类和检测[14];在深层神经网络中引入残差学习框架,深度越大,准确性越高[15];改进神经网络学习和训练的策略,充分挖掘带注释样本的数据信息,提高准确性和速度[16];通过Dropout技术防止神经网络过度拟合,提高神经网络的性能[17];三是利用人工智能对癌症的图像进行识别和分类。应用深层卷积神经网络对图像进行分类,可以降低结果的错误率[18]。在利用深层卷积神经网络对皮肤癌进行诊断时,人工智能可达到和皮肤科医生一样的诊断能力,如果在移动设备上配备深度神经网络,则可以潜在地扩展皮肤科医生在诊所外的服务范围[19]。
从突现词分析和共被引文章分析发现,研究者们近些年更关注于人工智能在癌症研究领域的方法学研究。人工神经网络是功能强大的机器学习方法,广泛用于学习多个级别的抽象数据,能够解决非线性复杂问题[20],是人工智能应用于癌症研究主要技术。基于人工神经网络建立准确的癌症研究模型是研究的基础,利用遗传算法[21]、回归模型、模式识别、微阵列[10]等方法,优化算法,准确建模,评估模型,提高预测结果准确性,进行方法学优化与改进是研究的前沿。人工智能将在癌症的发现和分类领域有更多的应用前景。基于人工智能的方法学改进,人工神经网络方法已被用于预测癌症的存在,分析癌症类型或生存风险或将未标记的样品聚类等方面,通过模式识别对图像信息进行分析,应用于癌症的病理和影像诊断,都为癌症的诊断和分类提供了方法学基础。由于构建模型时可能存在过度拟合、模型配置和训练、模型的评估以及研究的可重复性等技术问题[10],所以通过遗传算法优化人工神经网络、利用包括逻辑回归在内不同类型的回归模型对已构建模型进行评估、将微阵列技术与神经网络相结合对癌症基因进行分析、通过模式识别对病理和影像等图像信息进行处理用于癌症的诊断与分类等[22],都是围绕癌症研究的方法进行优化与改进。但如何找到符合医学生物学原理、具有临床实用性的算法,提高模型预测的准确性、可重复性和可操作性是关键[23],所以方法学研究的突破可能会为癌症研究开辟新的空间和带来新的机遇。
4 小结
人工智能在癌症研究领域目前已成为世界各国科技革命的新竞技场。通过借鉴国外研究的热点与前沿,并结合自身特点发挥中国在癌症防治方面的优势,借助人工智能的手段,注重国际合作与国家级机构间合作,加强交叉学科研究,将有效促进中国人工智能在癌症研究方面的发展。