医学人工智能研究热点双聚类分析

2024-03-30佟佳益郑改改杨巧芳

实用临床医药杂志 2024年3期

佟佳益, 郑改改, 王宇, 杨巧芳

(1. 河南中医药大学护理学院, 河南郑州, 450000; 阜外华中心血管病医院, 2. 心力衰竭科,3. 护理部, 河南郑州, 451464; 4. 郑州市心血管疾病护理重点实验室, 河南郑州, 451464)

人工智能(AI)是一种通过编程设定系统指令来模拟并增强人类智力的智能化系统,能够从数据中提取知识并应用知识来解决问题[1]。目前,国际医学AI领域的相关研究高速发展, AI在突发卫生事件和遗传类疾病预防和控制方面展现出至关重要的辅助作用,且相较于传统方法更精确、及时。随着数字经济和互联网产业的深入发展, AI技术在医疗大数据统计、智能交互和图像处理等领域展现出巨大的潜力和优势[2-4], 但其存在的社会伦理复杂性以及临床应用的精确性还有待进一步考量[5]。近年来,医学AI领域的研究正蓬勃发展。然而,现有关于医学AI领域的文献计量学研究[6-7]大多发表时间较早,对于该领域的研究热点及其未来发展趋势存在一定的滞后性,且鲜有通过双聚类方法深入探讨AI在医学领域研究热点属性之间相关性的研究。因此,本研究采用双聚类方法对医学领域中AI技术的应用研究进行分析,旨在为未来中国医学AI领域的纵深研究提供参考依据。

1 资料与方法

1.1 一般资料

本研究以Web of Science核心合集[8]作为数据来源,采用主题式检索方式,检索式如下: “TS=(artificial intelligence OR AI AND Medicine OR Medical)”, 检索年限为建库至2022年12月31日。为了消除误差,采用数据库中的筛选功能,将语言限定为英语,“文献类型”类别选择article和review,“研究方向”类别中对非医学相关的文献进行人工剔除后得到文献9 076篇。将上述文献以纯文本的全记录与引用格式导出至NoteExpress, 排除重复发表文献,并使用Co-Occurrence13.4[9]提取文献的关键词字段,去除缺失关键词的文献,最终纳入有效文献7 803篇。

1.2 数据提取及分析方法

使用Co-Occurrence13.4对纳入文献的关键词进行频次统计,选择排名前30位高频关键词生成词篇矩阵,将词篇矩阵导入gCluto进行双向聚类,聚类方法(Cluster Method)选择Regeated Bisection, 相似性(Similarty Function)选择Cosine, 聚类数量及效果由类内相似度、类间相似度结果及专业知识结合分析确定。根据gCluto聚类结果绘制战略坐标图,图中纵坐标为密度,代表每一类别内主题词之间的紧密程度,横坐标为向心度,代表不同类别主题词之间的紧密程度,类别内的研究之间联系越密切,则密度越大,一类研究与别类研究之间的联系越密切,则向心度越大[10]。

2 结果

2.1 文献外部特征分析

2.1.1 发文时间分布: 自1991年以来,AI在医学领域应用的发文量呈逐年上升趋势。第1阶段(1991—2008 年): 初步探索阶段; 第2阶段(2009—2022年): 加速发展阶段,其中受新型冠状病毒感染疫情的影响,2020—2022年AI在医学研究领域的发文量呈爆发式增长,见图1。

图1 AI在医学研究领域的年发文量变化情况

2.1.2 发文期刊和国家、机构分布: 分析结果显示,主题领域内发文分布排名前5位的期刊分别为:PlosOne(184篇)、ScientificReports(166篇)、Diagnostics(111篇)、JournalofMedicalInternetResearch(94篇)、Cancers(66篇); 发文量累计最多的国家为美国(2 966篇,占比38.00%), 其次为中国(1 223篇,占比15.67%)和英国(777篇,占比9.96%)。发文研究机构分析显示,共有10 072个机构参与医学AI研究,其中发达国家发文量首位的机构为Harvard Med Sch(148篇),其次是Univ Washington(140篇)、Mayo Clin(108篇)。发展中国家发文量首位的机构为上海交通大学(76篇),其次是中山大学(73篇)、华中科技大学(65篇)。

2.2 文献高频主题词情况

使用Co-Occurrence13.4对纳入文献的关键词按照词频分界法确定频次,将高频同义词进行合并后最终形成17 777个关键词,根据主题领域特定背景信息设置关键词频次>124次,最终共得到高频关键词30个,并形成双聚类高频词表,见表1。

表1 AI在医学研究领域的双聚类高频关键词

2.3 聚类分析结果

gCluto聚类工具包提供了一种可以生成高频关键词双向聚类及山丘图(图2)的可视化方法,可用于探索主题领域内的研究热点及趋势[11]。本研究中,代表高频关键词共生成6个类属,分别为AI与卫生保健应用的研究(类属0)、AI与疾病转归关系的研究(类属1)、AI与疾病全程监测应用的研究(类属2)、AI辅助癌症诊断鉴别的研究(类属3)、AI与预测模型构建及效验的研究(类属4)、AI与生物标志物鉴别诊断的研究(类属5),聚类结果见图3。聚类山丘中,峰顶颜色与聚类内标准差呈相关性[12], 由红色、绿色、蓝色,依次代表标准差低、适中、高。结果显示, 2、5聚类山丘呈现红色,表明聚类内关键词高度相似; 0、1、3、4聚类山丘呈绿色,表明聚类内关键词相似度适中。山丘图成像结合专业知识对聚类结果进行分析,所生成的聚类类内相似度、类间相似度指标合理。聚类0至聚类5的类内相似度(ISim)分别为0.327、0.304、0.278、0.247、0.245、0.206, 类间相似度(ESim)分别为0.038、0.033、0.032、0.028、0.029、0.013。根据高频词的聚类结果绘制出战略地图以协助分析主题领域内研究热点及研究聚合程度,具体结果见图4。

图2 医学AI研究高频关键词聚类山丘图

图3 医学AI研究高频关键词双聚类分析图

图4 医学AI研究趋势战略坐标图

3 讨论

医学AI领域研究近3年处于高速发展阶段。中国相继发布的“中国制造2025”和“健康中国2030”等系列方针政策和规划纲要,将AI列入国家发展战略的重要组成部分,大力支持AI在医学领域的发展[13]。同时,随着全民健康和科技创新发展的需要不断增加,以AI为基础的智能化医疗已成为实现这2个目标的重要组成部分之一[14]。患者在切身体会AI带来的精准、科学医疗服务的同时,也提升了对医学AI的接受程度,进一步推动了AI在各行各业的广泛应用[15]。本研究结果可见, AI在医学领域应用研究的全球发文量呈逐年上升趋势,尤其是近3年主题领域内发文量呈爆发式增长。其中,研究主题领域内发文量排名靠前的国家多为发达国家,中国为发文量位居首位的发展中国家,可能与国内外相关政策导向助力推进医疗技术信息化、智能化发展有关[16]。

聚类分析结果可见,类别0、1、2研究集中于AI应用于公共卫生事件的研究,主要涉及流行病学及卫生保健方向,从探索疾病的风险因素延伸至转归、结局及影响因素等。山丘图与战略坐标图结果可见,该类山丘内变异度较小,研究人群相对集中。相关研究[17]表明,在AI技术的支持下,医疗数据统计效率及精确度逐步提升,同时优化了数据的可用性。在新型冠状病毒感染疫情期间,医护人员利用数字化预测模型,精确筛查疫情传播链及易感人群[18], 对高危人群进行个体化防控,有效降低了疾病的传染风险,为控制疫情提供了有效保障[19]。此外,利用AI技术为易感人群制订个性化电子病历,在传统影像学成像系统的基础上进行数字化图像转换[20], 不仅提高了肺炎类型的检疫精确度及特异性[21], 而且将感染风险及治疗转归进行智能化预测分析,在优化医疗资源分配的基础上,改善了患者疾病转归及临床预后[22-23]。由此可见, AI技术的远程可控及信息扩展属性在预防和控制公共卫生突发事件中发挥了至关重要的作用。

战略坐标图分析结果显示,类别5研究在密度和向心度上表现最高,表明该类研究与主题领域内其他相关研究之间存在密切关系。同时,结合类别内关键词和既往研究[24], 可以推断类别5与研究人群固定的类别3之间存在紧密关系。目前,基于AI的检测技术已应用于基因检测及早期恶性肿瘤筛查,且在辅助诊断癌症及分型研究中已取得确切效果[25]。其中,蛋白检测及基因测定在临床实践中同属于生物标志物检测,该类检查属于无创性检测,对于确定疾病机制、实施个性化管理提供了可行性[26]。YANG D等[27]基于AI算法开发的GEM基因诊断技术,实现了自动化检测,提高了遗传基因亚型的检测及诊断的检查效率及精准性,有效解决了传统检验方法因时间和成本限制引起的相关风险性问题。同时,利用生物检测模型对中枢基因进行生存分析,鉴定靶基因与肿瘤免疫力之间的关系,为恶性肿瘤的鉴别诊断提供了重要依据,提高了对恶性肿瘤患者生存预测的精准性[28-29], 为早期恶性肿瘤的筛查和个性化管理提供了新思路和方法。此外,癌症的分子分型决定了治疗方式的选择。MITSALA A等[30]利用AI技术开发出结肠癌分型系统,确定了不同类型结肠癌的基因表达,进一步证实了结肠癌细胞异质性及生物学分型指标,为精确癌症分型及鉴别诊断提供了有力支持[31]。

类别4属于基于AI的预测模型构建及检验,结合山丘图和战略坐标图可见,此类别类内差异较大,且密度最低,提示相关研究相对较少,未来应加强该类研究,为医学领域内疾病预测模型的构建及检验提供参考。相关研究[32]已证实,基于AI算法的疾病预测模型能够为临床提供决策支持,提高医学诊断的特异性及敏感性。相较于传统的疾病预测方式, YE S Y等[33]构建了基于AI的心肌梗死风险预测模型,具备更高的准确性和及时性,能够有效降低院内心肌梗死的风险,改善患者的临床结局。此外,对于早期癌症患者而言,通过疾病预警模型筛查和管理影响其生存质量的高危因素及癌病变风险,能够指导临床医生为患者制订个性化的管理及治疗策略[34], 尤其胰腺癌这类早期无明显症状且生存率较低的恶性肿瘤的诊断尤其受益。基于AI的疾病预测模型不仅为胰腺癌早期诊断提供了更准确的结果,同时降低了因筛查遗失率所导致的风险[35-37]。因此,加强基于AI的疾病预测模型构建及验证,对提高患者的临床预后具有非常重要的意义。

目前,国外医学研究由AI向深度机器学习、纳米机器人等辅助临床诊断和治疗技术逐步发展,但其因涉及伦理问题,还需要各国研究者结合实际国情进行深入探讨。中国在顺应国情及政策支持的前提下,未来应增加多学科、机构间的交流合作,推动AI技术在医学诊断以及疾病预测模型构建等领域的发展。此外,本研究仅纳入Web of science核心合集数据库文献,因此可能存在文献范围有限和语言限制的问题。下一步研究拟增加纳入数据库数量,并通过专家论证的方法获得更为全面和可靠的结果。