计算智能算法在肺癌研究中的应用
2023-04-27李尚轩孙晴许张美戴付晗毛璐怡朴雪
李尚轩 孙晴 许张美 戴付晗 毛璐怡 朴雪
关键词:肺癌;智能算法;人工智能;机器学习;文献调研
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2023)08-0105-05
近年来,人工智能在各行各业已成为人们广泛关注的焦点,在医学领域更是得到了广泛的应用。通过二十多年医疗大数据的深厚沉淀,中国已经有了庞大的医疗数据,但是其医疗数据质量低下。而计算智能算法可通过算法使机器从海量的数据中学习规律并建立相关模型,通过确定正确的概率分布来推断最可能成功的决策。与传统医生相比,计算智能算法在复杂疾病的预测与诊断中拥有更高的效率及准确率,且随着计算智能算法的不断完善及硬件性能的提升,已逐步展现其在医学图像处理上的优势[1]。医学影像人工智能检测系统即通过对医学图像的原始像素进行挖掘从而发现图像的有效特征,学习并模拟医生的诊断技术,进而认识特征、重新组合、完成判断[2]。随着影像数据不断增长,以及患者对影像诊断精准度的追求不断增高的背景下,影像科的工作量明显增大,急需可以快速并精准诊断疾病的工具。因此,人工智能等计算智能算法在医学图像上的应用将成为解决主要矛盾的关键。肺癌是中国最常见的恶性肿瘤,可分为小细胞肺癌(Small cell lung cancer,SCLC) 和非小细胞肺癌(Non-small cell lung cancer,NSCLC) ,约85%的肺癌患者属NSCLC。我国每天近罹患癌症,平均每8秒就有1人被确诊为癌症[3]。据估计,中国人的患癌风险高达25%。世界卫生组织提出,约一半的癌症可以通过早期筛查达到预防的目的,进而使患者康复。因此,对肿瘤的科学的预防及筛查具有临床意义。在大数据的时代背景下,利用计算机辅助诊断(CAD) 分析和研究癌症的癌症医学图像日渐成为主流,对辅助医生诊断起至关重要的作用,目前我国正努力推进精准医疗及转化医学模式趋向成熟[4]。然而,国内仍缺少对该方面的重视,尚未建立足够成熟的综合性数据库等导致国内外研究差距巨大。因此,本文通过检索2011—2021年近10年间万方数据库以及Web of Sci⁃ence数据库的相关学科文献,从国内外文献数量、期刊来源、被引频次等角度进行对计算机智能算法在肺癌中的应用进行统计学分析,进而综合了解国外计算智能算法在肺癌中应用的科研进展,这对我国相关研究的发展十分重要。
1 国内计算智能算法在肺癌研究中的应用的文献计量分析
1.1 数据来源与检索
在进行国内文献统计分析时,本研究选用万方数据平台下的中文数据库作为数据来源,采用高级检索方法,检索时间设置为2011—2021 年,选取检索主题“肺癌”and“算法”查找,得到国内相关文献820篇,经人工筛选得到有统计意义的文献781篇。
1.2 结果与分析
对检索到的数据按发表年份进行数量统计。由图1可看出,2011-2018年相关文献量逐年增多且于2018年达到峰值后(120篇,15.4%) 稍有下降。对于我国来说,从2009年开始,国务院逐步颁布深化医疗卫生体制改革的若干意见,同时各地积极探索建立区域医疗卫生信息平台,信息化建设受到国家和社会的持续关注,故从2009 年以后,国内对计算智能算法在肺癌的应用研究进入新阶段,相关文献出现了大幅增加,研究工作进入一个高潮。在此时代背景下,利用计算机辅助诊断来解决影像科工作量巨大、医生易漏诊错诊等传统问题渐渐成为热点,其中卷积神经网络便是最具代表性且发展最为迅猛的一种计算智能算法,它能通过自动提取影像特征,从而快速找寻影像的定性特征,这解决了影像科工作量巨大、影像科医生易错诊等问题,也说明了卷积神经网络等一系列计算智能算法在识别分析并辅助医生诊断肺癌中起到重要的作用[5]。但是从2018年开始,相关文献量持续下降,这与全球新冠疫情的流行、国内相关研究未引起足够重视等因素有关。随着医改政策的不断完善,国家对计算智能算法在肺癌中研究的投入和扶持力度不断增大,科研成果将不断涌现。
2011-2021 年781 篇文章中,东北大学35 篇(4.48%) ,南方医科大学32篇(4.1%) ,中国科学院大学24篇(3.07%) ,山东大学24篇(3.07%) ,浙江大学23篇(2.94%) ,太原理工大学22篇(2.81%) ,郑州大学17篇(2.18%) ,哈尔滨工业大学16篇(2.04%) ,华中科技大学15篇(1.92%) ,见表1。这说明综合性大学的医工交叉研究优势突出,纯医学院校的理工类应用偏弱。2011-2021年781篇计算智能算法在肺癌中的应用的文章中,按发表的文献量从高到低排列为杨铭11篇,焦丽静8篇,肖明勇7篇,张煜6篇,李嘉旗6篇,王培6篇,黎杰6篇,廖雄飞5篇,许玲5篇,详见表2。其中发表文献量前十位的作者主要来自上海中医药大学附属龙华医院与四川省肿瘤医院,这说明计算智能算法在肺癌中的应用这一研究区域分布不均,主要受上海医学类高校及四川省高等研究所的关注,这与上海及四川当地对该研究的支持以及医学类院校的支撑作用相关。
在文献的来源期刊统计中,我们发现《中国医学物理学杂志》《中华放射肿瘤学杂志》《生物医学工程学杂志》《中国生物医学工程学报》杂志为相关发文量排名前4位的中文期刊,这说明我国智能算法在肺癌中的应用研究多集中在医学物理与生物医学工程领域,此外这一分析有助于研究人员确定其领域的核心期刊,指引其投稿方向,详见表3。在基金支持方面,国家自然科学基金、国家重点研发计划项目成为计算智能算法在肺癌研究中的主要资助基金,这说明了国家对该研究领域的重视,同时我们也看到内蒙古、广东、上海及北京在国内率先重视计算智能算法在肺癌中的应用这一研究方向,见表4。
在万方数据库781篇计算智能算法在肺癌中应用的中文文章中,关键词出现频次排行前8位的是:肺癌、肺结节、非小细胞肺癌、计算机辅助诊断、CT图像、特征提取、卷积神经网络、图像分割。进一步进行学科分析发现,计算机辅助诊断肺癌与相关算法对肺癌CT图像的特征提取是中国2011-2021年计算智能算法在肺癌研究中的研究热点。刘晓鹏等人通過对5000例T1期肺癌患者胸部CT片进行计算机神经网络学习,形成肺部结节的相关算法,测试500例T1期肺癌患者胸部CT片,并同专家读片进行比较,结果显示在1 mm层厚的CT片测试中人工智能与人工读片对于肺癌结节和阴性对照读片的检测率相似,无显著差异。而在5 mm层厚的相同验证集CT片比较中,人工智能对肺癌结节的检出数优于人工读片,敏感性更高,但误报数增多,特异性稍差[6]。这说明通过人工智能自动学习早期肺癌胸部CT图像,可以达到较高的早期肺癌识别的敏感性及特异性,见表5。文献的引用情况是目前评价文献质量的重要指标,被引频次不仅可以反映论文研究成果的学术水平,同时也能反映作者的科研成果被国际同行关注的程度,论文被引次数越多,尤其是去除自引后的被引次数(他引次数)越多,说明其在该研究领域的影响越大,见表6。通过进一步的分析发现,计算智能算法分析肺癌的CT图像是当前国内的研究热点。
2 国外计算智能算法在肺癌中的应用的文献计量分析
2.1 数据来源与检索
在对国外文献统计分析时,本研究以Web of Sci⁃ence数据库作为数据来源,检索时间跨度限定为2011—2021 年,采用通用检索方法“GeneralSearch”,进行“(lung cancer) AND (algorithm)”主题检索,得到6991篇文献,经人工筛选到有统计学意义的相关文献6661篇。
2.2 结果与分析
统计2011—2021 年Web of Science数据库索引出的国外计算智能算法在肺癌中的应用的文献量,并分析得出文献增长规律。通过折线图,可以清晰看出虽然国外2011—2021 年计算智能算法与肺癌文献量在2013与2016年减少,但十年间总体文献数量持续增加,于2021年增长至峰值956篇;这也表明国外将关注点放在对计算智能算法在肺癌研究中的应用上,推动其不断发展;国外2015 年1 月20 日,奥巴马提出“精准医学计划”,期望利用基因组学、信息学和卫生信息技术来加速生物医学新发现,其中列举的就是肺癌的精准治[7],这对认识肺癌肿瘤机制也提出更高层次的要求。因此2011—2021年国外计算智能算法与肺癌文献数量总体上呈递增趋势,在2019年后相关文献在增长数量上未减少,这说明计算智能算法在肺癌中的应用具有研究价值,这为人类战胜疫情提供支持。
以Web of Science数据库为数据来源,通过2.1的检索方法进行检索并对结果分析,我们发现“MEDICAL PHYSICS”“INTERNATIONAL JOURNALOF RADIATION ONCOLOGY BIOLOGY PHYSICS”“PHYSICS IN MEDICINE AND BIOLOGY”和“PLOSONE”是国外计算智能算法在肺癌中应用这一研究方向发文量最多的四种杂志,通过对国外计算智能算法在肺癌中应用的文献主要来源期刊进行分析,有助于中国的研究人员确定其投稿及未来研究方向。文献的研究方向代表了国外学者的最新学术研究动向。在所得检索结果中选取“研究方向”字段分析发现:“RADIOLOGY NUCLEAR MEDICINE MEDICALIMAGING”综合比例高,说明医学影像学与计算智能算法的联系最为紧密,这提示国内科学家应关注医学影像学与计算智能算法的发展。Setio等利用美国国家肺癌筛查试验计划中[8]的4万多张CT图像数据,训练了一个基于三维卷积神经网络的网络结构,研究人员在测试集上获得了高达94.4%的可信区间[9]。通过安排多名拥有多年临床经验的放射科诊断医生作为对比,让他们对同一数据进行肺癌患病风险评估。结果显示医生的表现均差于深度学习网络算法。因此,通过大数据训练的人工智能模型在预测早期肺癌风险这一任务上表现出了优于医生专家的性能,也证实了神经网络对早期肺癌预测结果的稳健性。
“被引用量”常被当作是衡量论文质量的指标,一篇论文被后续发表的论文引用次数越多,其“被引用量”及研究质量也就越高,对该领域的影响力越大。通过对国外计算智能算法在肺癌中的应用的文献引用次数分析,可以发现国外已开始应用机器学习在肺结节的辅助诊断、肺癌的分析表型以及肺癌成像模型分析等临床研究中,与国外相关文献的被引用量进行对比,可发现国内文献的“被引用量”远低于国外的“被引用量”,这说明国外计算智能算法在复杂疾病的预测与诊断中论文的影响力更大,见表8。通过对2011-2021年国外计算智能算法在肺癌中应用的相关6661篇文献的研究方向进行分析,发现肿瘤学、呼吸系统、放射学核医学成像是主要研究方向,这说明国外研究的重点方向是如何使用计算智能算法来更好地服务肺癌的诊断,这为国内尚处于萌芽的研究团队提供了未来研究方向,见表9。
3 国内外研究发展对比分析
从国内外期刊收录文献可以看出,国内倾向于应用计算智能算法在大数据、基因表达等计算机与生物科学领域上的具体问题。放射组学通过计算机高通量提取医学数字影像中蕴含的大量不能被常规肉眼阅片识别高维信息,并通过对放射组学特征分析和处理,建立肿瘤放射组学特征与基因表型的相关性,为临床开展精准医疗提供决策支持。机器学习使计算机像人脑一样学习,不需要明确的程序,通过从数据中学习和训练,并能进行识别和分类。再加上人工智能近年来高速发展,它解决了放射组学特征庞大计算量的问题,使得放射组学有望成为放射学和精准医学的桥梁,从而让放射诊断医师更多地参与到疾病的精准诊断和个性化治疗当中去。因此,胡丽霞指出基于机器学习的放射组学模型能够用于预测NSCLC 的EGFR的突变,为临床医生术前治疗方案的选择提供决策支持[10]。张飞创新性地将计算智能算法用于非小细胞肺癌癌症阶段分类,虽然在验证数据集中的分类结果并不理想,但为新靶向药物的研发以及个性化治疗的发展提供了重要的理论依据[11]。
与国内相比,国外学者更着重于利用先进的计算智能算法应用对肺癌的临床治疗上。Nicolas从癌症基因组图谱获得的全玻片图像训练了一个深度卷积神经网络,可以从病理图像中预测出来STK11、EGFR、FAT1、SETBP1、KRAS和TP53六种在LUAD中最常见的突变基因[12]。癌症的早发现早治疗特别重要,该研究提供了强有力的证据,证明人工智能方法能够帮助病理学家检测癌症亚型或基因突变,从而使患者能够尽早接受靶向治疗。
综合国内外文献,发现计算智能算法在肺癌中的应用以直线增长趋势不断向前发展,虽然国内学者不断学习和借鉴国外先进经验,取得了一定的进展,但国内的相关研究仍落后于国外,国外相关文献量多于国内近七倍,且国外将先进的理论研究用于肺癌的治疗上远超国内,这与我国科技发展水平、教育普及程度和基金支持力度有一定联系,同时也侧面说明在我国对计算智能算法与肺癌的研究尚未得到各研究院、高校的充分重视,国内相关发展基础条件有待加强。目前国内和国外研究领域均围绕计算机科学、医疗保健科学与服务、數据挖掘、图像分割与处理等方面,这将促进国内和国外学者的科研合作与深层次学术交流,共同攻坚克难。国内研究者仍要不断努力以加强学科领域的实践探索与理论研究,增强国际影响力。
4 未来展望
综合国内外文献,计算智能算法发展日益迅速,国外治疗肺癌的研究起步较早,发表文献较多,文献增长速度较快,研究方向更偏向使用人工智能服务医药卫生,而国内研究更偏重应用人工智能解决生物科学上的具体问题。在人工智能广泛应用于各领域的背景下,我们应重视自身创新性发展,同时也要分析认清国内与国外的发展差距,努力改善自身不足之处,加强理论方面的深入研究,同时政府部门应加大对计算智能算法治疗肺癌的支持力度,保障我国相关研究水平逐步跟上并超越发达国家,力求从全球各国家、研究中心整合优势资源、促进研究相关机构密切交流合作,实现优势互补,资源共享,有望实现两学科高水平的突破。