基于PubMed数据库探讨卷积神经网络在肝癌影像学评估的文献计量学研究

2022-01-12魏巍黄樱硕

肝脏 2021年12期

关键词：处理

魏巍黄樱硕

目前基于计算机辅助检测技术应用广泛，其中卷积神经网络(convolutional neural network, CNN)已成熟应用于影像学信息提取[1]。CNN与传统的神经网络模型相比较可以避免人工选择图像特征的主观性，而获得更准确的图像分割参数并提高模型准确率[2]。近十年来，国内外学者应用CNN模型处理肝癌的影像学资料，建立了较为准确的诊断模型[3-6]。本研究尝试利用文献计量学的方法总结分析近年来在PubMed上公开发表的文献中，以CNN模型评估肝脏纤维化的研究现状，为今后肝脏纤维化评估模型的选择提供参考依据。

资料与方法

一、文献检索

本研究以Convolutional Neural Network (CNN) AND Hepatic Carcinoma (HCC)、Deep Learning AND Hepatic Carcinoma (HCC)、Deep Convolutional Neural Network (CNN) AND Hepatic Carcinoma (HCC) 为检索词在PubMed数据库进行检索，检索的文献涵盖了英文文献以及在PubMed中收录的中文文章的英文摘要。检索时间为PubMed收录第1篇文献至2021年3月3日，所查阅的文献下载全文或摘要后由两名研究者独立筛选并提取相关信息。

二、研究方法

(一)文献信息提取利用NoteExpress文献管理软件对入选的研究进行分类管理，采用Excel软件编制关键信息提取表，提取的关键信息包含文献发表年份、发表国家、第一作者、发表期刊名称、影响因子以及CNN模型架构等信息。信息提取由两名研究者独立完成，意见不一致时邀请其他研究者进行讨论确定。

(二)主要分析指标将上述提取的信息按以下要点分类整理，①文献特征：记录研究的关键词和首次发表的年份，第一作者的国家和基于Web of Science数据库查询的被引用次数；②模型特征：由于CNN是深度学习算法中的一大类，因此详细记录纳入研究的CNN里网络具体架构的名称和模型用于诊断肝癌的准确性；③发表杂志的特征：杂志名称以及2019年的影响因子。

三、统计学分析

基于Microsoft Excel 2013 整理提取的相关数据，利用SPSS 26.0 软件对提取的数据进行统计分析。定量资料满足正态分布采用均值±标准差描述，偏态分布数据采用中位数(四分位数)描述；定性资料以例数和百分比描述。关键词词频分析采用图悦工具(www.picdata.cn)处理。

结果

一、文献检索分析

截至2021年3月3日，基于PubMed数据库用检索到46篇相关文献，剔除综述类文献和未发生肝癌的研究8篇，共纳入38篇文献(见图1)。所有研究为2017年4月至2021年2月发表，其中2020年发表数量最多，为18篇(45%)。2018年发表的研究平均引用次数近80次，单篇引用次数最高的研究为229次，引用次数最少的为2021年1～2月最新发表的研究(见表1)。

图1 关键词词频分析图

图1 研究文献筛选流程图

表1 不同年份文章发表情况及引用情况

二、研究内容提取及关键词词频分析

纳入的文章全部为原始研究，研究者通过阅读全文提取每篇文章的关键词，在整理过程中首先将关键词去重，例如：Hepatocellular carcinoma及HCC被记为同一类关键词，然后记录每类不同的关键词出现的频次和占总频次的百分比。在38篇研究中，共出现136个不同的关键词，其中词频超过10次的有肝细胞癌(Hepatocellular carcinoma)、卷积神经网络(Convolutional neural networks)和深度学习(Deep learning)，三个高频关键词累计出现的占比近35%，其余133个关键词的占比为65%，其中有54个关键词仅出现1次。将所有关键词按词频进行从小到大的顺序排列并绘制词频分析图，图中每一个关键词仅出现1次，大小与每个关键词的权重相关(见图2)。

三、高引用次数研究的特征分析

提取每篇研究的被引用次数，将被引用超过10次的文章进行详细记录，包括第一作者、发表时间、发表国家和模型的信息等。结果显示，在8篇高引用的文章中，有4篇来自于中国(含香港)，4篇来自国外作者。在发表年份方面，有1篇发表于2017年，3篇发表于2018年，4篇发表于2019年。发表的杂志中，影响因子最高的杂志为Radiology(IF=7.931)，所有作者均选用了不同的深度CNN模型架构，经过多次卷积学习过程模型展现了较高的准确性，能够实现诊断肝癌的图像分割，为临床诊治提供辅助性判读支持(见表2)。

表2 引用10次及以上文章特征分析

讨论

针对肝癌的诊断是学术界讨论的热点，由于肝癌发病隐匿，进展较快，占位形成至一定体积时才被诊断，患者在就诊时大多是在终末期而延误了最佳治疗时期[7]。因此，国内外研究者尝试利用深度学习技术用于肝癌影像学的数据提取和判读，为肝癌早期诊断提供辅助性支撑。将CNN应用于肝癌图像判读的研究出现在2017年[8]，由于CNN在肝癌影像学判读中准确性高，能够辅助临床医生早期诊断，近5年间发文量逐渐递增，在2020年发文量达到高峰。在文章引用方面，单篇引用最高的文章发表于2018年[9]，研究者利用深度卷积网络模型针对肝癌影像学图像进行分割和判读，将研究结果与既往构建的相关模型对比，CNN模型的准确性均高于其他模型，可以应用于肝癌和其他肿瘤疾病的图像分割和判读。从本研究词频分析结果显示，发表文章研究热点主要围绕肝癌、CNN模型、深度学习、图像分类、人工智能、肝脏肿瘤、MRI和CT等，侧面反映了近几年国内外研究者尝试利用人工智能的算法解决临床疾病的诊断，尤其是CNN模型算法的特点更加适用于影像学资料的图像分割、数据提取和临床结局的分类等问题。

由于CNN模型原理较为复杂，且实现CNN模型的软件通过编程才能实现，因此对于临床医生应用CNN模型解决临床问题一直是个难点。目前有国外的学者将CNN模型学习过程开发成可视化的工具，能够实现通过网站(http://chainer.org/以及https://keras.io/)以点选的方式搭建CNN模型进行分类和数据处理，便于临床医生和其他科研工作者使用CNN模型解决临床实际问题。即使深度学习算法发展成熟，已经广泛应用于肝癌临床辅助性诊断中，并且在获得了较高的诊断准确性，但是肝癌的诊断还需临床医生结合患者的病史、甲胎蛋白水平等综合判断，因此深度学习算法或是CNN模型仅作为辅助性诊断工具，为临床医生更加准确诊断疾病提供支持。

综上所述，人工智能尤其是深度卷积神经网络模型近年来发展成熟，越来越多的国内外研究者尝试利用CNN模型进行肝癌的影像学评价并且获得了较高的诊断准确性，文献发表量逐年递增，引用次数随发表时间增加而增加。但由于模型原理和计算过程较为复杂，还需要进一步开发可视化及操作简便的应用系统，以便于更多的临床医生和科研工作者解决问题。