基于声像图深度残差网络ResNet模型自动诊断肾囊肿
2022-04-13莫莹君郭瑞斌
莫莹君,郭瑞斌
(1.湖南省第二人民医院超声科,湖南 长沙 410000;2.中国人民解放军国防科技大学智能科学学院,湖南 长沙 410073)
肾囊肿是泌尿外科常见疾病,为肾脏内大小不等、与周围组织分界清晰的囊性包块,其内含有淡黄色透明液体。肾囊肿发病率约10%,且随年龄增长而逐渐升高,在70岁以上人群中的发病率>35%[1]。目前,超声是观察囊肾肿大小、部位及数量的主要手段。随着现代医疗技术的快速发展,超声数据每年以30%的速度增长,导致医师工作量及工作压力激增。基于人工智能(artificial intelligence, AI)的医学影像自动诊断是解决此种医疗困境的可行方案[2-3];利用深度学习(deep learning, DL)技术自动诊断疾病渐趋广泛[4-11]。本研究观察基于声像图的深度残差网络ResNet模型自动诊断肾囊肿的应用价值。
1 资料与方法
1.1 一般资料 收集2018年6月—2019年12月3 670例于湖南省第二人民医院接受肾脏超声检查患者,男2 569例,女1 101例,年龄40~85岁,平均(62.6±13.2)岁。纳入标准:声像图质量满足研究要求。排除标准:①肠气干扰明显;②重度肥胖,声衰减明显;③肾脏明显萎缩,边界不清。
1.2 仪器与方法 采用Siemens ACUSMON S2000超声仪,腹部探头,频率3~5 MHz。检查当日晨嘱患者禁食。嘱患者侧卧,行常规经腹超声检查,观察肾脏大小、形态及回声等;发现肾囊肿时,观察其大小、边缘、内部回声及血流情况。
1.3 构建数据集 由6名超声科医师(主治医师4名,主任医师、副主任医师各1名,平均工作年限12.5年)观察肾脏声像图,经综合评判后共诊断2 024例单侧肾单发囊肿(图1A),余1 646例为正常肾(图1B)。每例选取2幅肾脏声像图构建数据集,共包含7 340幅图像,将其分为训练集(6 294幅,含3 238幅肾囊肿、3 056幅正常肾)和测试集(1 046幅,含810幅肾囊肿、236幅正常肾);声像图分辨率均为490×350。
1.4 基于声像图自动诊断肾囊肿方法
1.4.1 梯度方向直方图(histogram of oriented gradients, HOG)+支持向量机(support vector machines, SVM)方法 利用Python数字图像处理包skimage提取数据集中声像图的HOG特征,在训练集上用Python机器学习库sklearn对提取的HOG特征进行SVM模型训练,再利用训练好的模型对测试集声像图进行分类,得到自动肾囊肿诊断结果。
1.4.2 基于深度残差网络ResNet模型 利用深度残差网络[12]对肾脏声像图进行自动诊断,流程见图2,即输入原肾脏声像图,分别以ResNet18、ResNet34及ResNet50 3种深度残差网络模型进行处理后,输出是否为肾囊肿的诊断结果。利用交叉熵损失进行模型训练,设定学习率(learning rate, LR)为0.05,采用小批量随机梯度下降(mini-batch SGD)算法对模型参数进行更新[13-14]。
1.5 统计学分析 采用SPSS 17.0统计分析软件。以超声医师诊断结果为金标准,采用四格表法分别计算4种方法(HOG+SVM、ResNet18、ResNet34及ResNet50)诊断肾囊肿的敏感度、特异度及准确率,并以χ2检验比较其敏感度、特异度及准确率。绘制4种方法诊断肾囊肿的受试者工作特征(receiver operating characteristic, ROC)曲线,获得曲线下面积(area under the curve, AUC)。P<0.05为差异有统计学意义。
2 结果
测试集中,ResNet34、ResNet50模型诊断肾囊肿的敏感度、特异度及准确率均高于HOG+SVM方法及ResNet18模型(P均<0.01),且ResNet50模型的特异度和准确率均高于ResNet34模型(P均<0.05),见表1。
表1 4种方法用于诊断测试集肾囊肿的效能比较[%(幅)]
ROC曲线显示,HOG+SVM方法及ResNet18、ResNet34、ResNet50模型自动诊断肾囊肿的AUC分别为0.731[95%CI(0.691,0.771)]、0.754[95%CI(0.715,0.792)]、0.851[95%CI(0.819,0.884)]及0.892[95%CI(0.865,0.920)]。见图3。
3 讨论
大数据驱动的AI技术已逐渐用于临床诊断疾病。本研究观察基于声像图的深度残差网络ResNet模型自动诊断肾囊肿的价值。基于超声图像自动诊断肾囊肿是一个分类问题,每幅肾脏声像图有一个确定的类别,即肾囊肿或正常肾。模型训练需要高质量的标记数据集。本研究构建包含肾囊肿和正常肾的声像图数据集,以对3种不同结构的ResNet模型进行训练和测试,并与基于传统DL方法的HOG+SVM方法进行对比分析。
HOG+SVM是基于DL的传统图像分类方法。HOG是利用图像梯度信息提取特征值的方法,SVM则为按监督学习方式对数据进行二元分类的广义线性分类器。提取声像图的HOG特征,并与SVM特征分类相结合,是实现肾囊肿图像分类的经典方法。深度残差网络ResNet是一种具有特殊结构的深度神经网络模型,其核心设计是引入跨层连接构造本体映射及残差映射,并利用残差块减少计算和参数量,实现深度网络对图像高层次特征的提取;不同层数ResNet结构中的核心组分——残差块可分为两类,即残差块1和残差块2,残差块2的卷积核堆叠层数较残差块1更多,网络层次更深。ResNet18中有8层残差块1,ResNet34中有16层残差块1,ResNet50中有16层残差块2。
本研究以HOG+SVM方法及3种ResNet模型在测试集中自动诊断肾囊肿,结果表明,ResNet34、ResNet50模型诊断肾囊肿的敏感度、特异度及准确率均高于HOG+SVM方法及ResNet18模型,ResNet50模型的特异度和准确率均高于ResNet34模型,且ResNet50模型的AUC最高。对于自动诊断肾囊肿,深度残差网络ResNet模型与传统HOG+SVM方法相比具有优势,这是由于ResNet通过激活函数和提升隐藏层数量引入了非线性,大幅提升了模型的表现力,使自动分类性能提高。ResNet50模型诊断肾囊肿效能更好,其主要原因在于深度神经网络中卷积核的重要作用之一为局部连接,即对某一局部进行感知,亦称为“局部感受野”,网络越深,卷积核堆叠获得的感受野越大,接收的特征越全面,更便于提取具有全局语义的特征。ResNet50中有16层残差块2,网络层次更深,更有利于自动诊断肾囊肿。
综上,基于声像图的深度残差网络ResNet模型自动诊断肾囊肿的效能较好,尤以ResNet50模型更佳;但现阶段该模型尚未能用于临床,有待进一步探索、改进。