深度学习技术在胎儿超声心动图图像自动识别中的应用
2022-09-13罗刚泮思林乔思波庞善臣陈涛涛孙玲玉董玉坤
罗刚 泮思林 乔思波 庞善臣 陈涛涛 孙玲玉 董玉坤
青岛大学附属妇女儿童医院1心脏中心,2超声科(山东青岛 266034);3中国石油大学(华东)计算机科学与技术学院(山东青岛 266580)
随着胎儿超声心动图技术的发展和胎儿先天性心脏病(简称先心病)认识程度的提升,超声心动图在胎儿先心病评估及干预策略的选择中发挥重要作用。受胎位、超声斑点噪声及伪影等影响,超声心动图准确筛查胎儿先心病极具挑战性,准确率高度依赖于医师经验,基层医院普及较为困难[1]。引入深度学习技术识别超声图像可能更具优势[2-5],但在胎儿超声心动图图像识别中的应用研究相对缺乏[6-8]。四腔心切面可较清楚地显示心腔形态及大小,较全面地评估胎儿心脏发育情况,是超声诊断胎儿先心病的基本切面[9]。本研究在YOLOv4 模型[10]基础上适当缩减模型深度,采用多级残差混合注意力机制模块(multistage residual hybrid attention module,MRHAM)建 立MRHAM-YOLOv4-Slim 模型,评价该模型在胎儿超声心动图四腔心切面定位、识别心腔结构的可行性。
1 资料与方法
1.1 研究对象选取2019年8-12月青岛市妇女儿童医院采集的2 000 张健康孕25 周胎儿的超声心动图标准四腔心切面图像(JPG 格式)建立实验数据集。标准超声图像由2 名具有10年以上工作经验的超声医师采用Samsung WS80A 超声诊断扫描仪获取,数据图像存在不同程度的伪影、斑点噪声及模糊边界。本研究遵循《世界医学协会赫尔辛基宣言》原则,经医院伦理委员会讨论审核批准(批件号:QFELL-KY-2021-22)。
1.2 仪器与方法(1)建立机器学习模型:为匹配本研究胎儿超声心动图图片数据集的规模,缩减YOLOv4 模型的深度,降低了模型复杂度。修改CSPDarknet53 骨干网络:将注意力机制模块嵌入至骨干网络模型,以保证改良YOLOv4 模型面对小规模数据集的泛化能力。本研究引入空间金字塔池(spatial pyramid pooling,SPP)、特征图金字塔网络(feature pyramid network,FPN)以及路径融合网络(path aggregation network,PAN),扩大感受野范围,能够提取更具有分辨性的特征映射。本研究使用PASCAL 组织发布的Pascal VOC 2012 计算机公开数据集,包括目标分类、目标检测及目标分割等任务。该数据集包含20 类物体,共有11 540 张图片,其中包含27 450个被标注的检测物体。该数据集对本研究所建立的机器学习模型在NVIDIA 2080Ti 图形处理器(graphic processing unit,GPU)上运用Pytorch(Pytorch=1.5.0,https://pytorch.org/)进行迭代训练,获得了具有丰富图像知识的预训练权重[11]。(2)方法:在本中心采集的胎儿超声心动图标准四腔心切面图像所建立的MRHAM-YOLOv4-Slim 机器模型进行图像分类测试并与多种机器模型进行对比。采用四种评价方法,包括:召回率(recall):R=Ntp/(Ntp+Nfn),表示提取出的正确信息条数在样本中的信息条数的比例;精确度(precision):P=Ntp/(Ntp+Nfp),表示提取正确信息的条数中实际为正确的比例,并计算平均精度(mean average precision,mAP);F1 值为精确率和召回率的调和平均数:F1=2PR/(R+P)。
2 结果
2.1 建立机器学习模型本研究减少了YOLOv4机器学习模型CSPDarknet53 骨干网络中的跨阶段区域(cross stage part,CSP)模块中的残差映射数量,将第3、4、5 阶段的CSP 模块中的残差映射分别从8、8、4 减少为4、4、2,模型深度减少16 层,建立YOLOv4-Slim。本研究将不同注意力机制模块MRHAM(图1)和卷积块注意模块(convolutional block attention module,CBAM)嵌入至骨干网络模型建立相应机器学习模型。
图1 MRHAM-YOLOv4-Slim 网络架构Fig.1 Mrham-yolov4-slim network architecture
2.2 模型效果验证
2.2.1 模型验证本中心采集的超声心动图图像分类测试降低YOLOv4 模型复杂度的YOLOv4-Slim在识别心腔结构准确性更具优势,达到性能优化目的,可匹配本研究胎儿超声心动图图片数据集的规模,见表1。MRHAM-YOLOv4-Slim 模型识别超声四腔心图像情况见图2。
表1 不同机器模型在胎儿超声心动图分类测试中的比较Tab.1 Comparison of different machine models in fetal echocardiography classification test
图2 深度学习模型识别胎儿超声心动图四腔心情况Fig.2 Recognition of fetal four chamber echocardiography by deep learning model
2.2.2 两种不同注意力机制模块模型比较本中心采集的超声心动图图像分类测试证实引入注意力机制模块MRHAM 和CBAM 后YOLOv4-Slim 性能获得进一步提升,见表1。对实验数据集分类测试比较结果,MRHAM-CSPDarknet53-Slim 模型准确率均显著优于CBAM-CSPDarknet53-Slim,甚至优于MRHAM-CSPDarknet53,见表2。
表2 不同注意力机制模块对模型骨干网络的影响Tab.2 Influence of different attention mechanism modules on model backbone network
2.2.3 胎儿超声心动图图像四腔心结构识别精度比较MRHAM-YOLOv4-Slim 在本研究采集的超声心动图四腔心切面图像中识别四个心腔(左心房、右心房、左心室和右心室)的准确度分别为0.87、0.93、0.86 和0.89,相比YOLOv4、YOLOv4-Slim及CBAM-YOLOv4-Slim 明显升高,见表3。
表3 不同机器模型间胎儿心脏四腔心识别精度的比较Tab.3 Comparison of recognition accuracy of four chamber fetal heart between different machine models
3 讨论
胎儿先心病类型多样性,胎儿超声心动图图像对比度低、信号丢失、斑点噪声和伪影等问题均增加胎儿心脏检查难度。此外,超声医师的经验及胎儿在宫内的不同位置都可导致图像的获取缺乏一致性和可重复性。人工智能深度学习技术已被用于超声心动图自动识别,笔者单位也开展了相关研究[6-7,12-14],虽然只处于相对初级的阶段,但具有缩短超声医师学习曲线,降低人为错误风险的应用前景。四腔心切面是产前诊断先心病的主要超声切面,该切面能够清晰显示胎儿各心腔发育情况[15]。因此识别四腔心切面中胎儿心腔结构是本研究深度学习训练模型在胎儿超声心动图中的研究起点。
REDMON等[16]在2015年首次提出YOLO模型,只需对输入的图片信息进行一次处理,就能直接预测出物体的位置和类别信息。为了提高YOLO模型的精度,尤其是对于小尺寸目标的识别精度,2018年REDMON 等[17]采用了DarkNet-53 作为新的骨干网络用于提取输入图像的特征建立YOLOv3模型。该模型在骨干网络加入特征图金字塔方法,融合了不同尺寸的特征信息,大幅提升了YOLOv3模型小尺寸目标的检测准确率。ALEXEY 等[10]提出了YOLOv4 模型,该模型仅使用一张1080Ti GPU或者2080Ti GPU 就能得到一个快速且精准的检测模型,在一些大型公开数据集上表现出优秀的检测效果。由于本研究短时间内收集的胎儿心脏超声图像数据较少,超声图像分辨率较低且噪声多,使用原始复杂的YOLOv4 模型容易出现过拟合现象,且不能精确捕捉超声图像中的心腔结构,导致模型的性能下降。因此,本研究根据实验数据集特点对YOLOv4 做出相应的改进,使模型达到最好的性能。
CSPDarknet53是YOLOv4模型的骨干网络,它是由ALEXEY 等[10]提出的67 层深度网络分类模型。该模型采用了卷积操作,通过调节卷积步长控制输出特征映射的尺寸及感受野的大小。CSPDarknet53 骨干模型引入了CSP 残差模块和Dropblock技术,可以对卷积神经网络进行正则化处理,提高了模型预测精度。本研究结合胎儿超声心动图实验数据集需要,对减少了该骨干网络CSP 模块中的残差映射的数量,缩减了网络深度及复杂度。在实验数据集分类验证中,CSPDarknet53-Slim 比CSPDarknet53 更具优势。YOLOv4-Slim 在识别心腔结构准确性优于YOLOv4,证实降低模型训练的复杂度确实可达到性能优化。因此,本研究所采用CSPDarknet53-Slim 骨干网络更适合胎儿超声心动图精细分类识别,对CSPDarknet53 骨干网络精简优化可实现良好的性能。
超声心动图图像分辨率较低且含有大量噪音,目标检测算法难以聚焦待检测物体,预测的候选框可能只包含待检测物体的某一部分,使得检测算法的性能大幅下降。由于目标检测与人类感知的整个过程非常类似,利用捕捉到的局部特征即能很好地理解整个视觉场景,视觉注意力机制在其中扮演着非常重要的角色。因此,WOO 等[18]融合了通道信息和空间信息,提出卷积神经网络注意力机制模块CBAM,并在ImageNet 数据集进行分类测试,验证了通道信息和空间信息结合的有效性。本研究借鉴了CBAM 模块引入MRHAM 模块,经验证在实验数据集MRHAM-CSPDarknet53-Slim模型识别准确率均显著优于CBAM-CSPDarknet53-Slim。
综上所述,本研究建立的MRHAM-YOLOv4-Slim 模型在胎儿超声心动图图像识别中展现出更佳的性能。未来研究中,团队将在此模型基础上设计一个胎儿心脏自动分类模型,逐步实现对室间隔完整的肺动脉闭锁伴右心发育不良综合征等疾病胎儿心脏发育状况的早期预测评估,具有重要临床价值和社会意义。