YOLOX 目标检测模型用于自动识别数字减影血管造影图中的血管腔内介入器械
2024-02-28夏士博陆清声
丰 蕊,冯 浩,宋 超,夏士博,陆清声*
(1.上海理工大学健康科学与工程学院,上海 200093;2.上海航天能源股份有限公司,上海 201400;3.海军军医大学第一附属医院血管外科,上海 200433)
血管腔内治疗可用于主动脉疾病、外周动脉疾病及静脉疾病。随着血管相关疾病的发病率不断提高,临床工作难度及强度均有所增加。利用计算机视觉识别可提取大量信息,精准识别定位介入器械,辅助医师进行操作[1]。血管腔内手术机器人的出现,使得远程操作成为可能,减轻了医师工作强度[2];计算机视觉识别可为手术导航,以规避风险、执行最佳方案,实现自动化手术[3-4]。识别血管腔内器械是计算机和机器人辅助跟踪干预的先决条件。作为一种目标检测算法,YOLO 已广泛用于实际场景下检测目标任务。YOLOX 为新一代YOLO 算法,保留了YOLO 算法检测速度快的特点而提高了其检测精度。本研究构建YOLOX 深度学习目标检测模型,观察其自动识别数字减影血管造影(digital subtract angiography, DSA)图中的血管腔内介入器械的价值。
1 资料与方法
1.1 研究对象 收集2021 年3 月—6 月于海军军医大学第一附属医院接受腹部血管腔内介入治疗的37 例患者DSA 资料,男22 例、女15 例,年龄39~69 岁、平均(45.0±15.0)岁。治疗前患者均签署知情同意书。本研究经医院伦理委员会批准(CHEC2022-151)。
1.2 仪器与方法 采用GE Innoval IGS 630 DSA 机为引导设备,经股动脉入路行腹部血管腔内介入治疗。目 标 器 械 包 括 Terumo 0.035in 泥 鳅 导 丝(Terumo. 35)、Cook Lunderquist 超硬导丝(Cook_Lunderquist)、Optimed 5F 带刻度猪尾导管(Optimed_5f)、Cordis MPA 多功能导管(Cordis_MPA)、Boston Scientific V-18 可控导丝(Boston V18)及Terumo 6F长鞘(Terumo sheath)。以OBS STUDIO 软件录制屏幕播放的DSA 视频,以MPEG 格式保存,分辨率为1 290×720 像素,并对视频进行去识别化处理。应用Python 语言截取视频中的目标运动及形变片段,截取频率为每秒5 帧;共获得4 435 幅DSA 图,按照9∶1比例将其分为训练集(n=3 991)与验证集(n=444)。
1.3 图像预处理 对DSA 图进行归一化处理后,由分别具有3、10 年血管外科工作经验的住院医师、副主任医师各1 名采用Labelimg 软件(版本3.16.2)以矩形框于图中标注器械并加注分类标签,转换为XML 格式后单独存放于标注文件夹中备用。
1.4 构建YOLOX 目标检测模型
1.4.1 主干网络 YOLOX 主干网络为 CSPDarknet,包含约53 层卷积层和残差块。采用Mosaic 方法对训练集数据行数据增强[5],即每次读取4幅图像并经缩放和翻转等处理后组合成为1 幅图像传入CSPDarknet,以提高网络训练速度、改善目标分布不均匀性、提高系统鲁棒性并降低图形处理器内存消耗。采用3×3 卷积核逐级提取DSA 图像特征以构成特征层,即输入图像特征集,并从网络输出中获取系列特征图,输入图像大小和网络结构不同则特征图大小亦不同,以捕捉输入DSA 图不同层次特征信息[6]。
1.4.2 特征金字塔网络(feature pyramid networks,FPN) FPN 为YOLOX 增强型特征提取网络,能对有效特征层进行特征融合[7]。首先利用FPN 通过上采样对主干网络所获特征信息进行传递和融合,以提取不同层次的特征信息,之后通过PAN 进行下采样,经融合得到预测特征图[8]。
1.4.3 预测结果模块 YOLO Head 为YOLOX 的结果分类器,利用无锚探测器进行预测(图1),可对每个特征层获得3 个预测结果,分别用于判断每个特征点是否包含物体、所含物体种类是否为所需识别器械及其回归参数,调整回归参数后可获得预测结果(即预测框)。 于 远 程 GPU( 配 备 pytorch==1.2.0 torchvision1.4.0 条件)利用训练集数据进行学习训练,共迭代100 次,获得模型最优权重。
图1 YOLOX 目标检测模型结构图
1.5 评估YOLOX 目标检测模型的预测效能 将最优权重及验证集未标注DSA 图导入已完成训练的YOLOX 目标检测模型,设置交并比(intersection over union, IOU)为0.5。IOU代表人工标注区域与深度学习模型输出的预测框面积之间的重叠程度[9],IOU=1表示二者完全重叠,而IOU=0表示二者无重叠;由此获得模型预测图,以评估YOLOX目标检测模型的效能(图2)。
图2 YOLOX 目标检测模型自动识别6 种介入器械预测图 A.Optimed_5f(深蓝色); B.Boston V18(黄色)、Terumo sheath(浅蓝色)及Cordis_MPA(红色); C.Cook_Lunderquist(紫色); D.Cordis_MPA(红色)及Terumo.35(绿色)
根据验证集结果绘制受试者工作特征曲线,记录YOLOX 目标检测模型自动识别的真阳性(true positive, TP)、假阳性(false positive, FP)、真阴性(true negative, TN)及假阴性(false negative, FN)。TP 代表识别目标器械种类正确,且预测框中心坐标及预测框范围与人工标注区域的IOU<0.5;FP 代表背景被预测为目标器械;TN 代表DSA 图中不存在目标器械,模型正确预测背景;FN 代表图中存在目标器械但被模型识别为背景。计算所获YOLOX 目标检测模型自动识别DSA 图中6 种血管介入器械的平均像素准确率(mean pixel accuracy, MPA)及每种器械的像素准确率(pixel accuracy, PA)、f1-分数(f1-score,F1)、召回率和精确率:PA=(TP+TN)/(TP+TN+FP+FN),F1=2×精确率×召回率/(精确率+召回率),召回率=TP/(TP+FN),精确率=TP/(TP+FP)。
2 结果
共对4 435 幅DSA 图设置6 668 个标签,分别针对Terumo.35 泥鳅导丝(n=587)、Cook_Lunderquist(n=990)、Optimed_5f(n=1 680)、Cordis_MPA(n=667)、Boston V18(n=1 330)及Terumo sheath(n=1 414);训练集分别含上述标签527、875、1 466、598、1 185 及1 282 个,验证集分别含上述标签60、115、214、69、145及132 个。
YOLOX 目标检测模型自动识别验证集DSA 图中上述6 种介入器械的PA 分别为95.23%~99.18%,识别MPA 达97.75%,自动识别上述器械的F1 为0.91~0.98,召回率为87.05%~99.25%,精确率为93.24%~98.23%。见图3 及表1。
表1 YOLOX 目标检测模型自动识别验证集6 种血管腔内介入器械的效能
图3 YOLOX目标检测模型自动识别DSA图中介入手术器械种类的PA A.Terumo.35; B.Cook_Lunderquist; C.Optimed_5f; D.Cordis_MPA;E.Boston V18; F.Terumo sheath
3 讨论
随着手术机器人的研发,血管腔内介入的临床应用优势愈发凸显[10-11],同时对智能程度的要求亦越来越高。利用计算机视觉技术可自动识别及定位图像或视频中的目标。血管腔内介入主要在DSA 引导下进行,均为灰度图像,信息量大而内容特征不明显;加之血管腔内介入器械体积较小且差异不显著,导致基于DSA 图像识别介入器械难度增加。以计算机视觉技术识别血管腔内介入器械无需额外传感器,受环境变化影响较小,可很好地匹配治疗流程,有利于指导治疗决策、实现图像导航及机器人自动化进行血管腔内介入操作[12]。
近年来,人工智能机器学习在医疗领域的应用日益广泛,包括诊断疾病、手术培训以及评估外科医师技术技能水平等[13-14]。计算机视觉技术是人工智能领域的重要分支之一,计算机视觉任务包括检测及分割两部分。语义分割是基于CNN 的计算机视觉方法,通过将整幅图像划分为不同像素组并对其进行标记和分类,以具体分析图像中每个像素的作用,进而判定目标对象边界,可实现像素级精准识别;但其分割速度较慢,无法满足实时性要求[15-16]。本研究采用YOLOX 目标检测算法构建深度学习模型,以自动识别DSA 图中的6 种血管腔内介入器械;因各种器械在形态结构、粗细、硬度及材质方面各有不同,种类、规格复杂,模型输出结果为目标物体左上角坐标和边框的宽高列表,即依据目标特征在“宏观”上加以识别,其准确率高且识别速度更快[17]。本研究结果显示,YOLOX 模型自动识别6 种血管腔内介入器械的PA 为95.23%~99.18%,MPA 达97.75%,精确率达93.24%~98.23%;其对Terumo. 35 泥鳅导丝的PA 较低(95.23%),可能系导丝细小、形态多变所致。
综上所述,YOLOX 目标检测模型可自动识别多种血管腔内介入器械,有利于辅助医师操作。但本研究所构建模型仅用于检测血管腔内介入器械种类而无法定位标记其尖端,且未在真实临床环境中进行验证,有待后续进一步观察。
利益冲突:全体作者声明无利益冲突。
作者贡献:丰蕊查阅文献、数据分析、统计分析、撰写文章;冯浩图像处理、统计分析、修改文章;宋超研究设计;夏士博研究实施;陆清声指导、审阅文章、经费支持。