早孕期胎儿颜面部超声筛查切面图像质量评价系统的构建及验证
2023-11-02余卫峰刘中华柳培忠吴秀明吕国荣
余卫峰 薛 浩 刘中华 柳培忠 郭 旭 吴秀明 吕国荣
获得标准的早孕期胎儿颜面部筛查切面是产前超声早期诊断胎儿颜面部结构畸形的基础。近年来已有研究[1]证实应用人工智能(artificial intelligence,AI)可实现对中、晚孕胎儿颜面部超声标准切面的自动识别及图像质量控制,但其在早孕期胎儿颜面部超声筛查切面的自动识别及图像质量评价方面的应用鲜见报道。本研究旨在构建一种基于YOLOv4模型的早孕期胎儿颜面部超声筛查切面自动识别及图像质量评价系统,并验证其识别效能。
资料与方法
一、研究对象
收集2021年1月至2022年12月我院妊娠11~14周胎儿颜面部超声筛查切面图像为研究对象,分为模型构建集(1001张图像)和临床验证集(610张图像)。所有图像均来自我院PACS系统,仪器使用Philips EPIQ 7、EPIQ 5、iU 22 和GE Voluson E 8 彩色多普勒超声诊断仪(C5-1、C9-2 或C1-5-D 探头,频率1.0~5.0 MHz)。纳入标准:①单胎,产后随访证实为健康胎儿,无颜面部及其他结构畸形;②妊娠11~14 周接受多次超声评估者仅纳入研究1 次;③纳入图像包括正中矢状面(midsagittal plane,MSP)、鼻后三角切面(retronasal triangle,RNT)图像。排除标准:①由于孕妇肥胖、探头抖动等原因导致图像模糊、拖尾,目标结构显示欠清晰;②超声检查或产后证实胎儿异常。模型构建集图像由具有10 年以上产前超声筛查经验的超声医师依据早孕期胎儿颜面部超声筛查切面标准进行筛选及手工标注关键解剖结构,再由另一专家级产科超声医师(获得产前诊断证书且从事产前超声诊断工作15 年以上的副主任医师)对标注的图像进行审核修改。临床验证集图像由不同资历的超声医师在临床工作中保存。将模型构建集图像按8∶1∶1 分为训练集、测试集和验证集,用于训练、测试及验证AI 模型,临床验证集用于评价AI 模型的临床泛化能力。各数据集分布见表1。
表1 早孕期胎儿颜面部超声筛查切面数据集分布 张
图像标准:①MSP,显示呈带状平滑强回声的额骨、鼻尖、鼻骨,呈带状不规则弧形强回声的硬腭,呈圆点状高回声的下颌骨,不能显示上颌突及眼眶;②RNT,显示鼻骨,双侧对称的上颌突,呈圆点状高回声的双侧上牙槽骨,双侧对称的下颌骨断面。见图1。
图1 早孕期胎儿颜面部超声筛查标准切面示意图
二、方法
1.参考临床手动评估早孕期胎儿颜面部超声筛查切面的质量控制准则[2-4],由3名具有20年以上检查经验的超声专家制定早孕期胎儿颜面部超声筛查切面质量控制协议,以及是否为标准切面判定标准和图像质量的评价标准。
2.分析早孕期胎儿颜面部超声筛查切面图像的特点及规律。本研究基于深度学习的自动识别算法模型,对标准切面自动识别中使用的特征提取、特征分类方法进行系统性研究和分析,然后通过YOLOv4模型[5]从训练集图像中学习提取有识别性的特征,并通过联合训练和交替优化,构建一个完全端到端的卷积神经网络(CNN)对象检测模型,以此来检测关键解剖结构。该AI 模型根据早孕期胎儿颜面部超声筛查切面质量控制协议对检测到的关键解剖结构进行赋值,根据评分结果自动判断是否为标准切面,从而实现早孕期胎儿颜面部超声筛查切面的识别分类。其中MSP选取4项关键解剖结构进行赋值,分别为鼻骨、硬腭、第三脑室、下颌骨,其中显示第三脑室计2分,其余每项计1分;RNT 选取4项关键解剖结构进行赋值,分别为上颌突、上牙槽骨、鼻骨、下颌骨,其中上颌突、下颌骨在该切面中为对称结构,每侧计0.5 分,两侧共1 分,上牙槽骨计2 分,鼻骨计1 分。见图2,3。标准切面判定标准:每个切面总分达到4 分及以上。图像质量评价标准:分为优秀、合格、不合格,其中RNT 优秀、合格、不合格对应的评分分别为5分、4.5分、≤4分;MSP 优秀、合格、不合格对应的评分分别为5 分、4 分、≤3 分。本研究在验证集中进行是否为标准切面判定,在临床验证集中同时进行是否为标准切面判定及图像质量评价。其中AI 模型识别关键解剖结构的评价指标为查准率、查全率和F1分数。AI模型工作流程见图4。
图3 早孕期胎儿颜面部超声筛查切面质量控制协议(图左)及对应的解剖结构在胎儿RNT图像(图右)中的位置
图4 AI模型工作流程图
3.由专家级超声医师对临床验证集图像进行分类,依据早孕期胎儿颜面部超声筛查切面的标准程度[6]评价其等级,分为优秀、合格、不合格。
将带有标签的早孕期胎儿颜面部超声筛查切面图像输入AI模型中自动检测关键解剖结构,然后根据制定的早孕期胎儿颜面部超声筛查切面质量控制协议评分准则对超声图像进行评分,并根据评分结果判断是否为标准平面,同时对图像质量等级进行评价。
三、统计学处理
应用SPSS 22.0 统计软件,计数资料以例或率表示,组间比较采用χ2检验。AI 模型与专家级超声医师识别MSP 和RNT 的一致性分析采用Kappa检验;AI 模型与专家级超声医师评价图像质量等级的一致性分析采用Kendall协同系数。P<0.05为差异有统计学意义。
结果
一、AI 模型识别测试集图像中各关键解剖结构的性能评估
成功构建的AI 模型识别测试集图像中各关键解剖结构的查准率、查全率和F1分数均>80%。见表2。
表2 AI模型识别测试集图像中各关键解剖结构的性能 %
二、AI模型对验证集图像中MSP和RNT的识别效能及其与专家级超声医师分类的一致性分析
以专家级超声医师分类为标准,AI 模型识别验证集图像中MSP 和RNT 的灵敏度分别为94.9%、96.8%,特异度分别为95.0%、81.8%,准确率分别为94.9%、92.9%。见表3。该模型识别验证集图像中MSP、RNT与专家级超声医师分类的一致性均好(Kappa=0.888、0.810)。
三、AI模型对临床验证集图像中MSP和RNT的识别效能及其与专家级超声医师分类的一致性分析
以专家级超声医师分类为标准,AI 模型识别临床验证集图像中MSP 和RNT 的灵敏度分别为95.7%、75.9%,特异度分别为85.0%、98.8%,准确率分别为94.0%、84.4%。见表4。该模型识别临床验证集图像中MSP、RNT 与专家级超声医师分类的一致性均良好(Kappa=0.751、0.690)。
表4 AI模型对临床验证集图像中MSP和RNT的识别效能 %
四、AI 模型与专家级超声医师在早孕期胎儿颜面部超声筛查切面图像质量评价中的一致性分析
AI 模型对临床验证集图像中MSP 和RNT 图像质量评价结果与专家级超声医师的总体一致性均良好(Kendall’sW=0.760、0.789),但AI 模型与专家级超声医师在优秀、合格两个等级评价中分歧较大。见表5。
表5 AI模型与专家级超声医师对早孕期胎儿颜面部超声筛查切面图像质量评价结果 张
讨论
目前我国胎儿结构筛查仍主要集中在中孕期(妊娠18~24 周),随着超声技术、仪器性能的不断提高及临床对早孕期胎儿结构研究的深入,早孕期胎儿超声结构筛查逐渐受到重视。与其他部位结构比较,早孕期胎儿颜面部结构具有器官多、体积小、准确识别难度大等问题。超声检查时对早孕期胎儿颜面部标准切面的准确获取、评价及其内部关键解剖结构的精准识别是诊断颜面部结构畸形的基础。研究[7]显示初级医师及社区、乡镇等基层医师对MSP、眼眶切面等早孕期胎儿颜面部超声筛查切面的重要性认识不足(认为该切面对早孕期胎儿颜面部结构筛查有效者仅75.1%、58.7%)。究其原因为这些医师对图像中关键解剖结构识别困难。由于孕妇腹部脂肪厚度、胎儿体位、羊水量、检查机器性能的影响,导致部分初级及基层医师即使在认真学习了标准切面及模式图后,临床工作中对超声图像中关键解剖结构的准确识别仍存在较大困难。本研究结果显示,AI 模型对硬腭、第三脑室和上牙槽骨的识别效果最好,查准率、查全率和F1 分数均>93%,识别下颌骨的查准率、查全率和F1 分数均>87%,识别鼻骨的查准率、查全率和F1分数分别为85.56%、80.63%和83%;识别上颌突的查准率、查全率和F1 分数分别为86.32%、80.16% 和83%,表明AI 模型在早孕期胎儿颜面部超声筛查切面关键解剖结构的识别中具有优异的性能。目前AI 识别胎儿关键解剖结构的研究多集中在中、晚孕期[8-9],而早孕期则侧重于对颈项透明层厚度的研究[10],在识别早孕期关键解剖结构方面鲜见报道。鉴于AI 模型的优异性能及自动标注的高效性,经专家审核并通过模型标注的海量超声图像能很好地辅助初级及基层医师对早孕期胎儿颜面部超声筛查切面中关键解剖结构的学习。
准确获取早孕期胎儿颜面部标准切面不仅需要精准识别关键解剖结构,还需要超声医师不断操作练习,而低年资超声医师的培训以往常需在专家级超声医师的指导下进行,但这种培训模式存在高水平专家资源严重匮乏和培养过程费时、费力等缺点。随着AI技术的发展,计算机辅助诊断系统则是另一种高性价比的解决方案[11]。本研究中AI 模型对验证集及临床验证集图像MSP、RNT 的分类均表现出较好的效能,与专家级超声医师分类结果的一致性均良好(Kappa值分别为0.888、0.810 和0.751、0.690),与以往AI 识别中、晚孕期胎儿颜面部超声筛查标准切面效果相当[12]。因此在临床工作中有望将AI 模型嵌入超声检查设备中,以实现实时评价初级及基层医师获取的早孕期胎儿颜面部超声筛查切面,督促检查医师不断调整扫查角度,从而部分替代专家级超声医师,辅助初级及基层医师标准切面的扫查训练。
标准的超声切面是准确诊断的基础,不同年资、不同等级医院的超声医师获取的图像质量良莠不齐,进行广泛的质量评价是提高图像质量的有效方法[13-14]。人工评价存在费时、费力、主观性强、评审专家缺乏等缺点,无法对超声图像进行广泛的质量评价。而应用AI技术评价超声图像质量具有高效、客观的优势。不同医院的资金实力、仪器性能、人员水平均有差异,若使用统一的超声图像质量评价标准对基层医院或许并不合理,同时胎儿检查过程中因肢体、胎位、羊水等因素影响,采集优秀的标准切面往往十分困难,而临床对疾病的诊断可能仅需要关键解剖结构的清晰显示,并非需要所有的超声图像均为优秀的标准切面,因此在超声质量控制评价中对超声图像进行等级评定具有十分重要的现实意义。本研究结果显示,AI 模型对标准及非标准切面的分类能力与专家级超声医师分类具有良好的一致性,表明该模型可较好地识别早孕期胎儿颜面部超声筛查切面。同时,本研究的AI 模型通过对标准切面中关键解剖结构显示进行评分,并根据评分结果将图像分为优秀、合格、不合格,细化了超声图像质量评价准则,且AI 模型与专家级超声医师对临床验证集图像质量评价方面表现出良好的一致性(MSP、RNT 对应的Kendall’sW分别为0.760、0.789)。由此可见,具有评分功能的质量评价系统可以应用于不同等级医院的超声图像质量评价以达到不同的临床目的。
虽然本研究构建的AI 模型在识别标准切面上已取得了较好效果,但仍然存在一些问题和不足:①鼻骨、上颌突识别精度仍较低;②AI 模型与专家级超声医师评价临床验证集图像质量的一致性不够好(优秀、合格两个等级评定中分歧较大);③部分图像等级间区分度不够优秀,尚不能很好地应用于超声图像质量评价。这启发了下一阶段的研究方向:①针对鼻骨、上颌突识别精度不高、泛化能力较弱等问题,后续会继续扩充数据集,针对解剖结构的空间位置关系改进YOLOv4 模型,继而提高对关键解剖结构的识别精度;②增加关键解剖结构数目并对具体解剖结构及形态进行评价,以增大各等级图像间的评分差异,实现图像等级评价的完全自动化及改善部分等级间区分度较差的现状。
综上所述,本研究构建的AI模型对早孕期胎儿颜面部超声筛查切面的分类具有较高的准确性,可作为初级医师及基层医师培训和图像质量评价的辅助方法。