APP下载

基于深度学习分割CT 图像上脑血肿的初步研究

2022-12-12奈日乐王可欣谢辉辉杨洁瑾蔡金秀李昌欣王祥鹏张晓东王霄英

中国医学影像学杂志 2022年11期
关键词:径线参考值一致性

奈日乐,王可欣,谢辉辉,杨洁瑾,蔡金秀,李昌欣,王祥鹏,张晓东,王霄英*

1.北京大学第一医院医学影像科,北京 100034;2.首都医科大学基础医学院,北京 100069;3.北京赛迈特锐医学科技有限公司,北京 100011

自发性脑出血(intracranial hemorrhage,ICH)是指非外伤引起的成年人颅内动静脉和毛细血管自发性破裂所致的脑实质内出血,是脑卒中的第二常见病因[1]。中国脑出血诊治指南(2019)指出,ICH占所有脑卒中的18.8%~47.6%[2]。ICH发病后12个月,仅12%~26%的患者能够独立生活,病死率达40%~50%[3]。患者在急性发病时通常会以头痛头晕、恶心、呕吐等症状就诊于急诊科,医师需尽快诊治。

CT因操作快、检查结果准确,成为ICH首选的检查方法[4]。影像科医师出具报告的速度和准确度对临床处理具有重要影响。在急诊放射科实际临床工作中,医师手工测量血肿径线耗时较长,且不同医师测量值存在个体差异。自动测量血肿三维径线不仅能缩短报告时间,还能提高测量一致性,为临床制订治疗方案提供可靠的依据。

近年来,深度学习技术广泛应用于医学影像的图像识别任务中,在颅内出血分类诊断等方面取得了重大进步[5-7]。本研究基于U形全卷积神经网络(Ushaped fully convolutional neural network,U-Net)对ICH患者颅内血肿进行分割和径线自动测量,以影像医师手工标注的结果为参考标准,对其准确性进行验证,探索将模型植入临床工作流程的可行性。

1 资料与方法

1.1 用例定义 根据本单位人工智能(artificial intelligence,AI)训练管理方法定义研发头CT平扫图像上脑实质血肿分割模型的用例,包括模型的ID、临床问题、场景描述、模型在实际工作中的调用流程、模型输入输出数据结构等。AI模型返回结果定义为:脑实质内血肿的坐标、三维径线和体积,返回结果应用于头CT平扫结构化报告的“病灶列表”模块(图1)。

图1 脑血肿分割模型训练及临床场景应用

1.2 数据收集 回顾性收集PACS系统中2009年7月25日—2019年11月6日于北京大学第一医院急诊行头颅CT平扫的图像用于模型建立及内部验证;另外收集PACS系统中2019年11月7日—2020年3月31日于我院急诊行头颅CT平扫的图像作为外部验证集。纳入标准:①CT诊断为脑实质出血;②患者临床诊断与影像诊断相符。排除标准:①明确或可疑外伤、术后等继发性脑出血;②非脑实质出血,如硬膜下、硬膜外、蛛网膜下腔出血以及脑室积血;③临床症状与影像诊断不符;④扫描范围不完整。纳入用于模型建立及内部验证的病例256例,其中男174例,女82例,年龄24~93岁,平均(63.3±16.0)岁;纳入外部验证集病例50例,其中男31例,女19例,年龄33~90岁,平均(68.0±18.2)岁。扫描范围为颅底至颅顶,扫描层厚为5 mm。全部数据血肿分布位置见表1。

表1 各组病例出血部位(例)

本研究获得北京大学第一医院伦理审查委员会批准[审批号:2019(169)],免除患者知情同意,按照本单位AI模型训练规范执行研究方案。

1.3 图像标注 从PACS导出的DICOM格式批量转换为NIFTI格式。由2名影像科住院医师利用ITKSNAP软件标记出病灶轮廓。由1名影像科主任医师(具有28年影像诊断经验)审核完成标注(图2)。标注范围为脑实质内血肿,不包括血肿周围的水肿区域。

图2 脑血肿标注及预测结果。A.头颅CT平扫图像;B.医师标注血肿(红色区域);C.模型预测血肿(绿色区域)。标注过程中未包括脑血肿周围的水肿区域

1.4 数据预处理 见图3。

图3 脑血肿分割模型数据预处理。A.设置图像窗宽、窗位为40、80 Hu;B.使用既往训练的脑区分割模型将CT图像中的颅骨(绿色区域)与颅腔(红色区域)区分开;C.图像像素设为32×128×128;D.在颅内区域中完成后续分割模型训练

1.5 模型训练 模型训练的硬件为GPU NVIDIA Tesla P100 16G,软件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy、SimpleITK等。采用3D U-Net网络训练深度学习模型。模型的输入是头颅CT图像和脑血肿标签,输出是模型预测的脑血肿区域。

1.6 模型评价

1.6.1 客观评价方法 以Dice相似系数(Dice similarity coefficient,DSC)评估测试集脑血肿分割的效果。

1.6.2 主观评价方法 影像医师主观判断模型预测的血肿边界是否符合临床实际工作要求,参考文献[8-9]并结合临床实际工作场景,制订具体评价标准(表2)。血肿评分总分为5分,评分合计4分及以上代表正确性良好,可满足临床工作要求;3分及以下代表正确性欠佳,不能满足临床工作要求。

表2 医师主观评价标准

1.7 定量值的输出和评价

1.7.1 定量值的输出 针对测试集,共获得3种定量值,①参考值:专家标注的血肿区域生成的径线和体积,为研究的参考标准;②模型值:模型预测的血肿径线和体积;③报告值:既往影像报告中医师书写的最大血肿径线,根据多田公式(A×B×C/2)获得血肿体积[8]。

参考值和模型值均是基于血肿区域的坐标信息,通过最小体积包围盒算法输出血肿的三维径线,血肿的总体积为所有阳性体素的全部体积,软件将模型预测结果包括血肿大小、体积、平均CT值自动填写到结构化报告中,并自动存储和返回关键图像。

1.7.2 定量值的评价 实际工作中在书写报告时,影像医师如果在图像中发现多个出血病灶,常选取最大病灶进行径线测量,并在报告中描述最大横截面的长短径以及累及层数,并注明层厚。为了模拟实际报告过程中的操作,仅对最大病灶(最大连通域)进行比较,在定位一致的基础上评价3种定量值的一致性。

1.8 统计学分析 采用SPSS 26.0软件,使用PRISM GraphPad 8.0软件绘图。采用Kolmogorov-Smirnov检验数据的正态性分布,呈正态分布的计量资料以表示;非正态分布的计量资料以M(Q1,Q3)表示,非正态分布定量值比较采用Wilcoxon符号秩和检验。不同方法之间的一致性检验采用Bland-Altman分析、组内相关系数(ICC)表示。以P<0.05为差异有统计学意义。

2 结果

2.1 模型评价 在内部验证集的25例中U-Net模型检出全部血肿,模型预测的敏感度为100%,以病灶为单位平均DSC为0.84,最高为0.94(图4);在外部验证集的50例中U-Net模型检出49例,以病灶为单位平均DSC为0.90,最高为1。医师主观评价结果显示内部验证集中88%(22/25)的病例以及外部验证集中80%(40/50)的病例均达到4分及以上。

图4 男,50岁,头颅CT发现左侧基底节区出血。A.头颅CT平扫图像;B.医师标注图像;C.模型预测图像;DSC为0.94,医师的主观评价满意

2.2 定量值评价 在内部验证集中,模型值与参考值的血肿病灶三维径线和体积比较,差异均无统计学意义(P>0.05);报告值与参考值比较,左右径及前后径差异有统计学意义(Z=-4.319、-3.242,P<0.05),上下径和体积差异无统计学意义(P>0.05)。在外部验证集中,模型值与参考值血肿病灶上下径及体积比较,差异有统计学意义(Z=-2.146、-2.590,P<0.05),左右径及前后径差异均无统计学意义(P>0.05);报告值与参考值比较,血肿病灶三维径线和体积差异均有统计学意义(Z=-4.793、-4.580、-5.855、-3.335,P<0.05)(表3)。血肿体积的一致性检验,无论是内部验证集还是外部验证集中,模型值和报告值与参考值的一致性均高,两两比较ICC均达到0.9以上(图5)。

表3 内、外部验证集脑血肿定量指标参考值与模型值、报告值比较[M(Q1,Q3)]

图5 内部、外部验证集不同方法血肿体积的一致性。A为内部验证集的模型值与参考值血肿体积的一致性检验;B为内部验证集的报告值与参考值血肿体积的一致性检验;C为外部验证集的模型值与参考值血肿体积的一致性检验;D为外部验证集的报告值与参考值血肿体积的一致性检验

3 讨论

非外伤性脑卒中患者行头颅CT检查后,精确并稳定地计算血肿体积,有助于急诊临床医师做出治疗决策。脑血肿体积是判断患者是否需要急诊手术治疗的指征[9],还可用于精确和有效地量化初始疾病负荷,有助于判断预后[10-11]。

3.1 本研究临床应用场景 在急诊情况下测量血肿体积的传统方法是影像科医师手工测量三维径线,并通过多田公式估算血肿体积。这种方法可以快速评估血肿体积,但对于不规则形态的血肿则有一定的偏差[12]。此外,急性脑出血患者往往在短时间内多次行CT复查,多位医师测量的一致性欠佳,影响随访观察。近年多项研究表明AI对脑血肿的分割准确,有潜在的临床应用价值[13-14]。本研究用U-Net深度学习模型分割头颅CT平扫图像上脑血肿病灶,可在急诊情况下快速准确自动获取其径线及体积,以利于患者接受快速诊治,模型分割结果的准确性与既往研究结果相似[15]。

3.2 本研究较既往研究的特色 基于深度学习算法对颅内出血的识别和分割既往已有大量研究,不仅有综合各种出血类型的研究,也有单纯分析脑实质出血的研究[7,13-16]。既往研究证实AI在技术方面的可行性,需要进一步验证AI整合到临床工作流程中是否具备可行性,是否在保证准确性的前提下提高医师工作效率,并改善患者预后[17-18]。因此本研究更多关注AI与结构化报告的整合。本研究通过内、外部验证集测试模型的分割效能,其平均DSC均达到0.80以上。同时影像医师的主观评价结果显示至少80%的数据结果可以用于临床工作,这对模型植入临床工作极为重要。与既往研究不同,本研究中以专家手工标注的血肿区域为参考标准,分别对模型预测结果和既往影像报告中的三维径线及体积进行一致性检验。结果显示,内、外部验证集中模型值和报告值与参考标准的一致性均高,两两比较ICC均达到0.9以上,表明影像医师在急诊条件下基本可以准确测量血肿的三维径线,并通过传统多田公式计算获得的体积与实际血肿量相差不大。与既往影像医师测量的报告值相比,模型值与参考值的ICC更高,表明模型预测结果更稳定,与参考标准一致性更好。因此,与传统多田公式相比,深度学习模型对脑血肿体积预测效果更优,获得的体积更接近实际脑出血量,可以对制订临床决策提供更好的帮助。本研究的另一个特点是将测量结果自动填入结构化报告中,优化影像报告流程,节省影像医师工作时间,保证测量结果的一致性。

3.3 本研究的局限性 ①本研究中深度学习模型主要是为了分割脑血肿从而获得其三维径线及体积,因此在收集数据时均采用脑血肿阳性数据。未来当模型应用到临床工作时一定会有脑血肿阴性的头颅CT图像,因此后续工作应补充阴性数据迭代模型。②本研究纳入样本均来自我院急诊情况下非外伤性ICH,未涉及其他临床场景,如术后脑出血、梗死后出血等,未来应扩展更多应用场景,增加不同场景下的数据迭代模型。③在本研究的数据集中脑出血多发生于幕上双侧基底节区,幕上脑叶和幕下血肿相对较少,这也使得模型在识别以上少见部位血肿时存在一定的误差,在后续训练模型时将进一步输入少见部位的血肿以提高模型的准确性。④本实验数据集均为脑实质内出血,但颅内出血还包括硬膜下出血、硬膜外出血、蛛网膜下腔出血以及脑室内出血等,也需要进一步研究。

总之,使用深度学习模型对CT图像中急诊自发性脑实质出血自动分割及体积测量可行,模型自动生成定量测量值准确,与临床医师报告的结果基本一致。

猜你喜欢

径线参考值一致性
二维超声房间隔平面切面扫查在诊治房间隔缺损中的应用价值▲
关注减污降碳协同的一致性和整体性
注重教、学、评一致性 提高一轮复习效率
IOl-master 700和Pentacam测量Kappa角一致性分析
中国健康成年人甘油三酯参考值的空间变异特征
妊娠妇女甲状腺功能血清指标参考值的建立
乳腺实质性病变的MRI定位研究:俯卧位与仰卧位对照
基于事件触发的多智能体输入饱和一致性控制
亚高原地区大、小鼠血液指标正常参考值实验研究
上海地区胃蛋白酶原参考值的建立及临床应用