基于卷积神经网络的深度学习算法对颅内出血的类型识别及血肿分割一致性的研究

2021-01-27李娟汤翔宇沈逸廖术石峰朱文珍

放射学实践 2021年1期

李娟，汤翔宇，沈逸，廖术，石峰，朱文珍

颅内出血是临床常见急重症，具有极高的致死率及致残率，严重危害患者的生命健康安全。颅内出血的病因多种多样，常见病因包括外伤、血管性疾病及先天发育异常等。根据出血部位的不同，颅内出血又可以分为脑实质内出血(intraparenchymal hemorrhage，IPH)、脑室内出血(intraventricular hemorrhage，IVH)、硬膜下出血(subdural hemorrhage，SDH)、硬膜外出血(extradural hemorrhage，EDH)及蛛网膜下腔出血(subarachnoid hemorrhage，SAH)五种类型。不同的出血类型及程度决定了患者是否需要外科手术处理等干预措施，而出血量反映了出血的严重程度，与患者的预后相关，并且是临床进行随访复查的重要指标。对不同类型颅内出血的早期检出对于挽救患者的神经功能乃至生命有重要意义，而对血肿体积的精确测量则为临床决策提供了重要依据。

CT广泛应用于急诊科颅内出血的诊断。近几十年来，全国每年进行CT检查的人数逐年增长。阅读和分析大量的CT图像数据不仅耗费医生大量的时间及精力，同时也增加了漏诊和误诊的可能性。目前，急诊颅脑CT诊断，尤其是夜班的急诊颅脑CT初步诊断多由低年资放射科医生提供，后期再由高年资放射科医生进行二次审核。已有多项研究显示低年资放射科医生提供的初步诊断存在不同程度的漏诊和误诊[1,2]。

近年来，人工智能(artificial intelligent，AI)特别是深度学习(deep learning)算法作为大数据处理的有效手段，在医疗影像研究中得到了非常广泛的应用。以卷积神经网络为代表的相关深度学习算法在肺结节监测及良恶性判别[3,4]、肋骨骨折检测[5]、新型冠状病毒肺炎诊断、病变分割及体积测量[6,7]、糖尿病视网膜病变分类[8]、淋巴结组织学切片中转移的检测[9]及皮肤癌图像的分级[10]等方面取得了较好的效果，其精确度可与专家评估相媲美。部分学者也尝试将深度学习算法应用于颅内出血的研究[11-13]，但均局限于单一的出血检测或血肿分割，且多数研究建立在较小的训练集样本量基础上。因此，我们开发了一套建立在较大样本量训练集基础上的深度学习算法来检测颅内出血并自动测量血肿体积，以期有助于提高临床诊断准确率及降低误诊漏诊率，同时方便临床医生对血肿进行随访评估，辅助临床决策。

材料与方法

1.数据集的采集

回顾性搜集2016年1月-2018年12月期间我院门诊及住院部以及qure.ai开源数据集的9594例颅脑CT平扫图像，其中颅内出血阳性6643例，阴性2951例，所有患者信息已匿名处理。涉及的CT扫描机器主要包括GE、西门子、东芝、飞利浦、联影等多种机型及多种参数，图像层厚1.5～7.5 mm不等，多数为5 mm。qure.ai开源数据集所提供的图像数据由三位资深放射科医师的一致诊断为金标准，当三位医师中两位与另外一位的诊断意见不同时以多数者的诊断为金标准；其余图像均由两位资深放射科医生的一致诊断为金标准，当诊断意见不一致时通过协商达成一致。图像排除标准为图像不全、伪影严重及颅脑术后。随机选取223例颅内出血阳性患者的数据作为颅内出血类型识别的测试集，剩余CT图像数据作为其训练集。

另选取我院门诊及病房819例已进行人工手动勾画血肿边界的急性颅内出血CT图像数据来研究血肿分割的精准性。排除标准为图像不全、严重伪影、颅脑术后及同一患者复查。随机选取74例颅内出血阳性患者的数据作为测试集，剩余CT图像数据作为其训练集。人工手动分割采用开源软件Insight Toolkit SANP(ITK-SNAP) 3.6.0进行分割，于CT平扫横轴面图像沿血肿边界进行勾画，标注后的血肿由软件生成1个分割文件，并输出血肿体积。

颅内出血分类识别模型及血肿分割模型的构建由上海联影智能医疗科技有限公司算法部门实施。

2.模型的建立及算法

首先进行CT图像的数据输入，所有CT图像均为标准的DICOM格式。数据预处理包括图像摆正、去头骨和灰度归一化。在横轴面数据中，基于深度学习对脑中线两个端点的位置进行检测，并对横轴面CT图像进行旋转，进而自动摆正脑部位置。然后，基于深度学习自动对脑组织区域进行分割，自动剔除图像中包括颅骨及之外的干扰信息。在将灰度归一化到[-1, 1]之后，根据五种出血类型及未出血共六个标签，对图像的每一层调用残差网络(ResNet)进行分类。对每一层的分类结果，调用循环神经网络(long short term memory network，LSTM)进行结果修正，最终合并为基于患者个体的分类结果。算法细节参考2019年RSNA脑出血分类竞赛[14]。

图1 深度学习算法对五种不同类型颅内出血识别的示意图。a、b)深度学习算法对脑实质出血及硬膜外出血的识别；c、d)深度学习算法对硬膜下出血的识别；e、f)深度学习算法对脑室内出血的识别；g、h)深度学习算法对蛛网膜下腔出血的识别。

对于出血灶分割任务，在图像预处理之后，调用V型网络(VB-Net)进行模型训练，并通过体素的统计和间距的换算，自动得到每个出血量的统计从而计算血肿体积。同时，采用同样网络对CT图像中侧脑室进行分割，并通过与出血灶的匹配自动得到是否存在脑室内出血的结果[15]。

3.统计学分析

所有数据采用SPSS 23.0和MedCalc 19.0统计软件进行处理与分析。算法识别颅内出血类型的效能采用准确率(%)、敏感度、特异度及受试者操作特征(receiver operating characteristic，ROC)曲线分析中曲线下面积(area under curve，AUC)来评估。不同类型的血肿体积先进行Kolmogorov-Smirnov正态性检验，符合正态分布的数据以均数±标准差表示，不符合正态分布者以中位数(上、下四分位数)表示。人工手动分割和卷积神经网络算法分割血肿体积之间的一致性采用组内相关系数(intraclass correlation coefficient，ICC)分析并绘制Bland-Altman图。以P<0.05为差异有统计学意义。

结果

1.深度学习算法对五种类型颅内出血的识别

223例CT图像数据纳入测试集，其中62.78%(140/223)合并有两种或两种以上类型的颅内出血。测试集中五种类型颅内出血的分布见表1，占比最高的是脑实质出血(IPH>SAH>IVH>SDH> EDH)。深度学习算法对不同类型颅内出血识别的示意图见图1。

表1 测试集不同类型颅内出血的分布 (例)

深度学习算法对五种类型颅内出血的识别效能见表2和图2，其AUC均高于或接近0.85，特异度均高于0.95，尤其是对于脑实质出血与脑室内出血，深度学习算法具有良好的识别效能(AUC为 0.922, 95%CI：0.879～0.954)。

表2 深度学习算法对五种类型颅内出血的识别效能

表3 人工手动分割方法与深度学习算法测量血肿体积的一致性

图2 五种类型颅内出血的ROC曲线。a)EDH的ROC曲线，AUC为0.879；b)IPH的ROC曲线，AUC为0.922；c)SAH的ROC曲线，AUC为0.860；d)IVH的ROC曲线，AUC为0.922；e)SDH的ROC曲线，AUC为0.845。

五种类型颅内出血中，算法识别准确率最高的为脑室内出血(IVH>EDH>SDH>IPH>SAH)，敏感度最高的为脑实质出血(IPH>IVH>EDH>SAH>SDH)。

2.人工手动分割方法与深度学习算法测量血肿体积的一致性

人工手动分割方法与深度学习算法对74例人工标注的不同类型的颅内出血体积测量结果的一致性见表3及图3。对于四种不同的颅内出血类型，深度学习算法与人工手动分割方法测量的出血体积之间均显示了较好的一致性，其中硬膜下出血、脑实质内出血和脑室内出血体积测量的ICC接近于1，硬膜下出血体积测量的ICC接近0.9。

讨论

本研究结果显示，我们开发的基于卷积神经网络的深度学习算法对不同类型颅内出血具有良好的识别效能(AUC大于或接近0.85，特异度均高于0.95)，且对除蛛网膜下腔出血以外的其他类型的颅内出血血肿分割具有较高的一致性(ICC高于或接近0.9)。Ye等[13]及Kuo等[12]采用不同的深度学习算法对颅内出血亚型进行检测，前者对不同亚型颅内出血识别的AUC达到0.8以上，后者更是达到专家水平，但前者的训练集仅包含2836例CT图像，后者的结果则建立在单中心小样本训练集上，测试集中颅内出血阳性仅25例。Chilamkurthy等[16]的研究纳入了印度20余家医疗中心的30余万例CT图像数据，对各种亚型颅内出血识别的AUC接近或高于0.9，但该研究未涉及对血肿体积的测量。我们开发的模型纳入了较大样本量的CT数据，对不同类型颅内出血的识别效能高于或接近既往研究结果，同时可以自动测量血肿体积，更适合于临床应用与推广。

硬膜下出血和蛛网膜下腔出血是颅内出血中最容易漏诊或误诊的类型[17]，给深度学习算法的识别带来了很大挑战。Ye等[13]开发的深度学习算法对蛛网膜下腔出血识别的敏感度仅为0.69，本模型对蛛网膜下腔出血和硬膜下出血识别的敏感度分别为0.7565和0.7143。62.78%(140/223)的病例合并有两种或两种以上类型的颅内出血可能是本模型敏感度低的原因之一。对模型中不同类型颅内出血假阴性病例进一步分析，发现28例蛛网膜下腔出血假阴性病例中35.71%(10/28)为脑挫裂伤合并少许蛛网膜下腔出血，21.43%(6/28)为脑室积血合并少许蛛网膜下腔积血；18例硬膜下出血假阴性病例中44.44%(8/18)被误诊为硬膜外出血(同时也增加了硬膜外出血的假阳性率)，16.67%(3/18)为脑挫裂伤合并少许硬膜下出血；22例脑实质出血假阴性病例全部合并有两种或两种以上出血类型，其中63.64%(14/22)为脑挫裂伤合并少许脑实质出血，18.18%(4/22)为脑室周围脑实质出血破入脑室被误诊为原发性脑室内出血。深度学习算法对脑挫裂伤合并少量脑实质出血或蛛网膜下腔出血的识别以及对硬膜外出血与硬膜下出血的鉴别有待进一步提升。

图3 人工手动分割方法与深度学习算法测量血肿体积的一致性Bland-Altman图。a)硬膜外出血(EDH)：95%一致性界限(95%LoA)范围为-9.41～6.22mL，10%(2/20)的点在 95%LoA 以外；b)脑室内出血(IVH)：95%LoA范围为-8.18～2.84mL，8.7%(2/23)的点在 95%LoA 以外；c)脑实质出血(IPH)：95%LoA范围为-0.66～0.98mL，10%(2/20)的点在 95%LoA 以外；d)硬膜下出血(SDH)：95%LoA范围为8.71～119.94mL，0%(0/11)的点在 95%LoA 以外。

目前比较公认的出血体积测量的金标准是人工手动勾画分割测量，但需要耗费大量的时间及精力，无法在临床大规模推广应用。对于脑实质出血，临床普遍采用多田公式(V=a×b×c×1/2，其中V代表血肿体积，a、b分别是CT片中血肿最大层面的最长径、最宽径，c是CT片中出现血肿的层面数)来计算血肿体积[18]。多项研究显示多田公式得到的血肿体积存在较大误差[19,20]，特别是在血肿体积较小或形态不规则的情况下[21]，而且测量的主观性较强，可重复性不高。而其它类型的颅内出血则没有公认的测量标准，部分研究中硬膜下出血和硬膜外出血延用了多田公式或调整的多田公式计算体积[22-24]，但由于多田公式的计算建立在血肿为椭球形的基础上[18]，而硬膜下出血及硬膜外出血的形态多为新月形及梭形，这种测量方式得到的血肿体积与实际出血量之间必然存在误差。我们开发的深度学习算法自动计算的出血体积与人工手动分割得到的血肿体积之间有很好的一致性，尤其是对于脑实质内出血(ICC为1)，与既往研究结果一致或高于既往研究结果[25]；而且深度学习算法测量1例出血体积耗时约10秒，明显快于多田公式测量或人工手动勾画分割。鉴于蛛网膜下腔出血体积测量的临床意义较低，未将其纳入本研究中。

本研究存在一定局限性：首先，本研究为回顾性研究，可能存在选择偏倚；其次，虽然纳入了较大样本量的CT数据作为训练集，但测试集样本量较少，结果可能存在误差，后续仍需加大样本量进行验证。

综上所述，基于卷积神经网络的深度学习算法可以较准确地识别各种类型的颅内出血，并精确测量出血体积，有望应用于临床帮助减轻放射科医生的工作负担并降低其漏诊误诊率，为辅助临床决策提供依据。