U-Net深度学习模型对DCE-MRI上乳腺肿块自动分割和定位的准确性分析

2020-08-28马明明姜原刘义谢辉辉张靖远王祥鹏刘伟鹏张晓东秦乃姗王霄英

放射学实践 2020年8期

马明明，姜原，刘义，谢辉辉，张靖远，王祥鹏，刘伟鹏，张晓东，秦乃姗，王霄英

乳腺癌目前已是女性最常见的恶性肿瘤。DCE-MRI的软组织分辨力高，对血供丰富的肿块型乳腺癌的检出率很高，此型乳腺癌的主要DCE-MRI表现：明显强化的肿块；边缘不规整，有毛刺，周边可有卫星灶；较大者可有坏死，可合并皮肤受侵、乳头回缩、腋窝淋巴结转移等；动态增强曲线为流出型。DCE-MRI不仅可用于乳腺癌的筛查和诊断，还能应用于对乳腺癌新辅助化疗(neoadjuvant chemotherapy，NAC)的疗效评估。在NAC多个疗程的治疗过程中，需要不断评估治疗效果，主要方法是在DCE-MRI图像上测量肿瘤强化区域的径线，根据径线变化来评价肿瘤对NAC的反应[1-2]。因此在DCE-MRI图像上准确测量强化肿块的径线、且在各次检查中保持测量方法的一致性是非常重要的。但是，精确测量乳腺内的所有强化病灶有一定操作难度：通常情况下，医师人工测量的一致性欠佳，存在个体间和个体内差异；此外，同一患者的图像上有多个肿瘤病灶时，医师通常仅选择最大的病灶进行测量，很少能做到对多发小病灶全部进行测量。如能研发相关软件来自动测量DCE-MRI图像上乳腺肿瘤的体积及径线，不仅能减轻医师的工作强度、缩短报告时间，还能提高测量的一致性和精准性。

自上世纪70年代以来，计算机辅助诊断(computer-aided diagnosis，CAD)系统在乳腺影像学检查中逐渐得到广泛应用[3-4]，但其仍有一定缺陷。近年来以深度学习为代表的人工智能(artificial intelligence，AI)相关技术已逐步应用于乳腺癌的辅助影像诊断，有望提高对乳腺癌的影像诊断效能及测量准确性，但将深度学习的结果整合到临床实际工作流程中的相关研究尚较少。本研究中基于DCE-MRI图像上乳腺的肿块性病灶来训练深度学习模型，使其能进行乳腺肿块的自动分割、定位和体积测量，并将相关结果自动导入结构化报告中，旨在将AI技术植入到临床工作流程中以提高诊断效率和效能。

材料与方法

本研究经本院医学伦理审查委员会的批准，按照本单位AI项目研发规范开展工作。

1.用例定义

根据本单位AI项目管理方法，首先定义研发DCE-MRI中肿块性病灶分割和定位的AI模型用例(Use Case)。包括：AI模型ID、临床问题、场景描述、模型在实际工作中的调用流程、模型输入和输出数据的结构等。分割模型的目标对象定义为：DCE-MRI图像上呈明显强化的局灶性肿块病灶。AI模型的预测结果自动填写入结构化报告中，该报告模板是基于BI-RADS指南制定的[5]，AI模型提供的数据包括肿块病灶的大小(三维径线和体积)及位置(图1)。

2.研究队列的建立

回顾性搜集本院PACS系统中2015年2月1日-2016年12月31日经病理确诊为乳腺癌并拟行新辅助化疗的连续病例的资料。纳入标准：①乳腺癌住院患者，有DCE-MRI图像；②已进行活检但尚未治疗；③在本院行1.5T乳腺MRI增强扫描，且图像质量满足诊断要求；④影像科医师在阅片时发现了乳腺肿块并在诊断报告中明确描述了肿块的大小。排除标准：①病理或临床资料不完整；②乳腺癌化疗或手术后；③图像质量不合格；④在DCE-MRI图像上表现为非肿块样乳腺病灶(如点状强化或非肿块样强化等)；⑤影像科医师未在报告中明确描述肿块大小。

最终共纳入符合条件的患者88例，均为女性，年龄22～67岁，平均(34.8±10.4)岁。其中左乳单发肿瘤51例，右乳单发肿瘤34例，左乳多发肿瘤2例，双乳多发肿瘤1例。超声引导下乳腺肿块活检病理结果：浸润性导管癌70例，导管内原位癌11例，小叶原位癌3例，乳腺粘液癌1例，乳头状癌1例，浸润性大汗腺癌1例，乳腺叶状肿瘤1例。

3.MRI检查方法

使用GE Signa Excite HD 1.5T磁共振扫描仪和4通道双穴乳腺相控阵线圈行乳腺DCE-MRI检查，常规扫描方案如下。横轴面短TI反转恢复(short TI inversion recovery，STIR)序列和T2WI：TR 3991.0 ms、TE 70.6 ms；横轴面双回波T1WI：TR 3.9 ms，TE 2.2和1.1 ms；横轴面DWI：单次激发EPI序列，TR 6000.0 ms，TE 52.5 ms，层厚4.0 mm，层间距1.0 mm，视野32 cm×32 cm，矩阵256×256，b=1000 s/mm2，扫描时间80 s。增强扫描采用横轴面乳腺容积成像(volume imaging of breast，VIBRANT)序列，TR 3.9 ms，TE 1.7 ms，层厚1.4 mm，层间距0 mm，视野36 cm×36 cm，矩阵320×320，每个时相扫描时间55 s，共扫描9个时相；使用高压注射器经静脉注射Gd-DTPA，剂量0.2 mmol/kg，注射流率2.0 mL/s。随后以相同流率注射20 mL生理盐水[2]。

4.图像标注

将乳腺MRI扫描的原始DICOM图像转换为NiFTI格式，使用ITK-SNAP软件完成标注。由一位影像科医师带领标注小组对双侧乳腺进行标注，标注范围：前至乳腺皮肤，后至胸壁肌肉前方，两侧至腋窝，包括乳腺、纤维组织、脂肪组织。由1位影像医师根据病理结果对腺体内肿块进行标注，并由2位乳腺影像专业的医师进行审核。标注规则如下：①在DCE-MRI增强后的第3期图像上标注；②标注病灶均为已进行穿刺、病理证实为乳腺癌的肿块；③对乳腺多发病灶者，标注其中径线最大的1个肿瘤，其余病灶不标注；④标注乳腺病灶边缘应尽可能精准。

5.模型训练

模型训练采用序贯方法，先分割双侧乳腺，再分割病灶。训练分割乳腺病灶的模型时，将88例数据随机分为训练集(train set，70例)，调优集(validation set，9例)和测试集(test set，9例)。输入数据为256×256的图像和标注，输出数据为模型预测结果。图像扩增方法包括平移、旋转、左右镜像和随机噪声等。

训练U-Net深度学习模型对DCE-MRI图像上乳腺及乳腺内强化肿块进行分割[6]，硬件为GPU NVIDIA Tesla P100 16G，软件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy和SimpleITK。使用Adam作为训练优化器。模型训练时1次迭代所使用的样本量(batch size)设定为10，学习率(learning rate)为0.0001，共训练30次(epoch)。

6.模型评价

对U-Net深度学习模型的客观评价指标为测试集的Dice相似性系数(Dice similarity coefficient，DSC)值，计算公式如下：

(1)

其中，X和Y分别代表专家依据病理结果标注的癌灶区域和模型预测区域内所包含的像素集。

对模型的主观评价是由2位乳腺影像诊断专家共同完成，评估方法：对分割模型预测出的“假阳性”区域做出判断，如是否为癌周围子灶、双乳强化小结节等。子灶指与目标癌灶在同一象限内的多个病灶，且径线>5 mm，考虑来源于同一肿瘤。

7.模型预测结果的输出

使用最小体积包围盒算法输出乳腺肿块的三维径线，每个肿块以模型所预测的所有阳性体素的体积为该肿块的总体积[7]。对肿块径线最大值>5 mm的区域进行定位。软件将模型预测结果包括乳腺肿块的大小和位置等相关信息自动填写到结构化报告中，并提供关键图像(图1)。

8.统计学分析

使用SPSS 22.0及Prism 8软件进行统计学分析。计量资料以中位数(上、下四分位数)来表示，采用非参数检验中的Wilcoxon符号秩和检验比较软件自动测量与医师手工测量结果间的差异，以P<0.05为差异有统计学意义。使用Bland-Altman散点图评估两种测量结果间的一致性。

结果

1.模型对乳腺病灶分割效果的评价

在测试集的9个乳腺病灶中U-Net模型共检出7个，敏感度为77.8%(7/9)，以病灶为单位平均DSC为0.85。未检出的2个病灶(图2～3)，1个肿块内有明显坏死，另1个有显著背景实质强化(background parenchymal enhancement，BPE)。

在测试集中模型预测出16个非标注区域，其中10个为乳腺内强化小结节(图4)，4个为乳腺癌灶周围子灶(图4)，2个为明显强化的乳腺表面增厚的皮肤及乳头(图5)。

2.模型对乳腺病灶测量效果的评价

在全部数据中所有配对样本的差值呈非正态分布，因此对变量采用Wilcoxon符号秩和检验。将软件自动测量与影像报告中放射科医师手工测量的83个乳腺病灶的径线进行比较，详见表1。对于乳腺病灶的左右径，两种方法测量结果之间的差异无统计学意义(P>0.05)；而对于乳腺病灶的前后径和上下径，两种方法测量结果之间的差异均有统计学意义(P<0.05)。

表1 软件自动和医师手工测量的乳腺病灶的径线 (mm)

运用Bland-Altman 散点图分析显示，两种测量方法得到的乳腺病灶的左右径、上下径及前后径的一致性均很高，仅有不到5%的数据位于95%置信区间之外(图6)，其中以左右径的测量结果一致性最好。两种方法测量的左右径的平均差异值为-0.35 mm，95%置信区间为-4.12～3.41 mm，并且差异值分布相对集中；而上下径及前后径的测量结果，95%置信区间分别为-11.90～8.64 mm和-9.81～13.43 mm，差异值相对较分散。

讨论

本研究中使用U-Net深度学习模型来分割DCE-MRI图像上强化的乳腺肿块，并测量肿块的大小，旨在为NAC治疗效果的评估提供重要信息。目前评估NAC疗效的影像学指标主要是肿块的大小及形态特征的变化，其中肿块大小是最重要的客观分析指标[8]。在乳腺MRI图像上手工测量乳腺癌的大小有一定局限性，因此对自动分割和测量方法的探索是有益的，这是当前AI技术植入临床工作的主要方向[9]。

本研究中使用的U-Net深度学习框架是一个经典的医学图像分割网络，以小样本数据探索自动获得DCE-MRI图像上乳腺强化灶的三维径线，结果显示模型对乳腺癌病灶分割的准确性与国内外研究结果相似[10-11]，说明2D U-Net对完成这个任务有较好的效能。在此基础上，运用最小体积包围盒(minimum volume bounding box)算法自动获得乳腺病灶的径线。这个概念在几何学中，是N维点集的最小边界或最小封闭框，是包围全部点所在的最小度量单位(面积、体积或高维超体积)的盒。其计算肿块边界的逻辑可以认为与医师手工测量的逻辑是相似的，即以肿块的全部体素为点集，测量包含全部肿块体素的包围区域的最小径线。所以理论上二者是可比的，在U-Net模型分割准确、样本量足够的情况下，程序输出结果与人工测量值应该非常接近，本研究的实际结果也证明了这一点。目前这类研究已经有很多，如对胸部、腹部、盆腔和脑等脏器内病灶的分割[12-15]；且在多种性质的图像上均可达到较好的效果，如X线、CT、MRI、FDG-PET等[16]。本研究与既往研究的主要不同是针对NAC患者的影像报告过程进行了优化，将测量值自动输入到乳腺BI-RADS结构化报告中，来替代医师的手工测量过程，提高了工作效率，尤其是可保证乳腺癌多次随访检查时肿块径线测量的稳定性和一致性[17]。

本研究定义用例时，以“DCE-MRI图像上呈明显强化的乳腺肿块”为分割目标，是根据疾病诊断需求和临床经验来定义的，但在实际研究过程中发现设定的这个目标是有缺陷的。在本研究中使用小样本数据进行训练的情况下，当病灶与背景差异显著、且呈明显均匀强化时，模型的分割效果很好；但是当病灶合并大面积坏死、或有显著BPE时，模型的分割效果不满意。此外，模型对明显强化的乳头、皮肤和淋巴结等组织存在过度识别。更需要指出的是，本研究中的入组病例是影像报告中明确描述了肿块大小者，但在实际工作中，乳腺癌在DCE-MRI图像上也可表现为非肿块样强化，由于这类病灶通常并无明确的边界，且形态学差异较大，部分病例无法准确地测量其大小，因此这些病例被排除在本研究之外，如果增加了这部分病例，则模型训练将更为复杂[18]。

应承认，本研究AI模型研发用例定义了简单明确的情况，对临床工作的复杂性考虑不足，当然这对于探索性研究是可接受的，但从临床应用的角度则有明显不足，这些问题都应在后续的模型训练中加以改进。改进的方法除了增加更多训练样本，对输入数据的定义、输入图像的质控、模型的任务也要分层，基于笔者有限的经验，目前考虑采用多个AI模型序贯完成复杂的临床任务是一种可行的方法。可能的解决方案如下：AI模型先对腺体成分和BPE进行分类，将有显著BPE的致密型乳腺图像与非显著BPE的图像分别输入不同的AI模型执行后续诊断任务；再根据腺体内病变分布的模式进行分类，将具有弥漫性病变的图像与只有孤立性肿块的图像输入不同的AI分类、分割模型；将腺体分割的解剖信息与病灶分割的解剖信息整合在一起，把腋窝淋巴结、乳头、皮肤病变与腺体内占位区分开来，等等。总之，笔者认为，通过序贯的多个AI模型，完成复杂临床情况下不同图像中病灶检出和测量的任务，是模型迭代的方向。

本研究的数据标注是以病理结果为金标准的，对每例患者仅标注了穿刺病理证实的"一个"肿块。当腺体内有其它肿块时，由于未获得穿刺活检的结果，所以未进行标注，这是有一定缺陷的。首先，乳腺癌常有多灶性的情况，穿刺活检时往往取样于最大的、恶性表现最明显的、最安全可获及的区域，在临床实际工作中不必要也不可能获得所有病灶的穿刺结果。其次，有很多肿瘤周边是有子灶的，这些子灶通常也不可获得其病理结果。这样就造成了标注的"真阳性"区域不完全的情况，理论上会影响模型训练过程中的验证结果。但在实际情况中，由于多灶性肿瘤、肿瘤周围子灶的形态学特点与标注区域非常接近，经过训练后，模型不仅学到了标注区域的肿瘤特征，也正确预测出了非标注区域里、有肿瘤特征的病变。本研究的结果证明，在特定的情况下，当目标是多灶性病变时，可以先挑选出最大、最显著的那些病灶进行标注，经过初步训练后，模型可预测出较小的其他病灶，然后经过修改标签，得到更全面的标注区域，再进一步用于模型的迭代。在人工标注不可能穷尽所有病灶的情况下，这种标注和训练方式是值得尝试的。

本项目的一个主要特点是影像报告流程的优化。在"真实工作场景"前提下，自动分割和自动测量的模型有三方面的优势：节省工作时间，保证一致性，提高对多发病灶中高风险病灶的关注。首先，将U-Net模型植入到临床工作中，在结构化报告中自动填写乳腺径线的测量值，可节省医生写报告的时间。医生测量径线的过程中，要识别病变，找到合适的层面，并把测量值手工录入到报告模板中相应的位置，显然地，软件自动测量节省医生了的工作时间。其次，手工测量病灶的标准是主观的，医师个体内和个体间的差异会影响测量结果的一致性，软件识别的一致性和稳定性则是有保障的。第三，对乳腺内多发小病灶进行测量时，通常会测量最大的一个病灶，其它稍小的病灶则会省略。以多发点状强化为例，DCE-MRI上双侧乳腺内强化小结节表现为小于5mm的多发点状强化，第5版BI-RADS将此类强化小结节归为背景强化，若为不对称分布，则更支持BPE，建议6个月后随访复查MRI，诊断为BI-RADS 3类[19]。但是当小结节的直径>5 mm时，则有必要综合考虑其性质，不能除外肿块的可能性。AI模型可以精准测量体积，在多发点状强化中识别出小的肿块，引起医师的关注，提高诊断的准确性和效率[20]。

本研究的局限性是非常明显的。首先，本研究的病例数较少，影响结果的可靠性。本研究是小样本探索性研究，仅是概念验证(proof of concept，POC)，只有进行大样本、多中心临床研究，才能证明模型在临床实践中的效能，完成大量的、适应不同复杂情况的模型研发，且在模型研发不同阶段进行不同性质的临床验证试验[21]。其次，本研究对肿块的分割是基于DCE-MRI图像的，而多参数乳腺MRI(multiparametric breast MRI，mpMRI)对NAC的研究显示，DWI等序列也对NAC的疗效评价有一定帮助，因此将来可将DCE-MRI、DWI等多序列图像对模型进行综合训练，如能进一步获得病理、基因和临床信息，形成整合的综合临床信息的辅助决策支持(clinical decision support，CDSS)，则更有临床价值。最后，本研究是为NAC疗效评价服务的，考虑到NAC治疗后影像特征有变化，将来应对同一病例的多次随访结果进行模型训练，对治疗过程中不同时间点的图像进行病灶识别、配准和比较，才能实现真正的疗效自动评价。

(志谢：感谢北京赛迈特锐医学科技有限公司张虽虽在结构化报告构建的贡献，张颖静、张静、常燕等对图像标注工作的贡献)。