以MRI为参照评价乳腺X线摄影的病灶检出效能
2020-12-23高杨席晓旭李梦露邢宁程流泉
高杨,席晓旭,李梦露,邢宁,程流泉*
作者单位:
1. 解放军总医院第一医学中心,北京 100853
2. 南华大学附属长沙中心医院,长沙410005
数字乳腺X线摄影(digital X-ray mammography,DMG)是乳腺疾病的首选筛查措施,在欧美国家的循证医学数据表明[1-4],DMG筛查可以显著降低乳腺癌的致死率。筛查的统计学指标主要是经病理证实后的真阳性率(敏感性)和假阳性率,由于大量的DMG上“阴性”病例并未能得到病理证实,由此计算的特异性和假阴性率都存在统计的偏差。使用MRI检查可以为这些高估或低估的病变提供了可靠的证实途径。有鉴于此,本研究将DMG进行独立前瞻性评估(the prospective BI-RADS categorization of DMG,pDMG)和结合MRI的回顾性评估(the retrospective BI-RADS categorization of DMG,rDMG),比较DMG判读的一致性,比较DMG和MRI在乳腺病灶检出能力。
1 材料与方法
1.1 研究对象
回顾性检索2015年1月至2018年3月解放军总医院PACS数据库内同时具有乳腺MRI和DMG检查的患者,两者检查时间相差不超过3个月且期间无手术或药物等治疗干扰,共计获得连续316例患者,年龄19~85岁,平均(46.98±9.86)岁。
1.2 设备与方法
DMG采用西门子全视野数字化乳腺X线摄影机,标准四投照位,全自动数字曝光。MRI扫描采用通用电气(GE) 3.0 T磁共振仪,8通道乳腺专用线圈。检查序列包括:(1) FSE T2WI,STIR或IDEAL脂肪抑制,TR 4600~5000 ms,TE 68~85 ms,矩阵320×256。(2)平面回波扩散加权成像(echo-planar imaging diffusionweighted imaging,EPI-DWI):STIR脂肪抑制,TR 5000~8000 ms,TE 60~85 ms,b=0、1000 s/mm2,矩阵:128×128。FSE T2WI和EPI-DWI均为横轴位匹配定位,FOV 32 cm×32 cm,扫描层厚4 mm,层间距1 mm,层数:36。(3) VIBRANT-T1WI序列,用动态增强乳腺容积成像(volume imaging for breast assessment,VIBRANT)序列去除脂肪抑制选项,扫描参数与下述的动态增强一致。(4)动态增强VIBRANT序列:TR 4.5~4.8 ms,TE 2.2~2.4 ms,FOV 32 cm×32 cm,矩阵320×320,层厚1 mm;连续采集6个时相,每个时相扫描时间为120 s,从第二个时相扫描开始以0.2 mmol/kg剂量用高压注射器经手背静脉注入钆对比剂,注射速度为2 ml/s,之后以同样的注射速度注入等量生理盐水冲洗导管内残留对比剂。
1.3 影像与病理评估
DMG的评估分成前瞻性和回顾性两个部分,前瞻性评估(prospective,简称pDMG)由多名合格的放射科诊断医师独立完成医疗报告,不受MRI的影响;回顾性评估(retrospective,简称rDMG)由2名研究者在参照pDMG分类和MRI图像的条件下重新进行评价并达成一致意见。MRI的评估由多名合格的放射科医师独立完成乳腺成像报告和数据系统(breast imaging reporting and data system,BI-RADS)分类。DMG和MRI分类评估均按照美国放射学会(American College of Radiology,ACR)第五版的BI-RADS[5]要求进行。数据清洗处理时,在pDMG报告中如果报告“未见异常”而缺乏分类的补充为“Ⅰ类”,无病灶描述且未报告分类的作为“Ⅰ类”,有病灶描述而无分类的作为“0类”;rDMG评估时强制要求进行Ⅰ~Ⅴ的分类评估而不得缺失。DMG的影像表现划分为“钙化、肿块、不对称密度”3个类别,结构扭曲纳入不对称密度计算,由回顾性分析的2名医师达成一致意见。MRI的影像表现划分为乳腺实质背景强化(background parenchymal enhancement,BPE)、点状强化、肿块和非肿块强化。中等程度以及以下的对称分布的BPE划分为Ⅰ类,重度BPE划分为Ⅱ类,不典型非对称分布的重度BPE划分为Ⅲ类或纳入非肿块强化;单发或者多发点状强化、肿块和非肿块强化依据BI-RADS推荐标准进行分类。同样,FGT的分型也根据BI-RADS分为以下四种类型:致密型、多量腺体型、少量腺体型、疏松脂肪型。
1.4 数据处理与分析
由于MRI和DMG在空间位置上未能完全匹配,本研究以单侧乳腺作为计数单位,单侧乳腺的多发病灶计数为1个病灶以最高分类纳入统计。用Microsoft Excel表格收集整理数据,用IBM SPSS Statistics 19对BI-RADS分类的有序变量进行Spearman相关性分析,计数率的计算和比较使用卡方检验。
2 结果
2.1 pDMG和rDMG分类的一致性比较
pDMG和rDMG分类一致性的比较见表1。pDMG共报告了33个0类和236个Ⅱ~Ⅴ类病灶,rDMG共报告334个Ⅱ~Ⅴ类病灶。pDMG和rDMG对病灶的BIRADS 分类(Ⅱ~Ⅳ)的一致性为69.66% (163/234),使用定序变量分析的Spearman相关系数r=0.813,P<0.05;摒除0类和共同划分为Ⅰ类的数据,良性(Ⅱ+Ⅲ)、恶性(Ⅳ+Ⅴ)分类的一致性为82.90% (257/310),Kappa=0.63,P<0.05。
表1 前瞻性与回顾性DMG评价的一致性比较Tab. 1 Comparison of the prospective and retrospective DMG reading
表2 pDMG与MRI评价的一致性比较(病灶个数)Tab. 2 Comparison between the prospective DMG and MRI reading (lesion count)
表3 rDMG与MRI评价的一致性比较(病灶个数)Tab. 3 Comparison between the retrospective DMG and MRI reading (lesion count)
表4 rDMG BI-RADS分类的主要影像特征依据(病灶个数)Tab. 4 Summery of DMG features and their BI-RADS catrgory (lesion count)
2.2 DMG与MRI在病灶检出与BI-RADS分类的比较
在病灶检出率方面,pDMG、rDMG与MRI之间的比较分别见表2、3。以MRI检出的405个Ⅱ~Ⅴ类病灶为参照,pDMG有122个病灶未检出,19例pDMG报告的病灶MRI未见异常(未报告或报告为Ⅰ类)。rDMG有68个病灶未检出,rDMG报告的病灶中,有10例rDMG报告的病灶MRI未见对应的报告。如果以MRI报告的病灶数量为参照,pDMG的检出率66.42% (269/405),rDMG检出率74.81% (303/405)。
在BI-RADS分类一致性方面,pDMG和MRI对病灶Ⅱ~Ⅴ分类评价的一致性为36.41% (79/217),使用定序变量的Spearman相关系数r=0.435,P<0.05;摒除0类、未报告的病灶、共同划分为Ⅰ类的数据,良性(Ⅱ+Ⅲ)、恶性(Ⅳ+Ⅴ)分类的一致性为66.30% (179/270),Kappa=0.316,P<0.05。rDMG和MRI对病灶Ⅰ~Ⅴ分类评价的一致性为44.22% (134/303),使用定序变量的Spearman相关系数r=0.546,t=11.316,P<0.05;摒除未报告的病灶、共同划分为Ⅰ类的数据,良性(Ⅱ+Ⅲ)、恶性(Ⅳ+Ⅴ)分类的一致性为80.39% (287/357),Kappa=0.56,P<0.05。使用定序变量的Spearman相关系数r=0.546,t=11.316,P<0.05。
表5 MRI BI-RADS分类的主要影像特征依据(病灶个数)Tab. 5 MR imaging findings and their BI-RADS catrgory(lesion count)
表6 DMG和MRI影像特征的交叉表现表现(病灶个数)Tab. 6 The relationship between DMG features and MR imaging findings (lesion count)
2.3 病灶影像特征的比较
表4、5分别列举rDMG和MRI不同BI-RADS分类病灶的影像表现。在DMG影像特征中,钙化(单纯钙化、不对称密度+钙化、肿块+钙化)占57.49% (192/334);肿块(伴有或不伴有钙化)占37.43 (125/334),不对称密度(伴有或不伴有钙化) 22.75% (76、334)。以Ⅳ+Ⅴ类为恶性,Ⅰ+Ⅱ+Ⅲ为良性,钙化的存在并未对肿块或不对称密度的定性判断产生影响,使用Pearson卡方检验结构扭曲和肿块的卡方值分别为χ2=0.487,P=0.485和χ2=1.599,P<0.206。在MR图像上,67个BPE和66个点状强化病灶被评价为Ⅱ或Ⅲ类,两者占报告病灶的32.84% (133/405)。
表6列举了rDMG和MRI影像特征的交叉表现。有93个MRI显示的点状强化、肿块和非肿块强化DMG未给出明确描述,有32个DMG描述的病灶MRI未给出明确描述,MRI上73个BPE在DMG上的表现包括有或者没有钙化的不对称密度或肿块。DMG的肿块与MRI的肿块相对于其他的非肿块描述之间没有一一对应的关系(图1~10),两个定性变量之间的Kappa值为0.251,P<0.05。
2.4 纤维腺体类型评估的一致性比较
纤维腺体类型按照病例数量计算。在DMG上,致密型105例(33.2%),多量腺体型147例(46.5%),少量腺体型41例(13%),疏松脂肪型23例(7.3%);其中致密型与多量型占79.7%。在MRI上:致密型145例(45.9%),多量腺体型118例(37.3%),少量腺体型27例(8.5%),疏松脂肪型26例(8.2%);其中致密型与多量型占83.2%。统计分析列联相依系数(contingency coefficient) 0.817,P<0.05,DMG与MRI分类比较一致。
3 讨论
很多研究比较了乳腺X线摄影、MRI及超声对乳腺疾病的诊断效能,虽然不同的研究者之间得出的结论不尽相同,但一致认为DMG应作为乳腺疾病的首选筛查手段[6-9]。但是,近年来大量的循证医学数据也证明,DMG的假阳性率带来不必要的过度处理和引发焦虑。本研究利用MRI为参照,对DMG检出病灶的能力进行了前瞻性和回顾性的比较评估。在常见的乳腺疾病检查程序中,只有DMG筛查有阳性发现的会进入后续的诊断程序,推荐MRI或者超声检查,并在后续的检查或活检得到确认或排除;而对于DMG筛查阴性的患者缺乏进一步的证实,尤其对于被致密型和多量型腺体遮蔽的病灶,很容易成为漏诊的对象。MRI的推广使用为DMG提供了验证措施。
3.1 pDMG和rDMG检出病灶和判读的一致性比较
本研究在检出病灶方面,pDMG和rDMG分别检出269 (包含不能分类的0类)和334个病灶,以MRI检出的405个病灶为参照,两者的检出率分别为66.42%和82.90%。rDMG的检出率明显高于Skaane等[10]认为的54.1%和Warner等[11]认为的25%~59%,可能是由于rDMG有MRI的协同,有助于发现病变,且强制取消了0类的判断。需要说明的是,由于DMG和MRI的差别导致无法在病灶的具体数量和位置之间形成完全一一对应的关系,本研究实际是以单侧乳腺水平而不是以病灶的数量为计算单位,在MRI上单侧乳腺多发病灶是很常见的,因此这个数据并不能准确代表病灶数量上的检出率。在BI-RADS分类一致性上,pDMG和rDMG的分类诊断69.66%是一致的,两者之间的相关系数为0.813;在良恶性分类上,两者的一致性为82.90%,Kappa=0.63,不同阅读者之间的一致性比较接近。而Marino等[12]的研究认为,DMG不同的评价者之间一致性中等,Kappa=0.554;差别在于本研究中rDMG并非完全独立判断,而是受到pDMG和MR图像的双重影响,使得本研究的一致性偏高。
3.2 DMG与MRI判读的一致性比较
大多数的诊断试验研究都是以病理结果作为参照标准来计算DMG和MRI独立或联合其他方法诊断乳腺病变的敏感性、特异性、阳性预测值、阴性预测值[13-15]。Raikhlin等[15]认为MRI的敏感性(92.0%)在统计学上高于DMG (30.8%),而特异性较低(MRI 85.9%,DMG 96.8%)。
一致性研究主要是DMG或MRI与病理结果的一致性,如Santamaria等[16]的研究指出DMG导管内乳头状瘤范围的判断与病理结果的一致性较差(k=0.220),而MRI (k=0.452)或MRI联合DMG (k=0.439)与病理的一致性较好;Shin等[17]研究了DMG、MRI及超声对晚期或炎性乳癌新辅助化疗后残存肿瘤的大小和反应方面的相对准确性,认为MRI与病理的一致较其他两种检查好。这些研究给予临床一定的指导意义,然而会遗漏因未能获得病理证实而未能纳入统计的相关病例/病灶,导致特异性和假阴性率存在统计上的偏差,这也是本研究所关注的“未纳入统计”的病灶。因此本研究着重于分析DMG与MRI之间的一致性。无论是BI-RADS的多阶分类还是良恶性二阶分类,DMG和MRI之间的相关性或一致性都不是很高,即使是rDMG与MRI进行了交叉确认,对良恶性判断的Kappa值仅为0.56。如果纳入MRI检出、DMG未能显示的病灶,一致性的数据将会更低。pDMG和rDMG各有39个和25个病灶在MRI上被评价为Ⅳ或Ⅴ类,而DMG仅有1例Ⅳ类MRI未能报告。虽然MRI报告的Ⅳ和Ⅴ类并非经过病理证实,但是DMG对这些病灶的遗漏确实更值得关注。当然,与DMG相比,MRI报告了更多的Ⅱ类和Ⅲ类病灶——比pDMG多报111个,比rDMG多报70个。这些病灶有些是非特异性的BPE,也有些是比较明确的良性病灶如囊肿、比较明确的纤维腺瘤,由于对这些病灶缺乏病理的“金标准”核实,尚不能简单地将这些病灶计算为MRI的“假阳性”。
3.3 DMG与MRI的影像特征比较
在DMG上,钙化、肿块和结构扭曲是检出病灶的主要依据,单纯钙化和结构扭曲的分类主要集中在Ⅱ和Ⅲ类,结构扭曲合并钙化、肿块合并/不合并钙化时分类数据集中在Ⅲ~Ⅳ类,评估为Ⅴ类的比率并不高。Kuhl等[18]认为致密型腺体会降低DMG的敏感性及特异性,Roganovic等[19]也认为小的肿块会被致密腺体遮挡导致假阴性和敏感性降低。Wanders等[7]发现DMG对致密型腺体的敏感度为61%,而对脂肪型腺体的敏感度达85.7%。随着腺体的致密程度的增加,会降低评价者对病灶形态判断的准确性,结合本研究评估过程,由于国人腺体大多数为致密型,除非典型的恶性或良性征象,DMG很难有充分的信心判断Ⅴ类或Ⅱ类,多数被发现的病灶均被评估为Ⅲ或Ⅳ类。这个结论与Berg等[20]的一项研究结果基本符合,他们发现在DMG检查为阴性的致密型腺体的乳腺中,使用其他的检查方法提高了乳腺癌的检出率。在MRI上,相当一部分病变是BPE和点状强化被划分为Ⅱ类或Ⅲ类,这些是非特异性的良性改变;与DMG不同,MRI的分类判断指标并不依赖形态学指标,强化幅度、动态增强曲线、ADC值和T2与T1特征才是定性诊断的依据,这种形态学的一致性分析对MRI没有实际意义。
从影像特征的回顾性分析看,DMG和MRI报告的病灶的影像表现并没有形成任何一一对应的关系。除外BPE和点状强化征象,MRI报告的50例肿块和17例非肿块在DMG未检出——非肿块并不形成明确的边界[21],没有密度对比差异,因此DMG不能识别,Korhonen等[22]认为FGT的类型、肿瘤性病变的不典型表现,以及缺乏恶性肿瘤的继发征象,都有可能导致病变在DMG上被遗漏;而MRI对病变的发现是基于其血供和形态等生理特征,且具备更高的软组织对比度[23-24],因此较DMG更为敏感。26例DMG报告的影像征象在MRI无对应的表现,其中50%为单纯钙化——有研究表明[25]随着场强的提高,MRI对早期出现微钙化的病灶灵敏度大有提高,但其本身对于“钙化”这种影像学特征依然没有DMG敏感,而DMG相较于MRI而言,由于腺体的堆叠,更容易形成假阳性的判断[6,19]。Lee等[23]认为钙化及新生血管的发展可能代表恶性肿瘤进展的不同方面,将DMG和MRI互补使用,能更好地提升高危人群的病变检出率。当病变表现为“肿块”时DMG和MRI有共同的特征描述,但是MRI报告的185个肿块中,DMG仅报告了79例,不足50%;而DMG报告的肿块中,33例在MRI上并未能检出对应的肿块征象,仅仅报告点状强化、BPE或者未见异常描述。MRI影像表现为 “肿块”和“非肿块强化”的病灶,几乎散在分布在DMG的各个征象中,无对应关系。从影像表现的交叉分析看,DMG和MRI并没有提供太多的互相支持的征象。
3.4 本研究的不足
不可否认的是,本研究存在一些设计上的不足。其一是抽样可能存在偏倚,病人的年龄平均(46.98±9.86)岁,致密型和多量型腺体占80%或以上,很大程度上降低了DMG的检出和判断效率,因此在研究中特意统计FGT类型以供参考和校正。另一方面,研究是以单侧乳腺为计量单位,并非以病灶数量计算,尤其是MRI的多发病灶很难在DMG上找到一一对应的空间关系,即使获得了病理证实也很难排除由此带来的偏倚,虽然研究对象中有78例病人获得了病理证实,但是并没有纳入病理证实做为参照。
3.5 结论
本研究通过以MRI图像为参照,比较MRI和DMG的前瞻性和回顾性判读,发现DMG判读存在个体差异,无论是病灶的检出数量还是分类诊断,MRI和DMG都缺乏很好的一致性,其影像表现也缺乏一一对应的关系。
利益冲突:无。