卵巢-附件影像报告和数据系统在卵巢肿瘤诊断中的应用研究进展
2024-06-10周安艳胡蓉
周安艳 胡蓉
最新研究报道称,2023 年美国约有1.97 万例卵巢癌新发病例,1.33 万例死亡[1]。我国卵巢癌发病率居全球第1 位,是女性病死率最高的恶性肿瘤,也是临床治疗最棘手的妇科恶性肿瘤,其发病率和死亡率呈逐年上升趋势[2]。由于卵巢位于盆腔深处,卵巢癌早期无明显症状,且具有高复发率、高转移率、低生存率的特点,故对于卵巢肿瘤最迫切的任务是寻找一种有效的早期诊断方法。而超声检查具有安全、经济、可重复性高等特点,且具有较高的灵敏度和特异度(90%~97%)[3-5],被认为是术前鉴别诊断附件肿块(adnexal masses,AMs)的最佳影像学检查方法。由经验丰富的超声医师对盆腔肿块的图像进行主观评价是鉴别AMs 恶性和良性的准确方法,其准确率约为90%[6-9]。然而,初级超声医师(住院医师)尤其是基层超声医师的人数远远多于专家(主任医师),大多数AMs 只能由初级超声医师进行评估和诊断,而且不同经验及不同研究中心的诊断准确率差异较大,任何使用逻辑回归分析或神经网络等数学方法进行的分析均必须获得非常高的测试效能,才能与专家的诊断准确率相媲美[7]。Aslam 等[10]对3 种不同逻辑回归模型进行前瞻性比较得出,Timmerman 等[11](AUC=0.93),明显优于Alcazar 等[12](AUC=0.70)及Tailor 等[13](AUC=0.86);此外,Valentin 等[9]将Timmerman 与Tailor 的模型进行了比较,发现AUC 分别为0.84 和0.87,证明由超声专家进行的主观评估表现更好。因此目前更需要可靠性高的AMs 恶性风险评估方法,为经验不足的超声医师诊断AMs 提供帮助,美国放射学会(American College of Radiology,ACR)超声工作组的卵巢附件报告及数据系统(ovarian-adnexal reporting and data system,O-RADS)由此提出。本文就O-RADS 的提出、诊断效能及联合应用等相关研究作一综述。
1 O-RADS 的提出
AMs 多为生理性改变或典型良性病变,恶性程度较低[14]。面对非典型AMs 时,评估恶性肿瘤风险仍然存在挑战。卵巢癌发病率较低,但是高度致命,总体5年生存率低于50%[15]。因此,AMs 的准确诊断在患者管理中起着至关重要的作用。近年来,已经开发了多种超声结构报告系统来评估卵巢癌的风险,2000 年国际卵巢肿瘤分析(international ovarian of tumor analysis,IOTA)小组提出了描述附件肿瘤超声特征的术语和定义[16],随后在2005 年开发了“logistic 回归模型”[17],2008年开发了“IOTA 简单规则(IOTA simple rule,IOTA SR)”[18],2009 年开发了妇科成像报告数据系统(gynecology imaging reporting data system,GI-RADS)[19],2014年开发了“ADNEX 模型”[20],2016 年开发了“Simple Rules-Risk 模型(simple-rules-risk model,SR-Risk)[21];2018 年,ACR 发布了一份描述AMs 的白皮书词典[22];2020 年超声工作组发布了O-RADS 超声风险分层和管理共识指南[23]。该共识指南是ACR 超声工作小组在2018 年发表的白皮书O-RADS 超声词典的基础上推出的,共识指南将卵巢附件超声所见的风险分为6类(O-RADS 0~5 类),0 类:不能进行超声评估;1 类:正常绝经前卵巢,包括≤3 cm 的卵泡或黄体;2 类:恶性风险<1%的几乎肯定是良性的病变;3 类:恶性风险为1%~<10%低恶性风险病变;4 类:恶性风险为≥10%~<50%中等恶性风险病变;5 类:恶性风险≥50%高恶性风险病变。该分类是目前唯一包含所有风险类别及相关管理方案的词典和风险分层系统,根据风险类别不同,可酌情进行重复超声检查、随访复查、MRI 检查、超声科专家检查及妇科医师进行管理。对于具有一定恶性风险类别的病变,如存在卵巢恶性病变风险的不典型良性病变,需要由超声专家检查,或进一步行MRI 检查以得到较明确的诊断,避免过度治疗;对疑似恶性病变的患者应安排MRI 检查或超声专家会诊。高度怀疑恶性肿瘤的患者应转诊到妇科肿瘤医师并及时治疗。患者的病史(如绝经状态)、影像学检查(如超声专家的影像学评估及MRI 的影像学特征)和血清糖类抗原125(carbohydrate antigen 125,CA125)对患者的管理起着非常重要的参考作用。O-RADS 的应用使超声报告得以标准化,对卵巢附件肿物进行详细的分层及管理,减少解读报告的混乱,降低超声医师与临床医师之间对超声诊断报告的误解,方便临床处理及随访,缩小低年资医师与资深医师在临床诊断中的差距,提高准确率。
2 O-RADS 单独及联合应用
O-RADS 提出之后,各国超声专家纷纷对其进行研究验证,评估其诊断效能,包括AUC、灵敏度、特异度、阳性预测值和阴性预测值、观察者间的一致性以及与其他现有分类系统的比较,包括IOTA SR、GIRADS、ADNEX 模型等。
Guo 等[24]比较了O-RADS、恶性肿瘤风险指数4(risk of malignancy index 4,RMI4)、国际卵巢肿瘤分析logistic 回归模型2(IOTA LR2)和IOTA SR 在AMs恶性预测价值,发现O-RADS 表现最好,灵敏度和AUC 最高,资深医师组(Ⅰ组)灵敏度为91.0%,初级医师组(Ⅱ组)为84.8%,AUCⅠ组为0.90,Ⅱ组为0.89。O-RADS 分类系统以降低特异度为代价,对良、恶性病变的特征和详细描述解释确保了检测恶性肿块的最高灵敏度。RMI4、IOTA SR、IOTA LR2 系统所涉及的简单诊断指标容易误诊一些没有典型恶性特征的肿瘤。而O-RADS 可用于识别实际恶性病变,以减少漏诊的严重后果。Guo 等[24]认为4 种系统的诊断效能和可靠性可弥补初级超声医师对AMs 恶性程度预测的不足。
也有研究认为O-RADS 与某些诊断模型的诊断效能差异不大。Lai 等[25]将O-RADS、GI-RADS 和ADNEX进行比较,得出O-RADS(0.88)和GI-RADS(0.90)的灵敏度低于ADNEX(0.95)(P<0.05),O-RADS 的阳性预测值(0.98)高于ADNEX(0.96)(P<0.05)。O-RADS、GI-RADS 和ADNEX 的Kappa 值分别为0.830、0.821 和0.861,一致性较好,与Van Calster 等[26]研究结果相似,他们均认为由于3 种系统的诊断效果差异不大,可以根据中心类型、对患者临床资料的获取或个人舒适度进行选择。
为了消除绝经前后对卵巢肿瘤诊断的影响,Wang 等[27]对绝经前妇女和绝经后妇女分别进行评价,结果发现在绝经前妇女中,O-RADS 和O-RADS联合血清CA125 和人附睾蛋白4(human epididymal protein 4,HE4)的灵敏度分别为92.2%和94.8%,特异度分别为91.8%和93.4%,准确度分别为91.9%和93.8%。在绝经后妇女中,O-RADS、O-RADS 联合血清CA125 和HE4 的灵敏度分别为94.8%和95.8%,特异度分别为83.9%和93.6%,准确度分别为90.5%和95.6%。O-RADS 联合CA125 和HE4 在绝经前和绝经后妇女中的灵敏度、特异度和准确度均高于O-RADS(均P<0.05)。该研究认为O-RADS 提供标准化的超声术语,在AMs 中具有较高的灵敏度。O-RADS 联合CA125、HE4 诊断AMs 时,提高了灵敏度和特异度,对AMs 的早期发现可能有帮助,具有较高的临床应用价值。除此之外,Wu 等[28]及Xie 等[29]研究均证实了CA125的加入提高了O-RADS 区分卵巢良性和恶性肿瘤的能力。然而,他们研究也存在不同之处。Xie 等[29]研究是在肿瘤中心进行的,而Wu 等[28]研究包括来自综合性医院的女性,这导致Xie 等[29]研究恶性肿瘤率高于Wu等[28]研究(59.4%比29.6%)。
少数研究对O-RADS 进行了亚分类研究。Cao等[30]试着将O-RADS 4 类病变细分为两大类,包含病变的O-RADS 4a 类为规则的多房囊肿和光滑实性肿块,其恶性风险低于20%,而包含病变的O-RADS 4b 类为单房和多房囊肿,但含有实性成分,其恶性风险高于40%。亚分类后,准确度、灵敏度、特异度分别为90.6%、96.1%、88.4%,AUC 略有升高。该研究者认为亚分类提高了部分O-RADS 4 类恶性病变的特异度,有利于更好地对中间风险进行分层,而更好的分层对确定手术策略和手术等待时间有很大帮助。
Basha 等[31]研究结果显示O-RADS 对恶性肿瘤的灵敏度明显高于GI-RADS和IOTA(96.8%、92.7%、92.1%,P=0.003、0.0007),但特异度略低(分别为92.8%、93.6%、93.2%,P>0.05)。O-RADS、GI-RADS 和IOTA 的观察者一致性相似(Kappa 值分别为0.77、0.69 和0.63),O-RADS 的观察者一致性倾向高于GI-RADS 和IOTA。O-RADS 的高灵敏度,主要归因于O-RADS 提供了全面的描述和解释,以确定哪些AMs 不需要随访、保守性随访或手术切除。O-RADS 和IOTA 的恶性肿瘤率与以往文献中推荐的恶性肿瘤率相当,但GI-RADS的恶性肿瘤率更高。相比之下,IOTA SR 和GI-RADS没有提供足够的后续指南。
Guo 等[24]研究结果表明,高级和初级超声医师的O-RADS 系统AUC 分别为0.90 和0.89。相比之下,Wu等[32]却认为高级超声医师O-RADS 系统的AUC 明显优于初级超声医师。这种差异可能是由于在妇科超声方面的训练水平不同。Guo 等[24]研究中的初级超声医师均有1 年以上的超声诊断经验,而Wu 等[32]研究中的初级超声医师对妇科超声的经验较少,这可能导致初级超声医师对O-RADS 的预测效能相对较低。Wu等[32]研究数据显示,即使是经验不足的超声医师应用O-RADS 系统评估AMs 时仍然可以获得较高的灵敏度(0.906~0.969)和阴性预测值(0.964~0.990)。这说明在临床上超声诊断为O-RADS≤3 的附件肿物中,恶性病变较少,避免漏诊卵巢癌。而O-RADS 的特异度(0.626~0.826)和阳性预测值(0.411~0.608)相对较低。
有学者认为常规超声O-RADS 分类系统与超声造影(contrast enhanced ultrasound,CEUS)相结合有助于提高附件肿物定性诊断的准确度,尤其在O-RADS 4~5 类病灶的定性诊断中,CEUS 具有较高的价值。武佳薇等[33]研究发现常规O-RADS 分类诊断O-RADS 4~5类附件病灶良恶性的AUC 为0.72,联合CEUS 后调整O-RADS 分类的AUC 为0.85,差异有统计学意义(Z=3.660,P<0.001)。
O-RADS不仅能用于定性诊断卵巢肿瘤,且对于不同病理类型卵巢肿瘤的诊断效能亦较好,卢颖澜等[34]研究得出O-RADS 分类鉴别卵巢良、恶性肿瘤的灵敏度为96.73%(237/245),特异度为86.29%(510/591),AUC 为0.962;鉴别良、恶性上皮-间叶肿瘤、生殖细胞肿瘤及性索-间质肿瘤的灵敏度分别为97.25%(212/218)、90.00%(9/10)及93.33%(14/15),特异度分别为84.96%(339/399)、86.46%(83/96)及85.00%(34/40),AUC分别为0.963、0.926及0.923。
Guo 等[24]、武佳薇等[33]、卢颖澜等[34]研究发现,ORADS 与RMI4、IOTA LR2、IOTA SR、GI-RADS、ADNEX等诊断系统相比,O-RADS 灵敏度最高,且其最佳截断值为O-RADS>3 类。当O-RADS 联合CA125、HE4 进行诊断AMs 时,能显著提高特异度和灵敏度;与CEUS相结合能极大的提高附件肿物定性诊断的准确度。因此,O-RADS 能有效弥补初级超声医师在诊断恶性病变方面的不足,并给超声医师在临床诊断中提供行之有效的工具和标准,具有极高的临床应用价值。
Yang 等[35]前瞻性地研究了620 例AMs 患者,采用Kappa 统计量评估2 位不同年资超声医师对病灶类别、实性病灶的外部轮廓、囊性病灶内部是否存在乳头状凸起以及液体回声等详细特征间的一致性。高年资和低年资超声医师对于病灶类型及血流评分的一致性,其研究结果与Jha 等[36]相同。对于实性肿物的外轮廓,观察者间一致性高于Jha 等[36]研究。对于有无实性成分,该研究的观察者间一致性较Jha 等[36]差,但最终一致性也处于较高水平。虽然高年资和低年资超声医师对O-RADS 词汇的解释和对O-RADS 分类的一致性较好,而对经典良性病变的解释和分类一致性一般。但这些O-RADS 分类的划分差异对O-RADS 的诊断效能无明显影响。
3 展望
尽管部分研究评估了O-RADS 风险分层系统的诊断准确度和观察者间一致性[37-40],但这些研究是回顾性的,因此容易受到患者选择偏倚的影响,需要一项前瞻性多中心试验来进一步验证诊断效能,并准确衡量O-RADS 风险分层系统在各种临床环境下对患者管理的影响[32]。
附件恶性肿瘤的患病率随着年龄和绝经后妇女的增加而增加,此外,晚期卵巢癌在这类人群中更常见。然而,根据目前的O-RADS,不同更年期状态的女性并没有受到不同的对待。根据ACR O-RADS,O-RADS 4类病变的恶性风险为10%~50%[23],这是最具争议的亚类别。由于绝经后妇女卵巢恶性肿瘤的患病率较高,绝经后年龄组的O-RADS 4 类病变需要更详细的评估和更积极的治疗[28]。
大多数研究结果均强调超声专家的不同专业水平影响了ACR O-RADS 在评估AMs 时的可重复性和准确度。不同年资的医师对指南中的超声术语理解存在差异,甚至误解,造成分类的不一致,影响了该指南在临床的应用。因此有必要进行规范、系统指南解读的相关培训,尤其是针对低年资医师和基层医师。
总之,O-RADS 在AMs 的管理中显示出广阔的应用前景。探讨ACR O-RADS 在AMs 评估中的可重复性和预测效能,在未来的工作中开展大规模的前瞻性研究,验证O-RADS 在AMs 评估中的使用和准确度是极其有必要的。