影像基因组学在乳腺癌中的研究现状与进展
2020-03-03魏竹馨文玲王希明
魏竹馨 文玲 王希明
乳腺癌是我国女性中最常见的癌症,占女性癌症发病率的17.10%[1]。乳腺癌异质性高,为了更好地解释乳腺癌的异质性,全基因组表达谱分析技术开始应用于临床,该类技术可对乳腺癌进行分子分型,从而更准确地预测乳腺癌的复发转移风险及治疗效果。但是,有创的基因表达谱分析获得的病理组织进行分子表征仅能提供肿瘤的局部信息,其结果的准确性及代表性受到限制[2-3]。影像基因组学的应用克服了上述局限性,具有广阔的发展空间。影像基因组学一方面通过无创的方式反映肿瘤整体的异质性,有助于提高我们对肿瘤生物学的认识,建立肿瘤基因型和影像学表型之间的联系;另一方面,影像基因组学的定量或定性生物学成像标志物可为病人的个性化治疗提供必要的信息,从而达到优化临床决策和改善病人预后的目的[4-5]。本文系统阐述影像基因组学在乳腺癌中的研究进展。
1 影像基因组学概述
影像基因组学主要用来研究医学成像影像表型和肿瘤基因组之间的关系。Lambin 等[6]在2012 年正式提出了影像组学的概念,即采用自动化、高通量的特征提取方法,将医学影像转化为大量的特征信息,深入挖掘图像的生物学本质并提供临床决策支持。影像组学的工作流程包括以下几个步骤[7]:①图像收集,类似于临床试验中的“病例入组”。乳腺癌检查涉及多模态成像,包括乳腺X 线摄影、超声、MRI 和正电子发射体层成像(PET)/CT 等,因此存在多种图像收集途径;②图像分割,包括人工手动分割、半自动分割和全自动分割;③图像特征提取与鉴定,即通过提取高维特征数据来定量描述兴趣区(ROI)的属性[8],为影像组学的核心部分;④特征的选择及模型的建立;⑤临床应用,影像组学应用最多的领域包括肿瘤分类、肿瘤分期和预后预测。
2 乳腺癌影像基因组学研究现状
2.1 乳腺癌影像数据获取
2.1.1 MRI 与乳腺X 线摄影和乳腺超声成像相比,乳腺MRI 能更准确地测量肿瘤大小,有助于发现乳腺癌周围转移灶、多中心癌灶及对侧乳腺病变。2012 年,Yamamoto 等[9]发表了第一份乳腺影像基因组MRI 研究报告,该研究表明26 种显像表型中有21 种影像特征与71%的基因存在全基因组范围内的关联,同时发现异质性增强模式与干扰素型乳腺癌(预后与luminal B 相似)显著相关,并且通过基因富集分析确定了11 个与预后相关的影像特征。乳腺动态增强MRI(DCE-MRI)因软组织分辨力高和能够准确反映血流动力学信息而被广泛应用。DCE-MRI 的特征已被证明是与基因组学相关的最常见影像特征。MRI 还可以通过扩散加权成像(DWI)来评估肿瘤其他特征,提供有关肿瘤生物学和微观结构特征的信息。Martincich 等[10]通过研究DWI 与乳腺癌生物标志物之间的关系发现,乳腺癌的生物学特征与表观扩散系数(ADC)值存在显著相关性,雌激素受体(estrogen receptor,ER)阴性肿瘤的ADC 值中位数高于ER 阳性肿瘤,并且富含人表皮生长因子受体2(human epidermal growth factor receptor 2,HER2)的肿瘤的ADC 值中位数最高,该值显著高于Luminal A 和Luminal B/HER2 阴性的肿瘤。Kim 等[11]进一步利用ADC 直方图的各个参数进行分析,包括ADC 的最小值(ADCmin)、第10 百分位、平均值、中位数、第90 百分位和最大值,该研究发现除了ADCmin之外,其他各ADC 参数都与预后因素和亚型相关,HER2 阳性肿瘤ADC 值高,Ki-67指数高的肿瘤则ADC 值低。Cho 等[12]使用体素内不相干运动(intravoxel incoherent motion,IVIM)成像的生物标志物,如组织扩散系数(Dt)、灌注分数(fp)和伪扩散系数(Dp)来描述乳腺癌的异质性。另有研究者[13-15]联合多参数MR 技术(包括DCE、DWI、MR 波谱分析)及血氧水平依赖(BOLD)成像进行研究,通过BOLD MRI 获得乳腺癌微环境的乏氧信息,评估新辅助治疗的效果,使其有潜力成为乳腺癌预后和治疗效果的影像学生物标志物。
2.1.2 乳腺X 线摄影 乳腺癌的多模态成像还包括乳腺X 线摄影,尽管其应用广泛,但受二维成像和组织重叠的限制,不能对肿瘤形状和边缘进行详细评估,因此乳腺X 线摄影在影像基因组学分析方面存在一定的局限性。Woodard 等[5]发现具有细线分支钙化的乳腺癌复发分数较其他可疑钙化形态的复发分数更高;而且根据乳腺实质分类,不同类别的乳腺密度与复发分数呈负相关,a 类的乳腺密度(脂肪型)的复发分数为24.4,显著高于d 类乳腺密度(致密型)的复发分数(16.5)。Nie 等[16]发现范围>2 cm 的微钙化灶最常见于HER2 过度表达分子亚型。
2.2 图像分割 图像分割是指对ROI 的分割,即在影像上勾画出ROI,从而针对这一特定区域计算出影像组学特征。由于乳腺癌的异质性和形状不规则,针对肿瘤的精准分割是一个巨大挑战。目前,分割技术主要包括人工分割法、半自动分割法及自动分割法[14,17-20]。Agner 等[17]采用二维手动分割法人工划定病变边界,分别对三阴性乳腺癌与其他非三阴性病变、ER 和HER2 阳性、ER 阳性、HER2 阳性乳腺癌及乳腺纤维腺瘤进行鉴别,受试者操作特征(ROC)曲线下面积(AUC)为0.73~0.97。Ashraf 等[21]手动勾画56 例ER 阳性乳腺癌病人的ROI,研究DCE-MRI 影像特征与复发可能性之间的相关性,结果表明ER 阳性乳腺癌DCE-MRI 影像特征与基因预测的肿瘤复发风险中度相关,ROC AUC 为0.77。自动分割法常用的分割算法有图形切割法、活动轮廓法、区域生长法和水平集法等。Wan 等[20]则采用病灶自动分割方法,研究了DCE-MRI 影像特征与复发分数之间关系。目前,手动分割法应用较多,其优势在于可对不规则的肿瘤边界进行精细、准确地勾画,常被用作金标准;但其受主观因素影响较大,可重复性低,且耗时、效率低,不能用于大样本的研究;相反,半自动或自动分割法则表现出较高的可重复性和时效性。自动分割法较半自动分割法能更好地排除人为因素对研究的影响,但由于完全自动分割法目前还没有统一的方案及标准,难以广泛用于研究。因此,进一步优化ROI 分割方法将是影像组学的一个重要研究方向。
2.3 图像特征提取 提取特征数据用于定量分析ROI 的过程是影像组学的核心步骤。图像特征大致可分为4 类[22]:①一般形态学特征:肿瘤大小、形态、边缘、分布、内部强化特点等;②一阶直方图分布特征:可通过直方图分析计算得到,包括均数、中位数、最小值、最大值、标准差、熵、偏度和峰度等一阶特征[18];③二阶直方图或纹理特征:如自相关函数、灰度共生矩阵、灰度级长矩阵、灰度及带矩阵等;④动力学特征:包括药代动力学、增强动力学(廓清型、平台型和持续型)[23]、纹理动力学等。图像特征通常来自于成熟的库,比如MaZda 库[24]和Haralick 库。Ahmed 等[25]使用了Haralick 库定义的14 个纹理特征(f1~f14)预测乳腺癌病人对化疗的反应,结果发现部分参数在化学治疗完全应答与部分应答之间存在差异,且在对比剂注射后1~3 min 差异最明显。计算机可不受特征数量的限制进行大样本的分析,分析水平仅受计算能力的限制。随着分析的复杂性和需要分析的病例数量的增加,影像基因组学领域已主要转向计算机衍生的特征。
2.4 特征的选择与建模 在提取数量庞大的高通量影像特征后,需采用特征选择方法获得最佳性能表现的特征集,输入至机器学习算法,用于建立基于影像组学特征的预测和分类模型。特征选择中较为常用的方法有LASSO Cox 回归模型、最小冗余最大相关(minimum-redundancy maximum-relevancy,mRMR)、互信息法、主成分分析法等。其中,mRMR核心含义即最大化特征与分类变量之间的相关性,而最小化特征与特征之间的相关性,在保证最大相关性的同时去除冗余特征,从而达到降维的效果。随后运用机器学习的方法对筛选出来的影像组学特征建立模型,实现预测肿瘤预后及转归的作用。在影像组学建模中,因logistic 回归模型简单易行,故成为最常用的监督分类器之一;此外,常用的机器学习模型还有随机森林、人工神经网络、支持向量机、聚类分析等[26]。Parmar 等[27]对14 种特征选择方法和12 种分类方法的性能和预测总生存率的稳定性进行了研究,结果发现,mRMR(AUC=0.69,稳定性=0.66)和互信息法(AUC=0.66,稳定性=0.69)预测总生存率的稳定性最好;分类器方面,随机森林分类器(AUC=0.61)取得了较佳的预测结果。
2.5 临床应用
2.5.1 影像基因组学 对鉴别分子亚型的作用Perou 等[28]研究发现,乳腺癌在基因表达水平上可以定义为4 种不同的固有亚型(Luminal A、Luminal B、HER2-enriched、三阴性)。但是,随着研究的发展,三阴性乳腺癌逐渐被基因表达谱鉴别出来的基底细胞样型乳腺癌替代,大部分研究使用简化的分类[29],即Luminal A[ER 阳性和/或孕激素受体(PR)阳性,HER2 阴性]、Luminal B(ER 阳性和/或PR 阳性,HER2 阳性)、HER2-enriched(ER 阴性,PR 阴性,HER2 阳性)和基底细胞样型(ER 阴性,PR 阴性,HER2 阴性)。尽管不同类型乳腺癌的一些主要的生物学标记如HR 和HER2 表达存在重叠,但这些亚型在随后治疗反应和预后表现上不尽相同。因此,术前了解乳腺癌分子亚型,对于个体化治疗(化疗、内分泌治疗和HER2 靶向治疗)的选择具有重要的指导价值。癌症基因组图谱是一个公开的、可获得的、已经历过正式分子分型的乳腺癌中央知识库,它与包含相应影像信息的癌症影像档案相关联。Mazurowski 等[19]从癌症影像档案筛选了48 例病人提取出23 个DCE-MRI 影像特征,结果表明luminal B型乳腺癌与动态增强特征存在相关性,进一步验证发现病灶强化率与背景实质强化率比值较高者更有可能为luminal B 亚型,这可能与luminal B 亚型中成纤维细胞生长因子受体基因的扩增,促使通透性较高的新生血管形成有关。虽然基因组学分析为获得乳腺癌分子亚型的首选方法,但费用昂贵且耗时,从而限制了可供影像基因组学分析的病人数量,因此大多数研究通常以受体状态替代基因组学分析对分子亚型进行分类。有相关的DWI 研究[10-11]发现,HER2-enriched 乳腺癌表现出最高的ADC值,而Luminal B/HER2 阴性者ADC 值最低。Youk等[30]的研究则得出不同结果,他们认为三阴性乳腺癌有更高的ADC 值,这可能由于该研究中59 例三阴性乳腺癌中有33 例(56%)表现为肿瘤内坏死,而肿瘤坏死区域肿瘤细胞减少,导致ADC 值升高。Leithner 等[31]研究表明从DWI 中提取的影像特征,如一阶直方图、灰度共生矩阵等,可以较准确地评估乳腺癌的受体状态和分子亚型,尤其对于luminal B 和HER2-enriched 两种乳腺癌分子亚型的评估(准确度分别为100%和94.7%)。Grimm 等[32]研究发现,DCE-MRI 上所显示的肿块形状与基底细胞样型癌、肿块边缘和HER2 型癌存在显著相关性,更为重要的是均质的肿块样和非肿块样的内部强化对luminal B 分子亚型的阴性预测值较高。目前,对三阴性乳腺癌的影像基因组学研究也有较多报道。Xie 等[14]使用多参数MR 成像和全肿瘤直方图分析鉴别三阴性乳腺癌与其他亚型乳腺癌,结果显示,对三阴性乳腺癌和Luminal A、HER2-enriched 亚型的鉴别诊断准确度较高,AUC 分别为0.710 和0.763,但三阴性乳腺癌与Luminal B 型的单变量分析差异无统计学意义。Dilorenzo 等[33]探讨MRI 乳腺背景实质强化(background parenchymal enhancement,BPE)对不同乳腺癌亚型的鉴别诊断价值,结果表明轻度BPE 提示Luminal B 或HER2 阴性亚型,重度BPE 则提示三阴性乳腺癌。Wang 等[18]研究发现,增加BPE 的定量成像特征后可明显提高其对三阴性乳腺癌的预测能力,使预测准确度由86.9%提高到90.0%,AUC 由0.782 提高到0.883。
2.5.2 影像基因组学对疗效及预后的预测价值 新辅助全身化疗(neoadjuvant systemic therapy,NST)是局部和晚期乳腺癌的标准治疗方法,通过化疗减小肿瘤体积,可使更多的病人接受保乳手术治疗,但并不是所有乳腺癌都受益于NST 治疗,因为有部分生物侵袭性强的癌灶可能经过几个月的NST 治疗后不但得不到有效控制,反而会增加肿瘤转移的风险。因此,在治疗过程中尽早区分NST 治疗获益和对NST 治疗不敏感的病人至关重要。病理完全缓解(pathologic complete remission,pCR)与病人预后良好密切相关,可作为评价NST 治疗效果的一项指标。Tsukada 等[13]预测在NST 完成后哪类肿瘤能达到pCR,结果显示与pCR 相关的2 个MRI 的衍生特征为肿瘤生长方向和廓清速率,表明与Cooper 韧带平行的肿瘤生长方向(即肿瘤前后径长于内外径)和治疗前多参数MRI 的快速廓清速率是pCR的预测指标。Chamming’s 等[34]利用不同的空间比例因子提取了平均像素强度、标准差、熵、偏度、峰度等特征,发现在非三阴性乳腺癌病人中空间比例因子为2 的峰度和预后之间的关系差异存在统计学意义,并且采用T2WI 和T1WI 增强峰度图的多变量模型对三阴性乳腺癌的鉴别有较好的效果(AUC=0.834)。Nakashoji 等[35]研究三阴性乳腺癌病人发现,临床表现为进展较慢的肿瘤和乳腺X 线摄影显示钙化较少的肿瘤可能对化疗更敏感。Parikh 等[36]通过检测肿瘤熵(不规则性)和均匀性(灰度分布)的变化发现,治疗后肿瘤变得更加均匀,T2WI 上信号均匀性的提高和熵的降低可能比肿瘤大小变化更早提示pCR。Kim 等[37]利用无复发生存率来评价乳腺癌预后效果,结果显示肿瘤在T2WI 有较高熵值(异质性高)的病人表现出较低的无复发生存率。
2.5.3 影像基因组学与乳腺癌复发的相关性研究 应用多基因检测方法[如癌型检测(Oncotype Dx)和预测分析微阵列50(PAM50)/Prosigna]对肿瘤的复发风险进行预测已应用于临床。Oncotype Dx 主要用于检测ER 阳性的早期乳腺癌,已有研究证实该检测方法比临床病理学指标能更准确地预测ER类型及腋窝淋巴结转移情况[38]。Woodard 等[5]研究发现乳腺密度与Oncotype Dx 复发评分(Oncotype Dx recurrence score, ODxRS)呈负相关,不清晰的肿块边缘和纤细的线性分支钙化与较高的ODxRS 显著相关。除了乳腺X 线摄影的特征,MRI 中的动态增强特征也有潜力作为乳腺癌复发风险的影像学生物标志物。Wan 等[20]采用6 个形态特征、3 个药物动力学特征、4 个增强动力学特征、4 个强度动力学特征、148 个结构动力学特征、5 个动态方向梯度直方图和6 个动力局部二值模式特征对每个病变进行定量表征,并在ER 阳性病人中评价这些特征与致癌类型Dx 风险类别的相关性,结果表明计算机提取的ER 阳性乳腺癌DCE-MRI 纹理特征与Oncotype Dx 风险评分高度相关,动态方向梯度直方图和动力局部二值模式的AUC 值分别为0.84 和0.80。Thakur 等[39]测量ER 阳性和腋窝淋巴结阴性浸润性乳腺癌的ADC 值,结果发现ODxRS 评分低风险癌灶的ADC 值显著高于中/高危风险者。Dialani等[40]利用乳腺X 线摄影、超声和MRI 特征,结合PR、HER2 状态和肿瘤分级,能够可靠地预测肿瘤复发风险,具有较高的敏感度(89%)和特异度(83%),从而减少昂贵的Oncotype Dx 检测。PAM50 测定法是对与乳腺癌相关的50 个基因表达进行的检测,可用于预测ER 阳性、HER2 阴性乳腺癌病人转移的可能性,并能指导激素治疗和化疗的临床决策[41]。Li 等[42]采用多种多基因检测手段(MammaPrint、Oncotype DX 和PAM50)与计算机提取的乳腺MRI表型进行对照研究,结果显示影像组学特征尤其是肿瘤大小和增强纹理,与多基因检测的复发评分之间存在显著相关性,即肿瘤越大、越不均质强化,其复发的风险越高。
3 乳腺癌影像基因组学的局限性
影像基因组学是将肿瘤基因型与影像表型联系起来的一个新兴领域,虽然已有大量研究证实其具有重要的临床价值和广阔的应用前景,但目前仍存在一些局限性:①大多数研究都依赖于回顾性数据集,且样本量小,缺少代表性;②基因表达和信号通路极其复杂,且基因检测价格昂贵、操作复杂,这限制了大规模的影像基因组学研究;③由于缺乏统一的标准、不同的软件和成像设备以及数据集的机构间和机构内的异质性均限制了结果的通用性,ROI 采用手动划定或自动分割法也可能影响特征的提取及相关分析。
4 小结
乳腺癌影像基因组学是一个非常有前景的研究领域,可以快速、无创地通过影像学获得相关基因特征与信息,有望提高乳腺癌的诊断、预后评估和治疗反应预测的准确性。迄今为止,影像基因组学的工作主要集中在单一机构和回顾性数据集,下一步影像基因组学研究应获得更大的数据集和更准确的信息,并且需要将其进行标准化、规范化及统一化,从而能更精准地解决临床问题。