基于GEO及TCGA数据库建立乳腺癌他莫昔芬耐药相关预后模型
2022-12-20开震天夏超然王建东胡俊艳
郑 洁,开震天,夏超然,罗 鹏,刘 晖,王建东,王 凤,胡俊艳△
1.上海中医药大学附属曙光医院乳腺外科,上海 201203;2.上海鼎晶生物医药科技股份有限公司,上海 201321
乳腺癌是女性最常见的恶性肿瘤。根据最新全球癌症数据统计,乳腺癌已上升为全球发病率第一的恶性肿瘤,其中约有75%的乳腺癌患者为雌激素受体阳性的乳腺癌[1],内分泌治疗是该类乳腺癌的重要治疗策略,包括选择性雌激素受体调节剂、芳香化酶抑制剂、孕激素、卵巢功能抑制剂等。他莫昔芬可使雌激素受体阳性乳腺癌患者的5年复发风险降至33.2%,5年病死率降至25.6%[2],但仍有40%左右的内分泌治疗患者出现原发或继发他莫昔芬耐药,导致复发转移,影响预后。因此,临床亟待找到可以早期预估雌激素受体阳性乳腺癌患者耐药风险的靶点。
长链非编码RNA(lncRNA)是一类长度超过200个核苷酸的非编码RNA。近年研究发现,lncRNA具有多种重要的功能,可影响基因转录调控、转录后修饰、表观遗传修饰等多种生理、病理过程,其转录或功能的异常可促进或抑制肿瘤的转移和耐药性产生[3-4]。多项研究发现,lncRNA的表达差异与乳腺癌的发生、发展、预后及治疗耐药密切相关[5-7]。
近年来,基于高通量平台的微阵列已成为筛选癌症发生过程中重要的遗传或表观遗传学改变的有效工具,并且利用该技术去寻找癌症诊断和预后的潜在生物标志物具有广阔前景。本研究利用基因表达综合(GEO)数据库提取雌激素受体阳性乳腺癌芯片测序数据,并筛选雌激素受体阳性乳腺癌患者群体中出现他莫昔芬耐药的lncRNA,从而分析乳腺癌他莫昔芬耐药的分子机制及治疗靶点。
1 材料与方法
1.1数据下载及处理 使用R包GEOquery从GEO数据库中下载他莫昔芬耐药及敏感细胞系的lncRNA表达数据集,编号为GSE159981,用于挖掘他莫昔芬耐药相关的差异lncRNA。TANRIC(https://ibl.mdanderson.org/tanric/design/basic/main.html)数据库是一个涵盖了20种癌症lncRNA的数据库,其中数据来源包括癌症基因组图谱(TCGA)、癌症细胞系百科全书(CCLE)及大量的独立数据集,可用于探索lncRNA在各种癌症中的功能及临床相关性。本研究从其中下载TCGA乳腺癌患者的基因表达数据集,共837例,并从UCSC Xena (http://xena.ucsc.edu/)数据库中获取TCGA乳腺癌患者及所对应的生存数据,用于建立预后模型。
1.2生物信息分析
1.2.1差异lncRNA分析 使用R包GEOquery读取GSE159981数据集中GPL 20115平台对应的注释文件。将其中标记为lncRNA的探针提取出来,并统一使用lncRNA ID进行注释。随后,使用R包limma对他莫昔芬敏感组MCF-7与他莫昔芬耐药组LCC-2中的lncRNA进行t检验。然后,按照错误发现率(FDR)矫正P值<0.05且|log2FC|>1.5(FC为差异倍数)的标准筛选其中的差异lncRNA。最后,使用R包ggplot2绘制差异lncRNA的火山图。
1.2.2预后模型建立与分析 使用R包biomaRt注释TCGA基因表达谱中的基因名,并将筛选出来的差异lncRNA与TCGA的基因表达谱中包含的lncRNA取交集。随后,对上述交集部分的lncRNA进行单因素Cox回归分析,计算每个lncRNA与乳腺癌总生存率的风险值及P值,以P<0.05为标准筛选出与预后显著相关的他莫昔芬耐药lncRNA,表达量完全一致的lncRNA中仅保留一个。为保证模型的稳定性,在训练集中采用多因素Cox回归分析建立预后模型。将所建模型计算得到的风险值按中位数将患者分为高危组和低危组,使用R包中的survival和survminer绘制两组患者的Kaplan-Meier曲线并采用Log-rank检验比较两组患者的生存差异。
1.2.3预后模型的验证 利用所建立的模型计算出TCGA乳腺癌验证集中的风险比(HR),按照相同阈值将患者划分为高危组及低危组,绘制两组患者的生存曲线并用Log-rank检验两组患者的生存差异。
2 结 果
2.1差异lncRNA的筛选 以FDR<0.05及|log2FC|>1.5为筛选标准,在他莫昔芬敏感组与他莫昔芬耐药组中找到差异lncRNA 共416个,其中上调表达的lncRNA 200个,下调表达的lncRNA 216个。FDR排序前十位的差异lncRNA和对应P值见表1。
表1 他莫昔芬耐药相关的差异lncRNA(FDR排序前十位)
2.2预后模型建立 将找出的差异lncRNA与TCGA基因表达谱中重叠的部分进行比对,最终获得116个lncRNA。对116个差异表达的lncRNA进行单因素Cox回归分析,以计算各lncRNA与乳腺癌患者总生存率的HR与P值,得到8个显著相关的lncRNA(P<0.05),见表2。随后,将TCGA随机分为训练集(n=470)与验证集(n=157),并在训练集中利用多因素Cox回归对上述8个lncRNA进行多因素Cox回归分析,最终确立6个lncRNA(ENSG00000230440、ENSG00000231128、ENSG00000232986、ENSG00000249346、ENSG00000253898、ENSG00000258412)的预后模型。按照所建模型计算得到的HR的中位数进行区分,将患者分为高危组和低危组,并进行生存分析。Log-rank检验结果发现,高危组与低危组在训练集和验证集中的生存率差异均有统计学意义(P=7×10-7、0.008)。
表2 8个lncRNA的单因素分析结果
2.36个lncRNA预测预后的受试者工作特征(ROC)曲线 使用R包timeROC分别计算3年及5年生存率的曲线下面积(AUC),并绘制出相应的ROC曲线以评价模型的特异度和灵敏度。在整体数据集中,所构建的6个lncRNA预后模型的3年和5年生存率AUC分别为0.75和0.68(图1),均能较好的预测出乳腺癌患者的生存情况。
图1 6个lncRNA预测预后的ROC曲线
3 讨 论
他莫昔芬是一种结构与雌激素相似的人工合成的非甾体类抗雌激素药,它通过与雌激素竞争肿瘤细胞雌激素受体,减少雌激素与受体有效结合,阻止雌激素发挥有效作用,从而抑制乳腺癌细胞的增殖[8]。虽然他莫昔芬的使用明显改善了雌激素受体阳性乳腺癌患者的预后,但不可忽视的耐药问题严重影响了他莫昔芬的整体疗效,因此找到特异性的且有治疗意义的内分泌治疗耐药靶点具有重要的临床意义。
在对他莫昔芬耐药的探索中,lncRNA的作用越来越被人重视,也取得了一些成果,比如有WU等[9]发现,lncRNA UCA1可通过激活mTOR信号转导途径对他莫昔芬产生耐药。多项研究表明,lncRNA HOTAIR可与雌激素受体相互作用,增强其转录活性,从而促进他莫昔芬耐药[10-12]。李均勇等[13]研究发现,lncRNA GAS5在MCF-7/他莫昔芬耐药细胞中呈低表达,lncRNA GAS5过表达后MCF-7/他莫昔芬耐药细胞增殖活性降低、对他莫昔芬敏感性增强,其机制可能与靶向调控miR-223-5p,进而抑制下游PI3K/Akt通路表达有关。另有研究发现,lncRNA BCAR4可通过HER2信号通路参与乳腺癌的细胞侵袭和他莫昔芬耐药[12]。
本文主要是基于GEO及TCGA数据库对他莫昔芬在乳腺癌治疗中的耐药机制进行研究,从中筛选出与他莫昔芬耐药相关的lncRNA,并构建出能够用于评估患者生存状态的6个lncRNA预后模型。此预后模型提示高风险及低风险患者的生存曲线存在着明显的分离。与高风险评分患者相比,低风险评分患者的生存时间延长、预后较好,表明lncRNA在雌激素受体阳性乳腺癌内分泌治疗疗效及预后中可能起着一定作用。
目前,对于乳腺癌内分泌治疗患者来说,仍然缺少能够有效判断内分泌治疗疗效及预后的工具。本研究中较少的lncRNA(6个)便可预测内分泌治疗的效果及预后,为乳腺癌患者的内分泌治疗方案选择提供参考。同时,本研究报道的6个lncRNA均为现有文献尚鲜见报道与他莫昔芬耐药相关的标志物,可能成为研究乳腺癌他莫昔芬耐药机制及逆转耐药的新靶点。
但本研究存在一定的局限性,由于高通量测序数据具有一定的误差及背景噪声[14],本研究虽然在分析前已对数据进行标准化及批次校正,且通过独立训练集和验证集初步验证了模型的稳定性,但结果仍需进一步结合大量临床标本及预后数据来验证其在临床应用的价值。
综上所述,本研究针对雌激素受体阳性乳腺癌构建了他莫昔芬耐药相关的6个lncRNA预后模型,并初步显示了该模型预测他莫昔芬耐药风险、预后情况及进一步逆转他莫昔芬耐药、治疗癌症的潜力。