基于生物信息学分析的乳腺癌4-miRNAs预后模型
2021-04-25邓姗姗张廷友李宁
邓姗姗,张廷友,李宁
遵义医科大学第二附属医院胸部肿瘤科,贵州 遵义563000
根据国际癌症研究机构的报道,2020年乳腺癌已超过肺癌成为最常见的人类癌症,全球新发病例226万,约占新发癌症病例的11.7%,占女性癌症死亡人数首位,而中国乳腺癌的发病率居全球第一。乳腺癌是多学科综合治疗最成功的癌种之一,早期乳腺癌患者的5年生存率可达80%以上[1]。然而,仍然有部分患者在短期内出现复发转移,这显著缩短了患者的生存时间,复发转移是导致乳腺癌患者癌症相关性死亡的主要原因[2]。因此,寻找合适的预测因子评估患者预后是临床肿瘤学专家亟需解决的问题。微小RNA(micro-RNA,miRNAs)系短链非编码RNA,参与乳腺癌发展演变的多个生物学过程[3-4]。
研 究 报 道,miR-141[5]、miR-31[6]、miR-105[7]等miRNAs的在乳腺癌中上调,可促进乳腺癌细胞增殖、迁移,是乳腺癌患者预后不良的分子标志物[8]。研究发现,miRNAs能够作为评估乳腺癌患者生存的预测因子,且多个miRNAs组合的预测因子更具优势[9]。因此,本研究拟对TCGA(the Cancer Genome Atlas)数据库数据进行深入挖掘以建立预测乳腺癌患者预后的miRNAs模型,为其个体化治疗提供理论依据。
1 资料与方法
1.1 数据下载与整理 本研究于2020年12月18日检索TCGA数据库,并下载乳腺癌相关miRNA(肿瘤样本446个,正常样本45个)和mRNA(肿瘤样本1 069个,正常样本111个)表达数据和临床信息(426例);从miRBase(http://www.mirbase.org/)下载miRNA成熟序列。
1.2 差异分析 使用R语言(4.0.3版)进行统计分析,采用edgeR包对肿瘤组织和正常组织中差异表达的miRNA和mRNA进行提取,设置错误发现率的指标(false discovery rate,FDR)<0.05,|log2FC|>1(FC为差异倍数,fold change)。
1.3 预后模型构建及评价 剔除生存时间<30天及生存状态未知的临床数据后,将差异表达的基因与整理后的临床数据合并。采用caret包将本研究队列随机分为实验(Train)组和验证(Test)组,对Train组进行单因素Cox回归分析,筛选出P<0.05的miRNA作为候选预测因子;采用survival包对候选预测因子进行多因素Cox回归分析并构建预后模型。根据预后模型计算各组的风险评分,以Train组的风险评分中位数作为cut-off值,将患者分为高风险及低风险组。采用Kaplan-Meier(K-M)法绘制生存曲线。计算5年生存率受试者工作特征曲线(ROC)及曲线下面积(AUC),以此评估模型的预测精度。
1.4 独立预后分析 通过单因素及多因素Cox回归分析,计算临床变量及风险评分与患者生存率的相关性,并判断该模型是否可以作为独立的预后因素。
1.5 靶基因预测和功能富集分析 采用Targetscan、miRDB和miRTarBase三个工具预测本预后模型中miRNA的靶基因,将≥2个工具同时预测到的靶基因与差异表达的mRNA取交集;对上述取交集后得到的目标基因进行基因本体论(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析(过滤条件为P<0.05,q<1)。
1.6 构建PPI网络筛选核心基因 利用STRING网站(https://string-db.org/)构建PPI网络(置信参数为0.7),通过Cytoscape3.8.2软件筛选核心基因。
2 结果
2.1 miRNAs预后模型构建及评价 本研究共筛选出298个差异miRNA(上调205个,下调93个),将395例生存状态明确且生存时间≥30 d的患者,随机分为Train组199例和Test组196例。Train组经单因素Cox回归分析得到11个与预后相关的miRNA(P<0.05),逐步经多因素Cox回归分析剔除引起多重共线性的miRNA,最后构建了由hsa-miR-148b、hsa-miR-148b-5p、hsa-miR-487a-5p和hsa-miR-452-3p四个miRNA组成的4-miRNAs预后模型。风险评分=(hsa-miR-148b-5p表达量0.285 424 9)(hsa-miR-503-5p表达量0.280 636)(hsa-miR-487a-5p表达量0.311 300)(hsa-miR-452-3p表达量0.150 980)。以Train组风险评分中位数(0.965)作为cut-off值,将患者分为高风险及低风险组,结果提示高风险组乳腺癌患者的5年生存率低于低风险组患者(P<0.05,图1),生存状态图提示高风险组死亡率更高(图2);三组患者5年生存率ROC曲线下AUC值分别为0.868、0.669、0.802(图3)。
图1 生存曲线图
图2 高低风险组患者生存状态
图3 ROC曲线
2.2 独立预后分析 单因素Cox回归分析提示4-miRNAs预后模型与总生存率相关(HR=1.325,P=0.005,图4)。多因素Cox回归分析提示,即使在考虑其他临床因素时,4-miRNAs预后模型同样可作为影响乳腺癌患者生存率的独立预后因素(HR=1.325,P=0.006,图5)。此外,年龄、N分期和转移状态也是影响乳腺癌患者生存率的独立的预后因素(P<0.05)。
图4 单因素独立预后分析
图5 多因素独立预后分析
2.3 4-miRNAs模型靶基因预测和功能富集分析 取≥2个靶基因预测软件预测结果的交集后,hsa-miR-148b-5p、hsa-miR-503-5p、hsa-miR-487a-5p、hsa-miR-452-3p四个miRNA分别得到491、493、434、638个重叠靶基因。本研究共筛选出7 388个在乳腺癌中差异表达的mRNA(上调4 946个,下调2 442个),与上述重叠靶基因取交集后得到183个目标靶基因。对前20个目标靶基因进行GO富集分析,并绘制CC(cellular component)、BP(biological process)和MF(molecular function)图。富集结果显示BP主要包括:发育细胞生长、成纤维细胞迁移的正调控、跨膜转导;CC主要包括离子通道复合体、跨膜转运复合体、电压门控钾通道复合体;MF主要包括:肝素结合、糖胺聚糖结合、硫化合物结合、钾离子跨膜转运活性、生长因子活性、受体配体活性。KEGG通路主要包括病毒蛋白与细胞因子和细胞因子受体的相互作用、细胞因子与细胞因子受体的相互作用、轴突导向、TGF-beta信号通路、p53和PI3K-Ak信号通路(P<0.05)。
2.4 构建PPI网络筛选核心基因183个经过滤后得到的目标靶基因被用于PPI网络的构建,筛选得到 的 前10个 核 心 基 因 为IL6、IGF1、SEMA6D、MGAM、CXCR4、PPBP、CXCL11、SGK1、KCNJ3、HCN4。
3 讨论
乳腺癌是高度异质性的肿瘤,其发生发展是多基因共同参与的过程,不同亚型之间的分子生物学特征、临床表现及治疗反应均存在很大的差异,在精准医疗时代,充分考虑患者的分子特征,有利于制定更加精准的个体化治疗方案。但目前存在的TNM分期、病理学分型、组织学分型等预后因素尚不能完全对患者进行精细的个体化区分。因此,寻找可个体化预测乳腺癌患者预后的模型意义重大。本研究利用TCGA数据库,对乳腺癌组织中差异表达的miRNA进行筛选和分析,最后构建了由hsa-miR-148b-5p、hsa-miR-503-5p、hsa-miR-487a-5p、hsa-miR-452-3p四个miRNA组成的4-miRNAs预后模型。经检测该预后模型的预测效能较高,Train组、Test组和所有样品5年生存率ROC曲线下AUC值分别为0.868、0.669、0.802。生存曲线提示高风险评分患者预后较低风险评分患者差,且差异具有统计学意义(P<0.05),提示该模型可用于乳腺癌患者的预后预测。单因素Cox回归分析提示该预后模型与乳腺癌患者生存率相关,多因素Cox回归分析提示该模型可作为影响乳腺癌患者生存率的独立预后因素。
CIMINO等[10]指出miR-148b是ITGA5,ROCK1,PIK3CA/p110α、NRAS、CSF1信号转导通路的重要调节因子。ZHANG等[11]发现miR-148b通过靶向PTEN通路可促进乳腺癌细胞的生长。CHEN等[12]发现miR-148/152家族通过负调控SPIN1的表达,增强乳腺癌细胞对阿霉素的耐药性。ZHAO等[13]发现miR-503通过靶向SMAD2和E钙粘蛋白促进乳腺癌上皮-间质转化。MA等[14]发现miR-487a通过调节BCRP的表达,可逆转乳腺癌化疗耐药。XIAO等[15]发现miR-452在乳腺癌细胞中对LINC0092与SFRP1、RGMA有调节作用。前期研究提示本模型中的四个miRNA均在乳腺癌的发展过程中发挥重要作用。
GO富集分析显示4-miRNAs预后模型的靶基因主要定位于细胞膜,参与离子、蛋白跨膜转运、信号转导,具有跨膜转运活性、生长因子活性、受体配体活性等功能。KEGG主要富集在TGF-beta、p53和PI3K-Ak等信号通路上。前期文献指出p53[16]、PI3K[17]和TGF-beta[18]等信号通路均与乳腺癌预后相关。这些富集结果在乳腺癌的发生发展过程中发挥着不同的作用,提示本研究所构建的4-miRNAs模型对乳腺癌信号通路的调节有重要意义。本研究所筛选出来的前十位核心基因IL6、IGF1、SEMA6D、MGAM、CXCR4、PPBP、CXCL11、SGK1、KCNJ3、HCN4均与乳腺癌的发生发展密切相关[19-22]。
本研究的不足之处在于本研究的数据仅来源于TCGA数据库,未对其他数据库数据进行分析。此外,该模型尚未得到实验验证,后续将进行实验验证。
综上所述,本研究构建了一种基于miRNA的可靠独立预后模型,为乳腺癌患者临床治疗策略的制定提供了理论依据,有助于乳腺癌患者的个体化管理,对于本模型评分为高风险患者可能需要采取更积极的治疗方式。