晚期子宫内膜癌预后相关基因与顺铂耐药相关性分析
2021-03-12张斯娜马书杰
张斯娜,马书杰
0 引言
子宫内膜癌(Uterine corpus endomertrial carcinoma,UCEC)是最常见的严重威胁女性健康的妇科恶性肿瘤之一[1]。UCEC约占女性生殖系统肿瘤的20%~30%,仅次于宫颈癌。UCEC的发病率逐渐增加,适当治疗后UCEC的5年生存率从74%提高至91%[2]。目前子宫内膜癌的治疗手段主要为手术辅以放疗或化疗,对于晚期及复发患者,化疗同样是关键的治疗手段之一。目前临床以顺铂为主的单药或联合化疗方案应用最广泛[3],但顺铂剂量加大后不良反应增加和肿瘤细胞的耐药性,使化疗失败率也增高[4],其抗癌效率明显减低。因此,本研究利用生物信息学分析的方法,鉴别出与晚期子宫内膜癌患者顺铂抵抗相关的基因。
1 材料和方法
1.1 TCGA子宫内膜癌数据的收集和预处理 TCGA-UCEC项目患者的RNA-Seq-Counts数据以及相应的临床信息从Genomic Data Commons Data Portal下载(https://portal.gdc.cancer.gov/projects/TCGA-UCEC)[5]。剔除生存状态、临床分期和肿瘤组织学分级不完整的样本,并纳入生存时间≥30 d的数据样本。利用edgeR包进行mRNA差异表达分析,我们利用edgeR包带有的logCPM功能筛选表达基因,即logCPM值>1(约5~6个counts)被认为表达基因。
1.2 差异表达基因筛选 利用R语言中的“edgeR”包进行正常组织和癌组织间的差异表达显著性分析[6],通过设定差异表达阈值[|logFC|>1.0,且矫正后P值(FDR)<0.05]筛选差异基因,将得到的归一化差异表达基因矩阵进行后续分析。然后利用R语言“pheatmap”程序包对正常组织样本和子宫内膜癌样本绘制聚类热图。
1.3 加权基因共表达网络分析 本研究使用R软件“WGCNA”加权基因共表达网络分析软件包,对子宫内膜癌样本的基因表达谱构建网络进行分析,构建基因模块并验证其与临床分期以及肿瘤组织学分级的相关性。利用基于基因表达显著性(GS)和模块身份(MM)的函数“networkScreening”寻找枢纽基因[7]。通过此函数可以得出一系列的指标,包括编码基因与临床分期以及肿瘤组织学分级相关性的加权P值(P.Weighted,FDR)、校正后的加权P值(q.Weighted)、加权后的相关系数(cor.Weighted)以及费希尔Z值(Fisher Z)。和普通的P值类似,P.Weighted越小,则说明编码基因与临床分期以及肿瘤组织学分级相关性越强。我们取校正后的加权P值(q.Weighted<0.01)筛选与临床分期以及肿瘤组织学分级高度相关的蛋白编码基因。
1.4 差异表达基因的生存分析 使用R软件“survival”生存分析软件包,对差异表达基因进行单变量Cox分析,确定与子宫内膜癌患者总生存期之间相关的差异mRNA。按照P<0.01 筛选与子宫内膜癌预后相关的蛋白编码基因。
1.5 抗癌药物敏感性数据 抗癌药物敏感性基因组学(Genomics of Drug Sensitivity in Cancer,GDSC)数据库(https://www.cancerrxgene.org/)的数据来自75 000个实验,描述了约251个抗癌药物在1 001种肿瘤中的反应[7]。我们下载该数据库中4个数据集包括“Annotated list of Cell lines”、“Screened compounds”、“log(IC50) and AUC values”及“RMA normalised expression data for Cell lines”。整合数据分析基因表达量的差异对子宫内膜癌细胞系耐药性的影响。按照P<0.05筛选与顺铂药物半数抑制浓度 (IC50)具有相关性的基因。
1.6 统计学分析方法 采用edgeR软件包以负二项分布的方法筛选差异表达基因;在应用WGCNA前,需要对归一化的表达数据进行对数化,使其转化为正态分布。本实验使用以2为底的对数(log2)转换,并预先加上0.01进行平滑。WGCNA采用Pearson法或TOM法;使用“upsetR”软件包找出预后相关和临床分期以及肿瘤组织学分级共同的基因并做交集可视化图。
2 结果
2.1 临床信息数据准备 在TCGA矩阵数据中,mRNA测序数包括551例子宫内膜癌的样本,临床特征信息包括548例子宫内膜癌患者的样本。根据数据预处理中的纳排标准,本研究中纳入了519例子宫内膜癌患者参与预后分析。我们从整个临床特征信息中提取2个临床特征,包括临床分期和肿瘤组织学分级。这2个临床数据均属于等级数据,均以字符型数据的形式存储,需要转换数字型数据的形式来适应WGCNA分析。TCGA中子宫内膜癌患者的临床特征信息数据见表1。
表1 UCEC病例的临床特征信息和数字化编译的结果
2.2 差异表达基因筛选 本研究使用edgeR包提供的算法,根据基因Counts数据计算得到差异表达基因列表。对35个癌旁组织样本和551个癌组织样本,以|logFC|>1.0且FDR<0.05为标准计算差异表达基因,并通过logCPM值>1的标准筛选得到4 043个差异表达基因,其中上调基因2 348个,下调基因1 695个。正常组织样本和子宫内膜癌样本绘制聚类,见图1。
图1 正常组织样本和子宫内膜癌样本绘制聚类热图
2.3 加权基因共表达网络分析结果 在519例肿瘤组织样本中,4 043个基因表达谱用于进行共表达网络构建,剔除41个离群样本后,按照无尺度网络的标准,以相关系数等于0.95作为标准,使用pickSoftThreshold函数,选择邻接矩阵权重参数(软阈值)β=4构建基因模块,见图2A-2D。动态树切割可以识别模块,模块中的基因表达值非常相似。高度相似的模块被合并后,一共有13个共表达模块被鉴定,其大小范围为30~947个基因,分配每个模块一种颜色作为参考,而模块“灰色”则保留没有共表达的基因,见表2和图2E。通过计算模块内基因表达量与样本特征向量的pearson相关系数,寻找与肿瘤组织学分级和临床分期发生显著相关的基因模块,其中blue模块和brown模块基因在肿瘤组织学分级和临床分期的显著性高于其他模块,因此,blue模块和brown模块与肿瘤组织学分级和临床分期相关性较高,见图2F。随后,应用WGCNA的“networkScreening”函数判断枢纽基因,结果显示,与肿瘤组织学分级相关的显著基因有702个,632个显著基因与临床分期相关,见表3。
表3 与肿瘤组织学分级和临床分期相关的显著基因表
图2 加权基因共表达网络分析
表2 各模块基因的数量
2.4 差异表达基因的生存分析结果 TCGA差异mRNA数据进行单因素Cox分析,取P值<0.01后筛选出723个基因,见表4。肿瘤组织学分级和临床分期是决定子宫内膜癌患者预后的重要因素,肿瘤组织学分级或临床分期越高,预后越差。我们筛选出与肿瘤组织学分级和临床分期相关的分子生物标志物理论上也属于预后相关的基因。我们发现与肿瘤组织学分级和临床分期相关共同的453个显著基因,其中与患者预后显著相关的基因有196个(图3)。
表4 差异表达mRNA cox单因素分析结果
图3 肿瘤组织学分级、临床分期和预后相关的显著基因交集情况
2.5 抗癌药物敏感性数据结果 半数抑制浓度(IC50)能表示某一药物或者物质(抑制剂)在抑制某些生物程序(或者是包含在此程序中的某些物质,比如酶,细胞受体或是微生物)的半量。IC50值可衡量药物诱导的能力,数值越低,诱导能力越强,也可以反向说明某种细胞对药物的耐受程度。GDSC由英国桑格研究院开发,收集肿瘤细胞对药物的敏感度和反应。我们下载整合基因在子宫内膜癌细胞系的表达量及该细胞系与药物反应的数据,分析在子宫内膜癌细胞系中基因表达对顺铂药物敏感度的相关性,结果显示,468个基因表达变化对顺铂敏感度具有相关性(P<0.05),见表5,其中86个基因随着表达量的增加对顺铂敏感度增强,382个基因随着表达量的增加对顺铂耐药性增强。子宫内膜癌患者预后与肿瘤组织学分级和临床分期均相关的差异基因有6个(DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7),其表达值的变化与顺铂药物敏感度存在相关性,且随着表达量的增加,对顺铂耐药性增强,见图4。
图4 抗癌药物敏感性分析
表5 基因表达变化对顺铂敏感度的相关性分析结果
2.6 6个基因的分析结果 DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7基因的表达与肿瘤组织学分级和临床分期以及与顺铂半数抑制浓度(IC50)具有显著的正相关性(cor>0,P<0.01),即随着6个基因表达的增加,对顺铂的耐药性增强。单因素分析结果显示,6个基因的表达均是子宫内膜癌患者的危险因素(HR>1),见表6;随着临床分期和肿瘤组织学分级的等级增高,6个基因表达量也随之增加,见图5。
表6 6个基因的统计分析结果
图5 6个基因在不同肿瘤组织学分级和临床分期的表达情况
3 讨论
铂类药物(顺铂、卡铂等)是目前最广泛应用于子宫内膜癌的化疗药物,但是子宫内膜癌的化疗效果并不令人满意,文献报道单药顺铂的化疗有效率约为30%左右,联合化疗使药物有效率有所增加,但毒性反应也明显增加[8-9]。如何提高顺铂等药物的化疗敏感性,克服其耐药性,是子宫内膜癌的临床治疗研究热点之一。顺铂是一线化疗药物,是子宫内膜癌患者手术后最常用的药物之一,其最突出的抗癌作用方式包括DNA损伤、抑制DNA合成和有丝分裂以及诱导细胞凋亡来杀死癌细胞[10-11]。然而,只有25%~35%的患者对顺铂有反应[12-13],这意味着肿瘤中存在高异质性和显著的顺铂耐药细胞群,也有可能随着顺铂治疗时间的延长以及用量的增加,肿瘤细胞会产生一定程度的耐药性,最终导致治疗失败[14]。本研究结果显示,随着子宫内膜癌临床分期和肿瘤组织学分级等级的增高,6个基因(DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7)表达量也随之增加,从而对顺铂耐药性增强。
研究表明,其耐药性的产生机制是一个较为复杂的多步骤、多因素、多基因的生物学过程,涉及靶组织、机体以及肿瘤细胞的相互作用和影响,与肿瘤细胞相关基因的信号传导和调节密切相关[15]。顺铂可通过诱导细胞凋亡来杀死癌细胞。细胞凋亡的诱导是抗癌药物的主要目的之一,因此,抗凋亡被认为是导致癌细胞化学无反应性的可能机制[16]。生长因子受体结合蛋白-7(Grb7)是多结构域衔接蛋白,与各种细胞信号和功能的多种酪氨酸激酶共同参与作用[17],并被发现在乳腺癌[18-19]和卵巢癌[20]等转移性肿瘤中过表达。有研究表明,Grb7在促进宫颈癌细胞系中的肿瘤进展(包括侵袭和抗凋亡)中起重要作用,Grb7过表达促进宫颈癌的侵袭和抑制细胞凋亡[21];DLL3是Notch受体的Delta/Serrate/Lag-2配体家族的成员,并且在Notch信号传导中起作用[22]。先前的证据表明,Dll3在共表达细胞中与Notch1相互作用并且自主地抑制Notch信号传导[23-24]。在鼠Lewis肺癌细胞中DLL3的过表达通过抑制Notch信号传导促进体外细胞增殖和体内肿瘤生长[25]。
本研究采用生物信息学的方法,通过TCGA和GDSC数据库挖掘出晚期子宫内膜癌患者DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7基因对顺铂存在耐药性,可以有效下调DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7及其蛋白的表达,抑制晚期子宫内膜癌细胞对顺铂的耐药性,从而提高癌细胞的生长抑制率,对晚期子宫内膜癌患者的临床治疗具有一定作用。本研究只通过统计计算方法对TCGA数据库中的子宫内膜癌患者基因进行顺铂耐药性分析,存在一定的局限性,需要体外和体内实验进一步研究验证。