肾透明细胞癌上皮间质转化基因预后模型建立及验证
2023-07-30钟文杰陈昌南陆红红
钟文杰,陈昌南,陆红红
( 1.江门市新会区人民医院肿瘤科,广东 江门 529199; 2.江门市人民医院)
肾癌(renal cell carcinoma,RCC)是全世界范围内常见的泌尿系统恶性肿瘤之一。2020年癌症调查数据显示,每年新增约43万肾癌患者,其中约17.9万人死亡[1]。其中肾透明细胞癌(clear cell renal cell carcinoma,ccRCC)是RCC中最主要的病理类型,占全部 RCC 的 70 % ~ 80 %[2]。手术是公认治疗早期RCC患者最重要、最有效的方法,但仍有20 % ~ 30 %的患者术后出现远处转移或复发。ccRCC对化疗、放疗均不敏感,而且转移性ccRCC患者预后极差,5年生存率低于10 %[3]。尽管免疫治疗已经被广泛应用于ccRCC晚期患者的治疗并取得一定疗效,但仍有一部分患者很快出现耐药性和进展[4-5]。因此,迫切需要确定新的生物标志物或治疗靶点来预测ccRCC的治疗反应、进展和预后。
上皮间质转化(epithelial mesenchymal transition,EMT)是上皮细胞失去了细胞极性,丧失细胞与细胞间连接能力,获得间质细胞的特质,具备迁移和侵袭能力的一个过程[6-7]。在肿瘤细胞的EMT过程中,肿瘤细胞丧失极性,细胞与细胞间粘连降低,细胞骨架重组,间质表型的标志物如神经性钙黏蛋白(neurogeni-ccadherin,N-cadherin)上调,上皮表型的标志物如上皮性钙黏蛋白(epithelial-cadherin,E-cadherin)下调,使得肿瘤细胞抵御凋亡及迁移能力增强,最终导致了肿瘤的浸润和转移[8]。在本研究利用生物信息学分析,从癌症和肿瘤基因图谱(the Cancer Genome Atlas,TCGA)数据库下载ccRCC的RNAseq数据和相应的临床信息,利用生物信息学分析以全面探讨EMT基因在ccRCC中的预后作用,为临床中 ccRCC的预后分析和前期治疗提供靶向治疗思路。
1 资料与方法
1.1数据采集 从TCGA数据库(https://portal.gdc.cancer.gov/)中下载肾透明细胞癌mRNA测序数据及相应的临床信息,并保证保留样本生存时间≥30 d。包括72例正常肾组织样本,539例肾透明细胞癌组织样本。肾透明细胞癌和正常肾组织的RNA-Seq(RNA-seq;Fragments Per Kilobase Million [FPKM] value)数据测序平台信息:Illumina HiSeq 2000。此外,从分子特征数据库 v 7.1(MSigDB )Hallmark基因集中下载200个 EMT 相关靶基因(http://www.broad.mit.edu/gsea/msigdb/)。
1.2EMT差异基因鉴定 从ccRCC基因的表达矩阵中提取EMT基因表达信息,使用limma(3.40.6版)R软件包筛选肾透明细胞癌样本及癌旁正常肾组织之间差异表达基因(differentially expressed genes,DEGs),差异基因筛选标准为:P<0.05,∣logFC ∣>1[基因表达值倍数变化(fold change,FC)]。
1.3EMT差异基因功能分析 为了研究这些差异表达的EMT基因功能相关性,本研究使用clusterProfiler 3.12.0 R软件包进行基因本体(gene ontology,GO)功能注释和京都基因与基因组百科全书 (kyoto encyclopedia of genes and genomes,KEGG)途径富集分析。q值<0.05的被视为显著类别。
1.4EMT风险模型的构建与验证 选取随访时间≥30 d的ccRCC患者共有513例,采用随机分组方法,其中60 %(308例)作为模型的训练集,余下40 %(205例)作为验证集。在训练集中将EMT差异基因进行单变量COX回归分析,以确定与总生存时间(overall suvival,OS)相关的EMT基因,P<0.05为差异具有统计学意义,并通过LASSO回归进一步筛选,得到核心EMT基因,根据多因素COX回归系数构建EMT基因风险模型公式。风险评分= 基因系数(1)×基因表达(1)+基因系数(2)×基因表达(2)+···+基因系数(n)×基因表达(n)。以患者风险评分中位数为分界点,将患者分为高风险组和低风险组。利用ROC曲线来评估模型预测的准确性,最后在验证集进行模型验证。利用单因素和多因素COX回归分析评估训练集模型的预后价值。
1.5模型分组与免疫浸润差异 CIBERSORT机器算法通过反卷积算法从组织转录谱中计算浸润免疫细胞的比率。根据肾透明细胞癌转录谱和CIBERSORT的R脚本,计算22种肿瘤浸润免疫细胞的浸润丰度。
1.6模型分组与基因突变分析 从 TCGA 数据库中获取ccRCC患者基因突变信息,按突变注释格式 (MAF)排列基因突变数据,使用 R 包“maftools”进行统计分析。使用 GISTIC 2.0 检验基因拷贝数的扩增或缺失,阈值为 FDRP<0.05。
1.7统计学分析 采用 R 软件进行数据分析,采用Wilcoxon秩和检验进行差异分析。采用 Kaplan-Meier(KM)法评估生存差异,采用ROC曲线评估模型预测的准确性,采用单因素和多因素COX回归分析评估模型预后价值,P<0.05 为差异有统计学意义。
2 结果与分析
2.1ccRCC患者临床病理参数 如表1所示,ccRCC患者平均年龄为61(26~90)岁,以男性多见(346,64.43 %)。病理分期以Ⅰ期(269,50.09 %)多见,分级以G2(230,42.83 %)、G3(207,38.55 %)多见,平均随访时间1 334 (0~4 537)d。
表1 TCGA ccRCC患者的临床变量
2.2EMT差异基因鉴定 根据差异基因筛选标准为:P<0.05,∣logFC ∣>1,筛选出93个EMT差异基因,其中上调基因71个,下调基因22。见图1。
图1 ccRCC差异表达的 EMT基因热图(A)、火山图(B)
2.3EMT差异基因功能分析 GO功能注释显示(图2),EMT差异基因主要富集于细胞外基质、细胞-底物黏附、细胞-基质黏附、胶原纤维组织、胶原代谢过程及组织重构;KEGG通路分析结果显示(图3),EMT差异基因主要富集于P13K-AKT信号通路(P13K-AKT signaling pathway)、黏着力、ECM受体相互作用、松弛素信号通路、肿瘤坏死因子信号通路(TNF signaling pathway)等。通过对EMT差异基因的生物功能及通路分析发现,在ccRCC发生发展中,肿瘤细胞通过改变细胞外基质特性,降低细胞-底物黏附、细胞-基质黏附作用,组织重构,获取更强运动性和迁移能力。
图2 EMT差异基因GO 富集分析
图3 EMT差异基因 KEGG 富集通路
2.4EMT风险模型的构建与验证 本研究将训练集308例ccRCC患者和93个EMT差异基因纳入TCGA-ccRCC队列,以确定风险模型。通过单变量COX回归分析,确定41个与OS相关的EMT差异基因,并通过LASSO回归进一步筛选,得到6个核心EMT差异基因,分别为BMP1 、CD44 、COLGALT1 、PLAUR 、TGFBR3、 TIMP1 。根据多因素COX回归系数建立EMT风险模型公式,风险评分=BMP1×(0.017383)+CD44×(0.006322)+COLGALT1×(0.013651)+PLAUR×(0.018104)+TGFBR3×(-0.137602)+ TIMP1×(0.000734)。在训练集中(如图4),Kaplan-Meier(KM)生存曲线结果显示,低风险组患者的OS明显高于高风险组(P<0.001);ROC曲线下面面积AUC=0.717。同样,在验证集中(如图5)低风险组患者的OS比高风险组延长;ROC曲线下面面积AUC=0.771。
图4 训练集EMT风险模型的KM生存曲线分析(A)、ROC曲线分析(B)
图5 验证集EMT风险模型的KM生存曲线分析(A)、ROC曲线分析(B)
2.5EMT风险模型在ccRCC预后价值 将训练集中EMT模型风险评分与临床变量(年龄、性别、 分级、分期)进行单因素以及多因素的独立预后分析。结果显示,与临床变量相比,EMT模型风险评分单因素分析 HR 值为1.233(P<0.05,图6A),多 因 素 分 析 HR值 为1.188(P<0.05,图6B),说明风险模型是独立于重要的临床变量的预后预测因子。将风险评分与患者的年龄、性别、肿瘤分期,分级等情况进行相关性分析,结果显示风险评分与性别、分级、分期显著相关(P<0.05,P<0.001,P<0.001);然而,风险评分与年龄分层无统计学差异(P=0.33,图7)。
图6 EMT风险模型与临床变量的单因素COX 回归分析森林图(A)和多因素COX回归分析森林图(B)
图7 EMT风险模型与年龄的关系(A)、 EMT风险模型与性别的关系(B)EMT风险模型与分级的关系(C)、 EMT风险模型与分期的关系(D)
2.6EMT风险模型分组的免疫浸润差异 通过CIBERSORT算法评估训练集ccRCC患者的22种免疫细胞浸润水平有差异(P<0.05,图8)。进一步分析高低风险组免疫细胞浸润差异,结果发现调节T细胞、NK细胞、巨噬细胞M0/M1、树突细胞、肥大细胞等在高风险组和低风险组有显著差异(P<0.001,图9)
图8 ccRCC患者22种免疫细胞浸润热图
2.7EMT风险模型分组的基因突变分析 通过Fisher精确检验对训练集ccRCC患者中高低风险组突变基因进行分析,结果显示高风险组VHL突变率最高(45 %,图10A),低风险组PBRM1突变率最高(53 %,图10B),低风险组患者PBRM1突变率高于高风险组患者。
图10 高风险组基因突变分析图(A)、低风险组基因突变分析图(B)
3 讨论
ccRCC是肾癌最常见的亚型,早期出现远处转移,预后不良,探索潜在的生物标志物对ccRCC患者的治疗、预后至关重要。过去研究表明EMT与癌症进展有关,然而大多数的研究集中在EMT在肿瘤发展和治疗的作用,鲜有EMT在肿瘤预后价值的研究。
本研究筛选出6个核心EMT差异基因,分别为骨形态生成蛋白-1(bone morphogenetic protein 1,BMP1)、黏附分子家族的白细胞分化抗原4(cluster of differentiation 44, CD44)、胶原蛋白β(1-O)半乳糖基转移酶1(collagen beta(1-O) galactosyltransferase 1, COLGALT1)、尿激酶型纤溶酶原激活因子受体(urokinase-type plasminogen activator receptor, PLAUR)、转化生长因子Ⅲ型受体(transforming growth factor typeⅢreceptor, TGFBR3)、 金属蛋白酶组织抑制因子1 (tissue inhibitor of metalloproteinases 1, TIMP1),并用于构建EMT风险模型,该模型可以有效地对生存进行分层,与低风险组相比,高风险组总体生存率明显降低,能有效预测对患者预后,是患者预后的独立风险因子。其中,BMP1、CD44、COLGALT1、PLAUR、TIMP1是EMT风险模型上调基因,其高表达在ccRCC的侵袭和转移中起重要作用,是ccRCC预后不良的因素。BMP1 的高表达与G2M 检查点、 KRAS 信号、 EMT、缺氧通路和血管生成有关,推测BMP1可能通过正向调控细胞周期进展、EMT和血管生成来促进ccRCC肿瘤细胞侵袭和转移[9];CD44的过表达与ccRCC的预后不良有关,上调CD44的表达能增强ccRCC的侵袭和迁移能力[10];PLAUR的表达与ccRCC免疫浸润相关,可能通过调节肿瘤免疫微环境来促进肿瘤的免疫浸润[11];TIMP1可能通过EMT信号通路促进 RCC的增殖、迁移和侵袭[12]。TGFBR3 是EMT风险模型下调基因,在ccRCC 组织中 TGFBR3 的表达降低,与患者的不良预后相关;体外实验亦证实ccRCC细胞中 TGFBR3 的低表达使肾癌起始细胞富集,肾癌细胞迁移能力增强,促进了ccRCC的形成和肺转移[13]。
本研究EMT风险模型分组免疫浸润结果发现,训练集ccRCC患者22种免疫细胞浸润水平有差异,其中调节T细胞、休眠NK细胞、巨噬细胞M0/M1、休眠树突细胞、休眠肥大细胞等在高风险组和低风险组有显著差异。特别值得注意的是,高风险组巨噬细胞M0水平升高,而低风险组巨噬细胞M1水平升高。过去研究发现,巨噬细胞M0可能通过诱导MMP9过表达促进肿瘤血管的生成,导致肿瘤细胞转移和扩散[14];M1样极化肿瘤相关巨噬细胞是调节肿瘤微环境的关键介质,在抑制癌细胞生长中发挥关键作用[15]。本研究发现高风险组免疫细胞浸润以巨噬细胞M0升高为主,而低风险组以巨噬细胞M1升高为主,说明高水平的巨噬细胞M0与预后不良相关,与过去研究结果一致。调节性T细胞(regulatory T cells,Tregs)可通过抑制肿瘤免疫微环境中T效应细胞功能来促进肿瘤生长[16],本研究结果显示ccRCC高风险人群Tregs细胞含量较低风险人群高,有着更低的总体生存率,提示高水平的Tregs细胞是ccRCC预后差的原因之一。我们进一步对EMT风险模型分组的基因突变谱进行分析,发现低风险组患者以PBRM1突变率为主。Miao 等[17]研究发现PBRM1突变与肿瘤免疫应答存在相关性,PBRM1突变ccRCC患者使用免疫治疗时用药效果更好,临床获益更高。
本研究确定了一个由6个核心EMT相关基因组成的预后模型并通过了TCGA内部验证,该模型被证实与ccRCC患者的预后相关,并基于模型分组对分组人群的肿瘤免疫微环境、基因突变进行初步探讨,揭示EMT机制在ccRCC发生中的潜在作用,能早期有效地预测ccRCC患者的生存预后,为ccRCC精准治疗提供潜在有效的靶点。本研究构建的EMT预后模型是基于公共数据构建,缺乏患者手术及内科治疗等抗肿瘤干预的临床信息,存在一定局限性,有待今后更多的实验及临床进一步验证。