肾细胞癌相关诊断基因筛选及免疫浸润特性分析
2023-01-16白洋洋郭依琳陈瑞廷潘世杰孙继建
白洋洋,郭依琳,陈瑞廷,潘世杰,孙继建
(1.河南省中医院 泌尿外科,河南 郑州 450002;2.郑州大学第二附属医院 妇产科,河南 郑州 450014)
肾肿瘤是泌尿系统常见的肿瘤之一,占全人类所有癌症的3%~5%[1],近年来其发病率逐年上升,已成为威胁人类健康的最重要肿瘤之一[2]。而肾细胞癌(renal cell carcinoma,RCC)是成人肾肿瘤中最常见的恶性肿瘤,占90%以上。对于局限性RCC,外科手术切除是唯一治愈性的方法,但大约1/3的RCC初次确诊时已有远处转移,对于转移性RCC常需要全身系统治疗。通常RCC对放疗和化疗不敏感,治疗效果有限。近年来靶向治疗和免疫治疗的迅速发展,使其逐渐成为转移性RCC的一线治疗[3]。RCC组织的肿瘤微环境中存在大量免疫细胞浸润,使免疫治疗成为RCC治疗的有效手段[4-7]。据此,探讨RCC发生发展机制,筛选RCC潜在的诊断标志物,分析肿瘤组织中免疫细胞浸润特征对指导临床治疗尤为重要。
随着全基因组测序技术的迅速发展,已有更多与肿瘤相关的基因被发现,打破了传统的“单疾病单基因”研究思维模式,从而能从多基因协同角度探讨疾病的发生和发展[8]。加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)利用生物系统演算方法,描述基因芯片样本中基因之间的相关模式,以及高共表达基因或模块簇与外部特征之间的关系[9]。利用这种方法可以将高度相关的基因归于同一表达模块,并通过引入相关临床特征来筛选枢纽基因。本文通过基因表达汇编(Gene Expression Omnibus,GEO)数据库,利用WGCNA构建共表达网络,筛选与RCC诊断相关的枢纽基因,构建最小绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO),选择RCC诊断基因,通过受试者工作特征(receiver operator characteristics curve,ROC)曲线评估候选基因的诊断价值,利用肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)数据库和基因型和基因表达量关联(Genotype Tissue Expression,GTEx)数据库对筛选的枢纽基因进行验证,分析RCC中免疫细胞浸润程度和5个枢纽基因与免疫细胞的相关性,为RCC的诊断和免疫治疗提供理论依据。
1 资料和方法
1.1 数据获取和处理从GEO数据库(http://www.ncbi.nlm.nih.gov/geo)获取符合要求的基因芯片集。从TCGA数据库(http://cancergenome.nih.gov/)和GTEx数据库(http://xena.ucsc.edu/)获取符合要求的RNA测序转录组数据集。使用GSE11151和GSE66272作为训练集,构建共表达网络筛选差异表达基因(differentially expressed genes,DEGs),使用GSE53757、TCGA联合GTEx数据集作为测试集验证所得结果。
1.2 筛选DEGs利用R软件Affy包[10]读取原始数据并对数据预处理,剔除有关离群样本后利用R软件limma包[11]对基因表达矩阵进行分析,基于P<0.05和对数变化倍数(|log2FC|)>2.0阈值得到RCC DEGs,结果绘制火山图。
1.3 DEGs功能富集分析及免疫相关的基因富集分析(Gene Set Enrichment Analysis,GSEA)利用R软件clusterProfiler包[11]对得到的DEGs进行基因本体(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析,错误发现率(false discovery rate,FDR)<0.05为差异有统计学意义。从分子特征数据库(Molecular Signatures Database,MSigDB)(http://www.broadinstitute.org/gsea/msigdb/index.jsp)下载“immunesigdb.gmt”免疫相关的基因集。利用R软件中“GSVA”包进行GSEA分析。P<0.05为差异有统计学意义。最后用R软件“clusterProfiler”包明确DEGs中潜在的与免疫相关的生物学功能和可能参与的信号通路。
1.4 加权共表达网络构建采用R软件中的WGCNA包建立了RCC相关基因共表达网络。通过计算基因间的Pearson相关系数确定最优的软阈值β,使得共表达网络更接近于无尺度网络。然后,通过计算将邻接矩阵转化成拓扑重叠矩阵(Topological overlap matrix,TOM),并计算出基因之间的相异度(即1与TOM的差值)进行层次聚类,从而构建了有嵌套的分层聚类树。最后,采用动态剪切的方法合并相似模块。将各模块与临床特征相关联后,分别计算基因显著性(gene significance,GS)以及模块显著性(module significance,MS)。GS用于测量各基因与临床资料之间的相关性,MS为各模块内各基因GS的平均值,作为各模块与临床资料之间的相关性。
1.5 枢纽基因的筛选及验证通过计算各个基因模块身份(module membership,MM)来衡量基因在模块中的重要性。设置参数为|MM|>0.8和|GS|>0.5,进一步筛选基因。将枢纽模块中的基因与筛选的DEGs取交集,即为RCC枢纽基因。利用LASSO回归对枢纽基因进行进一步筛选,所得到的基因即为最优枢纽基因。后续为验证得到的最优枢纽基因的准确性,分别在训练集和测试集中验证枢纽基因的表达水平与RCC之间的关系。绘制ROC曲线和计算ROC曲线下面积(area under curve,AUC)来检验5个枢纽基因诊断RCC的价值。在GEO数据集(GSE53757)和TCGA联合GTEx数据集中,检测预后相关的枢纽基因在正常肾组织和癌组织之间的表达情况。进一步采用人类蛋白质表达图谱(Human Protein Atls,HPA)数据库(http://www.hprd.org/),利用免疫组化分析枢纽基因在正常肾组织和癌组织中的蛋白水平。
1.6 免疫浸润分析利用聚类分析和单样本基因集富集分析(single sample gene set enrichment analysis,ssGSEA)评估正常肾组织和RCC组织之间28种免疫细胞类型的频率差异,计算免疫细胞浸润相对丰度。结果用R软件“vioplot”包绘制小提琴展示。最后,通过R软件“Corrplot”分析5个枢纽基因与28种免疫细胞的相关性。
2 结果
2.1 筛选DEGs基于P<0.05和对数变化倍数(|log2FC|)>2.0阈值聚合基因探针GSE11151和GSE66272,共得到DEGs 384个,其中上调基因129个,下调基因255个,结果绘制火山图,见图1。
图1 RCC DEGs火山图
2.2 GO、KEGG富集分析及免疫相关的GSEA为了解DEGs可能的生物功能,对各个差异基因进行GO富集和KEGG通路分析。GO功能富集分析结果显示,DEGs在生物学功能上主要富集于体液调节、一价无机阳离子稳态、钠离子转运及钠离子稳态等过程;细胞成分的变化主要与细胞质膜、细胞基部和细胞基膜等有关;分子功能层面主要富集于活性离子跨膜转运体活性、阴离子跨膜转运蛋白活性及次级活性跨膜转运蛋白活性等方面(见图2A)。KEGG富集分析显示这些DEGs在酪氨酸代谢、吞噬体、补体与凝血级联反应、醛固酮调节钠重吸收和PPAR信号通路中显著富集(见图2B)。为进一步了解DEGs的免疫功能,对DEGs进行了免疫相关的GSEA分析,结果发现效应CD8+T细胞、记忆CD8+细胞、CD4+T细胞、B细胞等在肿瘤组织中高表达,提示肾肿瘤发生发展过程存在免疫激活和免疫细胞浸润,可能对临床中的免疫治疗有效(见图2C)。
A为DEGs GO功能分析;B为KEGG通路图;C为DEGs免疫通路富集图。图2 RCC DEGs功能富集分析和肿瘤组织免疫通路富集图
2.3 加权共表达网络构建采用R软件PickSoft Threshold函数,以相关系数0.9为基准,选取相邻矩阵权重参数(软阈值)β=2来构造该基因模块。利用一步法建立了共表达矩阵,采用动态混合剪切方法,获得了11种不同类型的基因模型,其中包括300个基因的 red模型,比其他模型高(见图3)。后取red模块中的基因以备后用。
A为基因共表达网络和共表达模块的层次聚类树;B为red模块GS和MM相关性。图3 共基因表达网络筛选合适模块
2.4 枢纽基因的筛选首先将上述得到的red模块中的300个基因与RCC的DEGs取交集,得到15个枢纽基因,结果见图4A。为进一步筛选诊断基因,将得到的15个枢纽基因构建LASSO回归模型进行二次筛选,最终确定5个枢纽基因,即ASS1、DIO1、FAM151A、SLC6A19和SLC22A6,提示其对RCC的诊断具有重要意义,具体结果见图4B。
A为DEGs与共表达网络的韦恩图;B为LASSO模型进一步筛选枢纽基因。图4 枢纽基因的筛选
2.5 枢纽基因的内部验证为验证上述得到的5个枢纽基因在正常组织和RCC组织之间的表达水平,分别在训练集和测试集(GSE53757)中计算枢纽基因的表达量并绘制箱式图,见图5A~E和图5F~J,由结果可知5个枢纽基因在肾肿瘤组织中均为低表达且有意义;接着绘制ROC曲线并计算AUC来检验5个枢纽基因诊断RCC的价值,见图5K~N和图5O~R,结果提示得到的5个枢纽基因均能很好地诊断RCC。
A~E为训练集中枢纽基因在肿瘤组织和正常组织中的表达;F~J为验证集中枢纽基因在肿瘤组织和正常组织中的表达;K~O为训练集中枢纽基因诊断RCC的ROC曲线;P~T为验证集中枢纽基因诊断RCC的ROC曲线;***表示P<0.01。图5 枢纽基因的内部验证
2.6 枢纽基因的外部验证在TCGA联合GTEx数据集中,进一步验证5个枢纽基因在正常组织和RCC组织之间的表达水平。结果发现5个枢纽基因在肾肿瘤组织中均为低表达,与GSE53757数据集结果一致。同时,探讨5个枢纽基因的表达水平与RCC临床分期的关系,发现ASS1、FAM151A、SLC6A19和SLC22A6与RCC临床分期相关,而DIO1则无关,见图6A~D。另外,进一步分析5个枢纽基因与预后的关系,发现SLC6A19基因与RCC的总生存期(overall survival,OS)和无病生存期(disease-free survival,DFS)均相关(图6E~F),其中高表达SLC6A19的RCC患者的OS和DFS高于低表达的患者,提示SLC6A19基因在RCC中是一个预后相关的枢纽基因。
A~D为枢纽基因的表达水平与RCC临床分期的关系;E、F为SLC6A19基因与RCC患者预后的生存曲线图。图6 枢纽基因的外部验证
2.7 枢纽基因的免疫组化验证为进一步验证枢纽基因的准确性,在HPA数据库利用免疫组化分析枢纽基因ASS1、FAM151A、SLC6A19和SLC22A6在正常肾组织和肿瘤组织中的蛋白水平。截至做文之前,HPA数据库尚未收录DIO1基因在RCC组织和肿瘤组织中的蛋白水平。从图7可以直观看出,枢纽基因ASS1、FAM151A、SLC6A19和SLC22A6均在肾正常组织中高表达,在肿瘤组织中低表达。
上方为正常组织,下方为肿瘤组织。图7 枢纽基因的免疫组化验证
2.8 免疫浸润分析利用聚类分析和ssGSEA评估正常肾组织和肿瘤组织之间28种免疫细胞类型的浸润相对丰度差异,绘制小提琴图,见图8A。同时,分析5个枢纽基因与免疫细胞的相关性,见图8B。从中可知免疫细胞在肾肿瘤组织中表达较高,提示免疫细胞与RCC发生发展密切相关。并且枢纽基因中SLC22A6与中性粒细胞呈明显正相关(P<0.05),而DIO1、SLC6A19分别与2型辅助T细胞、活化CD4+T细胞呈负相关(P<0.05)。
A为免疫细胞小提琴图;B为免疫细胞与枢纽基因的相关性。图8 免疫浸润分析
3 讨论
RCC作为泌尿系统常见的肿瘤之一,其发病机制目前尚不明确,很多患者初次诊断往往伴有转移,丧失了手术治愈的机会。近年来随着精准医学的发展,人们通过高通量测序技术发现了一些具有早期诊断价值和治疗决策价值的关键基因。本研究基于生物信息学方法,利用GEO数据库中的GSE11151和GSE66272数据集作为训练集,GEO数据集(GSE53757)和TCGA联合GTEx数据集作为测试集,通过WGCNA共表达网络及LASSO模型筛选具有诊断价值的枢纽基因,比较枢纽基因在肾肿瘤组织和正常组织间的表达量,评估枢纽基因用于诊断RCC的准确性,采用免疫组化验证枢纽基因的可靠性,最后分析RCC的免疫细胞浸润程度以及枢纽基因与免疫细胞的相关性,为RCC的免疫治疗提供理论依据。
本研究发现了RCC的5个枢纽基因,即ASS1、DIO1、FAM151A、SLC6A19和SLC22A6。5个枢纽基因在肾癌组织中的表达量低于正常肾组织,ROC曲线及AUC提示其具有较好的诊断价值。ASS1、FAM151A、SLC6A19和SLC22A6与RCC临床分期相关。SLC6A19基因与RCC的OS和DFS均相关,是RCC的保护因素,其高表达提示RCC患者的预后较好。HPA数据库进一步验证ASS1、FAM151A、SLC6A19和SLC22A6这4个枢纽基因在正常肾组织和肿瘤组织中的蛋白表达水平。ASS1为精氨基琥珀酸合成酶1,是一种从瓜氨酸及天冬氨酸催化合成精氨基琥珀酸的酶,其功能的异常可导致血液内的氮及其他尿酸循环的副产物(如瓜氨酸)增多。近年来,有文献报道ASS1在骨肉瘤[12]、肝癌[13]等多种肿瘤组织中表达下降,有可能成为肿瘤诊断的新标志物。李文华等[14]利用荧光定量聚合酶链反应和免疫组化检测23例RCC肿瘤组织和癌旁组织ASS1mRNA和ASS1蛋白质的表达差异,利用酶联免疫吸附试验检测癌组织与癌旁正常组织瓜氨酸水平,结果发现肿瘤组织中ASS1表达量降低,瓜氨酸水平升高。这与本研究的结论相仿。DIO1是薯、蓣、菝葜、七叶一枝花等多种中药的活性成分,具有降血脂、祛痰、免疫调节、消炎等作用[15]。近年来研究发现,DIO具有明显的抗肿瘤作用,可以抑制乳腺癌、肺癌和黑色素瘤等多种肿瘤细胞生长。张广献[16]研究发现DIO可有效促进肾786-0细胞的缝隙连接,并且具有明显的剂量效应关系。SLC6A19和SLC22A6同属于溶质载体蛋白亚家族,是一个较大的氨基酸-多肽-组织定位转运体超家族的组成之一[17]。前者可参与肾、小肠和脑组织中氨基酸的主动再摄取,后者可参与肾消除内源性和外源性有机阴离子过程。有研究表明肾癌中离子转运体膜蛋白表达增高可增强肾癌药物的敏感性[18]。既往研究发现溶质载体蛋白亚家族既可以诱导T细胞和树突状细胞浸润,又可以产生血管抑制作用,还可以促进免疫增强蛋白的产生等,为机体创造一个有效的免疫微环境[19]。
近年来,RCC的全身系统治疗发展迅速,特别是免疫治疗为RCC带来了新的治疗选择。目前,转移性RCC患者一线治疗方案主要是靶向治疗、多种免疫药物联合治疗和靶向联合免疫治疗。因此,在临床诊疗过程中,如何为患者选择合适的个性化治疗方案是RCC研究的关键问题[20]。本研究通过免疫细胞GSEA发现RCC组织和正常组织间存在免疫细胞浸润的显著差异,对比正常组织,T细胞、树突状细胞、髓系抑制性细胞、B细胞、自然杀伤细胞、巨噬细胞和肥大细胞在RCC组织中的相对丰度较高,提示免疫细胞在RCC发生发展中发挥着重要作用。既往研究表明,巨噬细胞与肿瘤增殖、侵袭、转移密切相关[21],高水平的巨噬细胞是RCC的核心特征之一,高水平的静息态树突状细胞与RCC的预后呈正相关[22]。同时本研究还分析了5个枢纽基因与免疫细胞的相关性,结果显示SLC22A6的表达与中性粒细胞呈正相关,而DIO1、SLC6A19的表达分别与2型辅助T细胞、活化的CD4+T细胞呈负相关。由此可以推测活化的CD4+T细胞可能通过调控SLC6A19和DIO1在RCC发生发展中发挥着重要作用。然而,本研究缺乏临床试验的验证,拟开展求证性试验进一步验证本研究的结果。
最后,本研究通过WGCNA共表达网络筛选了与RCC相关的5个枢纽基因(ASS1、DIO1、FAM151A、SLC6A19和SLC22A6)并对其进行了初步验证,同时通过免疫浸润分析发现5个枢纽基因与免疫细胞浸润密切相关,为RCC的诊断和免疫治疗提供理论依据。