影响脑胶质瘤患者预后的固有免疫分子筛选与验证
2022-06-15田志贾薇石琼娅毛辉黄纯海黄军
田志,贾薇,石琼娅,毛辉,黄纯海,黄军
1.湘西土家族苗族自治州人民医院神经外科,湖南吉首 416000;2.吉首大学医学院生理研究室,湖南吉首 416000;3.中南大学湘雅医院神经外科,湖南长沙 410008
胶质瘤系神经胶质细胞起源的肿瘤, 属于最常见的原发性颅内肿瘤,美国脑肿瘤注册中心(Central Brain Tumor Registry Of the United States,CBTRUS)统计,中枢神经系统肿瘤的27%是胶质瘤,约占恶性肿瘤的80%,也是人类十大最常见致死性肿瘤之一[1]。我国胶质瘤年发病率为(3~6.4)/10 万,年死亡人数达3 万[2]。 迄今,有关胶质瘤的免疫应答及调控机制尚未被完全阐明,其原因有:①中枢神经系统结构颇为复杂; ②对中枢神经系统免疫的细胞学基础知之甚少; ③外周血循环中的免疫细胞和免疫分子迁入中枢神经系统的途径和机制尚不清楚。 在胶质瘤的免疫机制研究中, 固有免疫因子越来越受到研究人员的重视。 因而该研究选择固有免疫基因作为胶质瘤相关诊断和预后分子筛选的方向。
1 材料与方法
1.1 数据的获取
所有人类固有免疫基因及其表达蛋白的数据分别从两个开放的网站,AmiGO 2.0(http://amigo.geneontology.org/amigo/search/bioentity) 中以“homo innate immune” 为 关 键 词 检 索 和GeneCards(http://www.genecards.org/)中以“innate immune response homo sapiens”为关键词检索分别获取。
从Oncomine(www.oncomine.org)中获取具有代表意义的人脑胶质瘤差显基因。纳入标准:符合以下标准的数据集将纳入研究对象:①P<0.05;②差异倍数绝对值≥2 倍;③差异表达基因中上调表达的top10%。
从癌症基因组图谱TCGA 数据库(https://portal.gdc.com) 获取人脑胶质瘤样本的RNA 测序数据的原始计数和相应的临床信息。 考虑到TCGA 中正常样本较少,从GTEx(Genotype-Tissue Expression)数据库中获取正常组织的mRNA 表达数据及miRNA 表达数据。
从基因表达综合(Gene Expression Omnibus,GEO)数 据 库(https://www.ncbi.nlm.nih.gov/geo/)获 取 芯 片表达谱数据和相应的临床信息作为外部验证数据进一步检验筛选结果。
1.2 方法
利用Venny 2.1 软件工具对获取的人类固有免疫基因及其表达蛋白与获取的人脑胶质瘤差显基因数据进行交互分析得出人脑胶质瘤中差异表达的固有免疫基因。 利用v4.0.3 版R 软件 (R Foundation for Statistical Computing,2020)对TCGA 数据集中的全基因组RNA 测序数据和临床信息进行分析,采用logrank 检验和单变量Cox 比例危险回归分析方法,得出TCGA 中基因生存预后显著基因并再次与前述获取的人脑胶质瘤中差异表达的固有免疫基因进行交互分析得出胶质瘤中生存预后显著的差显固有免疫基因。
根据筛选结果中的基因, 对获取的TCGA 数据库中胶质瘤样本按RNA 测序数据分为高表达组和低表达组, 其中相对表达量高于平均值定义为高表达,低于平均值定义为低表达,采用秩和检验检测两组数据, 通过KM 生存分析比较TCGA 数据库中不同表达组之间的生存差异,同时进行timeROC 分析以比较基因的预测准确性和风险评分。 最小绝对收缩和选择算子(LASSO)回归算法进行特征选择,采用10 倍交叉验证, 对于Kaplan-Meier 曲线,P值和具有95%置信区间(CI)的危险比(HR)通过logrank检验和单变量Cox 比例危险回归得出。
按照临床病理检查结果, 将TCGA 数据库中的胶质瘤样本分为胶质母细胞瘤(GBM)组和低级别胶质瘤(LGG)组,从GTEx 数据库中获取的正常组织作为对照组,采用秩和检验中的H 检验方法(Kruskal-Wallis)分析各组之间CD58 的差异表达;将通过KM生存分析比较TCGA 数据库中不同表达组之间的生存差异。 以上所有分析方法和R 软件包均使用v4.0.3 版R 软件(R Foundation for Statistical Computing,2020)执行,P<0.05 为差异有统计学意义。
从NCBI 数据库获得芯片表达谱数据, 按照临床信息中的病理检查结果,将获取的数据中Ⅲ、Ⅳ级胶质瘤样本纳入高级别胶质瘤(HGG)组,将获取的数据中Ⅰ、Ⅱ级胶质瘤样本纳入低级别胶质瘤(LGG)组,正常组织作为对照组,采用秩和检验中的H检验方法(Kruskal-Wallis)分析各组之间CD58 的差异表达,通过Kaplan-Meier 生存曲线分析显示胶质瘤样本中的CD58 表达水平差异与预后生存相关性,以此作为外部验证检验筛选结果。
2 结果
从AmiGO 2.0 检索所得人类固有免疫基因共计1 042 个,从GeneCards 获取人固有免疫应答反应相关基因为2 113 个,从Oncomine 中3 个不同的独立基因数据库:TCGA、Murat brain 和Sun Brain, 获取胶质瘤差显基因中具有上调意义的前10%分别为1 262 个、1 957 个和1 957 个。
从AmiGo 和GeneCards 获取固有免疫应答反应相关基因分别为1 042 个和2 113 个, 通过Venny 2.1 工具作出韦恩图交互, 其中共有150 个基因重叠,两者合并后为2 855 个,见图1A。
通过Venny 2.1 工具作出韦恩图交互,2 855 个固有免疫应答反应相关基因与TCGA、Murat brain、Sun brain3 个数据库的基因数据比对分析, 发现了在这3 个不同胶质瘤基因数控库中均有显著差异上调表达的固有免疫基因有62 个,见表1、图1B。
通过对TCGA 中人脑胶质瘤的全基因组数据分析, 得出了人脑胶质中基因单因素Cox 分析生存预后最显著的前20 个基因和预后特征的P值、风险系数HR 以及置信区间,见图2。
通过Venny 2.1 工具作出韦恩图交互, 显著差异上调表达的固有免疫基因与TCGA 中基因生存预后显著基因比对分析, 发现了3 个胶质瘤中生存预后显著的差显固有免疫基因CD58、IGFBP2、PTX3,见图1C、图2。
通过筛选, 与生存预后显著相关的差显基因有3 个:CD58、IGFBP2、PTX3, 该研究选择其中风险系数最高的CD58 做进一步生物信息学分析。
该研究从TCGA 数据库中获取了663 个患者胶质瘤的RNA 测序数据(第3 级)的原始计数和相应的临床信息 (见表2)。 通过分析TCGA 数据库中CD58 基因显示胶质瘤样本中的CD58 表达水平越高, 则患者生存时间越短, 差异有统计学意义(P<0.001),见图3A、图3B。 该研究通过分析该基因不同时间的ROC 曲线与AUC, 发现其AUC 值均高于0.7,见图3C。
通过整合GTEx 数据库中的正常组织的数据和TCGA 肿瘤组织的数据分析CD58 在不同级别胶质瘤和非瘤组织中的表达差异, 可见肿瘤级别越高,CD58 表达越明显, 数据库中GBM 的表达均显著高于LGG 和对照组,差异有统计学意义(P<0.001);同时显示胶质瘤级别越高,则患者生存时间越短,差异有统计学意义(P<0.0001),见图4。
表1 胶质瘤中固有免疫应答反应相关差异表达基因
图2 TCGA 胶质瘤中生存预后最显著的前20 个基因森林图
从NCBI 数据库获得芯片表达谱数据GSE16011,相应数据平台为GPL570,GSE16011 含276 例胶质瘤组织样本和8 例非瘤脑组织样本。 通过分析CD58表达与胶质瘤级别的相关性, 结果数据库中肿瘤级别越高,CD58 表达越明显,数据库中HGG 的表达均显著高于LGG 和对照组, 差异有统计学意义 (P<0.001),见图5。
表2 TCGA 胶质瘤患者临床信息
在独立的胶质瘤数据库(GSE16011)中,共20 例低级别胶质瘤、133 例高级别胶质瘤有完整的存活数据,通过Kaplan-Meier 生存曲线分析显示胶质瘤样本中的CD58 表达水平越高, 则患者生存时间越短,差异有统计学意义(P<0.001),见图6A。 考虑到低级别胶质瘤样本量少, 该研究单独分析了HGG 中D58 表达差异与预后生存相关性, 显示HGG 中的CD58 表达水平越高,则患者生存时间越短,差异有 统计学意义(P<0.001),见图6C。 通过分析该基因不同时间的ROC 曲线与AUC, 发现其AUC 值均高于0.7,见图6B、图6D。
图3 CD58 在胶质瘤中差异表达与生存预后相关情况
图4 CD58 在不同级别胶质瘤组织中及正常组织的差异表达和生存差异情况
图5 CD58 在GSE16011 数据集不同组织中差异表达情况
3 讨论
作为一门新兴的学科, 生物信息学通过分析基因组序列信息等原始数据, 再利用计算机技术对各种各生物信息进行查询、检索及比对后,从而获得基因编码表达及调控、核酸和蛋白质编码区结构功能、各蛋白间相互关系及蛋白质空间结构模拟和预测,并对特定蛋白质的功能进行必要的研究与应用[3]。已经有众多的研究人员利用生物信息学分析方法发现了一些基因或者信号通路与胶质瘤发生发展具有重要相关的成果,Duerr E M 等[4]发现在大约20%的恶性胶质瘤患者中有PTEN 基因的突变发生,Lin B 等[5]发现了多形性胶质母细胞瘤中TGF-β 信号通路及其相关蛋白的激活作用,Zhang J 等[6]发现了miR-221/222 共同调节靶向基因并通过Akt 信号通路从而在胶质瘤中发挥协同调控功能。 通过生物信息学分析方法人们还发现了在胶质瘤细胞增殖中可能发挥作用的一种新的嗜酸激酶[7]。同时研究人员还发现在胶质瘤中抑制miR-34a 功能能够促进其靶向基因PDGFRA 的表达[8]。 随着人类基因组计划的工作完成, 从分子水平观测脑胶质瘤的产生和发展机制成为可能, 运用各种数据分析技术对胶质瘤及其亚型进行预测和诊断, 了解致癌基因和抑癌基因之间相互关系,构建基因和蛋白调控网络,对于加快胶质瘤的广度和深度研究具有重要的价值。
以往认为大脑为免疫豁免器官,这是因为中枢神经系统的免疫相关组织结构十分独特: ①缺少原位DC(dentritic cell,树突状细胞)和淋巴流。 ②具有血脑屏障以维持中枢神经系统内环境稳定。 但研究表明,胶质瘤的发生发展、治疗和预后与患者机体中的免疫功能和免疫相关分子水平密切相关[9],现有的临床试验发现胶质瘤患者通过免疫治疗可以取得包括长期生存和肿瘤消退在内的临床获益, 从而达到延缓肿瘤复发,提高肿瘤的治疗效果[10-17]。 固有免疫相关的效应分子和细胞广泛参与免疫应答的启动、效应和调节过程, 因此固有免疫在机体的免疫防御机制中发挥着十分重要的作用。固有免疫分子CD58又被称为淋巴细胞功能相关抗原-3(Lymphocyte Function associated Antigen-3,LFA-3),其与CD2 的结合可促进TCR-多肽-MHC 三联复合物的形成,从而辅助抗原递呈, 还可以在一定程度上提高TCR/CD3 分子的接触密度, 并在缺乏持续性抗原刺激时能维持机体的免疫功能状态, 同时参与了机体多种细胞因子的产生和免疫细胞的聚集[18]。CD58 与CD2结合为T 细胞激活的旁路系统, 可增殖与活化淋巴细胞,并促进T 细胞分泌IL-2 和B 细胞分泌免疫球蛋白, 这种旁路激活途径不需要巨噬细胞等辅助细胞的参与,具抗原非特异性。最近的研究发现,CD58/CD2 相互作用是完全激活机体CD4+T 介导的体液免疫所必需的因素[19],还有发现T 细胞中CD58 表达的降低与T 细胞介导的IL-2 和TNFα 产生的表达降低密切相关[20]。
图6 CD58 在GSE16011 数据集中差异表达与生存差异情况
基于已有的研究方法和成果, 该研究通过生物信息学的方法筛选出与生存显著相关的基因CD58,通过进一步分析TCGA 数据, 比较CD58 表达在非瘤脑组织与不同级别胶质瘤组织之间的表达差异,在P<0.05 水平,发现了CD58 在非瘤脑组织和不同级别胶质瘤组织中存在不同表达, 在非瘤脑组织中呈低表达,在胶质瘤组织中高表达,并且其表达随着胶质瘤恶性程度的增高而增高, 提取数据样本的生存资料后通过分析发现在胶质瘤样本中的CD58 表达水平越高,患者的生存时间越短,差异有统计学意义(P<0.001)。 并且该研究采用外部数据库GEO 中的GSE16011 数据集作为外部验证数据,分析发现结果与TCGA 数据库分析结果一致,进一步证实了CD58是具有上调意义的胶质瘤差显基因。 并且CD58 在不同时间的AUC 值均高于0.7, 说明该基因预测能力强,CD58 极可能会成为胶质瘤辅助诊断的新型分子标志物和治疗靶点。
综上所述, 该研究发现CD58 可能对人脑胶质瘤的发生、 发展及预后具有重要作用,CD58 可以作为人脑胶质瘤诊断及预后评价的参考指标, 其有可能成为新的脑胶质瘤免疫治疗靶点。 当然该研究仅基于生物信息学研究,尚缺乏临床样本的验证,故该研究拟下一步进行临床标本的相关试验以验证该研究结果。