多免疫基因预后模型在评估结直肠癌生存和预后中的作用:基于TCGA数据库的研究
2023-02-24邱权威王逸童左芦根刘牧林
郝 博,董 锐,邱权威,王逸童,左芦根,刘牧林
结直肠癌是危害人类健康的第三大恶性肿瘤,其高发病率(每年全球新发病例1 096 601例,占所有癌症的6.1%)和高死亡率(每年全球死亡病例551 269例,占所有癌症的5.8%),是全球公共卫生面临的重大挑战[1]。近年来,对结直肠癌分子机制研究取得了重大的进展,但是由于结直肠癌的高转移率及高复发率,结直肠癌仍然是癌症主要的死因;基于此,亟需找到一种可用于结直肠癌治疗预后的预测工具[2]。先前的大多数相关研究都是基于临床病理特征(如肿瘤大小、肿瘤数量、淋巴结及血管浸润等)和单分子生物标志物[如癌胚抗原(CEA)、糖类抗原(CA199)、CH24和CA242等]构建的预后模型[3-4];尽管如此,仍没有找到一种可靠的指标可准确用于结直肠癌治疗预后的预测。
随着对结直肠癌发生、发展机制研究的深入,发现免疫反应在结直肠癌的恶性进展中起着重要的作用。免疫反应对癌症的产生具有双向作用,正常条件下癌组织作为一种异常的器官可被免疫系统消灭清除;但在某些情况下却可以促进癌变[5-6]。结直肠癌中存在着大量的异质性,在克隆选择的作用下,基因组不稳定性使结直肠癌产生不同的细胞群体[7]。新的细胞群体间具有不同的免疫特性,突变的肿瘤细胞通过躲避免疫系统的攻击获得无限增殖的能力,使肿瘤细胞异质化的分子事件可能促进癌症的发生和发展[8-9]。
近年来,相关研究发现,在乳腺癌、前列腺癌及肝癌等肿瘤中联合多个基因所作的预后模型可显著提高预后预测的准确性;免疫相关基因在结直肠的恶性进展中具有重要作用,然而关于免疫基因所作的预后模型在结直肠癌中尚缺乏相关的研究[10-12]。本研究利用预后相关免疫基因建立预后模型,首次研究了多种免疫基因联合在结直肠癌预后预测中的优势;并分析了结直肠癌中免疫细胞及转录因子及免疫基因的相互作用关系。本研究摒弃了单基因预后预测的敏感性低或灵敏度低的缺陷,有望为结直肠癌的治疗及预后提供一个可靠的指标,并为结直肠癌的免疫反应研究提供了一定的参考。
1 材料与方法
1.1 结直肠癌中差异基因的筛选 从肿瘤基因组图谱数据库(The Cancer Genome Atlas,TCGA)下载结直肠癌基因表达数据集(包含41例正常结直肠组织样本及473例结直肠癌组织样本)和临床病理特征数据,引用R软件“Limma”包对表达数据集进行差异分析,筛选出在结直肠癌中差异表达的基因[13]。
1.2 结直肠癌中差异免疫基因的筛选 从免疫基因数据库(Immunology Database Analysis Portal,ImmPort)下载结直肠癌相关免疫基因(共包含2 498个免疫相关基因),应用Perl软件对差异基因与免疫基因取交集处理,筛选出在结直肠癌中差异表达的免疫基因[14]。
1.3 结直肠癌中预后相关免疫基因的筛选 对TCGA数据库结直肠临床病理数据进行整理,删除数据不完整病例;将病人生存时间(共包含395个生存数据)与差异基因表达数据进行合并;然后引用R软件“survival”包进行生存分析,筛选出结直肠癌预后相关免疫基因。
1.4 结直肠癌中差异转录因子的筛选 通过转录因子(transcription factor,TF)网站(http://www.cistrome.org/),下载肿瘤相关转录因子(共包含318个肿瘤相关转录因子)。将转录因子与差异基因取交集后获得在结直肠癌中差异表达的转录因子[15]。
1.5 构建结直肠癌免疫基因预后模型 对结直肠癌中差异免疫基因进行多因素COX分析,筛选出可作为结直肠癌独立预后风险因子的差异免疫基因;并计算出各风险基因对病人预后的风险系数,根据风险系数构建免疫基因预后模型。构建免疫基因模型风险评分=(CoefficientmRNA1×mRNA1的表达)+(CoefficientmRNA2×mRNA2的表达)+......+(CoefficientmRNAn×表达mRNAn)[16]。
1.6 免疫基因预后模型风险评分对结直肠癌病人预后的验证 根据预后模型风险评分将病人分为高风险组(风险评分>中位风险评分)和低风险组(风险评分<中位风险评分);引用R软件“survival”包对风险评分进行生存分析。然后,引用R软件“survivalROC”包对风险评分的预后价值绘制ROC曲线,根据曲线下面积(AUC)评价预后模型对病人的预后价值。AUC=1,预测效果较好;AUC=[0.85,0.95],预测效果很好;AUC=[0.7,0.85],预测效果一般;AUC=[0.5,0.7],效果较低。
1.7 免疫基因预后模型及病人临床病理特征独立预后分析 将预后模型风险评分及临床病理特征与病人生存时间进行合并;然后对合并数据进行单因素及多因素COX分析,评价预后模型风险评分及各临床病理特征对病人预后的独立风险。单因素COX分析表示风险因子与病人预后具有相关性;多因素独立分析表示风险因子可作为病人预后的独立风险因子。
1.8 免疫基因与转录因子相关性分析 引用R软件对差异转录因子与差异免疫基因进行相关性检验分析,并根据相关性系数R对结果进行筛选。|R|<0.3无相关性;0.3<|R|<0.5具有低度相关性;0.5<|R|<0.8具有中等程度相关;|R|>0.8具有高度相关性。
1.9 预后模型与结直肠癌免疫细胞的相关性分析 通过肿瘤免疫资源网站(https://cistrome.shinyapps.io/timer/,TIMER)下载TCGA数据库中的各结直肠癌病例中免疫细胞的含量;对免疫细胞数据和预后模型数据进行曲交集,筛选出同时具有2组数据的病例;然后引用R软件对免疫细胞含量及预后模型风险评分进行相关性分析。
2 结果
2.1 结直肠癌中差异基因的筛选 以|LogFC|>1,P<0.05的条件筛选,结果发现有6 478个基因在结直肠癌中差异表达(其中1 716个基因表达下调,4 762个基因表达上调)。引用R软件“pheatmap”包对差异基因绘制热图(见图1A)及火山图(见图1B)。
2.2 结直肠癌中差异免疫基因的筛选 从ImmPort下载结直肠癌相关免疫基因(共包含2 498个免疫相关基因),安装Perl软件对免疫基因与结直肠癌中的差异表达基因进行取交集,筛选出在结直肠癌中差异表达的免疫基因(共包含467个差异表达的免疫基因),引用R软件“pheatmap”包对差异表达的免疫基因绘制热图(见图2A)、火山图(见图2B)。
2.3 结直肠癌中预后相关免疫基因的筛选 从TCGA数据库下载结直肠癌的临床病理数据,然后将病人生存时间与结直肠癌中差异表达免疫基因进行合并。引用R软件“survival”包,通过单因素COX分析筛选出预后相关的免疫基因(包含50个预后相关免疫基因,其中11个低风险比基因,39个高风险比基因),对结果绘制森林图(见图3)。风险比(hazard ratio,HR)[HR=暴露组的风险函数h1(t)/非暴露组的风险函数h2(t),t指在相同的时间点上]。
2.4 结直肠癌中差异转录因子的筛选 通过TF网站,下载肿瘤相关转录因子(共包含318个肿瘤相关转录因子)。将肿瘤相关转录因子与结直肠癌差异表达基因取交集,获得在结直肠癌中差异表达的肿瘤相关转录因子(共有68个差异转录因子,其中23个转录因子表达下调,45个转录因子表达上调)。并引用R软件“pheatmap”包绘制热图(见图4A)、火山图(见图4B)。
2.5 结直肠癌免疫基因预后模型构建 引用R软件“survival”包对结直肠癌中差异免疫基因作多因素COX分析,筛选出可作为结直肠癌独立预后风险因子的差异免疫基因(共包含18个差异免疫基因,其中4个基因与预后呈负相关,14个基因与预后呈正相关)及个模型基因的风险系数(risk coefficient)(见表1)。构建免疫基因模型风险评分=(CoefficientmRNA1×mRNA1的表达)+(CoefficientmRNA2×mRNA2的表达)+......+(CoefficientmRNAn×表达mRNAn)。
表1 结直肠癌中预后模型免疫基因的筛选
2.6 免疫基因预后模型风险评分对结直肠癌病人预后的验证 风险评分生存分析见图5A,ROC曲线见图5B。引用“pheatmap”包分析每例病人的风险评分与其生存状态的关系,评价预后模型对评估病人预后的价值;并绘制生存状态图(见图5C)、风险曲线(见图5D)和风险热图(见图5E)。结果显示,高风险组相较于低风险组预后较差(P<0.05);预后模型对评估病人预后性能较好(AUC=0.861);风险评分高的病人总体预后较差,该模型对病人预后显示出较为可靠的价值。
2.7 免疫基因预后模型及病人临床病理特征独立预后分析 将预后模型风险评分及结直肠癌病人临床病理特征进行合并,引用R软件“survival”包对预后模型及病人临床病理特征作单因素(见图6A)及多因素(见图6B)COX分析,分析预后模型及临床病理特征对结直肠癌病人的独立预后作用,并绘制森林图对结果进行可视化。结果显示,免疫基因预后模型、TNM分期及病人及年龄可做为评估病人预后的独立风险因子。
2.8 结直肠癌中转录因子和免疫基因相关性分析 为进一步研究结直肠癌中转录因子和免疫基因的相关性,引用R软件对结直肠癌中的差异转录因子及差异免疫基因作相关性检验。按相关系数|R|>0.4,P<0.001的条件对结果进行筛选,并应用cytoscape软件作转录因子和免疫基因的调控网络图(见图7)进行可视化(线条多少表示相关性强弱,线条越多相关性越强,线条越少相关性越差)。结果显示,SLIT2、INHBA、SEMA3G、PLCG2等免疫基因与转录因子相关性较强;CCL28、CD1B等免疫基因与转录因子相关性较差。LMC2、IKZF1、IRF4等转录因子与免疫基因相关性较强;KLF4、CDK2、EZH2等转录因子与免疫基因相关性较差。由此,我们推测转录因子通过与免疫基因相互作用在结直肠癌中发挥作用。
2.9 预后模型与结直肠癌免疫细胞的相关性分析 通过TIMER下载TCGA数据库中的各结直肠癌病例中免疫细胞的含量;并利用R软件对免疫细胞的含量与预后模型风险进行相关性分析,结果以散点图进行可视化。结果显示,风险评分与B细胞(见图8A)无明显相关性,与CD4-T细胞(见图8B)、CD8-T细胞(见图8C)、树突状细胞(见图8D)、巨噬细胞(见图8E)及中性粒细胞(见图8F)呈正相关,|R|>0.1,P<0.05。结果表明,免疫基因可影响免疫细胞的产生,并协同促进结直肠癌的发生发展。
3 讨论
根据“肿瘤免疫编辑”学说,肿瘤是免疫逃逸的结果[17]。肿瘤细胞是一种不正常的细胞,表现为基因突变和致癌基因的过表达。理论上,免疫细胞可以通过识别这些突变和异常表达的蛋白清除不正常的细胞,从而把肿瘤消灭于萌芽状态,即“免疫监视”作用[18]。但免疫监视作用并不能完全地避免恶性肿瘤的发生,而且肿瘤一旦产生就会随着病情的发展,其恶性程度渐进增加,并最终发生广泛转移。
肿瘤的发生、发展是免疫系统与肿瘤细胞一系列动态复杂的相互作用过程[19]。新生的肿瘤细胞具有较强的抗原性,在非特异性免疫机制(如吞噬细胞、天然杀伤细胞等)和特异性免疫机制(如CD4+T细胞、CD8+T细胞)的作用下,很快被免疫系统识别清除[20-21]。在与免疫系统相互作用的过程中一些肿瘤细胞发生变异并逃过了免疫编辑的“清除”作用而存活下来。在免疫系统的压力下,存活的肿瘤细胞不断的发生突变。随着突变效应的积累,使肿瘤细胞产生一系列恶性表型(如不能表达MHC分子,或不能产生肿瘤肽)而不能被T细胞识别,从而逃脱免疫杀伤[22]。此外,肿瘤细胞可使自身的细胞凋亡信号通路发生改变,从而逃避免疫细胞诱导的肿瘤细胞凋亡;同时,肿瘤会产生一个抑制免疫细胞的微环境,在这个微环境中,肿瘤细胞会释放一些具有免疫抑制功能的分子,如TGF-β、IL-10等,并能诱导产生表达CTLA-4的调节T淋巴细胞,对其他免疫细胞产生抑制作用,导致免疫系统产生对肿瘤的免疫耐受[23- 24]。由此,免疫系统的抗肿瘤机制已全面崩溃,肿瘤细胞的生长完全失控并发生广泛转移。
本研究利用TCGA数据库筛选出了与结直肠癌预后相关的免疫基因,并以此构建免疫基因预后模型。这些基因可通过不同的途径调节免疫细胞的功能,及诱导肿瘤发生发展的免疫微环境产生。例如,CD1B可将肿瘤细胞中的脂质以抗原的形式呈递给自脂反应性T细胞(HJ1T)并将其激活,激活的HJ1T细胞通过CD8+T细胞在早期和后期直接裂解肿瘤细胞,有效地杀死表达CD1B的肿瘤细胞而在肿瘤免疫中发挥保护作用[25]。成纤维细胞生长因子2(FGF2)对细胞生物学功能具有广泛的调节作用,包括增殖、血管生成、迁移、分化和损伤修复。FGF2在甲型流感中通过miR-194-FGF2信号轴抑制甲型流感病毒引起的肺损伤[26]。CCL28作为一种具有广泛抗菌活性的趋化因子,对革兰阴性菌和革兰阳性菌以及真菌具有广泛的抗菌活性,作为表达CCR10和/或CCR3的细胞(如浆细胞)的化学吸引剂,在黏膜免疫中发挥双重作用[27]。CCL28作为连接先天免疫和适应性免疫的锚定点的作用,对B和T细胞表现出很强的归巢能力,并协调淋巴细胞的转运和功能[28-29]。ILC3是肠屏障保护系统的重要组成部分。肠道ILC3-神经中枢形成一个非常严格调节的组织特异性电路,通过VIP-VIPR2信号通路诱导ILC3依赖的IL-22细胞因子产生以控制炎症性肠道疾病[30]。血管活性肠肽(VIP)在免疫中的作用可以概括为先天性和适应性免疫的调节,包括抗炎作用,调节Th1/Th2平衡,诱导调节性T细胞和产生致耐受性树突状细胞[31-32]。
本研究的免疫基因预后模型在预测结直肠癌预后中表现出一定的优势,基于预后模型建立的风险评分对病人具有可靠的预后评价,高风险组病人的预后相对于低风险组预后较差。预后模型风险评分可作为评估病人预后的独立风险因子,这进一步验证了本研究预后模型。进一步研究发现,转录因子在结直肠癌中也呈现差异表达,并且与免疫基因之间具有相互调控关系;免疫基因预后模型风险评分与CD4-T细胞、CD8-T细胞等免疫细胞具有相关性。由此,推测转录因子通过调节免疫细胞的差异表达影响免疫细胞的产生,促进肿瘤细胞的产生及远处转移而调节结直肠癌病人的预后。
本研究集中研究了结直肠癌中不断变化的免疫基因的预后作用,避免了单个免疫基因的局限。尽管对结直肠癌免疫基因、转录因子及免疫细胞作了详尽细致的分析,并且结果具有潜在的实质性临床意义,但是仍存在几个问题。首先,结直肠癌的发生发展是一个多步骤、多程序、多种基因的过程;在构建预后模型时,仅有18个免疫基因用于模型构建,一些重要的差异免疫基因被排除在外,最终降低了模型的性能。其次,需要在结直肠癌中验证转录因子、免疫基因的表达及免疫细胞的含量,并进行细胞功能试验及机制研究以揭示转录因子、免疫基因及免疫细胞在调控结直肠癌发生、发展中复杂的机制。