基于生物信息学方法的胰腺癌组织趋化因子CCL2相关差异基因表达及其预后价值
2022-06-30周锐余运霖焦鑫余枭高文哲张先林
周锐 余运霖 焦鑫 余枭 高文哲 张先林
1三峡大学附属仁和医院普外科,宜昌 443001;2中南大学湘雅三医院肝胆胰外科,长沙 410000
【提要】 通过TCGA数据库中CCL2基因表达谱,对其差异表达基因(DEGs)做相关性分析,然后与临床生存信息结合,经过建模验证后获得预后相关DEGs,进而探讨DEGs部分基因的作用及对胰腺癌患者生存的影响。结果表明,CCL2相关性基因 在胰腺癌中扮演重要角色,其低表达与胰腺癌患者的预后成正相关。
趋化因子是一类由细胞分泌的小细胞因子或信号蛋白,具有诱导附近反应细胞定向趋化的能力[1],是主导细胞迁徙的关键调节剂,对恶性肿瘤的发展有极大影响。CCL2是趋化因子CC亚家族中的重要成员,为促进单核细胞及巨噬细胞迁徙的关键因子之一,已经证实,CCL2在多种肿瘤发展进程中发挥作用[2-5],通过抑制细胞凋亡、坏死和自噬等过程提高癌细胞的存活能力[6-8],并在肿瘤微环境中与其受体相互作用,调节单核细胞的趋化性从而导致肿瘤的发展。然而,CCL2在胰腺癌中的作用机制尚不明确。本研究通过生物信息学分析CCL2及其相关差异表达基因,探讨它们在胰腺癌组织中的表达及其与患者预后的相关性。
一、材料与方法
1.数据集的选择:从肿瘤基因组图谱(The Cancer Genome Atlas,TCGA,)数据库下载178例胰腺癌患者的基因表达谱,从TCGA数据库的连接网站UCSC XENA下载178例胰腺癌患者对应的完整临床数据。
2.基因表达差异分析及相关性分析:根据CCL2基因表达量中位数,将178例患者分为高、低表达两组,以logFC=1且P<0.05为标准,采用R/Bioconductor软件的limma包对比筛选差异表达基因(differentially expressed genes,DEGs)。采用R软件的corplot包对TCGA样本与CCL2基因进行相关性分析,得到各个基因的相关系数,以相关系数的绝对值0.15为界限,选取相关基因与DEGs的交集,得到相关DEGs。根据178例患者的中位生存时间和生存状态,采用R软件的ezcox包进行批量COX回归分析,以P<0.05为差异有统计学意义,筛选与预后相关的DEGs。
3.预后相关DEGs功能富集分析:使用R/Bioconductor软件的clusterprofiler包对预后相关DEGs进行功能富集分析,包括基因本体(gene ontology,GO)分析和京都基因与基因组百科全书(Kyoto Encyclopedia of Gene and Genomes,KEGG)通路富集分析,其中GO包括细胞成分、分子功能和生物学过程3个部分。
4.风险预测模型的建立与评估:采用R软件的glmnet包,用Lasso方法筛选变量,建立Cox回归模型,并计算基因的相关回归系数,获得预后相关DEGs模型。然后二次建模,根据回归系数加权建立胰腺癌预后风险评估公式,绘制生存曲线和受试者工作特征曲线(receiver operating characteristic, ROC),计算曲线下面积(area under the curve, AUC),并将预测模型可视化为列线图。
5.统计学处理:采用R软件(3.6.0版本)进行统计学分析。应用Wilcoxon秩和检验分析CCL2关键相关基因在胰腺癌组织中的差异表达,计量资料采用t检验,计数资料采用χ2检验。基因间的相关性采用Spearman相关分析,0.1≤|r|≤1.0时定义为存在相关;生存曲线采用Kaplan-Meier法和Log-rank检验。P<0.05为差异有统计学意义。
二、结果
1.CCL2相关差异表达基因及功能和通路富集分析:通过差异分析及相关性分析,得到上调基因60个,下调基因304个,相关DEGs 223个(图1A)。结合患者中位生存时间和生存状态,进行多基因的COX回归分析,得到与患者预后相关的DEGs 20个。GO功能富集分析和KEGG通路富集分析发现,20个DEGs主要富集对IL-1、TNF的应答和G蛋白偶联受体结合位点上以及干细胞黏附分子、趋化因子信号通路上(图1B、1C)。
图1 胰腺癌CCL2相关差异表达基因的火山图(1A)及胰腺癌CCL2相关差异表达基因功能富集图(1B)和通路富集图(1C)
2.预后相关DEGs风险模型及验证:Lasso Cox回归分析筛选得到12个基因,分别为VTCN1、RXRG、HSD11B1、RELN、LCN6、MUC15、C1S、CLDN10、TRARG1、CCL18、SLC7A10、ZNF831,其中VTCN1、HSD11B1、C1S为高风险基因;Kaplan-Meier单变量分析结果显示,高风险基因与患者生存期短有关。根据回归系数得到患者的风险评分,并将患者分为高、低风险组,Kaplan-Meier法进行生存分析结果显示,两组患者生存期差异有统计学意义(P<0.05),高风险组患者生存期明显缩短(图2A)。预测模型的ROC曲线见图2A,AUC值为0.716,表明该模型可预测胰腺癌患者的预后(图2B)。将预测模型可视化为生存预测列线图(图2C)。
图2 胰腺癌高、低风险组患者的生存曲线(2A)及生存预测的ROC曲线(2B)和列线图(2C)
讨论胰腺癌恶性程度高,预后差,了解其肿瘤免疫微环境,对疾病的干预和预后的判断具有重要意义。有证据表明,高CCL2水平与更具侵袭性的恶性肿瘤、更高的转移概率和更广泛的癌症预后相关[9]。CCL2在聚集肿瘤相关巨噬细胞中发挥作用,促使胰腺癌细胞重新改变其代谢途径耐以生存,并使得胰腺癌细胞能够在缺氧的条件下增殖[10-12]。本研究通过GO功能和KEGG通路富集分析发现,CCL2相关因子除了作用于常规趋化因子通路外,还聚集干细胞黏附、IL-1的免疫反应和G蛋白受体的结合,可能与肿瘤的浸润、远处转移、逃离细胞免疫监视等方面有关。根据CCL2相关性因子及Lasso Cox回归分析筛选的12个建模基因中,ZNF831被报道富集于CD4+T细胞浸润[13],进而可能参与调控胰腺癌CD4+T细胞的基因表达;SLC7A10属于溶质载体家族,其过表达降低了ROS生成并增加了线粒体呼吸的能力,促使脂肪细胞肥大,促进肥胖和胰岛素抵抗,进而引起血糖的变化,使得胰腺癌的风险增加[14];而同样,作为趋化因子家族的CCL18也能促使肿瘤的转移[15];RXRG高表达会引起血脂的异常风险增加,而血脂和血糖的变化与胰腺癌有着密切关系[16]。CCL2由于能够激活丝裂原活化蛋白激酶(MAPK)信号通路,阻碍T细胞增殖,伴随着持续的免疫抑制,通过促进髓源性抑制细胞(M-MDSCs)的免疫抑制能力,从而促使肿瘤生长和增殖[17]。血浆CCL2水平的升高是大肠癌复发的预测生物标志物[18]。趋化因子CCL2的表观遗传沉默抑制巨噬细胞浸润以促进肿瘤的发展[19]。本研究结果显示,相比低风险组患者,高风险患者生存期明显缩短(P<0.05);ROC曲线示该模型可以预测胰腺癌患者的预后。该模型基于各类基因的总体表达量,更符合当今的系统治疗理念。
同时,本研究也存在一些缺陷。首先,本研究是通过生物信息学构建的预后预测模型,无外部的实验数据验证,临床实际应用价值有限。其次,由于TCGA的样本数量局限性,不能完整地阐述CCL2作用机制引起相关基因的差异性表达。最后,需要更多的病例数量独立队列研究来验证。
利益冲突所有作者声明无利益冲突