SOX12与肝细胞癌患者不良预后和免疫浸润的相关性研究
2021-10-19池晴佳刘宇炜
方 萌,池晴佳,赵 晗,郭 敬,刘宇炜*
1江汉大学医学院基础医学部,湖北 武汉 430056;2武汉理工大学理学院力学系,湖北 武汉 430070
肝细胞癌(hepatocellular carcinoma,HCC)是原发性肝癌的主要病理类型,在世界范围内,原发性肝癌是癌症相关死亡的第四大原因,其预后通常较差[1]。在现有的诊疗体系下,目前大多数HCC 患者被诊断时已为晚期阶段。新的诊断和预后生物学标志物的开发和运用,对于提高HCC患者的生存率具有重要意义。
SOX 转录因子家族是人体非常重要的一类转录因子,具有高度保守的高迁移率(high mobility group protein,HMG)序列[2-4],在胚胎发育和细胞分化中发挥重要作用,近年研究显示它还与肿瘤的发生、侵袭转移有关[3,5-6]。据报道,SOX转录因子家族已在各种肿瘤组织中作为肿瘤抑制因子或启动子发挥作用[7]。在临床HCC 患者中,SOX 基因家族成员异常表达,其签名基因与肿瘤等级和肿瘤阶段密切相关。新建立的SOX签名可以在训练、测试和独立验证队列中强有力地预测患者的总体生存[8]。SOX1 降低与HCC 的不良预后和肿瘤进展相关[9]。Guo 等[10]发现HCC 组织中SOX9 蛋白的过度表达对肿瘤的进展和不良预后具有预测价值。SOX12 作为SOX 基因家族的一员,其功能同样复杂,影响各种类型恶性肿瘤疾病的发生发展[11-12]。有报道SOX12 在HCC 中过表达,并通过上调Twist1 促进肿瘤细胞的转移[13]。但尚不清楚HCC 中SOX12 表达的临床病理和预后意义。
HCC的转移与免疫微环境的改变密切相关,深入研究SOX12 与免疫浸润的关系可能帮助改善HCC 预后的预测。然而,目前的研究对SOX12 在HCC 患者的预后价值及其与免疫细胞浸润的相关性尚不清楚。加权基因共表达网络(weighted gene co⁃expression network,WGCNA)和最小绝对收缩和选择算法(least absolute shrinkage and selection oper⁃ator,LASSO)在快速、准确识别这些基因标志物,构建风险预后模型中有着显著的效果[14-15]。本课题组前期研究了肝癌及其他疾病的预后标志物与免疫调节分子机制[16]。本研究拟借助WGCNA与LASSO算法建立HCC风险预后模型,并探究SOX12表达与HCC的免疫浸润和基因突变间的相关性,为判断其预后价值提供借鉴。
1 资料和方法
1.1 资料
肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)数据库(https://tcga⁃data.nci.nih.gov/tcga/)下载患者基因表达谱的3 级数据及临床信息,研究基因表达与生存之间的关系。基因表达(Gene Expression Omnibus,GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)查找肝细胞癌芯片,获取数据集(GSE76427和GSE14520)用于确认和验证TCGA 数据集结果。GEPIA 2(http://gepia2.cancer⁃pku.cn/)和ENCORI(http://starbase.sysu.edu.cn)在线数据库进行单基因的筛选。
1.2 方法
1.2.1 评估免疫细胞浸润水平
使用ESTIMATE 算法确定所有样本的免疫评分,基 于CIBERSORT(http://cibersort.stanford.edu/)的反卷积算法计算训练集和验证集中22 种免疫细胞在每个患者中的浸润比例。使用Wilcoxon 检验评估上述数据集中高低SOX12表达的免疫细胞浸润差异,P<0.05为具有显著的浸润差异。对上述细胞进行后续分析,评估其浸润水平对患者预后的影响。
1.2.2 获取免疫相关基因
利用TCGA数据库中HCC的相关数据获得全基因组。从ImmPort 数据库(https://immport.niaid.nih.gov)中检索免疫相关基因(immune⁃related gene,IRG)数据。通过韦恩图分析全基因组和IRG 之间的重叠免疫相关基因,再用单因素Cox 回归筛选出P<0.05的基因进行进一步分析。
1.2.3 WGCNA的构建
通过测量一定功率和网络连接强度的无标度拓扑拟合指数,保证相应的软阈值功率和无标度网络。对1~30 的阈值功率进行网络拓扑分析,确定WGCNA 的规模独立性和平均连通性,并采用层次聚类功能将表达谱相似的基因聚类成模块。为了进一步确定共表达网络中的功能模块,进行了拓扑重叠测度(TOM):
TOMij表示基因i 和j 的共享相邻基因的重叠。基于TOM 的不相似度法,进一步平均连锁层次聚类,具有相似表达的被归类到相同的基因模块中。
1.2.4 基于LASSO算法的风险预后模型
单变量Cox回归分析用于探索基因对总体生存的影响。如果基因P<0.05,则整合到LASSO 算法中,生成严格等于0 的回归系数,为了数据降维,去除一些权值较低的变量,防止协变量共线性导致的过拟合。计算每个样品的风险评分(RS):
其中N 为基因的个数,Expi为基因表达谱,Ci为LASSO分析确定的回归系数。以Kaplan⁃Meier曲线评估风险评分与总生存率之间的关系。计算受试者工作特征(receiver operating characteristic,ROC)曲线的曲线下面积(area under curve,AUC)。
1.2.5 突变景观分析
在R软件中使用maftools软件包,分析高低风险组和SOX12高低表达对基因突变频率的影响。
1.3 统计学方法
利用R 软件(https://www.r⁃project.org/)进行统计学分析。使用“survival”软件包进行生存分析,评估免疫评分与总生存期之间的关系。取中值作为分界点。使用“pROC”软件包生成与时间相关ROC(the time⁃dependent ROC,tROC)曲线。使用“forest⁃plot”包进行单变量和多变量Cox 回归分析。使用“glmnet”软件包进行LASSO分析。在整个研究过程中,两组独立样本间采用t检验,P<0.05 为差异具有统计学意义。
2 结果
2.1 SOX12表达在HCC中的临床价值
利用TCGA⁃HCC 免疫相关基因和突变基因的交集产生了297 个基因。GEPIA 2(http://gepia.can⁃cer⁃pku.cn/)和ENCORI(http://starbase.sysu.edu.cn/index.php)数据库分析了这些基因的生存和差异表达,筛选出生存和差异同时满足P<0.05 的8 个基因。其中CCR7、VAV1、OX40、PSMD4 已经在文献中进行了大量报道[17-21],OXTR、PMCH 仅用于动物实验研究[22-23],而有关PNOC的信息量较少。因此,最终确定了满足条件的单基因SOX12(图1)。
图1 单基因SOX12的确定Figure 1 Determination of single gene SOX12
通过TCGA数据库基因数据(表1)分析,与相邻正常组织相比,HCC组织中SOX12的表达显著上调(图2A)。根据Kaplan⁃Meier 分析,高SOX12表达的HCC 患者其总生存期较差(P=0.024,图2B)。由tROC 可知,SOX12的表达对患者预后具有较强的预测能力,其1年、3年和5年的AUC分别为0.679、0.636和0.617(图2C)。根据疾病分期和肿瘤分级情况显示,SOX12 的表达在不同分期中具有明显差异(图2D、E、F)。为了确保结果的可靠性,使用GEO数据库(表2)中的GSE76427(n=116)进行了验证(图3)。
图3 GEO⁃LIHC队列中SOX12临床价值分析Figure 3 Analysis of the clinical value of SOX12 in GEO⁃LIHC cohort
表2 GEO数据库临床信息表Table 2 The clinical data in the GEO database(n)
图2 TCGA⁃LIHC队列中SOX12的临床价值分析Figure 2 Analysis of the clinical value of SOX12 in the TCGA⁃LIHC cohort
表1 TCGA数据库临床信息表Table 1 The clinical data in the TCGA database(n)
通过对TCGA和GEO数据进行单因素和多因素Cox回归分析,结果显示,SOX12表达是一个独立的预后生物标志物(图4A),这一显著性差异在GEO数据中也得已验证(图4B)。以上结果表明,SOX12表达水平可能影响HCC的发展,可作为HCC预后不良的独立生物标志物。
2.2 SOX12高低表达的肿瘤免疫微环境
利用CIBERSORT算法观察22种肿瘤免疫细胞在HCC组织中的聚类情况(图5A、6A),在SOX12高表达和低表达组中上述肿瘤免疫细胞比例和亚群分布有显著性差异(图5B~C、6B~C)。此外,在TCGA数据中,静息记忆性CD4+T 细胞、滤泡辅助性T 细胞、调节性T细胞、巨噬细胞M0、巨噬细胞M1、激活的肥大细胞在SOX12 高低表达中具有显著性差异(图5D)。在GEO 数据中,初始B 细胞、静息记忆性CD4+T 细胞、滤泡辅助性T 细胞、巨噬细胞M2 在SOX12 高低表达中具有明显差异(图6D)。通过对TCGA 和GEO 数据集的免疫细胞交集,获取交集的两个免疫细胞:静息记忆性CD4+T 细胞和滤泡辅助性T细胞进行后续分析。
图5 TCGA⁃LIHC队列分析HCC中的免疫浸润情况Figure 5 Immune infiltration of HCC in the TCGA⁃LIHC cohort
图6 GEO⁃LIHC队列分析HCC中的免疫浸润情况Figure 6 Immune infiltration of HCC in the GEO⁃LIHC cohort
2.3 WGCNA确定与免疫标记物有关的模块
通过TCGA和IRG交集获取的1 333个基因,进行单因素分析筛选出P<0.05的基因共1 090个(图7A)。利用WGCNA 分析SOX12 表达与免疫标志物的相关基因,选取静息记忆性CD4+T 细胞的标志物CCR5、CD69、FOXP3 及滤泡辅助性T 细胞的标志物CXCR5、IL21、CD44作为临床性状分析,经过聚类筛选,共鉴定出7个不同的免疫相关基因表达模块(图7C)。在黄色、蓝色、青绿色、棕色、绿色、红色、灰色模块中分别包含66、283、404、106、41、20 和170 个免疫相关基因。将HCC 患者的模块特征基因与免疫标志物进行相关性分析(图7F),发现SOX12表达与青绿色模块显著相关,选取青绿色模块内基因用于预后模型分析。
图7 WGCNA分析Figure 7 WGCNA analysis
2.4 预后模型分析
青绿色模块的404个基因确定为与SOX12生存相关的IRG。经过LASSO 回归分析选定出18 个显著影响患者生存预后的IRG(ACKR1、CALCR、CCR3、CD8A、HMOX1、IL15RA、IL12A、IL18RAP、KLRK1、NOD2、PGF、PLXNC1、RNASE2、S100A9、SLC11A1、SSTR2、SPP1、TNFRSF11B)(图8A、B)。根据风险评分系数,将HCC 患者分为高低风险组(图8C)。由Kaplan⁃Meier 分析显示出高风险组比低风险组的总生存率较差(图8D)。tROC曲线分析表明,风险预后模型具有显著的预后预测效果,其1年、3 年和5 年的AUC 分别为0.823、0.811 和0.824(图8E)。
图8 LASSO分析Figure 8 LASSO analysis
2.5 高低表达和风险组之间不同的突变频率
利用TCGA数据确定SOX12基因表达和IRG的高低风险是否与基因的突变频率相关。结果显示,高SOX12 表达组中TP53 基因突变比例(40%)明显高于低SOX12 表达组(25%)(图9A、B)。这一结果和IRG 高低风险组结果类似(图9C、D)。上述数据表明高低SOX12 表达和基因签名的高低风险分组影响基因突变的频率,说明SOX12可能是HCC的标志基因。
图9 HCC中基因突变的瀑布图Figure 9 Waterfall chart of genetic mutations in HCC
3 讨论
转录因子SOX 基因家族是一类新发现的编码转录因子的超基因家族,先前研究发现SOX12在胚胎发育和细胞特征维持中起着至关重要的作用[24]。越来越多的证据表明,SOX12 基因的突变、缺失或过表达与多种类型恶性肿瘤的形成和发展密切相关[25-26]。研究人员发现SOX12表达有助于维持HCC的肿瘤细胞特性[27],并通过激活HCC 中上皮⁃间质转化过程而引起肿瘤的转移[28]。但SOX12 作为HCC中一个重要的生物标志物,其与HCC患者的生存预后关系尚不清楚。相比先前的研究,本文通过差异表达分析、ROC 曲线分析和生存分析,首次揭示了SOX12 在HCC 中的诊断和预后价值。与相邻的非肿瘤组织相比,HCC组织中的SOX12表达显著上调,并且其高表达与患者的不良生存密切相关,可能成为影响HCC预后的关键标志物。
通过TCGA 数据库基因数据分析,与相邻的正常组织相比,HCC 组织中SOX12 的表达显著上调。根据Kaplan⁃Meier 分析,高SOX12 表达的HCC 患者其总生存期较差(P=0.024)。由tROC 可知,SOX12的表达对患者的预后具有较强的预测能力,其1、3、5 年的AUC 分别为0.679、0.636 和0.617。根据疾病分期和肿瘤分级情况显示,SOX12 的表达在不同分期中具有显著差异。为了确保结果的可靠性,使用GEO 数据GSE76427 进行了验证。对TCGA 和GEO 数据进行单因素和多因素Cox 回归分析显示,SOX12 表达与患者生存预后显著相关。这一结果表明,SOX12 表达可能影响HCC 的发展,可作为HCC 预后不良的独立生物标志物。之前研究结果也证实SOX12 与多种癌症的不良预后显著相关[29],其在肿瘤相关的免疫浸润中起重要作用[30],并且与TNM 分期显著相关[13],本文结果与这些研究报道相一致。基于WGCNA与LASSO 回归分析选定出18 个显著影响患者生存预后的IRG,并获得了相应的风险评分。
尽管临床上使用TNM 分期和分子特征对不同的肿瘤亚型、阶段和临床预后进行分类,但新出现的证据表明免疫环境可能对于肿瘤类型分类和分期以及预测患者生存率非常有用,甚至更为优越[5]。先前已有报道,T细胞存在于HCC的免疫细胞浸润中,T细胞的免疫浸润程度与HCC患者的存活率密切有关[31-32],本研究观察到与文献报道相同的现象。此外本研究还发现SOX12 高低表达与CD4+T 细胞和滤泡辅助性T 细胞的免疫浸润水平具有显著差异,提示SOX12 在免疫微环境中的作用是通过这两类免疫细胞浸润体现的。随后,我们研究了SOX12基因高低表达组和高低风险组的基因突变频率,发现TP53、CTNNB1 等基因突变在高SOX12基因表达组中更常见。据报道称TP53突变体是在癌细胞表达中最常见的蛋白质突变体[33]。值得一提的是,CTNNB1在散发性肿瘤不显示突变,而在可遗传的患者所占比例较高[34],提示某些基因突变与SOX12表达和肿瘤进展相关。这与本研究结果一致,后期将进一步通过实验验证以逐步完善SOX12 表达对HCC 影响的证据。
根据风险评分系数将HCC 患者分为高低风险组,Kaplan⁃Meier 分析显示出高风险组比低风险组的总生存率较差。tROC 曲线分析表明基于SOX12表达的风险预后模型1、3、5 年的AUC 分别为0.823、0.811、0.824,比之前报道的肝癌预后模型表现更好[35-36]。虽然前期研究人员分别构建了4 基因、6 基因肝癌预后模型[37-38],但这两项研究没有定量评估预后模型的生存预测能力。而本预后模型具有很好的预测能力,有望帮助加强肝癌的预后预测能力。
总之,利用WGCNA 与LASSO 回归得到的基于SOX12 表达的风险预后模型具有很好的预后预测能力。此外,SOX12高低表达组中静息记忆性CD4+T 细胞和滤泡辅助性T细胞的免疫浸润水平表现出显著差异,SOX12的高表达不仅会影响HCC患病基因的突变频率,而且与HCC 的不良预后显著相关。本研究提示SOX12 可能成为新型的HCC 预后生物标志物,为HCC后续免疫治疗和靶向治疗的进一步开展提供参考。