SP6在骨肉瘤中的表达及预后影响分析*
2021-05-25赵劲民
孙 超,海 娜,赵劲民Δ
(广西医科大学 1.再生医学研究中心重点实验室;2.第一临床医学院创伤手外科,南宁 530021)
关键字 骨肉瘤;数据挖掘;SP6;预后
骨肉瘤是最常见的原发性骨癌,在儿童和青少年中的发病率为4.4%[1]。在20 世纪70 年代之前,绝大多数骨肉瘤仅通过简单的手术切除来治疗,5年生存率为10%至20%[2-3]。近代多学科多方式治疗(新式辅助化疗、改良手术和传统辅助化疗)已将5年生存率提高至约70%[3-4]。然而,在过去40年中,尽管更多的患者在临床试验内、外接受了联合化疗治疗,但临床上的生存率相较过去几乎没有进一步的改善。因此,寻找敏感度和特异性更强的预测性生物标志物及生物治疗靶点具有重要的临床意义。SP6属于包含3个经典锌指脱氧核糖核酸结合结构域的转录因子家族(SP/XKLF Family),又被称为KLF-14 或Epiprofin[5]。基因定位于人染色体17q21.3-q22。目前研究发现SP6在核质中通过调节RNA 聚合酶Ⅱ启动子的转录及一系列下游通路来促进细胞增殖[6]。本文通过挖掘公共数据库数据,分析SP6 在骨肉瘤疾病中的表达情况,研究SP6 在临床病理学的特征及与骨肉瘤预后的关系,旨在寻找敏感度更高的早期指标及探究其成为新的临床治疗靶点的可能性。
1 材料与方法
1.1 数据资料收集(1)人类蛋白质数据库(HPA,https://www.proteinatlas.org/,2021年1月27日)中以“SP6”作为关键词检索,在“Cell”的选项卡中提取其蛋白质定位信息;(2)GEPIA 数据库(https://www.proteinatlas.org/,2021 年1 月27 日)中对SP6 在各类肿瘤正常组织和癌症组织中的表达进行分析;(3)在GEO 数据库(https://www.ncbi.nlm.nih.gov/gds/,2021 年1 月27 日)中检索“Osteosarcoma”,以“Series”和“Expression profiling by array”作为项目选择条件,从检索得到的数据集中挑选出一个样本含量大于50,且具有完整随访时间的数据芯片,并下载相关的GSE和GPL数据,最后挑选出满足条件的一个数据集GSE21257含完整临床信息资料的骨肉瘤样本47例,平台注释文件GPL10295。
1.2 数据筛选和处理 用R 软件(版本3.6.3,https://www.r-project.org/)对GSE21257 进行基因名称注释,注释文件采用GPL10295;对于基因名重复的,用R 的“limma”包求取平均值,得到一个基因芯片表达量的矩阵文件,然后用“normalizeBetweenArrays”函数对组间进行标准化校正,并提取SP6的表达量。
1.3 SP6 基因在骨肉瘤中的生存情况及评估 利用R 的“survival”包绘制SP6 在骨肉瘤中生存曲线,以SP6表达量的中位数作为高表达组(n=23)和低表达组(n=24)的分界值,高、低表达组的差异显著性用log-rank 检验分析。受试者工作特征曲线(ROC曲线)具有识别SP6在骨肉瘤中的诊断价值的能力,利用R 的“survivalROC”包绘制出SP6 在骨肉瘤1年、3年和5年中的ROC曲线。
1.4 SP6 和临床性状与骨肉瘤的预后相关性分析 用R 的“survival”包对SP6 和临床特征信息进行单因素Cox和多因素Cox分析,挑选出P<0.05的作为独立预后的指标,这些指标能单独作为预测骨肉瘤患者生存率的因素。SP6通过与这些因素之间的分层对比,可以展示SP6 在不同临床性状之间的差异。
1.5 差异分析 SP6 高表达组的23 个样本与低表达组24个样本之间的差异性通过R的“limma”包分析,结果筛选以P<0.05 和差异倍数对数的绝对值(|logFC|)大于1作为标准;使用R的“pheatmap”包对差异的结果进行聚类分析,直观显示出高、低表组中差异基因表达量的差异情况。
1.6 差异基因的GO 和KEGG 功能富集分析 为更进一步了解SP6 高、低表达组间差异基因的功能情况,利用R 的“org.Hs.eg.db”包对差异基因进行基因名注释,然后用“clusterProfiler”包进行GO(http://www.geneontology.org)和 KEGG(https://www.genome.jp/kegg/pathway.html)代谢途径的功能富集分析,富集过程中,只有同时满足P值和FDR小于0.05才会被纳入富集的结果,最后挑选出前10个进行展示。
1.7 基因集富集分析(GSEA)利用GSEA 软件v4.0.3(http://www.broadinstitute.org/gsea)对SP6高、低表达组进行GSEA功能富集,以预测SP6在骨肉瘤中的机制功能。本研究使用了分子特征数据库(MSigDB,http://www.broadinstitute.org/gsea/msigdb)中免疫相关的两个分子集IMMUNE_RESPONSE.gmt 和IMMUNE_SYSTEM_PROCESS.gmt 进行富集分析,其中IMMUNE_RESPONSE.gmt 里面的基因是用GO:0006955 进行注释的,IMMUNE_SYSTEM_PROCESS.gmt 里面的基因是用GO:0002376 注释的,当FDR<0.05,P值小于0.05,以及标准化富集得分(NES)的FDR低于0.25 时被认为是该基因集存在显著富集。
1.8 统计学方法 采用R 软件(3.6.3)对实验数据进行分析,计数资料以百分率(%)表示,组间比较采用χ²检验;采用Kaplan-Meier法进行绘制生存曲线,生存曲线的比较采用Log-Rank 法,SP6 在1 年、3 年和5 年生存率患者中的诊断价值采用基于时间的ROC 曲线评估;生存资料采用单因素和多因素Cox回归分析;等级资料采用对数秩检验或Wilcoxon秩和检验,以P<0.05为差异有统计学意义。
2 结果
2.1 SP6 在多种肿瘤中的表达及定位 经过GEPIA数据库中的分析显示,多种肿瘤中,SP6的表达在正常组织和肿瘤组织比较,差异有统计学意义(P<0.05),见图1;HPA 数据库中3 种正常细胞系(CACO-2、RT4 和U-2 OS)的免疫荧光图提示SP6蛋白主要定位于核质,其次为中心体和有丝分裂纺锤体,见图2。
2.2 SP6 在骨肉瘤中的生存分析 经过筛选,具有完整临床信息(包括性别、肿瘤分期和转移情况)的骨肉瘤样本有47例,以SP6表达的中位数将样本分为高表达组和低表达组;Kaplan-Meier 法绘制的生存曲线显示,SP6 高表达组的生存率显著低于低表达组,高表达组的中位生存期为2.25 年,低表达组为6.17 年,且Log-Rank 法比较两组生存曲线,差异具有统计学意义(P=0.006),见图3A;1 年、3 年和5年生存率的ROC曲线下面积分别为0.844、0.776和0.746,见图3B。
2.3 SP6 与临床性状联系 单因素Cox 和多因素Cox 回归分析显示SP6 的表达、骨肉瘤临床分期和肿瘤是否转移为3个独立预后因子,见表1。为进一步探讨SP6 与临床性状的相关性,将SP6 的表达在肿瘤分期4个亚组和转移的3个亚组中进行差异分析发现,临床分期与SP6的表达相关性较低,只有1期和2 期比较,差异有统计学意义(P=0.012),见图4A;而在转移的亚组中,发现未转移组的SP6 表达量与转移组和后发转移组比较,差异均有统计学意义(P<0.05),且SP6 在肿瘤转移中表达增高,见图4B。
图1 SP6在各种肿瘤中正常组织和肿瘤组织的表达情况
图2 CACO-2、RT4和U-2 OS细胞系SP6蛋白免疫荧光染色及SP6蛋白主要分布示意图(HPA数据库)
图3 SP6高、低表达组在骨肉瘤中的总体生存率及其1年、3年和5年生存率ROC曲线
表1 SP6和临床特征值在骨肉瘤中的预后情况
图4 SP6在各个亚组中的表达情况
2.4 SP6 高、低表达组差异分析及功能富集 为探索高、低表达组在生物学功能上的差异,筛选出|log-FC|>1 和P<0.05 的差异基因,并进行GO 和KEGG富集分析。最终通过差异分析共找到88 个满足条件的差异基因,GO的富集结果显示,这些基因主要富集于MHCⅡ类抗原的加工和呈递、外源抗原的呈递和细胞对干扰素γ 的反应等生物功能(BP)上,其次富集于MHCⅡ类蛋白复合物、高尔基体相关囊泡膜、网格蛋白包被的内吞囊泡膜和内质网膜腔侧等细胞成分(CC)上,此外还富集到了分子功能(MF),如:MHCⅡ类受体活性、细胞外基质结构成分、肽抗原结合等(图5A);KEGG 通路分析显示,差异基因主要富集在抗原处理及呈递、吞噬体、Th1和Th2细胞分化和类风湿性关节炎等通路上(图5B)。
2.5 GSEA 高、低组差异基因的功能富集为探究SP6 高、低表达组在整体数据集中的富集情况与差异基因的富集结果是否一致,选取两个免疫相关的分子集进行GSEA 分析,结果显示GO富集和KEGG差异分析结果具有一致性,低表达组在IMMUNE_RESPONSE.gmt 和IMMUNE_SYSTEM_PROCESS.gmt的两个分子集中且明显富集,表明SP6 可能通过免疫反应参与骨肉瘤的发展,见图6。
图5 SP6高低组差异基因的功能富集分析
图6 分子集在免疫通路上的GSEA富集情况
3 讨论
骨肉瘤作为骨科常见肿瘤,其造成患者死亡的主要原因是由于其高侵袭性和高转移性[7],其转移机制复杂多样,可由多种原因共同影响,其中癌细胞的增殖能力尤为重要[8]。SP6主要定位于核质,经由调节来自RNA 聚合酶Ⅱ启动子的转录及一系列下游通路,对于细胞的增殖起到重要作用。多项研究表明,SP6 基因在胃癌[9]、乳腺癌[10]及前列腺癌[11]中有高表达,且已作为免疫识别或治疗位点。目前SP6基因尚未见有在骨肉瘤中的报道。本研究通过对网络公开的大量测序数据分析发现SP6基因与骨肉瘤的预后密切相关。提示SP6基因有成为骨肉瘤早期识别和影响判断预后的生物标志物的潜力。
本研究发现,SP6 对骨肉瘤患者的生存率具有明显的影响,高表达组的生存率明显低于低表达组且高表达组的中位生存期为2.25年,显著低于低表达组的6.17年(P=0.006)。ROC曲线则显示SP6的表达量在患者1年、3年和5年生存率上有很高的诊断价值。这说明SP6的表达量与骨肉瘤患者的生存率可能存在负相关。
在独立预后分析中,SP6的表达量、肿瘤分期和肿瘤转移对于骨肉瘤的预后是3 个独立因素,提示SP6 在骨肉瘤的预后分析中有重要的研究意义;在临床亚组和SP6 的相关性分析中,发现SP6 与肿瘤分期相关性低,而在未转移、转移和后发转移的亚组研究中,未转移组中的SP6 表达量在转移组和后发转移组中有明显差异(P<0.05),提示SP6在骨肉瘤的转移中可能起到一定的促进作用。差异基因的功能富集结果显示SP6高低表达组在免疫反应过程中存在显著差异,提示SP6 可能通过参与各类免疫反应来影响骨肉瘤的发展,且GSEA 的结果显示出了与GO 和KEGG 富集结果的一致性,免疫反应通路都显著富集到了SP6 低表达组上,说明SP6 低表组免疫反应强于高表达组(P<0.05)。有研究显示,骨肉瘤细胞控制免疫渗透细胞的招募和分化,建立有利于肿瘤生长和转移的微环境[12],有研究表明,T 细胞在骨肉瘤组织周边浸润的比例明显高于其他肉瘤类型,且浸润程度与患者的生存率呈现出正相关趋势[13]。Mazzocco等[14]证明了野生型SP6小鼠对肿瘤的免疫能力相比起基因修饰后的SP6/B7小鼠降低,Sartoris等[15]也证明经B7-1编辑后的SP6小鼠对肿瘤的免疫力有所增强。而SP6在小鼠的骨肉瘤模型中可以诱导抑制性T 细胞(Ts)的产生[16],从而降低免疫反应的进展,这可能是SP6 高表达组免疫反应低于低表达组的原因之一。因此,SP6 在骨肉瘤的免疫进程中的具有十分重要的意义。
综上所述,SP6 在骨肉瘤的早期识别和预后中显示出明显的诊断意义,但需要更加深入的研究来展现SP6 表达对细胞功能的影响,并揭示其中的分子相互作用方式和信号传导途径,以期寻找到敏感度、特异度更高的早期诊断指标以及新的临床疗效更好的治疗靶点。