基于生物信息学筛选胃癌预后生物标志物
2023-03-15黄子林刘可舒
黄子林,刘可舒,陈 雄
武汉大学中南医院耳鼻咽喉头颈外科(武汉 430071)
胃癌是全球第五大最常见的癌症和第三大最常见的癌症死亡原因,每年新发病例超100万例[1]。胃癌发生过程涉及多种遗传和表观遗传改变,如致癌基因的激活、抑癌基因的失活、细胞黏附分子和DNA错配修复基因的突变等[2-3]。常见的生物标志物如癌胚抗原和癌抗原19-9,可能有助于胃癌的诊断,但其早期诊断效果不佳[4]。由于缺乏可靠的生物标志物用于胃癌早期诊断或筛查高危人群[6-7],胃癌患者早期发现率低,预后普遍较差,5年生存率低于20%[5],因此寻找可靠的诊断和预后标志物至关重要[8]。癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库是一个公共基因组学数据源,包括测序数据和临床样本信息,为用户提供实验和策划的基因表达信息[9]。本研究使用TCGA数据库中胃癌公开样本进行生物信息学分析,筛选出肿瘤患者与健康人群之间差异表达的基因[10],并对胃癌患者的差异基因进行系统性分析,以预测新的胃癌诊断和预后标志物,旨在改善胃癌诊疗现状,为患者预后提供治疗依据。
1 资料与方法
1.1 TCGA数据库分析
本研究收集TCGA数据库中胃癌患者临床资料(包含病理分级、临床分期、治疗、生存时间等)和测序数据中mRNA的表达数据,通过TCGA数据库在线工具筛选差异表达基因。本研究严格遵守TCGA发布的发表指导规范(https://portal.gdc.cancer.gov)。
1.2 LinkedOmics数据库分析
LinkedOmics(http://www.linkedomics.org)是一个基于web的分析TCGA癌症相关多维数据集的平台[11-12]。本研究使用LinkedOmics的LinkFinder模块研究TCGA胃癌队列中与COL1A1、COMP相关的差异表达基因。LinkFinder模块可提供多种属性的查询,不仅可为单个基因绘制统计图,也能查看基因组改变产生的mRNA或蛋白表征、临床属性的候选生物标志物以及转录因子,并且分析结果可以可视化呈现。所有结果都以火山图、热图的形式呈现。LinkedOmics的链接解释器模块对差异表达基因进行通路和网络分析。
1.3 蛋白相互作用网络分析
通过在线数据库STRING进行蛋白-蛋白相互作用(protein-proteion interaction,PPI)网络和功能分析,筛选胃癌表达差异的关键基因对应的具有相互作用的蛋白质(相互作用分数为0.9)。蛋白相互作用结果进一步在cytoscape软件中通过插件Cytohubba采用MCC算法。最后网络边缘的不同颜色展示了应用的生物信息学方法:共表达、网站预测、路径、物理交互和共定位。不同颜色的网络节点主要显示富集基因的生物学功能。
1.4 统计学方法
本研究利用 SPSS 22.0软件、R 3.3.5软件和 Perl 5.22 软件对数据进行处理。使用 R 软件 Survplot 函数包采用 Kaplan-Meier法绘制生存曲线,并进行log-rank 检验分析胃癌患者COL1A1、COMP表达水平与生存期的关系。TCGA筛选获得的差异基因通过Bioconductor 软件的limma工具包(LogFC≥2)对基因表达数据进行差异表达分析,LinkFinder结果采用Pearson相关系数进行统计学分析,统计检验P<0.05为差异有统计学意义。
2 结果
2.1 GO分析和KEGG富集分析差异基因
TCGA数据集分析发现胃癌差异基因有COL1A1(Collagen Type I Alpha 1 Chain)、COMP(Cartilage Oligomeric Matrix Protein)、CCNE1(Cyclin E1)、SPP1(Secreted Phosphoprotein 1) 等, 且该分析差异基因集的分子功能主要富集在蛋白结合、金属内肽酶活性、胞外细胞因子活动等方面;在生物学过程方面主要富集在损伤回复、细胞黏附、蛋白水解作用、调节细胞增殖等方面;在细胞成分方面主要富集在细胞外区、细胞外间隙、细胞表面、内质网腔高尔基腔等(图1)。
图1 胃癌中差异基因的 GO 和 KEGG 分析Figure 1. GO and KEGG analysis of differential genes in gastric cancer
2.2 蛋白相互作用网络分析
为进一步了解上述差异基因在人体内的影响机制,本研究通过STRING数据库构建了队形功能蛋白质-蛋白质相互作用,结果提示其中有5个互作网络的核心基因节点:COL1A1、COMP、CCNE1、SPP1、LAMC2,以及相互作用前20的差异基因,见图2。
图2 胃癌中差异基因蛋白互作网络图Figure 2. The protein-protein interaction network of differential genes in gastric cancer
2.3 Kaplan-Meier生存分析研究结果
Kaplan-Meier生存分析发现上述5个核心节点基因对于胃癌患者总生存期 ( overall survival,OS)存在一定的影响。COL1A1(HR=1.48,logrankP< 0.001)和COMP(HR=1.54,log-rankP<0.001)表达水平对患者OS影响较大,COL1A高表达组(第50个月,30.2% vs. 43.5%,P<0.05)、COMP高表达组(22.7% vs. 40.6%,P< 0.05)的胃癌患者5年中位生存时间均显著低于低表达组,而CCNE1低表达的胃癌患者生存概率显著高于低表达组(第50个月,36.8% vs. 26.4%,P<0.05),但是远期预后价值不具有差异性,其余两组核心基因LAMC2(HR=0.9,log-rankP=0.200)、SPP1(HR=1.1,log-rankP=0.270)的表达差异与胃癌患者的总体生存预后价值相关性未见统计学意义(图3)。
图3 胃癌基因mRNA水平的预后价值Figure 3. The prognostic value of mRNA levels of gastric cancer
2.4 COL1A1和COMP表达与胃癌患者分期的关系
在胃腺癌(STAD)中,本研究分析了正常组(34例)、I期(18例)、Ⅱ期(123例)、Ⅲ期(169例)和Ⅳ期(41例)共385例样本的COL1A1和COMP基因的表达情况。与正常组患者相比,I~Ⅳ期胃癌患者COL1A1基因表达水平增高;Ⅱ~Ⅳ期胃癌患者COMP基因表达水平亦显著增高,见图4。
图4 COL1A1, COMP在不同分期胃癌与正常个体中的相对表达的箱线图Figure 4. Box-plot of relative expression of COL1A1 and COMP in different stage gastric cancer or normal individuals
2.5 火山图和热图分析胃癌中COL1A1和COMP相关的基因
通过LinkedOmics的功能模块分析发现,与COL1A1正相关的基因在COLs家族的部分基因包含有SPARC、BGN、CD245、THY1等,说明与COL1A1正相关的上述基因主要富集在细胞黏附、蛋白分泌和调节细胞增殖等方面。此外,与COMP正相关的基因:SFRP4、ITGBL4、FNDC1(0<P<1)主要调节细胞分化和细胞聚集等方面,并且能够作用于多种信号通路的上游。而与COL1A1和COMP基因负相关的富集基因(AP1AR、PPA2、AFTPH等)能够负性调节肿瘤细胞增殖(-1<P<0),见图5。
图5 胃癌中基因差异表达与COL1A1、COMP的相关性(LinkedOmics)Figure 5. Correlation between differential expression of gene and COL1A1, COMP in gastric cancer(Linkedomics)
3 讨论
本研究发现COL1A1、COMP、CCNE1、SPP1、LAMC2五个基因与胃癌发生相关,通过生存分析并结合临床患者癌症分期进一步筛选出COL1A1、COMP与胃癌发生密切相关,LinkedOmics功能模块分析也显示了COL1A1、COMP对转录组有广泛影响,有望作为胃癌诊断和预后预测的潜在标志物。
目前与胃癌预后相关的诊疗标志物主要集中于DNA甲基化、长链非编码RNA、PD-1/PD-L1、循环癌细胞等方面。而胃肠肿瘤的发生与转移与细胞的局部黏附和突变紧密相关,因此与细胞增殖、细胞黏附及肿瘤细胞分化相关的COL1A1和COMP是较为合适的基因标志物。胶原是细胞外基质的重要组成部分,I型、Ⅱ型和Ⅲ型胶原的比例最高。作为I型胶原家族的成员,COL1A1与肿瘤细胞增殖和侵袭的关系已在许多癌症中被报道,如乳腺癌和肾癌[13-14]。COL1A1表达可促进乳腺癌转移,是一种新的乳腺癌预后生物标志物和潜在的治疗靶点[15-16]。在本研究中,组织中均为高表达,在 PPI 交互网络中COL1A1和COMP均处于中心位置,且显著富集到胞外基质受体和黏着斑信号等通路。国外已有研究表明,COL1A1在乳腺癌和肺癌中高表达,COL1A1的敲除缺失可以影响多种基因表达,其机制可能是通过改变肿瘤微环境来降低肿瘤的迁移能力和增殖能力,从而抑制肿瘤细胞浸润生长及向别处转移[17-18]。此外,在间皮瘤中,COL1A1的突变与中性粒细胞、CD4+ T细胞和树突状细胞浸润具有明显的相关性;同时,COL1A1的表达水平与肿瘤浸润纯度、CD4+ T细胞、巨噬细胞和中性粒细胞有显著相关性[19]。另一项综合生物信息学分析也发现COL1A1与胃癌的发病机制相关[20]。所以,COL1A1的表达差异可能受胃癌肿瘤免疫微环境调节。
COMP是一种524kda的可溶性五聚糖蛋白[21],在多种细胞及组织中表达,通过与细胞表面的整合素结合发挥生物活性,目前研究表明COMP的异常表达在骨骼疾病、血管生成、乳腺癌及前列腺癌中发挥重要作用[22-23]。肝癌患者血清中COMP水平可用于肝癌发展的无创评估诊断[24]。且COMP在肝癌中诱导依赖CD36的MEK/ERK和PI3K/AKT通路的激活,以及一系列促肿瘤因子的分泌,包 括 EMT makers、MMP-2/9、Slug 和 Twist, 从而促进其促肿瘤作用。在肝癌细胞与活化的造血干细胞之间的动态相互作用中COMP也发挥了重要作用,并且该基因可通过阻断半胱天冬酶-3的活化和诱导IAP家族的生存蛋白(BIRC3,BIRC2,BIRC5和XIAP)来抑制细胞凋亡[25-26]。而关于COMP的免疫组化研究发现在胃癌组织中该基因表达高于正常胃黏膜和癌旁组织,同时胃低分化腺癌组织高于高、中分化胃癌组织以及癌旁组织高于正常胃黏膜组织表达,提示该蛋白可能参与胃癌发生与发展,其作用机制可能与COMP蛋白诱导凋亡抑制因子的表达,抑制细胞的凋亡有关[27-28]。结果提示,COMP蛋白的表达与胃癌的分化程度、淋巴结转移及TNM分期有关,随着胃癌组织分化程度的降低、淋巴结转移及TNM分期的增加,阳性表达率则升高。但细胞的凋亡涉及众多细胞因子的参与,至于COMP蛋白如何在胃癌发生与发展中发挥作用,有待后续的进一步研究。虽然目前尚未明确COL1A1、COMP在胃癌细胞中的确切影响作用, 但根据当前数据库分析以及已发表的文献报道,推测二者可能通过影响胃癌肿瘤细胞的运动和转移促进肿瘤细胞聚集和局部粘附,可能与胃癌的发生发展具有重要关系。
本研究仍存在一定的局限性。首先,近年来越来越多的实验研究从蛋白质表达水平去检测COL1A1和COMP在肿瘤以及癌旁组织中的表达情况,但是其基因下游富集对应着多种细胞代谢通路以及细胞黏附机制,令研究者难以确定其中主要影响胃癌肿瘤细胞发生转移和增殖的重要机制。而且针对上述关键基因的靶向干预研究数据依旧不足,难以确保敲低或者抑制COL1A1和COMP的表达来观察肿瘤细胞系的结果。其次,TCGA数据库中关于胃癌的相关数据缺乏对胃癌患者生活质量数据的关注,可能忽略了胃癌患者患病后因为生活原因导致的死亡或者失访。再次,上述预后相关基因可能受到外界因素的干扰,而TCGA的数据库中也未完全纳入相关数据集案例如吸烟、饮酒、HPV感染状态以及婚姻质量等临床外的数据,因此在统计分析胃癌患者预后相关基因的表达情况时可能不够完善。最后,虽然当前中国地区关于胃癌的治疗预防受到社会的广泛关注,但是相关研究多局限于小规模、局部的抽样调查,缺乏大规模、全人群的时间动态基因数据,将中国国民健康相关的胃癌基因数据研究同欧美地区的同类型研究进行对比的科学性不足。
综上所述,本研究基于生物信息学方法研究发现COL1A1,COMP是对胃癌有预后价值的关键基因。未来可进一步探究胃癌发生发展的潜在分子机制,证实其诊疗价值。