利用生物信息学分析筛选并验证结肠直肠癌的差异表达基因
2022-12-27蒋崚覃芳郑军
蒋 崚 覃 芳 郑 军
(三峡大学 第一临床医学院[宜昌市中心人民医院] 普外科, 湖北 宜昌 443003)
结直肠癌(colorectal cancer, CRC)是全球第三大常见肿瘤,其预后与早期诊断及治疗有关,早期诊断时5年生存率为90%,远处转移发生率低于10%[1-2]。CRC发病机制较为复杂,通过识别生物标志物对CRC的发生发展过程及发病机制研究具有指引作用,对早期诊断具有十分重要的意义。同时,根据CRC相关的预后标志物,选择“个性化”治疗策略具有十分广阔的前景。
基因芯片可用于快速检测样品中所有基因的表达信息,尤其是差异基因(differentially expressed genes, DEGs)表达筛选。随着基因芯片的广泛使用,已经有大量的核心芯片数据存储在NCBI-GEO(NCBI-Gene Expression Omnibus)的公共数据库中[3]。然而,由于独立研究中的组织或样品差异性,结果总是有限或不一致,或者结果仅来自单个队列研究。通过结合表达谱分析技术的整合生物信息学方法可以解决这些问题。
本研究拟从数据库NCBI-GEO下载原始微阵列数据集,运用生物信息学方法筛选与CRC相关的关键基因,并进行荧光定量聚合酶链式反应(quantitative polymerase chain reaction, qPCR)验证,以期为CRC的早期诊断和治疗提供更准确、实用和可靠的生物标志物。
1 材料和方法
1.1 材料
Trizol裂解液购自于美国Invitrogen公司。反转录试剂盒“PrimeScriptTMRT reagent Kit (Perfect Real Time)”和SYBR®Green购自宝日医生物技术(北京)有限公司。qPCR引物采用Primer bank(https://pga.mgh.harvard.edu/primerbank/)在线设计生成,并在NCBI-BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)在线验证,引物由生工生物工程(上海)股份有限公司合成。
1.2 方法
1.2.1 微阵列数据信息和差异基因鉴定
从NCBI-GEO (https://www.ncbi.nlm.nih.gov/geo)下载获得数据GSE44076、GSE28000和GSE75970的CRC和癌旁粘膜组织基因表达谱[4-6]。将高通量功能基因组表达的原始数据整合用于分析,CEL格式数据在NCBI网站GEO DataSets中处理。使用R软件分析和读取表达值。用t检验鉴定DEGs,DEGs表达P<0.05和logFC>1作为差异有统计学意义的标准。使用在线网站制作韦恩图(http: //bioinformatics.psb.ugent.be/webtools/Venn/)。
1.2.2 基因功能和途径富集
DEG的功能和途径富集采用在线数据库分析。功能注释生物信息学微阵列分析(functional annotation bioinformatics microarray analysis, DAVID)网站(https://david.ncifcrf.gov)具有基因注释和提供基因生物学意义的功能。基因本体(gene ontology, GO)分析和途径富集分析使用KEGG(http://www. genome.jp/kegg)、Biocarta(http://biocyc.org)和Reactome(http://www.reactome.org)。
1.2.3 蛋白质-蛋白质相互作用网络分析
首先,在线数据库STRING(http://string-db.org)用于开发DEGs编码的蛋白质-蛋白质相互作用网络(protein-protein interaction network,PPI)。 其次,利用Cytoscape软件构建蛋白质相互作用关系网络,分析筛选出的DEGs编码蛋白在CRC中的相互作用关系。 第三,使用Network Analyzer插件计算节点度,即用于过滤PPI关键基因的连接数。中心节点中相应的蛋白质可能是核心蛋白质和具有重要生理调节功能的关键候选基因。
1.2.4 qPCR验证
收集CRC患者癌组织及其癌旁组织共5组(收集于三峡大学第一临床医学院胃肠外科),患者均为首次确诊,术后病理分期均为Ⅲ期,研究方案通过医院医学伦理委员会审查及批准。采用Trizol法提取组织总mRNA,逆转录试剂盒转为cDNA,检测RNA浓度、纯度和完整性后逆转录成cDNA。通过实时荧光定量PCR扩增检测目的基因的表达,反应体系为20 μL。本研究所用引物序列如下:
CXCL1:上游5’-AGGGAATTCACCCCAAGAA C-3’,下游5’-TAACTATGGGGGATGCAGGA-3’;
BUB1:上游5’-AAATGACCCTCTGGATGTTTGG-3’,下游5’-GCATAAACGCCCTAATTTAAGCC-3’;
CCL19:上游5’-CTGCTGGTTCTCTGGACTTC C-3’,下游5’-AGGGATGGGTTTCTGGGTCA-3’;
CDK1:上游5’-AAACTACAGGTCAAGTGGTAGCC-3’,下游5’-TCCTGCATAAGCACATCCTGA-3’;
GAPDH:上游5’-GAAGGTGAAGGTCGGAGT C-3’,下游5’-GAAGATGGTGATGGGATTTC-3’。
荧光定量PCR系统为AppliedBiosystems®7300,以GAPDH为内参,数据采用StepOne Software v 2.3分析。
1.3 统计学处理
qPCR数据采用软件SPSS 22.0进行统计分析,基因表达量采用均数±标准差表示。P<0.05表示差异有统计学意义。
2 结果
2.1 差异性基因筛选
从3个数据集中共下载了8 034个DGEs,见表1。在整合生物信息学分析后,鉴定出总共98个DEGs,韦恩图见图1。CRC组织与癌旁组织相比,共有65个上调基因和33个下调基因。差异性表达最显著的前10个基因见表2。
表1 3个数据集基本信息
表2 结直肠癌差异性表达最显著的前10个基因
图1 3个数据集整合韦恩图
2.2 肿瘤组织中差异基因的GO分析
DEGs的GO分析分为3个功能组:分子功能、生物过程和细胞组分(图2)。在分子功能组中,上调基因主要富集在结合、受体结合、蛋白结合通路,下调基因主要富集在结合蛋白通路。在生物过程组中,上调基因主要富集于单一生物过程、单一生物细胞过程、细胞增殖过程和有丝分裂细胞周期过程;下调基因主要富集在单一生物过程、单一生物细胞过程、有丝分裂细胞周期过程。在细胞成分组中,上调基因主要富集于细胞外空间、细胞外区域通路;下调基因主要富集在细胞组分、膜结合细胞器、细胞器。这些结果表明,大多数DEGs在单个生物体、结合、细胞组分和有丝分裂细胞周期中富集。
图2 肿瘤组织中差异基因的GO分析
2.3 蛋白质-蛋白质相互作用网络的整合
采用STRING做PPI分析,Cytoscape软件筛选关键基因,共选出4个关键基因,如图3蓝色所示,分别为:CXCL1、BUB1、CCL19、CDK1。
图3 蛋白质-蛋白质相互作用网络
2.4 组织样本验证
如图4所示,CRC患者癌组织与癌灶旁2 cm粘膜组织相比,CXCL1,BUB1和CDK1的表达升高,CCL19表达降低,差异均有统计学意义(均P<0.05)。
注:与CRC癌旁2 cm粘膜组织相比,*P<0.05图4 CRC癌组织与癌旁组织中关键基因的表达
3 讨论
近年来,关于CRC分子机制的研究越来越多,深入了解基因调控在CRC发生发展中的作用,需要大数据的综合分析。通过生物信息学对相关基因分析的方法已成为一种基因谱大数据集分析的重要途径。从NCBI-GEO下载获得3个数据集,使用R软件分析和读取表达值,用t检验鉴定筛选出DEGs。本研究通过DEGs的功能和途径富集采用分析,发现大多数DEGs在单个生物体、结合、细胞组分和有丝分裂细胞周期中富集。采用STRING作PPI分析,Cytoscape软件进一步筛选这些关键基因,得到CXCL1、BUB1、CDK1和CCL19共4个关键基因。
CXCL1最初在黑色素瘤中发现,在巨噬细胞、嗜中性粒细胞中也有表达。CXCL1是炎性疾病和感染性疾病的有效趋化因子,通过T淋巴细胞募集到炎症部位,促进肿瘤生长[7]。CXCL1的表达与肿瘤进展密切相关,如肿瘤细胞的生长、增殖、转移和肿瘤血管生成[8]。研究发现[9],CXCL1不仅能从人类恶性肿瘤细胞中释放出来,还可从肿瘤微环境中的树突状细胞中分泌。肿瘤相关的树突状细胞表达高水平的CXCL1,其通过增加肿瘤干细胞样特性来增加肿瘤发生和化疗耐药潜力。此外,肿瘤相关树突细胞衍生的CXCL1也增强肿瘤迁移,并促进上皮-间充质转化。这些研究结果表明,肿瘤相关树突状细胞衍生的CXCL1可能促进CRC的进展。
BUB1基因的过度表达与肿瘤细胞增殖有关[9]。过表达BUB1的转基因小鼠可发生各种自发性肿瘤(CRC、乳腺癌、胃癌、肝癌等),并加速myc诱导的淋巴瘤形成[10]。BUB1在人多种恶性肿瘤中高表达,包括胃癌[9]、CRC[11],并且与不良预后有关。
趋化因子可以吸引并活化细胞到体内特定位置。新近研究发现,其配体CCL19参与人类恶性肿瘤细胞之间的相互作用[12]。CCL19通过与CCR7结合,介导细胞生长、转移等生物学行为[13],还可在肺癌和卵巢癌中调节抗肿瘤反应[14-15]。类似的研究表明,CCL19抑制肿瘤的发生、转移和血管生成,CCL19的表达与CRC患者的预后可能相关[16]。
肿瘤的进展与细胞周期的错误调节和异常细胞信号通路转导密切相关[17]。在细胞周期过程中,DNA被外源和内源因子连续破坏,当检测到DNA损伤时,细胞周期可以通过激活DNA损伤检查点来阻止[18]。DNA损伤检查点的功能是在进入有丝分裂或诱导细胞凋亡之前进行DNA修复,否则受损的遗传物质积累可能导致细胞最终癌变[19]。细胞周期中的主要DNA损伤检查点包括G1/S期、S期和G2/M期检查点,其中G2/M期检查点是最重要的一个DNA修复保护屏障,决定细胞是否进行有丝分裂或凋亡。G2/M期阻滞是细胞进入有丝分裂前, DNA损伤修复最重要的细胞周期保护屏障[20]。CDK1蛋白是核心因子,在细胞周期G2/M期调控网络中发挥关键作用。在许多人类恶性肿瘤组织中检测到CDK1蛋白的表达上调,包括喉癌、食道癌、肺癌、肝细胞癌、CRC、肾癌和卵巢癌,且与恶性肿瘤的预后密切相关[21]。
本研究通过生物信息学的方法筛选出了CRC中的4个关键基因(CXCL1、BUB1、CCL19、CDK1),并在癌组织和癌旁组织样本中通过qPCR进行了验证,发现癌组织中CXCL1、BUB1和CDK1的表达升高,CCL19表达降低,4个关键基因RNA水平表达变化趋势与生物信息学分析一致。但这些基因在 CRC中的功能及其分子机制有待进一步研究。
综上所述,本研究利用多个队列分析数据集和生物信息学分析,发现在CRC组织中存在4个主要关键基因CXCL1、BUB1、CCL19、CDK1。这些候选基因可能是CRC早期诊断的监测指标及治疗靶点。