APP下载

基于GEO数据库与生物信息学方法分析食管鳞状细胞癌中的核心基因

2021-09-29谢长利李祖茂

胃肠病学和肝病学杂志 2021年9期
关键词:基因芯片细胞周期食管癌

谢长利,李祖茂

1.川北医学院,四川 南充 637000;2.川北医学院附属医院病理科

食管癌是具有较强侵袭性的消化道恶性肿瘤之一,在全球范围内属第八大最常见的癌症,也是第六大最常见的癌症死亡原因[1]。亚洲是食管癌发病率最高的地区,仅中国就占世界食管癌发病率的约一半[2],食管癌是造成我国癌症重负的四大癌症之一[3]。食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)是食管癌的主要组织学亚型之一,是我国食管癌最常见的类型。ESCC的致病机制异常复杂,目前为止其发病机制仍不明确,治疗方式较单一且患者发病率及死亡率高,食管癌患者总体生存状况仍不理想[4]。当前癌症分子靶向治疗尚处于探索阶段,研究ESCC发生机制的调控网络,找寻有效的靶向治疗生物标志物有助于制定ESCC诊断与治疗的新策略。本研究旨在通过运用生物信息学方法分析GEO数据库中ESCC基因芯片数据集,发掘ESCC的核心基因,为探索ESCC的发病机制和潜在治疗靶点提供一定的理论依据。

1 资料与方法

1.1 数据资料检索与收集通过基因表达数据库GEO(https://www.ncbi.nlm.nih.gov/geo)检索ESCC相关基因芯片。纳入标准:(1)种属“Homo sapiens”;(2)同时具备ESCC组织与配对正常食管组织;(3)ESCC组织未经放化疗等处理因素影响;(4)全基因组RNA表达谱。经检索后提取符合纳入标准的ESCC基因芯片:GSE20347[5]、GSE38129[6]、GSE77861[7]、GSE67269[8]。各芯片数据集基本信息如表1所示。

表1 ESCC基因芯片数据集基本信息Tab 1 Basic information of ESCC gene chips

1.2 方法

1.2.1 分析并获取差异表达基因(differentially expressed genes,DEGs):运用GEO数据库附带的交互式网络在线分析工具GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r)对上述4个基因芯片数据进行分析,以P<0.05且|log2FC|≥1为筛选条件,设定logFC≥1为上调表达基因,logFC≤-1为下调表达基因,获取ESCC与配对正常食管组织的DEGs。

1.2.2 获取共同DEGs:利用GraphPad Prism 8软件绘制上述4个基因芯片DEGs火山图,韦恩图(http://bioinformatics.psb.ugent.be/webtools/Venn/)在线分析工具对4个基因数据集DEGs取交集从而获得共同DEGs。

1.2.3 PPI网络分析和核心基因模块构建:将共同DEGs导入STRING(https://string-db.org/)数据库进行蛋白质-蛋白质互作网络(protein-protein interaction,PPI)分析,运用Cytoscape(Version 3.7.2)软件分析PPI网络中的重要节点,构建核心基因模块。

1.2.4 GO富集与KEGG通路分析:通过DAVID(https://david.ncifcrf.gov/)在线数据库对核心基因进行基因本体论(gene onotology,GO)富集注释和京都基因与基因组百科全书(Kyoto encyclopedia of genes and genome,KEGG)通路集成分析。

1.2.5 核心基因表达验证及生存分析:运用GEPIA(http://gepia.cancer-pku.cn/)和Kaplan-Meier Plotter(K-M plotter,http://kmplot.com/analysis/)对核心基因进行表达水平验证和生存分析。

1.2.6 核心基因表达水平验证:(1)实验标本来源:选取2014年1月至2015年12月在川北医学院附属医院进行食管癌根治手术或姑息性切除手术患者的癌组织石蜡块作为实验对象,共纳入212例ESCC组织,随机选取70例食管正常组织(由无肿瘤累及的食管手术切缘正常黏膜组织代替)作为对照组。(2)主要试剂及实验方法:兔抗人CDK1多克隆抗体购自武汉三鹰生物技术有限公司,通用SP试剂盒(SP-9000)购自北京中杉金桥生物技术有限公司。本研究主要采用免疫组织化学(immunohistochemistry,IHC)染色法进行核心基因表达水平验证。所有实验标本组织均经10%中性福尔马林固定并行常规取材、脱水、石蜡包埋,每个组织蜡块切片1张,依次经过脱蜡、水化、高压抗原热修复、内源性过氧化物酶阻断、封闭非特异性抗原、一抗(CDK1,1∶400)及二抗孵育、辣根酶标记链酶卵白素孵育、显色、复染、脱水、透明、封片、显微镜阅片。本实验以人浸润性乳腺癌组织作为阳性对照,以PBS液代替一抗作为空白对照。(3)结果判读:CDK1不同程度表达于细胞核及细胞浆,主要定位于细胞浆。显微镜下随机选取10个高倍视野进行观察并对阳性目标细胞进行判读,免疫组化阳性显色为组织内见淡黄色至棕褐色颗粒状物。镜下示较均一黄色而无细颗粒者视为非特异性染色,不予判读评分。染色强度评分:无染色计0分,淡黄色颗粒计1分,棕黄色颗粒计2分,棕褐色颗粒计3分;细胞阳性率评分:<10%为0分,10%~25%为1分,26%~50%为2分,51%~75%为3分,>75%为4分。染色强度评分与细胞阳性率评分的乘积作为CDK1阳性强度分值,阳性强度<4分判为阴性,≥4分判为阳性。

1.3 统计学分析采用SPSS 21.0软件进行数据统计分析。χ2检验分析食管不同组织的阳性率比较。P<0.05为差异有统计学意义,P<0.01为差异有显著统计学意义。

2 结果

2.1 筛选共同DEGs基于GEO数据库筛选出4个ESCC基因芯片数据集并获取DEGs,分析结果如表2所示。运用GraphPad Prism 8软件绘制各芯片DEGs火山图(见图1),韦恩图在线工具分析示4个基因芯片的共同DEGs有512个,其中508个基因表达趋势相同(上调表达基因有248个,下调表达基因有260个)(见图2)。

表2 DEGs分析结果

2.2 PPI网络分析和核心基因模块构建运用STRING构建DEGs的PPI网络(见图3),将获得的PPI网络数据导入Cytoscape软件并运用MCODE插件(Node Score Cutoff:0.2,K-Core:2)构建ESCC核心基因模块(见图4A),该模块包含46个基因,同时应用cytoHubba插件的MCC算法对核心基因模块进行排名分析(见图4B),筛选出连接度最高的前20名基因共21个(见图4C):ASPM、AURKA、BUB1、BUB1B、CDC6、CDC45、CDK1、CDKN3、CENPF、KIF4A、MAD2L1、NDC80、PBK、RRM2、TOP2A、TPX2、TRIP13、TTK、UBE2C、PRC1、AURKB。

注:红色:上调表达基因;绿色:下调表达基因;灰色:无显著表达差异基因。图1 DEGs火山图Fig 1 Volcano map of DEGs

注:A:所有DEGs;B:上调表达基因;C:下调表达基因。图2 DEGs韦恩图Fig 2 Venn diagrams of DEGs

图3 共同DEGs的PPI网络图

注:A:Cytoscape中MCODE插件构建的核心基因模块;B:Cytoscape中cytoHubba插件对核心基因排名,颜色越深红表示核心基因关联性越强;C:Cytoscape筛选出的前20名核心基因。

2.3 核心基因GO富集分析和KEGG通路分析将核心模块的46个基因导入DAVID在线工具进行GO富集分析和KEGG通路分析,以P<0.05为阈值。GO富集分析主要包括生物学过程(biological process,BP)、细胞组分(cellular component,CC)、分子功能(molecular function,MF)三个方面。如图5所示,核心模块的基因表达产物主要参与细胞分裂、有丝分裂核分裂、DNA复制、有丝分裂细胞周期的G1/S转换等生物学过程;细胞组分方面,主要作为细胞核、核质、中体、细胞质等成分发挥作用;介导的分子功能主要包含调控蛋白质结合、ATP结合、蛋白质丝氨酸/苏氨酸激酶活性等。KEGG通路分析示核心模块基因主要富集在细胞周期、DNA复制、卵母细胞减数分裂、p53等信号通路(见图6)。前20名核心基因GO富集分析和KEGG通路分析如图7所示。

图5 GO富集分析气泡图

图6 KEGG通路分析气泡图

图7 前20名核心基因GO富集分析和KEGG通路分析

2.4 核心基因生存分析K-M Plotter数据库包含81对ESCC和配对正常食管组织,通过该数据库对上述21个核心基因进行总生存期(over survival,OS)生存分析(P<0.05),结果示与预后相关的基因有14个:AURKA、BUB1、BUB1B、CDC6、CDC45、CDK1、CENPF、MAD2L1、PBK、PRC1、TOP2A、TPX2、TTK高表达组OS高于低表达组,CDKN3高表达组OS低于低表达组(见图8)。

图8 ESCC核心基因Kaplan-Meier生存分析

2.5 核心基因表达水平验证利用GEPIA数据库对ESCC预后相关核心基因进行组织表达水平验证(|Log2FC| Cutoff 1且P-value Cutoff 0.01),结果示AURKA、BUB1、BUB1B、CDC6、CDC45、CDK1、CDKN3、CENPF、MAD2L1、PBK、TOP2A、TPX2、TTK在癌组织中高表达,且在食管癌组织及正常食管组织中的表达差异有统计学意义(P<0.05);PRC1虽然在食管癌组织中高表达,但与正常食管组织的表达差异无统计学意义(P<0.05)(见图9)。

2.6 核心基因表达验证为了初步验证生物信息学分析结果,本研究选取CDK1在ESCC石蜡组织标本中进行表达验证。在食管正常组织中,CDK1不表达(见图10A)或少量表达于鳞状上皮基底层细胞(见图10B);在ESCC组织中呈阳性表达(见图10C~10D)。如表3所示,CDK1在70例食管正常组织、212例ESCC组织中的阳性率分别为0(0/70)、96.23%(204/212),差异有显著统计学意义(P<0.01)。可见,CDK1在ESCC中高表达,与前述生物信息学分析结果一致。

注:*P<0.05。图9 ESCC核心基因表达水平验证

注:A:食管正常组织,CDK1无表达,放大200倍;B:食管正常组织,CDK1少量表达,放大400倍;C:ESCC组织,CDK1高表达,放大200倍;D:ESCC组织,CDK1高表达,放大400倍。

表3 CDK1在食管组织中的表达情况

3 讨论

本研究基于GEO数据库筛选并分析了4个ESCC基因芯片数据集,通过一系列生物信息学分析方法筛选出与ESCC关联度最高的21个核心基因。GO注释表明核心基因的表达产物主要作为细胞核、细胞质、核质等细胞组分参与有丝分裂核分裂、细胞分裂、细胞增殖等生物学过程,参与介导蛋白质结合、丝氨酸/苏氨酸激酶活性、蛋白激酶活性等分子功能;KEGG通路分析示核心基因主要富集在细胞周期信号通路,其次是卵母细胞减数分裂、孕激素介导的卵母细胞成熟期等信号通路。由此推断ESCC的核心基因主要在调控ESCC癌细胞的细胞周期中发挥重要作用,从而促进ESCC的发生、进展和转移。细胞周期是一个具有严密组织性且高度受控以确保细胞分裂稳定进行的过程,多种调节信号参与调控细胞周期并维持正常的细胞增殖过程[9]。而肿瘤的发生与进展是一个多因素、多阶段、多基因参与的生物学过程,细胞周期相关调控因子的变异和失调可导致细胞恶性转化,这是肿瘤转化的主要标志之一[10-11]。

经过基因表达水平验证和生存分析,本研究最终发掘出与ESCC预后相关的13个核心基因:AURKA、BUB1、BUB1B、CDC6、CDC45、CDK1、CENPF、MAD2L1、PBK、TOP2A、TPX2、TTK高表达组OS高于低表达组,CDKN3高表达组OS低于低表达组。我们推测AURKA、BUB1、BUB1B、CDC6、CDC45、CDK1、CENPF、MAD2L1、PBK、TOP2A、TPX2、TTK高表达在ESCC的进展中作为保护因子起抑癌作用,而高表达的CDKN3在ESCC中则起着促癌的作用,可能与ESCC的侵袭进展相关。目前研究表明13个核心基因在多种肿瘤中呈过表达或异常扩增,调控肿瘤细胞的增殖和侵袭能力,可能与多种肿瘤预后相关。

AURKA属于aurora激酶家族成员之一,在细胞周期中调控的过程包括调控有丝分裂的起始、中心体的成熟和分离、双极纺锤体的组装以及返回G1期等[12]。AURKA在人体内具有诱导肿瘤发生的作用[13],其过表达与ESCC的分化程度、侵袭能力有关,是ESCC的潜在治疗靶点[14-16]。

纺锤体主轴装配检查点(spindle assembly checkpoint,SAC)在有丝分裂和减数分裂中主要通过延迟细胞分裂进程来维持基因组的稳定性,确保染色体的准确分离。SAC相关基因突变可导致染色体的错误分离和子代细胞的非整倍体形成,其功能障碍是部分癌症发生的独立因素[17]。BUB1、BUB1B、MAD2L1和TTK是SAC的重要核心组件,研究表明它们的功能缺陷将影响SAC的功能,导致细胞非整倍体或肿瘤的发生。BUB1、BUB1B在SAC的信号传导中发挥着重要作用,二者突变将导致有丝分裂过程中染色体分离异常,增加癌症易感性[18-20]。BUB1B上调表达与ESCC的耐药性相关,是克服肿瘤耐药性的潜在化疗增敏靶点[21]。MAD2L1是唯一对S期细胞周期蛋白的翻译调控起作用的蛋白,可与MAD1L1形成稳定的复合物,在细胞周期中确保有丝分裂姐妹染色单体的正确分离[22-23],其与BUB1B在食管癌中协调过表达[24]。TTK的N端片段过表达将导致内源性TTK定位错误、染色体聚集缺陷和纺锤体检查点响应减弱[25]。除了睾丸和胎盘,TTK在正常器官组织中几乎不表达,但在包括ESCC在内的多种恶性肿瘤中过表达,是ESCC潜在的免疫治疗靶点[26]。

CDC6与CDC45均属于细胞分裂周期蛋白CDCs家族。CDC6与起始识别复合物(origin recognition complex,ORC)、CDT1和MCM组成DNA复制前复合物(pre-replicative complex,Pre-RC)参与到DNA复制的起始过程[27]。CDC45在DNA的复制过程中与MCM2-7、GINS组成复制型解旋酶CMG复合物从而解开DNA双链,是CMG解旋酶复合物形成并激活的限制性因子[28-29]。研究发现,下调CDC6和CDC45可抑制ESCC细胞增殖,从而抑制癌细胞周期G1/S期转变[30]。

细胞周期蛋白依赖性激酶(CDKs)通过与细胞周期蛋白结合来调控转录过程,是细胞周期最主要的调控因子。CDK1由CDC2编码表达,是细胞周期的关键驱动蛋白,参与调控DNA的复制与修复、mRNA转录等过程[31]。CDC2/CDK1在食管侵袭性腺癌和转移性腺癌广泛表达,是食管腺癌潜在的治疗靶点[32]。本研究通过免疫组化染色实验初步验证了生物信息学分析结果:CDK1在ESCC组织中呈高表达,与其在食管正常组织中的表达差异具有统计学意义。CDK1在ESCC发生、进展中发挥的具体生物学机制尚需进一步研究。细胞周期蛋白依赖性激酶抑制剂CDKN3是酪氨酸磷酸酶家族中另一类双特异性磷酸酶,其与CDC2和CDK2结合并调节CDKs及相关蛋白的磷酸化状态而在细胞周期中发挥作用[33-34]。在不同类型的癌症中,CDKN3起着抑制或刺激肿瘤细胞增殖的不同作用,其在ESCC中表达上调,研究发现敲除CDKN3可显著降低ESCC癌细胞的增殖、迁移和侵袭,并抑制ESCC细胞的G1/S期转变,CDKN3可能通过调控AKT信号通路来实现其促肿瘤作用[35]。

CENPF是一种位于细胞核基质的多功能蛋白,在有丝分裂中主要调控染色体分离,还参与微管动力、转录调控、肌细胞分化等过程[36],其表达水平具有细胞周期依赖性的特点[37]。CENPF在ESCC染色体1q32中明显扩增并过表达[38],在ESCC中的表达量明显高于相邻的非肿瘤组织[39]。

PDZ结合激酶PBK是一种新型的丝氨酸/苏氨酸激酶,与双特异性丝裂原活化蛋白激酶MAPKK家族相关。PBK在有丝分裂期与微管上的Cyclin D1/CDK1形成复合物,通过PRC1的磷酸化促进细胞分裂[40]。研究发现PBK可能以不依赖TP53突变的方式促进ESCC细胞的侵袭和转移能力[41]。

TOP2A是一种在转录过程中控制和改变DNA拓扑状态的拓扑异构酶,主要在增殖细胞的间期核中被识别。TOP2A在食管癌中过表达[42-43],一项回顾性研究发现TOP2A过表达不仅与细胞分化不良和神经侵犯有关,而且可作为ESCC的独立危险因子[44]。

TPX2是一种微管相关蛋白,在有丝分裂过程中调控纺锤体的组装并维持纺锤体结构稳定性,作为AURKA激酶的激活剂控制细胞有丝分裂进程。TPX2在ESCC中过表达,与ESCC的临床特征和不良预后相关[45-46]。靶向TPX2可抑制肿瘤细胞的增殖并促进肿瘤细胞凋亡,是癌症潜在的靶向治疗指标[47-48]。

综上,本研究从基因水平初步探讨了AURKA、BUB1、BUB1B、CDC6、CDC45、CDK1、CDKN3、CENPF、MAD2L1、PBK、TOP2A、TPX2、TTK作为核心基因在ESCC诊断和预后方面的潜力,浅析其生物学功能,为研究ESCC发病机制和寻找潜在治疗靶点提供了一定的理论基础,但这些基因在ESCC发生、发展中的具体机制和作用尚需通过进一步的分子生物学实验等进行验证。

猜你喜欢

基因芯片细胞周期食管癌
出生时即可预判发育潜力 基因芯片精准筛选肉牛良种
红霉素联合顺铂对A549细胞的细胞周期和凋亡的影响
双管单色荧光PCR法与基因芯片法检测CYP2C19基因多态性的比较研究
NSCLC survivin表达特点及其与细胞周期的关系研究
X线照射剂量率对A549肺癌细胞周期的影响
miRNAs在食管癌中的研究进展
MCM7和P53在食管癌组织中的表达及临床意义
食管癌术后远期大出血介入治疗1例
应用基因芯片技术检测四种结核药物敏感试验的研究
熊果酸对肺癌细胞株A549及SPCA1细胞周期的抑制作用