APP下载

肺鳞癌潜在关键基因的生物信息学分析

2018-11-28游路宽

解放军医学院学报 2018年10期
关键词:鳞癌细胞周期编码

游路宽,郑 轩,胡 毅

解放军总医院 肿瘤内科,北京 100853

肺癌是最常见的恶性肿瘤之一。根据中国国家癌症中心统计,2015年我国大约有733 300例新发肺癌患者;同年,约有610 200例肺癌患者死亡,其发病率和死亡率均居恶性肿瘤之首[1]。非小细胞肺癌占所有肺癌病例数80%左右,包括鳞癌(squamous cell lung cancer,SCLC)、腺癌和大细胞肺癌等病理类型,其中约30%为肺鳞癌[2]。近年来,针对驱动基因突变的分子靶向治疗在肺腺癌方面表现不俗,而在肺鳞癌方面却一直没有突破性进展。目前已有研究表明,许多抑癌基因和致癌基因的功能失调及其产物结构异常参与了肺鳞癌发生发展的过程[3-4],但确切机制尚不明确。因此,进一步探索肺鳞癌发生的病因学因素、分子机制和途径对于优化诊断和治疗的意义重大。基因芯片是一种高通量获取生物信息的技术,能高效检测并分析肿瘤组织和癌旁组织的差异表达基因。本研究拟通过分析基因表达数据库(gene expression omnibus,GEO)提供的肺鳞癌相关基因芯片数据,筛选差异表达基因,并对这些基因进行关键基因和信号通路等生物信息学分析,为进一步在分子水平研究肺鳞癌发生发展机制和其临床靶向治疗研究提供理论依据。

材料和方法

1 数据集 于2018年6月3日通过GEO(https://www.ncbi.nlm.nih.gov/geo)数据库下载肺鳞癌基因芯片数据。每个数据集均需符合以下条件:1)数据集来自全基因组RNA表达芯片;2)实验使用人类肺鳞癌组织与正常组织对照。

2 方法 在R语言(https://www.r-project.org)中,对肺鳞癌基因芯片原始数据的探针进行注释和过滤后,使用Bioconductor(http://www.bioconductor.org)提供的RMA(Robust Multi-array Average)算法对各原始芯片数据进行背景校正及归一化等预处理。采用Limma(Linear Models for Microarray Data)程序包对肿瘤组织和正常组织样本的基因表达值进行比对识别差异表达基因(differentially expressed genes,DEGs)。选取调整后的P<0.05且表达倍数变化值的对数值(log2fold change,log2FC)绝对值>1为阈值,获得各数据集的差异表达基因。采用韦恩图取交集的方法获取各数据集共有差异表达基因。利用DAVID6.8(https://david.ncifcrf.gov)对共有差异表达基因进行基因本体论(gene ontology,GO)和信号通路(kyoto encyclopedia of genes and genomes,KEGG)富 集 分 析。 利 用STRING10.5(https://string-db.org)对共有差异表达基因编码蛋白的相互作用进行网络分析。利用Cytoscape_v3.6.1软件插件MCODE(Molecular Complex Detection)和Cytohubba分别寻找蛋白相互作用网络中与肺鳞癌发生发展相关的核心模块和关键基因,并分析核心模块相关的生物学功能及关键基因表达与肺鳞癌患者生存的关系。

结 果

1 基因芯片数据集汇总 通过GEO数据库查询肺鳞癌相关研究并筛选抽提样本,共纳入2套基因芯片数据集(表1)。

2 差异表达基因分析 2套基因芯片集GSE30219、GSE3268分别筛选出差异表达基因2 467个和802个,其中表达上调基因分别为1 082个和327个,表达下调基因分别为1 385个和475个。为了减少差异表达基因筛选结果的假阳性率,我们使用韦恩图取交集的方法,确定两芯片集共同的差异表达基因628个,其中表达上调基因263个,表达下调基因365个,这些基因被用作后续分析(图1)。

图1 GSE30219和GSE3268数据集差异表达基因分析结果(上)及韦恩图法取共同差异表达基因(下)Fig.1 Result of DEGs in GSE30219 and GSE3268 Datasets and Venn diagram for DEGs

3 共有差异表达基因的GO和KEGG pathway富集分析 基因本体论(Gene Ontology)包括分子功能、生物过程和细胞组成三部分。GO和KEGG pathway分析,均利用超几何分布关系将差异表达基因富集在某些基因功能和信号通路上,进而推测肿瘤的发生发展可能与这些基因功能或信号通路的改变有关。使用DAVID对628个共有差异表达基因中的263个表达上调基因和365个表达下调基因分别进行GO和KEGG pathway分析。表达上调的差异基因:功能主要富集在表皮发育、细胞分裂及DNA复制等,通路主要富集在细胞周期、细胞外基质受体相互作用及p53信号通路等。表达下调的差异基因:功能主要富集在白细胞迁移、细胞黏附和信号传导等,通路主要富集在补体和凝血级联反应、细胞黏附及吞噬等(表2、表3)。4 编码蛋白相互作用网络构建及分析 为分析共有差异表达基因之间相互关系,利用STRING10.5(https://string-db.org)在线工具对628个差异表达基因进行编码蛋白相互作用网络关系(protein-protein interaction network,PPI)构建,设置最低要求的相互作用分数为0.9,得到了由621个节点、927条连线构成的相互作用关系图。为了寻找该编码蛋白相互作用网络中与肺鳞癌发生发展相关的核心模块和关键基因并初步探索其生物学功能,采用Cytoscape_v3.6.1软件插件MCODE对该蛋白相互作用网络进行分析,得到了由19个共表达基因构成的核心模块,除MLF1IP基因外,其余18个基因均为上调的差异表达基因(图2)。对该核心模块进行GO和KEGG分析,发现其参与的重要生物学过程主要是细胞分裂、蛋白质泛素化分解代谢、姐妹染色单体结合与分离、G2/M期有丝分裂细胞周期转变等过程,参与的主要信号通路有细胞周期和P53信号通路等(图3)。最后利用Cytoscape_v3.6.1软件插件cytohubba,采用MCC(Maximal Clique Centrality)算法得到MAD2L1、CCNB1、DLGAP5、CDC20、TOP2A、MELK、BUB1B、CCNA2、CDK1、CCNB2这10个在差异表达基因编码蛋白相互作用网络中的关键节点基因。碰巧的是,这10个关键基因均为肺鳞癌组织中上调的差异表达基因。除TOP2A基因外,其余9个关键基因同时存在于前面分析的核心模块中。最后为初步探索这10个关键基因的表达与肺鳞癌患者预后的关系,我们采用癌症基因组图谱(the cancer genome atlas,TCGA)中肺鳞癌样本数据对10个关键基因进行了生存分析,发现这10个关键基因的表达情况与肺鳞癌患者的预后显著相关(P<0.000 1),表达越高预后越差(图4)。

表1 纳入的2套肺鳞癌基因芯片基本信息Tab. 1 Basic information for two sets of SCLC microarray

表2 共有差异表达基因的GO分析Tab. 2 Gene ontology analysis of differentially expressed genes

表3 共有差异表达基因的KEGG pathway分析Tab. 3 KEGG pathway analysis of differentially expressed genes

讨 论

近年来,得益于PD1/PD-L1免疫治疗及其他化疗药物及方案的应用,肺鳞癌的治疗取得了诸多进展,然而在靶向治疗方面仍亟待突破。因此,对肺鳞癌分子病因学机制的深入了解非常必要。本研究对GEO中肺鳞癌相关芯片数据集进行分析,发现了肺鳞癌组织和正常组织的差异表达基因。对差异表达基因进行功能和通路富集分析,同时筛选出了与肺鳞癌发生发展及预后密切相关基因模块和关键基因,为后续研究肺鳞癌治疗提供了潜在标靶。

我们对差异表达基因进行GO分析发现,在生物学过程方面,上调的差异表达基因主要集中在细胞分裂,而下调的差异表达基因主要集中在细胞黏附和白细胞迁移。显然,几乎所有肿瘤的最基本特征是细胞的失控性生长,而细胞与细胞之间黏附功能的丧失又是肿瘤获得侵袭性、转移表型的重要步骤[5]。在分子功能方面,上调的差异表达基因主要集中在蛋白结合、细胞之间钙黏素结合、细胞骨架结构成分等,而下调的差异表达基因主要集中在整合素结合、离子通道结合等。钙黏素是一种跨膜糖蛋白家族,主要参与同源细胞间的连接,其表达失调是癌症发生过程中上皮-间质转变(epithelial-mesenchymal transition,EMT)的重要标志。当发生EMT时,上皮肿瘤细胞向间充质样细胞过渡,失去细胞间E-钙黏蛋白的表达,并且获得N-钙黏蛋白和α-平滑肌肌动蛋白的表达,使肿瘤细胞迁移并进入血流[6]。整合素是细胞黏附分子家族的重要成员之一,包括多种亚型,主要介导细胞与胞外基质的双向信号传导。不少研究表明整合素参与并促进肺癌的肿瘤血管生成和转移,其中整合素αvβ3已成为众多抗肿瘤血管生成药物的靶点[7-8]。在通路富集分析方面,上调的差异表达基因主要集中在细胞周期、DNA复制、p53信号通路、钙黏素相关作用等方面。p53基因是一种肿瘤抑制基因,且在所有人类肿瘤中突变率最高。由p53介导的细胞信号转导通路在细胞正常活动中作用广泛,对阻滞细胞周期、调节细胞凋亡、DNA损伤修复和抑制肿瘤血管生成中均发挥重要作用[9-11]。目前有研究表明p53基因突变可促进肿瘤生成和转移,对治疗的抗性和基因组不稳定[12-13]。而下调的差异表达基因通路主要富集在补体与凝血级联反应,细胞黏附分子、花生四烯酸代谢及PPAR信号通路。已有研究报道过氧化物酶体增殖物激活受体(peroxisome proliferator-activated receptor,PPAR)可能以细胞类型依赖性方式在肺鳞癌上皮间质转化及转移中发挥双向作用[14]。

通过对差异表达基因编码蛋白互作网络构建并挖掘核心模块,我们发现该核心模块的功能主要集中在细胞分裂及细胞周期信号通路方面,从一定程度上反映了肿瘤失控性增长的特性。而筛选的10个关键基因通过TCGA数据库中肺鳞癌样本基因表达和生存数据分析,提示关键基因高表达是肺鳞癌患者预后较差的高风险因素。其中,DLGAP5基因编码的蛋白DLG7,作为一种动力蛋白可稳定染色体附近的微管[15]。目前在许多类型的人类癌症如肝细胞癌、鳞状细胞膀胱癌和移行细胞癌中均检测到DLG7的高表达[16]。Wang等[17]研究发现DLGAP5基因的沉默可引起NSCLC细胞周期停滞并抑制增殖,同时可抑制体外细胞的迁移和侵袭。此外,该基因的高表达也与患者较差的预后相关。MELK基因编码母体胚胎亮氨酸拉链激酶,该酶属于AMPK/snf1蛋白激酶家族的丝氨酸/苏氨酸激酶。研究显示MELK通过磷酸化CDC25B和凋亡信号调节激酶1来促进增殖,并且MELK通过在Ser15位点磷酸化p53来诱导细胞凋亡[18]。目前该基因已作为抗癌药物研究的靶标。但值得注意的是,Cheng等[19]通过实验发现MELK在肺癌A549细胞系中的敲低抑制细胞增殖,却促进了TGF-β存在下的细胞迁移。提示我们在肿瘤微环境中,存在TGF-β在内的许多因子,倘若临床上应用MELK抑制剂可能会促进患者的EMT和转移。TOP2A基因编码DNA拓扑异构酶,该酶在转录过程中控制和改变DNA拓扑状态,影响染色体浓缩与分离,促进肿瘤的发生[20-21]。目前FDA已批准几种靶向TOP2A基因的抗癌剂上市。CDC20编码细胞周期分裂蛋白20,其最主要的功能是激活后期促进复合物APC,启动染色单体分裂并进入后期[22]。MAD2L1基因编码的蛋白是有丝分裂纺锤体装配检查点的一个重要组成部分,可通过隔离CDC20抑制后期促进复合物的活性,确保所有染色体在分裂中期平板上排列对齐。有研究表明通过siRNA降低MAD2L1的表达可减少肿瘤细胞生长并抑制细胞迁移和侵袭[23]。其余的关键基因CDK1、CCNB1、CCNB2、CCNA2及 BUB1B均 编码细胞周期进程中相关重要功能蛋白,影响细胞分裂生长,且有不少研究明确表明它们与肿瘤发生发展关系密切[24-27]。

图2 编码蛋白相互作用网络图(上)和MCODE插件确认的网络核心模块图(下)Fig.2 Protein-protein interaction network for products of DEGs and subnetwork screened by MCODE plug-inNotes: Each dot represents a protein, and the interaction between the proteins is indicated by a line. The more protein links,the more important the position in the network is

图3 编码蛋白相互作用网络核心模块基因的GO分析(上)和KEGG pathway分析(下)Fig.3 GO and KEGG pathway analysis of DEGs in the subnetwork of PPI network

本研究筛选出的差异基因和代谢通路可以帮助我们更深入地理解肺鳞癌潜在分子发生发展机制,同时为临床治疗的研究提供一定的理论依据,其靶向治疗价值和意义有待后续研究证实。

猜你喜欢

鳞癌细胞周期编码
恶性胸膜间皮瘤、肺鳞癌重复癌一例
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
Genome and healthcare
头颈部鳞癌靶向治疗的研究进展
NSCLC survivin表达特点及其与细胞周期的关系研究
熊果酸对肺癌细胞株A549及SPCA1细胞周期的抑制作用
AMPK激动剂AICAR通过阻滞细胞周期于G0/G1期抑制肺动脉平滑肌细胞增殖
整合素αvβ6和JunB在口腔鳞癌组织中的表达及其临床意义