胰腺癌中CDK1的表达与预后的生物信息学分析
2020-04-15杨万霞潘云燕管沛文尤崇革
杨万霞,潘云燕,李 雪,管沛文,尤崇革
(兰州大学第二医院检验医学中心,中国甘肃 兰州 730030)
近年来,全世界胰腺癌发病率明显上升[1],其预后极差,死亡率极高,症状出现后平均寿命仅为1年左右。美国疾病控制与预防中心(Centers for Disease Control and Prevention,CDC)的最新数据显示:胰腺癌的5年生存率仅为8%,在美国已跃居所有肿瘤致死率第4 位[2],在我国也已高居第6 位[3]。胰腺癌起病隐匿,80%的胰腺癌患者在确诊时已经发现有转移[4],这严重威胁着人们的身心健康。因此,从分子水平探究胰腺癌的早期标志物,做到早期诊断就显得尤为重要。相关研究表明,DNA 修复基因异常在胰腺癌中起着重要作用,90%的胰腺癌可能存在K-ras 基因第12 号密码子的点突变[5~6]; K-ras、p53、SMAD4 基因突变与胰腺癌的不良预后有关[7~8]。周期蛋白依赖性激酶1 (cyclin-dependent kinase 1,CDK1)属于丝氨酸/苏氨酸蛋白激酶家族,在细胞周期中与基因修复密切相关[9],其异常表达与多种肿瘤的发生相关[10~12],但CDK1 与胰腺癌的发生及预后关系尚不清楚。
基因表达谱(gene expression omnibus,GEO)数据库为癌症相关基因表达谱的生物信息学挖掘提供了可能[13]。本研究首先通过生物信息学方法筛选出胰腺癌芯片数据GSE16515 中的差异表达基因(differentially expressed genes,DEGs),并对其进行GO 分析和KEGG 通路富集分析,然后通过构建蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络,筛选出hub 基因并验证,旨在为胰腺癌分子机制的进一步研究提供生物信息学依据。
1 材料和方法
1.1 芯片数据来源
本研究从 GEO (https://www.ncbi.nlm.nih.gov/geo/)数据库下载基因芯片数据集GSE16515,芯片总共包含52 例样本,其中36 例为胰腺癌患者肿瘤组织样本(男性22 人,女性14 人,年龄为49~84);16 例为胰腺癌患者正常组织样本(男性12 人,女性 4 人,年龄为 51~84)。芯片平台是 GPL570[HGU133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array,表达数据为expression profiling by array,种属为Homo sapiens。
1.2 数据处理
用 GEO2R (https://www.ncbi.nlm.nih.gov/geo/geo2r/)[14]在线工具分析胰腺癌样本与正常样本的基因数据。将胰腺癌组织芯片GSE16515 矩阵数据的探针名转化为基因名,对原始数据进行去重等处理后,以|log2FC|>2 且 P<0.01 的标准筛选出DEGs,用R 语言绘制热图。
1.3 DEGs的富集分析
为了解DEGs 的功能,我们用DAVID(the Database for Annotation,Visualization and Integrated Discovery,http://david.abcc.ncifcrf.gov/)[15]在线分析数据库对DEGs 进行GO 分析和KEGG 通路分析,以P<0.05 为差异有统计学意义。
1.4 PPI网络构建和关键基因筛选
通过在线分析网站STRING (Search Tool for the Rtrieval of Interacting Genes,https://string-db.org/)[16]得到DEGs 的蛋白质互作网络,以TSV 格式导出。将所得源文件导入Cytoscape 进行可视化分析,并用插件cytoHubba 进行hub 基因分析,同时采用MCC 算法,选取排名靠前的10 个hub 基因。
1.5 PPI功能模块分析
为进一步明确胰腺癌可能的信号通路,我们在进行PPI 网络构建后,用Cytoscape 软件中的MCODE 插件对PPI 网络进行聚类分析,得到PPI功能模块,然后用DAVID 数据库将功能模块中的基因进行KEGG 通路分析。
1.6 关键基因验证分析
为验证hub 基因的功能,我们利用GEPIA(Gene Expression Profiling Interactive Analysis,http://gepia.cancer-pku.cn/)[17]数据库分析 hub 基因在胰腺癌组织和正常组织中的表达水平,并绘制hub 基因的Kaplan-Meier 生存曲线。
1.7 靶基因在胰腺癌组织及细胞系中的表达分析
为评价hub 基因在胰腺癌组织及细胞系中的表达水平,我们利用CCLE (Cancer Cell Line Encyclopedia,https://portals.broadinstitute.org/ccle/)[18]数据库分析了hub 基因在转录组水平的表达情况。下载数据为mRNA expression (Affy),得到hub基因在不同肿瘤中的表达情况,然后筛选出胰腺癌细胞数据,并根据其表达值绘图,以分析hub基因在胰腺癌不同细胞类型中的表达水平。
2 结果
2.1 胰腺癌患者中肿瘤组织和正常组织的DEGs
通过对基因芯片GSE16515 进行数据分析,总共获得376 个DEGs(胰腺癌组/正常对照组),其中上调基因和下调基因分别为301 个和75 个。差异基因在两组中的表达情况如图1 所示。
2.2 GO和KEGG通路富集分析
图1 差异基因热图分析Fig.1 Heatmap analysis of differential genes
GO 可分为生物过程(biological process,BP)、细胞组分(cellular component,CC)和分子功能(molecular function,MF)。采用 DAVID 对 376 个 DEGs进行GO 和KEGG 通路富集分析。DEGs 生物过程主要涉及信号转导、凋亡过程、细胞增殖、蛋白质水解作用、氧化还原过程、细胞外基质分解、细胞黏附、胶原蛋白分解代谢等。细胞学组成分析显示这些基因大多参与细胞表面、膜锚定、质膜组成、顶端等离子体膜、内质网腔、高尔基腔、胶原蛋白三聚物、细胞外基质、细胞外区、细胞外泌体等的组成。分子功能的变化主要集中在离子结合、氧化还原酶活性、金属内肽酶活性、结构分子活性、胶原蛋白结合、肌动蛋白结合等。KEGG 通路富集分析表明,差异基因主要涉及细胞外基质受体交互通路、蛋白质消化和吸收、PI3K-Akt 信号通路、p53 信号通路、癌症途径、肿瘤的转录调控失调、视黄醇代谢、甘油三酯代谢等(图2)。
2.3 差异表达基因的PPI网络分析
将376 个显著差异基因输入STRING 数据库,然后将所得数据导入Cytoscape 中,利用插件cytoHubba 找出排名靠前的10 个hub 基因,分别为 CDK1、CCNB1、CDC20、TOP2A、PTTG1、BUB1、RRM2、CENPF、DLGAP5、ASPM (图 3A)。其中,节点度最高的CDK1 的PPI 网络图如图3B 所示。
2.4 PPI功能模块分析
用Cytoscape 软件中的MCODE 插件对PPI网络进行聚类分析,得到MCODE 得分排名靠前的两个PPI 功能模块(图4)。通过DAVID 在线分析工具对模块中包含的基因进行KEGG 通路分析,发现其主要涉及细胞周期、p53 信号通路、蛋白质消化吸收、ECM-受体相互作用、PI3K-Akt 信号通路、血小板激活信号通路(表1,表2)。
2.5 关键基因验证
用GEPIA 数据库验证10 个hub 基因在胰腺癌组织(179 例)和正常组织(171 例)中的表达差异,发现10 个hub 基因均在胰腺癌组织中高表达,差异有统计学意义(P<0.05),其中hub 基因中节点度最高的CDK1 的表达水平如图5A 所示。进一步用GEPIA 数据库绘制胰腺癌中hub 基因高表达组和低表达组的Kaplan-Meier 生存曲线,结果显示除了CDC20 和CENPF 高、低表达组的生存期无明显差异外,其余8 个hub 基因高表达的胰腺癌患者的生存期明显低于低表达患者,差异有统计学意义(P<0.05)。CDK1 与胰腺癌患者生存期的关系如图5B 所示。
2.6 CDK1在胰腺癌组织及细胞系中的表达水平
为进一步探究CDK1 在胰腺癌中的表达水平,我们通过CCLE 数据库检索了CDK1 在40 种不同类型恶性肿瘤中的表达情况,结果显示胰腺癌中CDK1 有较高的表达水平(图6A),而且CDK1在胰腺癌不同细胞株中均有较高的表达(图6B)。
3 讨论
胰腺癌早期诊断困难,死亡率较高,从分子生物学水平研究其早期标志物能有效提高胰腺癌的检出率。基因芯片技术和生物信息学分析技术已广泛用于基因的筛查,本研究采用生物信息学方法对GEO 数据库中的胰腺癌基因芯片数据集GSE16515 进行了分析。
图2 胰腺癌中差异表达基因的GO 分析和KEGG 通路富集分析Fig.2 Enrichment analysis of GO and KEGG pathway of DEGs in pancreatic cancer
表1 功能模块A 内基因的KEGG 通路分析Table 1 KEGG pathway analysis of genes in functional module A
表2 功能模块B 内基因的KEGG 通路分析Table 2 KEGG pathway analysis of genes in functional module B
图3 差异基因所编码蛋白质的PPI 分析图和关键基因筛选结果(A) DEGs 的 PPI 网络图; (B) CDK1 的 PPI 网络放大图。Fig.3 PPI analysis of proteins encoded by DEGs and screening of key genes(A) PPI network diagram of DEGs; (B) PPI network amplification diagram of CDK1.
图4 功能模块图(A) MCODE 得分 17; (B) MCODE 得分 9.176。Fig.4 Functional module diagram(A) MCODE score 17; (B) MCODE score 9.176.
图5 胰腺癌中CDK1 的验证结果(A) 胰腺癌中CDK1 的表达(红色表示179 例胰腺癌组织,灰色表示171 例正常组织,*:P<0.05); (B) CDK1 的表达与胰腺癌预后的关系(红线表示高表达组,蓝线表示低表达组)。Fig.5 Validation of CDK1 in pancreatic cancer(A) Expression of CDK1 in pancreatic cancer (red represents 179 pancreatic cancer tissues,and gray represents 171 normal tissues,*:P<0.05); (B)Relationship between CDK1 expression and pancreatic cancer prognosis(the red line represents the high expression group,and the blue line represents the low expression group).
文中共筛选出376 个DEGs,其中上调基因和下调基因分别为301 个和75 个。为进一步了解这些差异基因的功能,我们进行了GO 分析,结果显示胰腺癌相关基因大多富集于胞外区,参与生物体膜的组成,与细胞增殖、凋亡等过程有关,介导的分子功能有离子结合、氧化还原酶活性、金属内肽酶活性、胶原蛋白结合、肌动蛋白结合等。而细胞周期的异常与肿瘤的发生发展密切相关[19],故推测DEGs 可通过细胞周期等过程参与胰腺癌的发生发展。之前的研究指出,细胞周期进程是锚定依赖性的[20],需要细胞外基质受体交互通路整合跨膜受体并形成肌动蛋白相关黏附复合物[21~22]。一项胰腺癌系统分析的研究指出,细胞外基质受体交互通路在胰腺癌的进展中起着重要作用[23]。相关研究报道,作为核转录因子的p53 蛋白可通过激活多种靶基因的表达,诱导细胞DNA 损伤,促进肿瘤细胞凋亡[24~25];PI3K-Akt 通路在肿瘤中起着非常重要的作用[26]。此外,研究表明PI3K/Akt/mTOR 信号通路也参与胰腺癌的进程[27]。与上述报道一致,本文的KEGG 通路富集分析结果表明,差异基因主要涉及细胞外基质受体交互通路、PI3K-Akt 通路、p53 通路等,由此得出,胰腺癌的发生与细胞外基质受体交互通路、PI3K-Akt 通路、p53 通路等密切相关。
图6 CCLE 数据库中CDK1 在不同恶性肿瘤及胰腺癌细胞系中的表达(A) CDK1 在不同恶性肿瘤中的表达; (B) CDK1 在胰腺癌细胞系中的表达。Fig.6 Expression levels of CDK1 in different malignant tumors and pancreatic cancer cell lines in CCLE database(A) Expression of CDK1 in human malignant tumors; (B) Expression of CDK1 in different cell lines of pancreatic cancer.
此外,文中筛选的10 个hub 基因CDK1、CCNB1、CDC20、TOP2A、PTTG1、BUB1、RRM2、CENPF、DLGAP5 和ASPM 均在胰腺癌组织中显著高表达。其中,CDK1、BUB1 和CDC20 在胰腺癌的研究中已有报道[28~29],但是关于这些分子的具体作用机制仍不清楚; 而有关CCNB1、TOP2A 在胰腺癌中的作用机制则已有相对深入的研究[30~31]。本文筛选出来的节点度最高的CDK1 属于丝氨酸/苏氨酸蛋白激酶家族,其高表达与胰腺癌不良预后显著相关。CDK1 与CCNB1 结合形成的异二聚体是真核细胞有丝分裂G2/M 期转换所必需的蛋白激酶,而肿瘤的发生与细胞周期的异常有着密不可分的关系。近期研究表明,在许多肿瘤中CDK1表达活跃,其可作为黑色素瘤[32]、胆管癌[33]及结肠癌[34]等的临床预后标志物。由此推测,CDK1 可能与促进胰腺癌细胞有丝分裂、增殖、侵袭转移有关。
综上所述,我们通过生物信息学分析确定了胰腺癌差异表达的基因,并且由蛋白质互作和CCLE 数据库分析可知,CDK1 在胰腺癌中是一种高表达分子,有望成为胰腺癌早期诊断新的分子标志物和治疗靶标。但本研究的芯片数据为单中心研究,代表性较差。因此,后续还需要进行一系列实验来验证本文的预测结果。