APP下载

基于随机森林算法的宫颈癌淋巴结转移相关基因的生物信息学筛选

2016-07-24范淑英李春晓王婷周春霞钱海利王海娟詹启敏

中国生化药物杂志 2016年4期
关键词:排序宫颈癌测序

范淑英,李春晓,王婷,周春霞,钱海利,王海娟Δ,詹启敏

(1.河北省唐山市开滦总医院 妇产科,河北 唐山 063000;2.国家癌症中心/中国医学科学院北京协和医学院肿瘤医院 分子肿瘤学国家重点实验室,北京 100021)

基于随机森林算法的宫颈癌淋巴结转移相关基因的生物信息学筛选

范淑英1,李春晓2,王婷2,周春霞2,钱海利2,王海娟2Δ,詹启敏2

(1.河北省唐山市开滦总医院 妇产科,河北 唐山 063000;2.国家癌症中心/中国医学科学院北京协和医学院肿瘤医院 分子肿瘤学国家重点实验室,北京 100021)

目的 分析与淋巴结转移最相关的基因集和基因集中的关键节点性基因,为宫颈癌淋巴结转移预测潜在干预靶点。 方法 利用TCGA宫颈癌患者转录组数据集,使用随机森林算法对淋巴结转移最相关基因进行分析和排名,使用STRING和Cytospace对这些相关基因进行互作网络分析,筛选对其他基因具有最广泛相互作用的基因节点,使用DAVID对这些基因在整体上进行功能识别。 结果 获得淋巴结转移相关基因重要性排序(2784个),并获得其中的关键节点基因(前13位分别为EGFR,NOTCH1,RHOA),这些基因均与淋巴结转移显著相关(P<0.05)。与淋巴结转移最相关的基因主要聚集在趋化因子信号通路、MAPK通路、细胞间相互作用、黏着连接、细胞骨架调控、wnt通路等。对这些有意义的宫颈癌转移相关基因集在统计学上进行了验证,获得的关键节点基因如EGFR,NOTCH1,RHOA在临床水平均已发现与宫颈癌淋巴结转移显著相关。结论 随机森林算法是一个有效的方法,采用此方法获得的宫颈癌转移相关的基因集有很大比例与淋巴结转移显著相关。

随机森林算法;宫颈癌; 淋巴结转移; 生物信息学

淋巴结转移是宫颈癌的主要转移途径,淋巴结转移与宫颈癌预后关联密切,淋巴结转移导致总宫颈癌患者生存率下降40%左右[1-3]。但目前对宫颈癌淋巴结转移的分子机制仍不明确。以往的研究在样本量和检测统一性、检测拓展性上大都有一定的不足,尤其是研究结果分散、难于统一和标准化、多集中于个别基因而非系统化的机制研究。TCGA(The Cancer Genome Atlas)是由美国政府发起的癌症和肿瘤基因图谱计划,目前该数据库具有针对来自 34 种癌症的约1万例样本的基因组、转录组、表观组测序及蛋白质芯片检测数据,在保证生物学检测的统一性基础上兼具有完善的临床资料,为采取大规模的数据分析提供了质量可靠的数据来源和平台。随着近些年癌症大数据的迅速扩充,模式识别和机器学习方法得到了越来越广泛的关注,如人工神经网络,线性判别等。其中,随机森林算法(random forests algoritm)是一种数据组合分类和回归算法,其特别适用于对基因数目数千甚至上万的转录组数据进行重要基因变量的筛选,具有优越的分类性能[4]。本研究旨在采用 TCGA 数据库 CSEC(Cervical squamous cell carcinoma and endocervical adenocarcinoma)数据集的转录组测序数据集中304例宫颈癌样本的完整临床资料及转录组测序数据,以随机森林算法对该组数据进行淋巴结转移相关基因的筛选,并利用STRING平台和Cytospace软件对筛选出的基因进行功能网络分析,筛选得到的宫颈癌淋巴结转移相关基因和这些基因中的重要节点将对后续宫颈癌淋巴结转移机制研究以及相关的潜在分子干预药物筛选提供理论指导。

1 资料与方法

1.1 一般资料 提取TCGA-CESC转录组和临床资料数据集。TCGA宫颈癌数据集具有转录组测序样本304例,其中有淋巴结转移N分期结果的共有198例,N0为136例,N1为62例。

1.2 方法 随机森林算法分析:利用随机森林分类器对目前已知的转移相关基因进行针对淋巴结转移的分类重要性排序。基因集为genecards平台取得的目前已知的全部可能与转移相关的基因(n=2784)。随机森林决策树个数ntree=500。分析过程通过R语言编程实现。

信号通路分析:利用DAVID平台对随机森林算法获得的淋巴结转移分类按重要性排序,取基因集的前200位基因进行KEGG pathway分析。

基因互作网络分析:利用STRING 10平台[5]对随机森林算法获得的淋巴结转移分类按重要性排序,取基因集的前200位基因进行基因互作网络构建,利用Cytospace 3.3.0软件[6]对该基因互作网络进行拓扑学特性分析,筛选出连接度最高的基因。

流程图如下:

图1 研究流程图Fig.1 Research flow

1.3 统计学方法 利用SPSS 19.0统计软件,样本差异分析采用Kruskal Wallis 检验,以P<0.05为差异有统计学意义。

2 结果

2.1 宫颈癌淋巴结转移相关基因的筛选 将采用随机森林算法分析获得的2784个可能和转移相关的基因按其在淋巴结转移分级中的重要性排序。对该排序中的前10位基因以N分期为分组变量进行差异分析,结果显示前10位基因中有8个在N分期中转录水平存在显著差异表达。见表1。

表1 随机森林算法分析淋巴结转移相关基因前十位

2.2 宫颈癌淋巴结转移相关基因的功能 将随机森林算法分析排序的前200位基因进行信号通路聚类分析,结果显示这些基因聚集在趋化因子信号通路、MAPK通路、细胞间相互作用、黏着连接、细胞骨架调控、wnt通路等。聚类的前10位信号通路见图2。

图2 KEGG信号通路聚类结果前10组Fig.2 Top 10 of KEGG pathway signal clusters

2.3 宫颈癌淋巴结转移相关的关键功能基因筛选及鉴定 将随机森林算法分析排序的前200位基因进行相互作用网络构建。利用Cytospace对该互作网络进行分析的结果显示,具有最高连接度的前3位基因分别是:EGFR(46)、NOTCH1(33)、RHOA(30),括号内为连接度值(连接度值的高低直接反映出该基因在基因相互作用中的影响范围广泛程度)。连接度值高的基因为基因相互作用网络中的关键节点,见图3。对EGFR、NOTCH1、RHOA 3个基因进行针对淋巴结转移分级的差异分析,结果显示,这3个基因均在淋巴结转移分级中呈现显著差异表达,其中EGFR、NOTCH1与淋巴结转移分级正相关(P=0.027;P=0.001),RHOA与淋巴结转移分级负相关(P=0.01),见图4。与之前生物信息学分析结果一致。

图3 Cytospace基因互作网络图黄色标记为具有最高连接度的前3位基因Fig.3 Interactive regulatory gene network in CytospaceThe three genes in yellow have highest connectivity value

图4 EGFR/NOTCH1/RHOA 3个基因在淋巴结转移分期中的差异表达情况Fig.4 Differential expression of EGFR/NOTCH1/RHOA three genes in lymph node metastasis

3 讨论

寻找可靠的肿瘤转移标志物是肿瘤诊治、治疗、预后判断以及药物研发中的一个重要方向。在同时具有临床转移分期资料和肿瘤全转录组测序数据的较大规模样本量的公信数据集中可能存在少数具有确切肿瘤转移标志能力的基因。本文选用的TCGA即是这样一个具有公信力的权威数据集,具有目前最庞大的宫颈癌多水平测序数据及临床资料,体系平行统一,这就使从这一数据集分析获得的结果具有相当的可靠性。本次分析采用的随机森林算法具有以下优点:可处理多种类型的资料、可以处理大量变量、评估变量的重要性、分类准确度高、过程快速等。采用该方法发现排在前10位的基因在淋巴结转移分级中有8个具有非常显著的差异表达。随后对排序的前200位基因进行相互作用网络构建,获得了具有最高连接度的前3位基因:EGFR、NOTCH1、RHOA。

淋巴结转移相关基因重要性排序得到的基因和经过基因互作网络分析得到的基因在后续的实验验证中将是具有互补作用的。经过互作网络分析筛选出的关键功能基因具有相当广泛的相互作用网络,在细胞的生物学进程中具有关键节点的作用,其可以作为细胞各类表型验证的实验前导向和实验验证指标。在本分析中,经过基因互作网络分析得到的EGFR、NOTCH1、RHOA在宫颈癌转移中的功能已有报道。EGFR已在多种肿瘤组织中证实其表达与肿瘤恶化、浸润转移等过程相关。有研究显示EGFR在宫颈癌组织中高表达与淋巴结转移显著相关[7],此外也有研究表明EGFR高表达联合Beclin1低表达与淋巴结转移显著相关[8]。Notch1现已被证明在调控肿瘤生长、侵袭转移、血管生成等方面具有重要作用[9-11]。有研究表明Notch1过表达与宫颈癌淋巴结转移显著相关[12]。RHOA目前已被大量研究证明与细胞增殖、粘附、凋亡、侵袭转移和细胞极性等表型有关[13-15]。有报道表明在某些类型的肿瘤中RHOA过表达与转移相关[16-21],与本次分析RHOA在淋巴结转移组织中低表达相悖,一方面这可能与RHOA作为GTPase,其活性主要与酶激活有关,另一方面在宫颈癌中还没有针对RHOA表达量与转移关系的确切文献报道,需要进一步通过具体实验证实。

本文采用随机森林算法,根据淋巴结转移相关重要性排序得到的排在前面的基因相对于关键功能基因并不都具有广泛的细胞内互作网络,但这些基因却具有与淋巴结转移更敏感的指示属性,其可以作为产生各类细胞表型的具体机制的验证靶点。在本次分析得到的前10位基因中,少部分已经有比较明确的与肿瘤进展有关的作用,如NOL3(Nucleolar Protein 3)与抗凋亡和血管重构有关,RBBP7参与多种组蛋白去乙酰化复合体和染色质装配复合体,目前已证明与细胞增殖和分化有关,CD44作为一个细胞表面标志物已经被广泛用于肿瘤干细胞筛选,其与肿瘤的多项生物学过程如细胞间相互作用、细胞粘附、转移等表型的调控有关等,其他多数基因在肿瘤发生进展中的功能目前尚不明确,这为今后研究指出了方向。在肿瘤表型形成过程中,需要大量基因形成工作网络完成表型调控,将这些基因与关键节点基因互补使用将大大提高生物学实验验证的效率,这也正是本研究的意义所在。

综上所述,本分析筛选出的“明星基因”,目前已经确认有些与宫颈癌淋巴结转移有关,这些指标将作为后续实验表型验证的基本指标。本分析所筛选出的宫颈癌淋巴结转移相关基因目前多未见与宫颈癌淋巴结转移相关报道,这将是后续实验分析的靶点。同时,本类研究还需要不断追踪大数据库样本和综合利用前沿分析方法以提高分析可靠性和准确性。

[1] Alvarez RD,Potter ME,Soong SJ,et al.Rationale for using pathologic tumor dimensions and nodal status to subclassify surgically treated stage IB cervical cancer patients[J].Gynecol Oncol,1991,43(2):108-112.

[2] Averette HE,Nguyen HN,Donato DM,et al.Radical hysterectomy for invasive cervical cancer.A 25-year prospective experience with the Miami technique[J].Cancer,1993,71(4 Suppl):1422-1437.

[3] Delgado G,Bundy B,Zaino R,et al.Prospective surgical-pathological study of disease-free interval in patients with stage IB squamous cell carcinoma of the cervix:a Gynecologic Oncology Group study[J].Gynecol Oncol,1990,38(3):352-357.

[4] Breiman L.Random forests[J].Machine Learning,2001,4(50):5-32.

[5] Szklarczyk D,Franceschini A,Wyder S,et al.STRING v10:protein-protein interaction networks,integrated over the tree of life[J].Nucleic Acids Res,2015,(Database issue):D447-452.

[6] Shannon P,Markiel A,Ozier O,et al.Cytoscape:a software environment for integrated models of biomolecular interaction networks[J].Genome Res,2003,13(11):2498-2504.

[7] Bumrungthai S,Munjal K,Nandekar S,et al.Epidermal growth factor receptor pathway mutation and expression profiles in cervical squamous cell carcinoma:therapeutic implications[J].J Transl Med, 2015,25(13):244.

[8] Hu YF,Lei X,Zhang HY,et al.Expressions and clinical significance of autophagy-related markers Beclin1,LC3,and EGFR in human cervical squamous cell carcinoma[J].Onco Targets Ther, 2015(8):2243-2249.

[9] Palomero T,Lim WK,Odom DT,et al. NOTCH1 directly regulates cMYC and activates a feedforwardloop transcriptional network promoting leukemic cell growth[J].Proc Natl Acad Sci USA, 2006,103(48):18261-18266.

[10] Kunnumakkara AB,Anand P,Aggarwal BB.Curcumin inhibits proliferation,invasion,angiogenesis and metastasis of different cancers through interaction with multiple cell signaling proteins[J].Cancer Lett,2008,269(2):199-225.

[11] Liu C,Li Z,Bi L,et al.NOTCH1 signaling promotes chemoresistance via regulating ABCC1 expression in prostate cancer stem cells[J].Mol Cell Biochem, 2014,393(1-2):265-270.

[12] Yousif NG,Sadiq AM,Yousif MG,et al.Notch1 ligand signaling pathway activated in cervical cancer:poor prognosis with high-level JAG1/Notch1[J].Arch Gynecol Obstet,2015,292(4):899-904.

[13] Tas PW,Gambaryan S,Roewer N.Volatile anesthetics affect the morphology of rat glioma C6 cells via RhoA,ERK,and Akt activation[J].J Cell Biochem,2007,102(2):368-376.

[14] Struckhoff AP,Rana MK,Worthylake RA.RhoA can lead the way in tumor cell invasion and metastasis[J].Front Biosci (Landmark Ed), 2011(16):1915-1926.

[15] Liu M,Lang N,Chen X,et al.MiR-185 targets RhoA and Cdc42 expression and inhibits the proliferation potential of human colorectal cells[J].Cancer Lett,2011,301(2):151-160.

[16] Fritz G,Just I,Kaina B.Rho GTPases are over-expressed in human tumors[J].Int J Cancer,1999,81(5):682-687.

[17] Fritz G,Brachetti C,Bahlmann F,et al.Rho GTPases in human breast tumours:expression and mutation analyses and correlation with clinical parameters[J].Br J Cancer,2002,87(6):635-644.

[18] Pan Y,Bi F,Liu N,et al.Expression of seven main Rho family members in gastric carcinoma[J].Biochem Biophys Res Commun,2004,315(3):686-691.

[19] Abraham MT,Kuriakose MA,Sacks PG,et al.Motility-related proteins as markers for head and neck squamous cell cancer[J].Laryngoscope,2001,111(7):1285-1289.

[20] Kamai T,Tsujii T,Arai K,et al.Significant association of Rho/ROCK pathway with invasion and metastasis of bladder cancer[J].Clin Cancer Res,2003,9(7):2632-2641.

[21] Kamai T,Yamanishi T,Shirataki H,et al.Overexpression of RhoA,Rac1,and Cdc42 GTPases is associated with progression in testicular cancer[J].Clin Cancer Res,2004,10(14):4799-4805.

(编校:吴茜)

Random Forests algoritm-based bioinformatic screening of functional genes involved in lymph metastasis of cervical cancer

FAN Shu-ying1, LI Chun-xiao2, WANG Ting2, ZHOU Chun-xia2,QIAN Hai-li2, WANG Hai-juan2Δ, ZHAN Qi-min2

(1. Department of Gynecology and Obstetrics, Kailuan General Hospital, Tangshan 063000, China;2. National Cancer Center/State Key Laboratory of Molecular Oncology, Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100021, China)

ObjectiveTo screen the genes most relevant to lymph node metastasis of cervical cancer and identify the genes at the key knots of the regulatory network to provide the potential targets for cervical cancer intervention. MethodsThe transcriptional profiling database of TCGA was used,and random forests algorithm was adopted to rank the genes related to lymph node metastasis extracted from GeneCards database. STRING and Cytospace tolls were used to build the interactive regulatory network and identify the most weighted genes localized in the central of the network. DAVID platform was used to perform a functional annotation for the whole geneset. ResultsWe ranked 2784 genes in respect to their potential contributions to lymph node metastasis of cervical cancer and identified the genes at the key knob. The genes related to cancer metastasis were enriched to cytokines pathway, MAPK pathway,wntpathway, intercellular interaction, adhesive conjunction, cellular skeleton regulation, etc. Some of the identified key genes, like EGFR, NOTCH1, RHOA, etc. have been verified to be closely related cervical cancer metastasis in the basic and clinical research. ConclusionRandom forests algorithm is useful, taking advantages of TCGA database, in enriching the genes playing significant role in cervical cancer metastasis. A majority of the genes in the analyzed geneset were indicated to be significantly correlated with lymph node metastasis.

random forests algoritm; cervical cancer; lymph node metastasis; bioinformatics

科技部“973”项目(2015CB553904);国家自然科学基金 (81372159;81372158)

范淑英,女,本科,副主任医师,研究方向:妇科肿瘤,E-mail:jingtuxingzhe@126.com;王海娟,通信作者,女,博士,副研究员,研究方向:肿瘤生物治疗基础研究,E-mail:hlj-whj@163.com。

R737.33

A

10.3969/j.issn.1005-1678.2016.04.02

猜你喜欢

排序宫颈癌测序
硫利达嗪抗宫颈癌的潜在作用机制
中老年女性的宫颈癌预防
作者简介
宫颈癌护理及心理护理在宫颈癌治疗中的作用及应用
预防宫颈癌,筛查怎么做
外显子组测序助力产前诊断胎儿骨骼发育不良
恐怖排序
中草药DNA条形码高通量基因测序一体机验收会在京召开
基因测序技术研究进展
节日排序