APP下载

利用公共数据库挖掘肿瘤关键基因

2015-12-19郑剑锋

实验与检验医学 2015年6期
关键词:差异基因信息学肝癌

卢 娟,郑剑锋

(1、江西省儿童医院检验科,江西南昌330006;2、南昌大学第二附属医院,江西南昌330006)

利用公共数据库挖掘肿瘤关键基因

卢 娟1,郑剑锋2

(1、江西省儿童医院检验科,江西南昌330006;2、南昌大学第二附属医院,江西南昌330006)

目的利用公共数据库挖掘肝癌发生过程的关键基因,为后续的功能验证奠定基础。方法以肝癌表达谱芯片数据GSE33006为例,采用免费开源的R/BioConductor分析工具,介绍基本分析步骤,对肝癌表达谱数据进行分析。结果芯片数据GSE33006中,差异表达基因有2134个,同一基因在癌组织和癌旁组织具有不同的表达模式,说明该基因与肝癌相关;同一基因在不同的癌组织表达存在差异,说明肝癌存在异质性。结论在公共数据库中挖掘肿瘤关键基因能为研究者提供生物信息学信息,能减少研究范围。

肿瘤数据库;基因表达;R/BioConductor;数据挖掘

单从基因层面看,肿瘤的发生、发展与多种癌基因过度激活,以及肿瘤抑制基因失活密切相关[1],探索研究新的基因功能改变与肿瘤发生发展关系,对揭示其发生发展的精确分子机制,进一步提高肿瘤的防治水平具有重要意义。对于肿瘤这类复杂疾病,人类的认识依然有限,如何从海量数据中提取有价值的信息,是研究者面临的一个挑战。随着基因芯片技术的迅速发展,表达谱芯片分析已被广泛应用于生命科学各个研究领域,由此产生的数据也呈指数级增长[2,3]。如何利用这些海量数据并从中获取有生物学意义的信息成为摆在研究者面前的难题。目前,对表达谱芯片数据挖掘方法要求有专业的生物信息学知识,而生物信息学处理往往采用Linux系统,而在应用最为广泛的windows系统下进行数据挖掘进一步限制了分析工具的使用。为解决这一系统限制,本文以肝癌表达谱芯片数据为例,在windows系统下用R/Bio-Conductor,结合免费的网络资源,采用具体的实例和代码分析Affemetrix芯片结果,对肿瘤数据挖掘,介绍基本分析步骤,以期为非生物信息学专业的临床科研工作者提供一种易于上手的数据分析方法。

1 材料与方法

1.1 BioConductor在windows系统的安装BioConductor是R的扩展包,先安装最新版本的R-3.2.0[4]。R的安装,R官网(http://www.r-project.org/)有最新的安装和管理文档,下载windows版安装程序,安装。安装完成后,启动R程序,在R命令行窗口输入如下命令,即可进行安装:source("http://bioconductor.org/biocLite.R");biocLite("pkgname");pkgname是需要用到的安装包的名称,本文需要用的安装包有affy,annotate,annaffy,affyQCReport,arrayQualityMetrics,limma,pheatmap。

1.2 表达谱芯片的分析过程

1.2.1 芯片质量分析芯片实验有可能失败,失败的原因可能是技术上的(包括片子本身的质量),也可能是实验设计方面的,芯片质量分析主要检测前者。质量分析中最重要的是样品RNA降解分析。对于发表在GEO数据库中的芯片数据,这一步的作用不是很大,甚至可以直接跳过这一步分析。GEO数据库的使用可以参考文献[5,6]。但是,如果是自己的实验数据,这一步就很关键。这一步主要是加载分析包,命令语句为:library("pkgname");读取文件,命令语句为:cel.files<-list.celfiles();raw.data<-read.celfiles(filenames=cel.files);或:raw.data<-read.affy("file.txt")。

实例数据GSE33006[7]包含6个样本(GSM818276_T_01.CEL,GSM818277_NT_01.CEL,GSM818278_T_02.CEL,GSM818279_NT_02.CEL,GSM818280_T_03.CEL,GSM818281_NT_03.CEL),对应三个病人的组织标本(癌和癌旁组织)。

1.2.2 表达芯片的预处理(preprocessing)表达芯片需要预处理,这个过程通常包含三个部分:⑴背景处理(background adjustment);⑵归一化处理(normalization);⑶汇总(summarization)。每个步骤都有很多不同的处理方法,rma函数是预编译好的C语言函数,由affy包提供,具有运行速度快的特点,因此在处理Affymetrix芯片时常用。其常用的命令为:x.rma<-call.exprs(raw.data,"rma",do.log= FALSE)。

1.2.3 差异表达基因的获取生物学数据分析时的“差异”有两层意思,一是统计学上的差异,另外一个是生物学上的差异。差异表达基因的选取一般设置两个阈值:基因表达变化量和统计显著性量度。常见的分析方法有倍数变化法(fold chang,FC),参数分析(parameter analysis),非参数分析(nonparameter analysis)。由于噪声的存在,通过数据转换后微阵列数据可能仍然不呈正态分布,因此,基因表达谱数据分析常采用非参数检验方法。本文用到的命令语句参考附件1。

1.2.4 GO注释和KEGG富集分析Bioconductor中有不少软件包可以进行GO和KEGG统计分析和作图,如GOstats[8]和KEGGgraph[9]等,不过这些软件包的使用需要写很多代码,为了简单,这里采用免费的网络资源:http://www.biosino.org/iGepros/ index.jsp[10]进行GO注释和KEGG富集分析,利用前面分析得到的差异基因在网络上进行,不需要书写代码,只要将得到的差异基因代码粘贴到分析框,网站能自动分析出我们想要的结果(网站后台运行的也是R代码)。GO注释和KEGG富集分析过程如图1。

图1 用免费网络资源进行GO和KEGG分析

1.2.5 聚类分析找到差异表达基因只是表达谱芯片数据分析第一步,通过建立共调控网络,发掘未知和已知基因功能才是芯片实验的最终目的,芯片数据的聚类分析就是这个目的。聚类分析是通过建立各种不同的数学模型,它把基于相似数据特征的变量或样本组合在一起。归为一个簇的基因在功能上可能相似或关联,从而找到未知基因的功能信息或已知基因的未知功能[11]。聚类分析方法大体上可分为层次聚类(hierarchical clustering)和分配聚类(partitional clustering)两种,其中层次聚类在芯片分析中用得比较多。通过聚类能全面、直观的展示样品之间的关系及差异情况。本文的聚类分析命令语句参考附件1。

2 结果

2.1 差异表达基因的获取实例数据GSE33006中,与癌旁正常组织相比,以FC变化大于2,P值<0.05为筛选标准,癌组织中差异表达基因有2134个,其中上调的有1186个,下调的948个,与研究者的结果有些不同(差异基因有1648个,上调的1136个,下调的512个),这说明分析方法的选择对结果会产生影响。

2.2 GO注释和KEGG富集分析将差异基因代码粘贴到分析框,网站能自动分析出我们想要的GO和KEGG富集分析结果,部分结果见图1。

2.3 聚类分析将差异基因进行样本-基因双向聚类分析,结果如图2。从图可以发现,同一基因在同一样本的癌组织和癌旁组织具有不同的表达模式,而且同一基因在不同样本的癌组织表达也存在差异。

图2 差异基因的聚类分析

3 讨论

全基因表达谱芯片包含了人类全部基因mRNA信息,用表达谱芯片检测肿瘤组织的基因表达水平,理论上能分析出表达发生改变的基因,也就是差异表达基因[12]。表达谱数据具有样本量少基因多的特点,往往噪声冗余多而对样本分类具有较强代表性的特征性基因少。生物芯片数据的分析工具中,目前有很多商业软件可以提供便利的分析,但是这些软件因为版权的原因,使用受到限制。

Bioconductor是开源、免费的程序设计环境,它主要基于统计编程语言R,Bioconductor可以用来分析多种基因组数据。它提供的软件包中包括各种基因组数据分析和注释工具,其中就有针对基因芯片数据的处理、分析、注释及可视化的分析包[13]。对生物信息学专业的研究者来说,R/BioConductor提供的分析更注重对数据本身的理解和深入的分析,并且它的用途和方法的选择上就更广泛一些。而对于临床科研工作者来说,很多人没有相关的生物信息学背景,因此,使用一种简单、易懂的分析方法就显得比较重要。从易用性看,不用或少用代码,采用交互式的类似网页的分析方法就比较可行。

现在公开发表的肿瘤基因数据,如TCGA(http://cancergenome.nih.gov/)[14],GEO(http://www. ncbi.nlm.nih.gov/geo/)数据库[6],就有很多肿瘤表达谱数据供研究者使用。本文在目前最为常见的windows系统下,通过已发表的数据,包含肝癌组织和癌旁组织的表达谱芯片数据,较为详细地介绍了R/BioConductor的分析步骤,以期能为非生物信息学专业的临床研究人员提供一种简单的数据分析方法。

[1]Duffy MJ,Synnott NC,McGowan PM,et al.p53 as a target for the treatment of cancer[J].Cancer Treat Rev,2014,40(10):1153-1160.

[2]Braun R.Systems analysis of high-throughput data[J].Adv Exp Med Biol,2014,844:153-187.

[3]Mooney M,McWeeney S.Data integration and reproducibility for high-throughput transcriptomics[J].Int Rev Neurobiol,2014,116:55-71.

[4]RCoreTeam.R:A language and environment for statistical computing[M].R Foundation for Statistical Computing,Vienna,Austria. 2014.

[5]余海浪,马文丽,郑文岭.用于基因数据挖掘的基因表达数据库GEO[J].中国生物工程杂志,2007,27(8):96-103.

[6]Barrett T,Suzek TO,Troup DB,et al.NCBI GEO:mining millions of expression profiles-database and tools[J].Nucleic Acids Res,2005,33(Database issue):D562-D566.

[7]Huang Y,Chen HC,Chiang CW,et al.Identification of a two-layer regulatory network of proliferation-related microRNAs in hepatoma cells[J].Nucleic Acids Res,2012,40(20):10478-10493.

[8]Falcon S,Gentleman R.Using GOstats to test gene lists for GO term association[J].Bioinformatics,2007,23(2):257-258.

[9]Zhang JD,Wiemann S.KEGGgraph:a graph approach to KEGG PATHWAY in R and bioconductor[J].Bioinformatics,2009,25 (11):1470-1471.

[10]Zheng G,Wang H,Wei C,et al.iGepros:an integrated gene and protein annotation server for biological nature exploration[J].Bmc Bioinformatics,2011,12(Suppl 14):S6.

[11]Azuaje F.Clustering-based approaches to discovering and visualising microarray data patterns[J].Brief Bioinform,2003,4(1):31-42.

[12]Schulze A,Downward J.Navigating gene expression using microarrays-a technology review[J].Nat Cell Biol,2001,3(8):E190-E195.

[13]Gentleman RC,Carey VJ,Bates DM,et al.Bioconductor:open software development for computational biology and bioinformatics [J].Genome Biol,2004,5(10):R80.

[14]Chin L,Hahn WC,Getz G,et al.Making sense of cancer genomic data[J].Genes Dev,2011,25(6):534-555.

Data mining in public data base to explore key tumor associated genes

LU Juan,ZHENG Jianfeng.
Department of Clinical Laboratory,Jiangxi Children’s Hospital,Nanchang 330006,P.R.China.

Objective To mine the key carcinogenic genes of liver cancer with the application of public data base.Methods Free open source R/BioConductor was used to analyze the expression profile of liver cancer data GSE33006.Results A total of 2134 differentially expressed genes were screened out by using microarray data GSE33006.The same genes showed different expression patterns between cancer tissues and adjacent tissues indicating that the genes are associated with liver cancer.Moreover,the same genes expressed diversely in different cancer tissues,indicate gene heterogeneity in liver cancer.Conclusions Mining tumor key genes in the public databases can provide bioinformatics information for researchers,and also can reduce the scope of the study.

Tumor database;Gene expression;R/BioConductor;Data mining

R730.2

A

1674-1129(2015)06-0711-03

10.3969/j.issn.1674-1129.2015.06.006

2015-05-15;

2015-09-11)

卢娟,女,1982年2月生,主管检验师。

郑剑锋,男,1977年10月生,主治医师,主要从事肿瘤分子诊断的研究。

猜你喜欢

差异基因信息学肝癌
鸡NRF1基因启动子区生物信息学分析
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
LCMT1在肝癌中的表达和预后的意义
初论博物馆信息学的形成
紫檀芪处理对酿酒酵母基因组表达变化的影响
microRNA在肝癌发生发展及诊治中的作用
Rab27A和Rab27B在4种不同人肝癌细胞株中的表达
microRNA在肝癌诊断、治疗和预后中的作用研究进展
miRNA-148a在膀胱癌组织中的表达及生物信息学分析
SSH技术在丝状真菌功能基因筛选中的应用