表型组学:解析基因型-表型关系的科学
2013-09-13李宏韦晓兰
李宏 韦晓兰
表型组学是近年来发展起来的一门新学科,主要研究生物的物理和化学等表型性状(phenome,表型组)随突变和环境影响而变化的规律,即对基因型在不同环境下的全部细胞表型进行系统研究[1]。它在功能基因组学、药物研究和代谢工程领域有潜在的应用价值。表型组学是一门新出现的交叉学科,其目的是在基因组尺度的基因型分析,临床和认知神经科学快速发展的知识以及信息和计算机科学的发展方面有所突破,对非常复杂的生物医学问题研究有所推动。表型组学(Phenomics)最早由Steven A.Garan博士于1996年提出,随后在神经科学研究中被研究者使用。2002年,Niculescu和 Kelsoe[2]将表型组学用于精神病表型的实验研究中。2006年,Niculescu[3]及其同事提出了一种用于表型组学分析的实验定量方法——PhenoChipping,并将其与基因组学结合起来,这对于表型组学的发展具有里程碑意义。同时,一些公司和研究机构为了抢占先机和尽快走向商业化应用,投入大量资金和人力用于研究与开发表型组学平台,如比利时CropDesign公司的转基因和植物性状评价的高通量技术平台,英国国家植物表型组学中心,欧洲植物表型组平台(PhenoFab),澳洲植物表型组学设施(Australian Plant Phenomics Facility),南澳大利亚大学的表型组学与生物信息学研究中心(The Phenomics and Bioinformatics Research Centre)以及澳大利亚昆士兰大学的斑马鱼表型组学中心等[4]。
1 研究基因型-表型关系
表型组学能够有效地追踪基因型、环境因素和表型之间的联系。在分离群体中,个体的基因组和表型研究可以通过称为孟德尔随机化方法的途径来进行。的确,将基因组数据与表型数量变化数据相结合的表型组计划最近在许多物种中开始实施,其目的是了解G-P图谱(即基因型-表型图谱)。表型组数据对于了解G-P图谱中的遗传变异的多效性很重要[5]。目前所了解的表型组学研究计划主要有:国际植物表型组学网络(澳大利亚植物表型组中心和德国Jülich植物表型分析中心),拟南芥研究组织合作计划(美国国家自然基金和NIH基金),果蝇基因组资源平台(Baylor医学院人类基因组测序中心),小鼠表型组数据库(NIH基金),欧洲表型组计划(欧盟),国家生物资源计划(日本),犬类表型组计划(NIH基金),神经心理表性组学协作计划(NIH基金),UK生物库(MRC、卫生部和Wellcome Trust基金会),个人基因组计划(私人赞助)。
现在数字DNA数据很丰富,急切需求将每个基因型对应的表型进行量化。处理这些问题后我们能够对重要的经济动植物的一些复杂性状如产量,胁迫抗性等有更深入的认识。这可以拓展到系统水平的认识,最终可以预测像生态和进化研究中的适应性和生存力,或产量、胁迫耐性和其它有经济价值的性状。
2 证实复杂性状的遗传基础
代谢综合症是一种常见的复杂性状疾病,包括腹部肥胖、高血压、高血脂和高血糖等[6]。基因组学研究的前提是积累一系列影响表型的遗传变异进行研究,而不是仔细研究表型。表型组学是在基因组尺度对表型作系统研究,期望解释基因组的未知功能。例如,无意中将5-lipoxygenase-(5-LOX)缺陷型老鼠和低风险阿尔茨海默病(Alzheimer's disease,AD)患者血液中调节食欲的分子——adipokine leptin的水平增加这两个无关的表型联系起来,研究者推断出leptin对AD患者ALOX5(a gene encoding 5-LOX)基因缺陷能产生有利的影响。当然可以尽量避免依赖于无意识发现能力,尽可能开发数据挖掘工具以便能够在表型组学数据库中提取有用的知识支持新的假说[7]。
图1 表型组学解析基因型-表型关系
3 用于作物改良
耐盐性植物的选择是一个很棘手的难题,高的盐分影响了全世界1/5的土地和澳洲2/3的谷物。利用三维照相机,Tester实验室的研究人员对移植到盐碱地并生产渗透休克的小麦记录了其生长反应的每分钟的变化。通过对几百种植物进行筛选后,Tester的博士生Karthika Rajendran[8]发现了帮助植物抵抗渗透休克的一个基因。
2005年,CropDesign公司的Christophe Reuzeau等在分子植物育种(Molecular Plant Breeding)上发表具有里程碑意义的论文,详细阐述了称之为“性状工厂”(TraitMill)的可大规模自动化分析全生育期植物表型的技术设施。2008年,澳大利亚科学家利用澳洲植物表型组学设施,借助可见光、近红外、远红外和荧光成像提供高通量表型图像,为植物的生长和性状表现提供全面、持续的分析。2009年4月第一届国际植物表型组大会已在澳大利亚堪培拉成功举办。为了进一步加强该领域的交流(如表型分析工具的协调)和制定相应的国际质量标准,建立了国际植物表型组网络,相关的信息可进一步从该网络的Website中获取。
过去的十几年,“基因组学革命”根本上改变了植物生物学。模式植物Arabidopsis的基因组测序是植物基因组学的里程碑,随后许多重要经济作物包括水稻和玉米的基因组被测序和注释。模式系统和非作物品种的植物基因组序列也经常出现在国际数据库中[9]。Arabidopsis基因组相当比例被注释为“未知功能基因”或仅仅根据序列同源性线索进行注释。干扰基因功能的反向遗传途径通常无法得到“可见的表型”。该领域新的瓶颈已变成高通量生理学和表型分析。该瓶颈在植物生物学、作物育种的输出终端也表现得十分明显。适应恶劣环境的高产量作物基因型的分子标记辅助选择受到慢且主观的手工表型分析的困扰,常常需要在不同田间环境和季节花费劳力收获作物。目前的育种体系尚缺乏对照环境与田间作物高通量评价方法。以很高的精度和速度将基因功能、植物表现和环境应答联系起来,这种需求比任何时候都更加迫切[10]。筛选高产量和对生物和非生物胁迫有耐受性的遗传变异,需要将基因功能的有关知识和重组DNA技术相结合应用到新品种分子标记辅助选择上,也需要植物表型组学工具的快速发展。目前植物表型组学研究的资源主要有:GARNet[11]、加拿大的 Biotron[12]、Aberystwyth 大学的 IBERS[13]、国际植物表型组学网络(IPPN)[14]、the Juelich植物表型组学中心(JPPC)[15]、蒙特利尔的 Lepse[16]和澳洲表型组学设施[17]。
随着水稻基因组测序计划的完成[18],后基因组时代的挑战是系统分析基因组中所有基因的功能。基于计算和矫正的基因组功能注释的启动,用于预测基因位置,包括外显子、内含子和其假定功能[19,20]。对水稻基因结构和功能,已经开展了一系列研究,如cDNA全长序列分析[21],全基因组微阵列研究[22],基因表达阵列研究[22,23],基因表达序列分析(SAGE)[24,25],大规模平行标签序列分析(MPSS)[26],蛋白质组学研究[27],和大规模化学和辐射诱导突变子等[28]。在这些技术中,定义一个新基因功能的重要和直接的途径是通过插入突变消除或激活基因的功能。利用T-DNA或转座因子产生插入突变,可以将功能与DNA序列联系起来,分离引起特定表型的靶基因。自20世纪90年代晚期,为获得水稻转座子标签突变群体,中国台湾、中国大陆、韩国和法国的研究者们采用T-DNA为载体[6,29-32];日本研究者采用水稻内源性逆转座子Tos17[33,34],澳大利亚、欧洲和美国研究者则使用玉米的Ac/Ds和 En/Spm 转座子[35-37]。
这些研究积累了突变系、插入位点区域的序列特征以及公共数据库[38-41]。利用Tos17和Ac/Ds仅仅产生了基因敲出。用T-DNA作为载体,某些产生了两种功能,包括增强子捕获和敲出,仅2组有3种功能,即基因捕获、基因敲出和活性标签。
4 表型组学研究方法
表型微阵列(phenotypemicroArrayTM,PM)技术是可应用于细菌、真菌或动物细胞的生物工艺开发计划的平台。科学家利用该技术可以快速轻易地在成百上千种不同条件下培养细胞,同时检测像途径活性和细胞产量等主要参数。一种配套设备,OmniLog®能同时监控5000个培养分析并提供详细的动力学数据并可以用opm软件进行分析[42]。PM技术是一个细胞检测整合系统,可以同时高通量筛选大量的细胞表型[43]。它由预先构造的微孔阵列组成,每个阵列检测不同的细胞表型,而一种自动化装置持续监控和记录所有阵列微孔中细胞的反应。例如,仅需将细胞悬液注入7个微孔板阵列就可检测大肠杆菌近700种表型。PMs可以用于直接检测细胞遗传变化特别是基因敲除的影响[44]。
表型组学领域的迅速发展——通过表型数量分析进行基因组尺度的基因不确定性研究——急迫需求新的数据分析和可视化工具。Zorych等[45]提出了统计学方法用于比较由Biolog表型微阵列平台(Biolog Phenotype Microarray)产生的表型组学数据,以便进行高通量的表型分析。该统计方法有两种分析途径,一是对两个处理组的均值曲线的距离进行定量分析,然后进行好适度检验,同时也可对均值曲线以下的区域进行好适度检验;二是应用函数主分量分析。Fernandez-Ricaud等[46]开发出一种新的公共资源——PROPHECY数据库,用于挖掘、过滤和可视化表型数据。PROPHECY可以从IP地址http://prophecy.lundberg.gu.se获取。
作为研究基因突变与表型关系的科学,表型组学研究首先必须获得大量的基因突变,因此,转基因技术、转座子插入突变,基因敲出,化学物理诱变方法以及RNA干涉等都可以作为获得突变的方法在表型组学研究中应用。例如,RNA干涉技术用于线虫,可以产生大量的随机突变,并同时产生各种各样的表型变化。通过对各种表型的分析产生的大量数据可储存于表型组学数据库——PhenomicDB。代谢流可以用气相色谱、核磁共振和具阵列辅助激光解析/解离(MALDI)的质谱进行直接分析。
除了基因突变以外,一些表观遗传修饰也与生物的表型变化有关,如DNA甲基化修饰,因此,分析DNA甲基化的一些方法也可以应用于表型组学研究,特别是一些高通量的分析方法,适合于表型组学大量的数据分析,如高效液相色谱柱(HPLC),甲基化CpG岛层析柱法,DNA微阵列法等。
图2 细菌表型组学研究流程示意图
5 表型组学研究面临的挑战
表型组学研究中面临的主要问题是将表型数和样本大小的增加。但表型数的增加常大于样本数的增加,导致“大p,小N”数据组(lPSn)。此情况下,许多模型都能适合或过度适合这些数据,结果是当模型应用到新的数据时,效果较差。一个普遍但合适的处理lPSn数据的方法是降低维数,即在分析之前减少预测变量的数目,但在表型组学中,我们无法对降维作出基于生物学知识的选择,因为重要的特征预先不知晓。一些统计学技术,包括边沿和LASSO回归[47],不需要降维就能在lPSn情况下很好适应模型。这些方法通常对复杂模型进行罚分,通过交叉确认进行协调。一系列证据表明表型变异的真实维数很高,维数降低将会丢失信息。比lPSn更可怕的是我们不得不处理“高维数,小样本”(HdSn)数据。这些高维数据可以用许多模型进行处理,因此选择哪些模型至关重要。明智的选择就是利用先前的知识[48,49],例如通过确定某些变量(如SnPs)和其它变量(RnA丰度)[50]或结构方程模型探索假设的因果模型[51]。在先前的信息不足以确定模型时,应该利用各种合理模型的信息[52,53]。当结果预测是分析的首要目的时,有很多不断发展技术可以适合于HdSn,如偏最小二乘回归[54],随机森林[55]和支持向量机[56]。
表型组研究涉及的性状很多,需要用多重检验(multiple testing)来进行统计分析。现有的统计学方法主要通过控制假性发现率(false discovery rate,FDR)来达到所需的置信度。尽管选择最好的候选者进行追朔(follow-up)研究时,也会产生偏离真实情况的结果。例如,在基因组尺度分析(GWA)研究中,将FDR最小化可以达到非常严谨的统计检验效果,但往往造成了遗传力的缺失(missingheritability)[57]。这些基因组尺度分析无法检测到的对象包括基因-基因相互作用,表观遗传变化以及稀有变异等。不过最近的有关多重检验的一些进展,如 Han等和 Sandve等[58,59]提出的 SLIDE 和 SLIP方法及Monte Carlo-FDR方法可能改善多重检验的效率。在人类遗传研究中,对基因组和表型组多样性进行分析,往往需要足够大的群体样本才能达到要求的效力,这对于多数研究者来讲仍然富有挑战性。现有的实验室表型分析方法通量有限,基于Web网的确认和表型分析策略也许是最为合理的,但要将现有的技术进行应用和推广还有很多工作要做[60]。
6 展望
表型组学研究也面临一些困难,如何获取不同环境下大样本的基因组信息,广泛而深入的跨时空尺度的表型分析,降低表型组研究的成本等。表型组计划类似于20世纪80年代后期的人类基因组计划,有诸多的问题须待解决。比如基因组计划最初由于缺乏基本图谱和成本高而受到很多人反对。但当DNA自动测序技术发展起来后,成本得到降低,很快就得到研究者们的支持。当然,表型组学研究一开始也不可能进行大规模的表型分析,而是建立表型组计划的基本框架。要达到此目的有3个途径:技术发展、统计分析能力和人力及资源的整合。
基因组计划的完成为生命科学研究奠定了基础,尽管在医学上的应用还远没有达到要求。基因组数据的广泛特征直接催生了以基因组序列为研究起点的新科学。可以相信,表型组学研究能够加快仅间接受益于基因组学的生物学和医学的相关领域进步。表型组学对跨多个生物学尺度的多个表型进行系统研究是非常重要的。一旦进入“后基因组尺度分析时代”,由于成本降低和新方法可以对遗传序列作更精细的作图,检测稀有突变(raremutation)和拷贝数变异(copy number variation),这些是现有的技术平台无法揭示的。截至目前,仍然不清楚表观遗传因子解释基因组数据表型变化的程度,其理论重要性很大[61],而一些主要的启动计划其目的在于更完全地发展表观基因组学(http://nihroadmap.nih.gov/epigenomics/initiatives.asp),可能使表观基因组尺度分析成为生物学特征分析的主要手段。表型组学是对表型进行基因组尺度的系统研究,对后基因组时代生物医学研究的进步是至关重要的动力[6]。
[1] Gowen CM, Fong S.Phenome analysis ofmicroorganisms[M]//Edwards D, Stajich and D.Bioinformatics Tools and Applications, J Hansen, New York:editors.Springer, 2009.
[2] Kelsoe JR, Niculescu AB 3rd.Finding genes for bipolar disorder in the functional genomics era:from convergent functional genomics to phenomics and back[J].CNS Spectr, 2002, 7(3):215-216,223-226.
[3] Niculescu AB, Lulow LL, Ogden CA, et al.PhenoChipping of psychotic disorders: A novel approach for deconstructing and quantitating psychiatric phenotypes[J].American Journal of Medical Genetics Part B:Neuropsychiatric Genetics, 2006, 141B(6):653-662.
[4] http://www.unisa.edu.au/maths/phenomics/about.asp
[5] Bilder RM, Sabb FW, Cannon TD, et al.Phenomics:the systematic study of phenotypes on a genome-wide scale[J].Neuroscience,2009, 164:30-42.
[6] Joy T, Hegele RA.Genetics ofmetabolic syndrome:Is there a role for phenomics?[J]Curr Atheroscler Rep, 2008, 10(3):201-208.
[7] Manev H, Manev R.Benefits of neuropsychiatric phenomics:example of the 5-lipoxygenase-leptin-alzheimer connection[J].Cardiovasc Psychiatry Neurol, 2010(2010), Article ID 838164,doi:10.1155/2010/838164.
[8] Finkel E.With ‘Phenomics’, plant scientistshope to shift breeding into overdrive[J].Science, 2009, 325:380-381.
[9] Furbank RT.Plant phenomics:from gene to form and function[J].Functional Plant Biology, 2009, 36:v-vi.
[10] Furbank RT, von Caemmerer S, Sheehy J, et al.C4rice:a challenge for plant phenomics[J].Functional Plant Biology,2009, 36:845-856.
[11] http://www.garnetcommunity.org.uk/resources/phenomics
[12] http://www.thebiotron.ca/
[13]http://www.aber.ac.uk/en/ibers/news-events/new_builds_at_ibers/
[14] http://www.plantphenomics.com/
[15] http://www.fz-juelich.de/icg/icg-3/jppc
[16] http://www1.montpellier.inra.fr/ibip/lepse/english/
[17] http://www.plantphenomics.org.au/
[18] IRGSP.Themap-based sequence of the rice genome[J].Nature,2005, 436:793-800.
[19] Itoh T, Tanaka T, Barrero RA, et al.Curated genome annotation of Oryza sativa ssp.japonica and comparative genome analysis with Arabidopsis thaliana[J].Genome Res, 2007, 17:175-183
[20] Ouyang S, Zhu W, Hamilton J, et al.The TIGR Rice Genome Annotation Resource:improvements and new features[J].Nucleic Acids Res, 2007, 35:D883-887.
[21] Kikuchi S, Satoh K, Nagata T, et al.Collection,mapping, and annotation of over 28,000 cDNA clones from japonica rice[J].Science, 2003, 301:376-379.
[22] Li L, Wang X, Stolc V, et al.Genome-wide transcription analyses in rice using tilingmicroarrays[J].Nat Genet, 2006, 38:124-129.
[23] Wasaki J, Shinano T, Onishi K, et al.Transcriptomic analysis indicates putativemetabolic changes caused bymanipulation of phosphorus availability in rice leaves[J].J Exp Bot, 2006, 57:2049-2059.
[24] Gibbings JG, Cook BP, Dufault MR, et al.Global transcript analysis of rice leaf and seed using SAGE technology[J].Plant Biotechnol J, 2003, 1:271-285.
[25] Su CL, Chung CI, Lin YC, et al.Statistical analysis of rice SAGE data[J].J Genet Mol Biol, 2005, 16:248-260.
[26] Nakano M, Nobuta K, Vemaraju K, et al.Plant MPSS databases:signature-based transcriptional resources for analyses ofmRNA and small RNA[J].Nucleic Acids Res, 2006, 34:D731-735.
[27] Komatsu S, Tanaka N.Rice proteome analysis:a step toward functional analysis of the rice genome[J].Proteomics, 2005, 5:938 -949.
[28] Wu JL, Wu C, Lei C, et al.Chemical- and irradiation-inducedmutants of indica rice IR64 for forward and reverse genetics[J].Plant Mol Biol, 2005, 59:85-97.
[29] Hsing YI, Chern CG, Fan MJ, et al.A rice gene activation/knockoutmutant resource forhigh throughput functional genomics[J].Plant Mol Biol, 2007, 63:351-364.
[30] Jeong DH, An S, Kang HG, et al.T-DNA insertionalmutagenesis for activation tagging in rice[J].Plant Physiol, 2002, 130:1636-1644.
[31] Chen S, Jin W, Wang M, et al.Distribution and characterization of over 1000 T-DNA tags in rice genome[J].Plant J, 2003, 36:105-113.
[32] Wu C, Li X, Yuan W, et al.Development of enhancer trap lines for functional analysis of the rice genome[J].Plant J, 2003, 35:418-427.
[33] Hirochika H.Contribution of the Tos17 retrotransposon to rice functional genomics[J].Curr Opin Plant Biol, 2001, 4:118-122.
[34] Miyao A, Tanaka K, Murata K, et al.Target site specificity of the Tos17 retrotransposon shows a preference for insertion within genes and against insertion in retrotransposon -rich regions of the genome[J].Plant Cell, 2003, 15:1771-1780.
[35] Upadhyaya NM, Zhu QH, Zhou XR, et al.Dissociation(Ds)constructs,mapped Ds launch pads and a transiently-expressed transposase system suitable for localized insertionalmutagenesis in rice[J].Theor Appl Genet, 2006, 112:1326-1341.
[36] van Enckevort LJ, Droc G, Piffanelli P, et al.EU-OSTID :a collection of transposon insertionalmutants for functional genomics in rice[J].Plant Mol Biol, 2005, 59:99-110.
[37] Kolesnik T, Szeverenyi I, Bachmann D, et al.Establishing an efficient Ac/Ds tagging system in rice:large-scale analysis of Ds flanking sequences[J].Plant J, 2004, 37:301-314.
[38] Hirochika H, Guiderdoni E, An G, et al.Ricemutant resources for gene discovery[J].Plant Mol Biol, 2004, 54:325-334.
[39] An G, Lee S, Kim SH, et al.Molecular genetics using T-DNA in rice[J].Plant Cell Physiol, 2005, 46:14-22.
[40] Guiderdoni E, An G, Yu SM, et al.T-DNA insertionmutants as a resource for rice functional genomics[M]//Upadhyaya NM(ed)Rice functional genomics-challenges, progress and prospects.New York:Springer, 2007:181-221.
[41] Hsing YI, Chern CG, Fan MJ, et al.A rice gene activation/knockoutmutant resource forhigh throughput functional genomics[J].Plant Mol Biol, 2007, 63:351-364.
[42] Vaas LAI, Sikorski J, Hofner B, et al.opm:an R package for analysing OmniLog® phenotypemicroarray data[J].Bioinformatics 2013, First published online:June 5, 2013.
[43] Zhang J, Biswas I.A phenotypicmicroarray analysis of a Streptococcusmutans liaSmutant[J].Microbiology, 2009, 155:61-68.
[44] Bochner BR.PhenotypemicroArray technology:A “phenomics”tool for studying cells and optimizing bioprocesses[C].Recent Advances in Fermentation Technology.San Diego, CA:Marriott Mission Valley, 2009.
[45] Zorych I, Sturino J, Bliznyuk N, et al.Statisticalmethods for comparative phenomics usinghigh-throughput phenotypemicroarrays[J].Int J Biostat, 2010, 6(1):Article 29.doi:10.2202/1557-4679.1227.
[46] Fernandez-Ricaud L, Warringer J, Ericson E, et al.PROPHECY—a database forhigh-resolution phenomics[J].Nucleic Acids Research, 2005, 33:D369-D373.
[47] Tibshirani R.Regression shrinkage and selection via the Lasso[J].J Royal Stat Soc Ser B, 1996, 58(1):267-288.
[48] Rockman MV.Reverse engineering the genotype- phenotypemap with natural genetic variation[J].Nature, 2008, 456:738-744.
[49] Ochs MF.Knowledge-based data analysis comes of age[J].Brief Bioinformatics, 2010, 11:30-39.
[50] Zhu J, Lum PY, Lamb J, et al.An integrative genomics approach to the reconstruction of gene networks in segregating populations.cytogenet[J].Genome Res, 2004, 105:363-374.
[51] Li RH, Tsaih SW, Shockley K, et al.Structuralmodel analysis ofmultiple quantitative traits[J].PLoS Genet, 2006, 2:1046-1057.
[52] Burnham KP, Anderson DR.Model selection andmulti-model inference:A practical information-theoretic approach[M].New York:Springer, 2002.
[53] Claeskens G, Hjort NL.The focused information criterion.J Am Stat Assoc, 2003, 98:900-916.
[54] Wold S, Martens H, Wold H.Themultivariate calibration-problem in chemistry solved by the PLSmethod[J].Lect Notes Math,1983, 973:286-293.
[55] Bureau A, Dupuis J, Falls K, et al.Identifying SNPs predictive of phenotype using random forests[J].Genet Epidemiol, 2005, 28:171-182.
[56] Breiman L.Statisticalmodeling:the two cultures[J].Stat Sci,2001, 16(3):199-215.
[57] Yang J, Benyamin B, McEvoy BP, et al.Common SNPs explain a large proportion of theheritability forhumanheight[J].Nature Genet, 2010, 42:565-569.
[58] Han B, Kang HM, Eskin E.Rapid and accuratemultiple testing correction and power estimation formillions of correlatedmarkers[J].PLoS Genet, 2009, 5(4):e1000456.
[59] Sandve GK, Gundersen S, Rydbeck H, et al.The Genomic Hyper-Browser:inferential genomics at the sequence level[J].Genome Biology, 2010, 11:R121
[60] Bilder RM, Sabb FW, Cannon TD, et al.Phenomics:the systemtic study of phenotypes on a genome-wide scale[J].Neuroscience,2009, 164:30-42.
[61] Mehler MF.Epigenetic principles andmechanisms underlying nervous system functions inhealth and disease[J].Prog Neurobiol,2008, 86(4):305-341.