APP下载

基于全基因关联分析的代谢组学在植物中的应用

2021-12-08袁进成孟亚轩孙颖琦赵心月王凤霞刘颖慧

中国农业科技导报 2021年9期
关键词:代谢物组学位点

袁进成, 孟亚轩, 孙颖琦, 赵心月, 王凤霞, 刘颖慧

(河北北方学院农林科技学院, 河北 张家口 075000)

植物在生长发育的整个生命过程中都会产生大量代谢物,这些代谢物不仅是人类食物和营养物质的重要来源,也在保健和疾病治疗中发挥重要作用[1]。植物的代谢物丰富多样,大约有10~100万种[2],大多数代谢物都有物种特异性,有的代谢物还具有发育特异性或组织特异性。随着代谢物定性和定量检测技术的快速发展以及测量手段的精细化,人们发现,代谢物的结构和种类远远比估计的更多,也更加复杂[3]。由于植物代谢物的多样性,使得他们成为解析代谢物合成与分解、代谢途径调控、基因家族解析和比较基因组学的理想标志物。

代谢组是联系基因组和表型的桥梁。近二十年来,人们越来越关注将代谢组和系统生物学其他方法相结合,以揭示代谢多样性及潜在的遗传变异规律。由于复杂样品快速分析平台能力的提升,以及代谢组学与其他“组学”和遗传学的结合,提供了更多解析代谢调控网络的新方法。

1 代谢组学

代谢组学(metabolomics)是继基因组学、转录组学及蛋白质组学之后兴起的又一种系统生物学研究手段,是对某一生物或细胞在某一特定生理时期内所有低分子量代谢产物进行定性和定量分析的一门新学科,对特殊功能的小分子物质进行分析具有突出优势。代谢组学是对生物体内所有代谢物进行定量分析,并寻找代谢物与生理、病理变化间关系的一门学科,研究对象为相对分子质量在1 000 以内的小分子物质[4-5]。由于代谢物处于生物系统生化活动调控的末端,基因表达和蛋白质变化对生物系统产生的影响都能在代谢水平得以体现,因此,代谢组学分析所提供的信息能够揭示生物体内生理和生化功能的状态,为功能基因组的研究提供便利。目前,随着国内外生物学研究重心从基因组向功能基因组的转变,代谢组学在疾病诊断、微生物研究、转基因作物分析、食品营养与安全等领域得到了广泛应用。

2 代谢组全基因组关联分析研究

随着质谱分析、核磁分析平台的完善和基因组测序技术的快速发展,全基因组关联分析和代谢组学相结合,形成代谢组学联合全基因组关联分析技术(metabolome-based genome-wide association study,mGWAS),该技术已经应用到植物代谢组多方面的研究中。mGWAS利用二代测序技术获得群体材料的基因型数据(genotype),结合代谢组数据(metabolome)开展基于代谢组学的全基因组关联分析,有利于批量定位调控代谢物的候选基因,挖掘调控产量、品质和环境应答等相关代谢通路,深入了解植物代谢物合成调控的遗传机制[1,6]。目前,mGWAS已经成为研究植物代谢物遗传多样性的有力工具之一,已经在多个物种中得以应用,为代谢物多样性的遗传基础研究提供了更深入的见解[7]。代谢组学和高通量测序相结合,使得一个物种内或不同物种间代谢物的定量和定性分析成为可能。利用代谢谱分析,结合植物中大量的自然或人工作图群体进行代谢物的关联分析,有利于批量挖掘代谢物的调控基因,从而揭示植物代谢物形成的遗传和生化基础。

mGWAS是将代谢组数据作为表型,与基因型数据进行关联分析的一种方法。由于代谢组数据较表型鉴定更为精细,因此关联分析结果比传统GWAS精确度更高。mGWAS使用精心设计的方法和作图群体,为破译代谢物多样性的遗传基础(尤其是稀有变异)提供了新的方法。基于mGWAS的多维数据分析,对于代谢物遗传多样性及其调控机制的理解具有重要意义。mGWAS最早应用于拟南芥中[8],在拟南芥中将非靶向代谢谱和全基因组关联分析相结合,利用代谢组学、遗传学和基因组学相关研究,通过模式植物拟南芥的生物化学和遗传多样性来揭示基因和代谢物之间的联系,将次级代谢物与调控基因联系起来。这种方法在了解代谢物特性或相关酶生化功能的情况下,有助于研究代谢物与酶之间的关系。利用代谢物与基因型数据通过关联分析可以挖掘与代谢相关的基因及基因座。与传统表型 GWAS相比,mGWAS可进行大量代谢产物分析,且精确度较高。由于代谢物的种类、含量在不同品种或个体间具有较大差异性,因此, mGWAS 能够批量、精准定位候选基因,进而发掘参与代谢调控的功能基因。近年来不断有mGWAS在植物中应用,并取得显著的成果[1,7]。

3 mGWAS解读代谢物的遗传多样性

代谢物由酶催化合成,任何活的细胞中都存在代谢反应,代谢反应对维持机体的生长、发育以及维护细胞的结构和功能至关重要[9]。根据结构和功能不同,将代谢物划分为初生代谢物和次生代谢物。初生代谢物是植物产量和品质的化学基础,是维持植物生命活动和生长发育所必需的物质。一般来说,初生代谢物的结构和丰度相对保守。次生代谢物虽不是生命活动和生长发育所必需的物质,但在植物遭遇病虫害或逆境时,对维持机体内物质的动态平衡有重要意义。不同物种次生代谢物的结构和丰度具有较大差异[10]。

3.1 mGWAS解读初生代谢物的遗传机制

初生代谢产物又被称为植物的营养物质,主要包括蛋白质、糖、脂肪、维生素、矿物质、水及其他各类微量活性功能成分。植物不同品种、组织及器官的营养成分也存在差异。在某些情况下,植物的营养物质是植物形态特征的标记物[11]。利用代谢组学,可以获得不同品种、组织及器官的营养成分及含量信息,借助mGWAS分析,可以对这些代谢物的遗传机制进行解析[12]。Chen等[13]选取502份水稻品种,利用Illumina HiSeq 2000平台进行测序,通过高通量LC-MS/MS分析检测到837个代谢产物,发现有587个代谢产物受遗传调控,且代谢物之间有较强的相关性,如缬氨酸和苯丙氨酸代谢呈显著正相关(P<0.05),同时不同亚种间代谢物也有相关性;通过mGWAS分析,共检测到1 489个显著关联位点,可注释到参与氨基酸及其衍生物合成和运输等相关的60个候选基因。为进一步验证GWAS结果及候选基因功能,对10个代表性候选基因进行了功能验证,发现了控制粒色和粒径的潜在候选基因,为代谢物和表型关联分析提供了有力证据。Angelovici等[14]检测了313份拟南芥籽粒中18 种游离氨基酸的绝对含量,利用氨基酸含量之间的比值为衍生性状进行mGWAS分析,确定了12种相互关联氨基酸的代谢网络,并发掘出一个与组氨酸相关的候选基因CAT4,并利用RNAi对该基因进行了功能验证。Deng等[15]将513份玉米自交系在云南和重庆两种环境种植,分别测定了籽粒中17种氨基酸的含量,通过mGWAS在两种环境中分别检测出247个和281个关联位点,这些位点的平均贡献率分别为7.44% 和7.90%,意味着氨基酸的遗传受有限基因座调控,并进一步解析了氨基酸的生物合成和分解代谢途径。Chen等[16]利用GWAS分析普通小麦籽粒中20种游离氨基酸(free amino acids,FAAs),共鉴定出328个关联位点,不同FAAs的关联位点数在8~41个,在这些关联位点附近,共发现15个候选基因参与FAAs的生物合成,其中1个候选基因编码色氨酸脱羧酶,参与色氨酸的合成。Zhou等[17]对3 991个玉米叶尖和叶基部的质量性状进行分析,检测了玉米不同组织及不同亚群中特异性代谢物,mGWAS结果表明,90%的关联位点具有多重性,分布于不同染色体。Du等[18]对419份陆地棉品种进行深度测序,检测了约366万个SNP,对13个纤维相关性状进行GWAS,发现有7 383个SNP与纤维性状显著相关,并且D染色体上的关联位点数要多于A染色体,研究表明,在长期驯化和育种过程中,人们对纤维品质的选择增加了优异等位基因出现的频率。

3.2 mGWAS解读次生代谢遗传机制

次生代谢物对植物正常生长和发育是非必需的,如生物碱、类黄酮、萜类和苯丙酸等物质,但其在植物抵御生物和非生物胁迫中发挥着重要作用。此外,植物次生代谢物对制药工业具有重要作用,如颠茄中提取的阿托品、罂粟中提取的吗啡、金鸡纳树中提取的奎宁等。除不同物种水平的代谢物多样性外,植物次生代谢物的累积还表现出时空特异性[1,7]。Matsuda等[19]选取175份水稻材料,利用GWAS研究了水稻次生代谢物的遗传基础,89种次生代谢物共检测出323个关联位点,一些代谢物仅由少量主效位点控制,一些位点与多种次生代谢物密切相关。为解析番茄代谢组的遗传机制,Zhu等[20]检测了番茄果实中次生代谢物,研究表明,在驯化中对番茄味道的选择是对番茄碱进行了负选择,利用mGWAS技术发现,控制此性状的关联位点位于人类长期选择的区域,其中10号染色体上检测到一个新的基因簇,包含1个P450氧化还原酶基因、1个酰基转移酶基因和8个糖基转移酶基因。Fang等[7]对来自籼稻和粳稻两个亚种的502份水稻材料进行分析,结果表明,多酚类物质在叶片中的累积量高于籽粒,而黄酮类化合物如苯丙素、糖基黄酮主要在籽粒中积累。Zhou等[17]对282份玉米自交系进行代谢组学分析发现,不同品种的苯并恶唑嗪酮类化合物含量差异显著,叶尖和叶基中黄酮含量也存在差异,可能是由于叶尖需要更多的类黄酮来抵御生物和非生物胁迫;通过mGWAS发掘调控苯丙恶嗪和苯丙烷类物质的基因座,表明了次生代谢物遗传调控的复杂性。Fernie等[21]对拟南芥中黄酮类化合物的靶向代谢组进行分析,从1 800种代谢物中鉴定出8种新的花青素,获得2个糖基转移酶基因,分别编码类黄酮3-O-葡萄糖基转移酶和花青素5-O-葡萄糖基转移酶;除与花青素代谢有关的已知基因外,还发掘出一些功能不明或假定功能注释的基因,这些基因可能与糖基转移酶、酰基转移酶、谷胱甘肽S-转移酶、糖转运蛋白等有关。将代谢组学和转录组学相结合,不仅提供了一种发掘调控代谢物基因的新方法,并进一步揭示了花青素和槲皮素衍生物的遗传机制[21]。

4 mGWAS对植物生长发育调控和应激反应的解析

由于代谢物与植物表型的相关性较大,因此,代谢组学对研究植物生长发育过程尤为重要。全面阐明植物发育的生化和遗传机制以及应激反应的遗传基础在很大程度上依赖于代谢组学在植物科学中系统、综合的应用。代谢组学可以检测植物不同发育阶段和不同环境胁迫下的特征代谢标记物,筛选出的标记物可作为植物的代谢诊断物,育种家可以结合遗传背景和环境变化来识别代谢标记物。

4.1 mGWAS对植物发育时空代谢谱的解析

功能基因组学提供了基因和蛋白的时空表达模式信息,代谢组学可以将丰富的代谢物数据添加到功能基因组数据中,以了解植物发育的整体情况,探索植物生长发育过程中代谢物的动态变化,为代谢物质遗传机制的解析提供新见解。无论是单子叶水稻还是双子叶拟南芥,在植物进化中代谢物的累积具有相似的特点[6,19]。Dong等[22]对水稻两个亚种进行mGWAS分析发现,酚酰胺类化合物的丰度在发育过程中受时空调控,在不同组织中的累积也存在差异,由此表明,种子成熟和萌发过程中的代谢物以及编码代谢物相关基因的表达均受时间和空间的影响。Strauch等[8]对拟南芥全基因组关联分析发现,种子发育始于胚胎发生后的代谢活跃期,在此期间合成大量的储备化合物。种子成熟与大多数糖、有机酸和氨基酸的显著减少有关,这表明它们能有效地转入贮藏库。从贮藏积累到种子干燥转变与代谢物的转换有关,导致不同糖、有机酸、富氮氨基酸和莽草酸衍生代谢物累积。Zhu等[20]研究番茄种子氨基酸的代谢规律发现,氨基酸在整个种群中表现出高度的多样性,糖表现出明显的季节波动。Toubiana等[23]和Fait等[24]对番茄果皮代谢物分析发现,代谢物多态性主要受基因型影响,受环境或组织影响较小。植物发育的时空代谢特征可以作为潜在的生物标志物,从而捕捉植物遗传发育的内在特征。目前,该方法已成功应用于水稻分蘖的研究,Dong等[22]对水稻分蘖发育过程中的代谢组学数据进行分析,发现其中21种代谢物捕获了约83%的代谢反应,这些代谢物在植物发育过程发生明显变化,它们可作为快速筛选与发育相关代谢谱的基础。Tarpley等[25]为研究大豆叶片从营养生长到生殖生长阶段代谢物的转变,追踪整个生育期的代谢谱,结果表明,山奈酚黄酮苷元、大豆苷元、染料木黄酮和香豆黄酮可以作为生长标记物,8种随着特定发育阶段和环境信号而变化的黄酮类山奈酚苷被确定为潜在的生长标记物。由于代谢物种类繁多,在植物的不同细胞、甚至亚细胞水平上均存在差异,因此,用于分辨植物代谢物的高分辨率技术越来越受到重视[26]。Rolda等[27]以3—9日龄幼苗为材料,分析种子、子叶、下胚轴和根系中代谢物的差异,结果表明,皂甙类化合物主要积累在种子中,生物碱主要积累于根系中,糖基化黄酮醇主要积累于子叶中,花青素主要积累于下胚轴中,85% 的代谢物都表现出器官积累特性。Fernando等[28]分析毛果海棠生物量及木材的化学成分发现,春芽物候、水分利用效率、碳氮同化以及木质纤维素也均存在代谢物的差异累积;还发现1个涉及RNA转录调控的核糖核酸外切酶基因(XRN4)在乙烯信号通路中发挥作用,同时参与胁迫应答,该基因可能影响氮代谢和叶片形态建成;纤维素合成酶基因(CesA1A,CesA2B和CesA1A)与木质素的形成密切相关。水稻种子的萌发活力是一个复杂的数量性状,需要同化、储存和使用非结构性碳水化合物来产生幼芽和幼叶,将全基因组关联分析(GWAS)应用于形态和非结构性碳水化合物检测,结果表明,萌发活力由微效多基因控制,与糖含量密切相关;进一步研究表明,己糖在源叶和分生组织中累积,与舌状叶的形成相关,在控制叶片大小和叶片生长中发挥重要作用[29]。代谢和代谢物的变化是发育过程的一部分,也是对发育过程的响应,这些变化既受生命进程的影响,也受外部因素的影响。

4.2 mGWAS解析植物应激反应机制

植物在发育过程中经常遭遇生物或非生物胁迫,一旦植物受到胁迫刺激信号,胁迫应答基因被激活表达,就会产生特异的胁迫代谢产物,特别是一些次级代谢物以适应环境胁迫[19]。Ahmed等[30]研究表明,植物对干旱和盐分胁迫的耐受性与代谢水平有关,对耐盐野生大麦的转录组分析发现,次级代谢物含量与对照具有较大差异,如黄酮和酚类化合物的含量显著增加。植物受到胁迫后,其代谢反应受物种、组织和胁迫类型等影响,为了适应胁迫,植物通过复杂的生化反应来缓解胁迫造成的损伤。因此,胁迫环境下鉴定的代谢物有助于解析植物防御机制,同时这些代谢物也是植物防御反应的重要标志物。目前越来越多胁迫耐受或敏感的代谢标志物被鉴定[31]。如Agarrwal等[32]发现16种脂肪酸(如不饱脂肪酸和亚油酸)和2种氨基酸(谷氨酰胺和苯丙氨酸)为抗瘿蚊水稻品种的抗性标志物。Sana等[33]发现苯乙酮、叶黄素、脂肪酸、生物碱、谷胱甘肽、碳水化合物和脂质的生物合成途径受胁迫影响,并发现Xa21、GAD、PAL、ICL1和谷胱甘肽-S-转移酶基因的表达量发生变化。Parker等[34]通过代谢组学分析表明,大麦和紫假雀麦草感染米曲霉后,代谢模式发生变化,苹果酸、多胺、奎宁酸和非聚合木质素前体物大量累积。Gunnaiah等[35]发现,小麦被镰刀菌侵染后,苯丙素和酚类化合物含量增加。苯丙素是木质素的前体物质,参与根的细胞壁建成,增厚细胞壁有助于植物防御病原体感染,是植物抗逆机制的重要组成部分。Luo等[6]在磷素充足和缺磷的条件下,以6个低磷敏感品系和6个低磷抗性品系为材料,结合代谢谱和全基因组关联分析,比较玉米叶片和根系中与磷素缺乏有关的代谢途径和基因,发现类黄酮、黄酮苷、多酚、苯并萜类化合物等42种次级代谢产物与磷素胁迫反应密切相关。Xu等[36]利用两个玉米自然群体进行全基因组关联分析,在两个不同气候和土壤类型的试验地点进行鉴定,共检测出259个与低磷胁迫相关的候选基因,这些候选基因主要参与转录调控、活性氧清除、激素调节和细胞壁重塑等四个方面。Courtois等[37]利用来自热带的167份粳稻资源,对根系性状进行关联分析,共获得261个相关基因,其中27个激酶表达量较高,包括多铜氧化酶、赤霉素双加氧酶、谷胱甘肽-S转移酶及伸长因子等。未来代谢组学将致力于更好地理解植物对生物和非生物胁迫的应激反应机制,从而提高植物的抗逆性,减少因胁迫造成的经济损失。

5 基于mGWAS的多维分析在植物中的应用

将代谢组学和转录组学数据相结合,这种多个数据集相结合可以弥补单一数据类型缺少或者不可靠的缺点。目前,多维分析方法已越来越多地应用于作物代谢遗传机制的研究。Hegeman等[3]基于主成分分析法(PCA),可以最大限度地提高GWAS对表型的分析能力,类似的策略也可应用于代谢物分析,该方法有助于解析代谢物多样性的遗传基础。Huang等[38]开发了一种高性价比的GWAS方法,可以对低丰度测序数据进行高效、准确、快速的基因型鉴定,也可对代谢途径和缺失数据进行补充。他们利用大样本对水稻低覆盖测序数据从头组装,构建了一张精确的高密度基因型图谱;结合mGWAS分析共检测到32个与开花时间、10个与籽粒形成相关的关联位点,该结果表明大样本提高了GWAS的检测精度。利用多位点(multi-locus)mGWAS分析普通小麦籽粒中20种FAA,共鉴定出328个关联位点,在这些位点附近共发现15个候选基因参与FAAs的生物合成[16]。这种方法弥补了单位点(single-locus)忽略代谢标记物叠加效应的不足[11]。由此表明,多位点mGWAS分析是一种非常有应用价值的方法。

利用物种进化的线性关系研究物种之间的相似性和差异性,可以深入了解各物种复杂的代谢途径,GWAS为解析植物性状的遗传调控机制提供了方法。由于近缘物种间代谢物的结构相同或相近,利用mGWAS跨物种识别候选基因和代谢途径成为一种新的尝试。利用mGWAS在小麦、玉米、水稻等作物间通过比较连锁图谱,挖掘目标代谢物的候选基因,研究表明,在玉米通过GWAS检测到的关联位点分辨率较高,但效应值较低[12,39];而水稻中检测到的关联位点效应值较高,但分辨率较低[13,16]。Chen等[16]利用玉米和水稻高分辨率图谱和高通量SNPs,对籽粒中代谢物和表型性状进行全基因组关联分析,分别获得420和292个关联位点,共检测到123个位点在水稻和玉米中与同一代谢物相关,两个物种之间共检测到23个共同代谢特征,发现调控种子大小、粉碎习性和开花习性的基因座在两种作物间有较好的同源性,一些候选基因也存在共线性关系。该研究为植物功能基因组学和代谢组学的相互结合,特别是复杂性状的遗传解析提供了有力的支持。多维分析有利于代谢组遗传机制的深度解析,但是由于目前许多物种代谢组提供的信息有限,限制了该技术的应用。

6 展望

代谢组学是转录组学和蛋白质组学的下游,被认为是连接基因组和表型之间的桥梁。一个物种代谢组的实际大小无法同转录组或蛋白质组一样,由已知的基因组信息通过中心法则进行推测,因此,代谢组学与基因组学相结合可以获得更多有价值的信息。对代谢组学的深入研究极大地拓宽了人们对植物复杂代谢网络的认识,以及对植物生长发育和胁迫应答机制的了解。代谢组学分析有助于通过代谢网络了解基因型与代谢物间的关系。随着基因组测序技术和生物信息学的应用,植物代谢组与功能基因组学相结合,已应用到许多领域,尽管目前还存在一些局限性,但它无疑是植物生理学和作物育种学的一个重要工具。基于来自不同组织或不同条件下代谢组数据的GWAS分析表明,许多关键基因对代谢物的积累具有重要作用,还发现不同物种间同源基因调控的代谢物具有相同或相似的化学结构。然而,整合多组学数据解析植物代谢组仍然具有挑战性,因为每个独立个体的代谢网络都是错综复杂的。如何更高效地认识并区分结构相似但代谢途径不同的代谢物以及它们的生物学功能?如何探索关联代谢物或者衍生代谢物的代谢途径?这些都是mGWAS需要重点关注的问题。今后,代谢组学平台的改进为准确有效地鉴定尽可能多的代谢物(尤其次生代谢物)提供了可能,精确解释这些数据,并与其他平台快速集成,解析主要农作物代谢物的分子生化机制,深入了解作物在正常和胁迫条件下生长发育过程中的代谢途径,为提高作物产量和品质服务。

猜你喜欢

代谢物组学位点
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
阿尔茨海默病血清代谢物的核磁共振氢谱技术分析
一株红树植物内生真菌Pseudallescheria boydii L32的代谢产物*
影像组学在肾上腺肿瘤中的研究进展
东莨菪碱中毒大鼠的代谢组学
基于网络公开测序数据的K326烟草线粒体基因组RNA编辑位点的鉴定与分析
影像组学在核医学影像中的应用进展
蛋白质组学技术在胃癌研究中的应用
基因型和表现型的快速判断法
一种改进的多聚腺苷酸化位点提取方法