基因组学在苦荞研究中的应用
2018-02-24刘新宇蔡兴勇王安虎蔡光泽
刘新宇,蔡兴勇,王安虎,蔡光泽
(1.四川大学生物治疗国家重点实验室,成都 610041;2.西昌市农牧局,四川 西昌 615000;3.西昌学院,四川 西昌 615013)
苦荞麦(Fagopyrum tataricum(L.)Gaertn.),属于蓼目(Polygonales),蓼科(Polygonaceae),荞麦属(Fagopyrum),别名菠麦、乌麦、花荞等,一年生假谷物禾谷类作物。苦荞与何首乌、大黄等同属蓼科,是我国药食同源文化的典型体现[1-3]。
苦荞广泛分布于世界各地,主要集中于北半球包括中国、俄罗斯、韩国、尼泊尔、不丹、印度北部和欧洲西北等国家和地区[2]。从垂直分布看,其主要分布在400~4 400 m海拔高度的多山地区。特别是我国西南地区(四川、云南、贵州和西藏)的一些高寒、边远、干旱的山区和少数民族聚居地,苦荞是当地的主要粮食作物和经济作物。目前认为,其种植起源于亚洲东北部,是我国最古老的栽培作物之一。苦荞营养丰富,含有丰富的蛋白质、脂肪、维生素、矿物质元素,尤其富含生物活性物质——黄酮类化合物。苦荞蛋白质含量丰富,含有20种氨基酸,包括人体所必需的8种氨基酸,其中绝大多数必需氨基酸含量都高于一般粮食作物(如大米、小麦和玉米),尤其以一般植物缺乏的赖氨酸和精氨酸最为丰富;苦荞富含黄酮类物质,如芦丁、槲皮素、异槲皮素和花青素等。苦荞中含有的黄酮种类较多,但占总黄酮含量的70%~85%的是芦丁,且主要分布在叶(3%)和籽粒(0.8%~1.7%)中[3]。芦丁能够有效抑制葡萄糖苷酶和淀粉酶活性,具有预防糖尿病发生,降低血糖,调节血脂、血压的作用[3]。苦荞品种不同,其黄酮组成和含量不同。黄酮类化合物的生物合成是通过苯丙烷代谢途径,这是目前了解的最为清楚的植物次生代谢产物合成途径,其中许多关键酶已经克隆[4]。苯丙烷类代谢途径在植物界普遍存在,负责合成包括黄酮在内的木质素、香豆素、植物抗毒素和苗类等多种次生代谢产物,在植物的生长发育、形态建成、机械支持和抵抗逆境中起着重要作用。在营养素的组成和含量上,苦荞与禾谷类粮食作物(如水稻和小麦)有很好的互补作用,尤其是在蛋白质、矿物质、维生素上的互补作用;另一方面,苦荞富含具有预防心血管疾病功能的黄酮物质尤其是芦丁,这在禾谷类作物中几乎不存在或极少存在。苦荞因耐寒耐瘠等生产性能优势和富含黄酮的经济性状优势受到了人们的广泛关注。当前,苦荞作为一种富含黄酮(芦丁)功能性保健食品而受到广泛青睐,特别是国际素食主义者对苦荞芽菜则是更加追捧,使得提高芦丁等黄酮的含量成为苦荞育种的重要目标。尽管苦荞和其它植物黄酮生物合成途径基本一致,但合成途径中所涉及酶的种类、酶学特征及其表达调控机制有所不同,从而引起黄酮种类、含量和分布不同。因此,揭示苦荞黄酮代谢调控分子机制成为各国苦荞研究竞争的热点[4]。
动物、植物与微生物,伴随着人类共同组成这个地球上的生态环境,解码它们的基因组/基因是研究它们的性状和进化过程的起点。利用基因组学研究不同种群的遗传多样性及其分布,必将有助于发现新的特有基因和起源、演化、分类方面的新规律。构建苦荞麦基因组序列精细图谱,对苦荞麦新品种的开发及研究具有重要意义:基于全基因组数据构建分子系统树,利用苦荞麦作为蓼目的代表种,并结合已有的甜荞数据,确定蓼目的进化地位;探明荞麦属基因组中全基因组重复进化历史,并探讨基因组重复与物种分化的关系;结合甜荞数据,分析这些物种中的重要基因、基因家族在苦荞麦基因组中的进化,相关进化对各种荞麦特殊生物学性状的起源起到的作用;结合具体的品种特性,从比较基因组学手段研究其特殊性状或适应性产生的原因;不同含有黄酮类物质的植物,例如甜荞、金荞、甜橙、葡萄等植物黄酮合成过程中重要基因的比较研究;苦荞淀粉合成与储藏关键基因和机制,结合甜荞数据,和小麦、水稻等粮食作物相比是否有趋同进化;抗病、抗逆基因挖掘,为后续品种改良打下基础;苦荞的重要农艺学性状研究;苦荞的人工驯化历史及群体分化研究。
1 苦荞麦基因组进化分析
比较基因组分析是进行基因组数据挖掘的基础。从已完成全基因组测序的植物基因组中选取10~20个物种,与苦荞麦基因组进行比较分析,不仅可以判定苦荞的进化地位,还可以探究重要基因/基因家族的演化历史、大片段复制等过程,从而对荞麦特殊生物学性状的起源和演化提供启示。
1.1 基因家族分析
将苦荞麦注释出来的基因集序列和已经发表的基因集序列进行比对和聚类,通过同源基因家族聚类分析,构建基因家族。基于基因家族聚类的结果,可以鉴定出苦荞麦特有的基因/基因家族以及在苦荞麦基因组中发生显著扩增/收缩的基因家族,这通常会与物种特异性状相关;对基因家族进行GO/KEGG/InterPro domain功能富集分析,并对一些重要基因家族进行相关深入的分析,围绕感兴趣的重要基因家族进行深入分析,以此来解析苦荞麦食性形成、环境适应性等重要生物学问题。
1.2 系统进化分析
传统的依据形态特征推论系统发生关系具有一定的局限性,其中一个明显的弊端就是很难排除趋同进化的干扰。而此前的分子系统学研究往往只使用若干个核基因,若干线粒体基因进行进化树的构建,在数据取样上存在很强的偏倚性,并不能很好的反映物种之间进化关系。通过全基因组测序的手段,可以得到该物种完整的DNA信息,通过基因组层面的分子系统树构建,可以较好的解决数据偏倚性的问题。完成苦荞麦的全基因组测序工作后,我们可获得苦荞麦所有的基因序列。使用苦荞麦的基因集合与其它已发表近缘物种的基因组进行比较,构建直系同源基因家族,可获得大量保守的单拷贝基因或低拷贝基因。利用这些基因作为分子系统学标记进行联合分析,可以从基因组层面回答荞麦进化地位问题。
1.3 正选择分析
正选择是指将发生了有利突变,并因此提高了个体适合度的等位基因固定下来的选择作用。基因的进化过程受到了正向选择,往往反映了该物种对环境的极大适应性。基于基因家族聚类的结果,对其编码蛋白的基因计算Ka/Ks值(非同义替换率/同义替换率;用于检测基因是否受到选择作用),鉴定苦荞麦基因组中受到正选择的基因/基因家族,并对获得的正选择基因进行Gene Ontology等功能富集分析,用以解析重要成分、营养价值和抗病等重要科学问题。
1.4 全基因组复制历史分析
基因组重复是植物基因组进化的重要推动力量,因此对基因组重复历史的研究是植物基因组研究工作中的重头戏之一,几乎所有的植物基因组文章都会对此问题进行大篇幅的分析和讨论。基因组重复后,重复基因在不同群体中的分化可以驱动个体表型的分化,最终导致了物种的分化。因此,一些学者认为基因组重复可能与某些生物类群中物种多样性的产生密切相关。荞麦属植物中是否存在一次或多次类群特异性的基因组重复事件,这些事件是否与苦荞麦的物种形成及特殊性状产生是否有关联,有待进一步研究。
我们可通过鉴定苦荞麦基因组中的重复基因对,计算所有重复基因对的同义替换率(ds)或四重简并位点的颠换率(4dtv),绘制所有重复基因对ds值的分布图,根据ds或4dtv的分布图,即可推断该基因组是否在进化历史上发生过基因组重复。同时计算禾本科等植物的重复基因对ds值分布,及禾本科植物与苦荞麦之间直系同源基因(共线性区段内)的ds值分布,可进一步判断重复事件发生的时间是在禾本科物种分化之后还是与分化之前。
1.5 共线性分析
通过对苦荞麦和其近缘物种的基因组进行共线性比较,针对不同的性状也可以选择其它的基因组数据,以研究它们基因结构的差异以及基因组信息(GC,基因个数,repeat结构等)的差异。
1.6 转座子与基因组大小进化
转座子是一类可以在基因组上移动和增殖的一段不连续DNA序列,它们的长度从几百碱基对(base pair,bp)到上万bp不等。转座子与宿主基因组的关系类似于寄生虫与宿主的关系,在宿主的进化中起到了重要的作用,它的移动性和较高的突变特性为基因组提供了产生变化的巨大动力,如增加基因组的可变性,引起基因组大部分的调整和重排,是驱动基因组进化的重要推动力。此外,转座子的复制和插入基因组当中,可能会产生某些不利影响,例如影响某些功能基因表达,破坏基因读码框等,因此转座子活动在基因组中会受到严格的调控,以抑制其活性;但是,越来越多的证据表明转座子在基因组中具备一些重要的生物学作用,如部分转座子可结合转录因子从而改变基因的表达调控模式,此外大量的lncRNA(长非编码RNA)被认为是转座子来源的或受到转座子的调控等;同时,转座子的大量复制和插入,会造成基因组的显著扩张。比如水稻基因组大小约为373 Mb,短化药野生稻的基因组大小约为261 Mb,对二者基因组的比较表明,LTR转座子的差异对基因组大小的差异起到了50%以上的贡献。因而,我们依据苦荞麦基因组重复序列注释信息,鉴定不同类型转座子在基因组中所占比例,并进一步分析转座子活动历史,能够解析苦荞麦基因组扩增的机制。
2 基因组学在研究苦荞生物学问题中的应用
2.1 苦荞麦泛基因组(pan-genome)的构建
目前为止,仅有一个苦荞麦物种基因组数据发表[4-6],同时不同苦荞麦品系由于同属不同种,因而基因组差异较大,如果仅进行单一苦荞麦种基因组测序,无法满足苦荞麦基因组学研究和育种需求。近年来,越来越多的工作表明,仅依赖一个参考基因组开展相关的研究工作有很大的缺陷性。大豆的泛基因组研究工作表明,仅依赖已有的栽培大豆基因组,通过重测序手段进行变异检测,至少漏掉了基因组中1/3的变异位点,原因是重测序无法检测基因组中高变区中的SNP信息,这些高变区往往是基因组中快速进化的区域,往往受到强烈的自然选择或人工选择作用,与性状的演化关系更为密切。从种质资源的角度,不同苦荞麦品系具备许多优良性状,对苦荞麦的育种是重要的补充。通过对苦荞麦不同种的全基因组测序,能够获得苦荞麦至今为止最完整的基因集合,包括那些只在个别物种中存在的基因,这些基因与各苦荞麦种的特异性生物学性状往往密切相关,由此,能够为相关的育种研究工作提供更完善的目标基因集合。此外,获得苦荞麦各物种的全基因组序列后,通过全基因组比对的方式,可以获得最全面的变异位点信息,更完整的变异位点信息,也能够为后续的育种研究工作提供更全面的认识。
2.2 基因组结构变异检测、注释及进化差异研究
基于基因组的深层数据以及构建的pan-genome,基于组装后基因组的全基因组比对,并结合断点的测序深度分析,鉴定各样品之间存在的大尺度结构变异(SV、CNV等),结合功能注释信息分析各类结构变异对表型变异的潜在影响;结合具体性状和环境差异及全基因组范围内的变异情况,从基因家族,序列差异等全方位解析差异发生的原因及机制,如耐寒、抗病、高产、高海拔适应等。
2.3 自交不亲和机制研究
甜荞和苦荞在授粉上有着本质的区别,简单来说,苦荞自花授粉,而甜荞具有自交不亲及其异花授粉特性,因此导致其结实率低下。研究发现甜荞有同型花和异型花,同型花常见于野生种中。栽培甜荞均为异型花,包括两个类型,即长花柱和短花柱,研究也已表明自花授粉和同类型花间授粉不结实,即自交或同类型花杂交不亲和,只有异类型间授粉才能结实。植物学研究表明,在显花植物中,约有一半以上的植物涉及了自交不亲和性。目前该机制在水稻,白菜,甘蓝,油菜等作物中已有许多研究,但是苦荞麦属的研究尚未出现。苦荞和甜荞是否属于同一物种的讨论说明其分类尚不明确,其亲缘关系较近。在研究中,我们可以选取多个授粉方式不同苦荞麦属植物,探讨究竟是哪些基因的快速分化导致了两个物种的生殖分化,及何时发生了分化;我们可以通过结合之前已有的自交不亲和研究结果,在苦荞麦中进行同源搜索和比对,结合基因家族和正选择分析等,通过比较基因组学手段对其进行探讨,并结合其系统发育分析,讨论其发生时间,这有望为植物自交不亲和提供新的研究模型。
2.4 苦荞麦药用成分分析
1)同源搜索:苦荞作为一种食药两用植物,最重要的生物活性成分为黄酮,苦荞中含有的黄酮种类较多,但占总黄酮含量的70%~85%的是芦丁,且主要分布在叶(3%)和籽粒(0.8%~1.7%)中。黄酮类化合物的生物合成是通过苯丙烷代谢途径,这是目前了解的最为清楚的植物次生代谢产物合成途径,其中许多关键酶已经克隆。通过同源搜索,鉴定这些基因在苦荞麦中的同源基因。同时,从文献中搜集与黄酮类物质有关的基因,例如花青素苷合成通路相关基因,通过同源搜索鉴定这些基因在苦荞麦中的同源基因。通过比较基因组学分析,结合转录组/HPLC分析,了解这些基因在不同荞麦中(包括甜荞)的变异信息及组分变异情况,解析并深度挖掘其代谢与调控过程。
2)通过与各个荞麦物种(甜荞、苦荞、金荞等)的比较基因组学分析结果,如基因家族扩张收缩,特有序列分析等检测其存在差异的序列/基因/基因家族,结合相应的功能注释结果,初步解释其主要活性成分产生差异的问题。
3)对重要基因/调控通路的深入分析:(1)通过检索主要活性成分合成以及调控相关的基因在苦荞麦中的结构、拷贝数以及上下游调控区域的组成情况,了解成分差异的分子基础;(2)同时鉴定这些基因在其他近缘物种(甜荞、苦荞、金荞等)的分布,通过序列比对,讨论这些基因序列及上下游区域在近缘物种中是否存在显著差异,结合具体的HPLC结果或性状,从序列结构变异层面进一步探讨其活性成分合成控制机制:是否发生重复及重复后的假基因化,插入缺失等等。(3)结合这些基因的系统发育分析,了解这些基因在其他物种中的进化模式,解析重要成分调控相关基因的起源演化历程。
4)通过与其他已发表物种的全基因组多序列比对,检测SNP、INDEL、SV等全基因组变异信息,进而通过Relative SNV density分析,这里把在单一物种中发生突变而其他物种保守的区域称为SNV,SNV区域更容易发生正选择,因而这些区域富含选择性消除区域。从全基因组范围内寻找与目标性状差异相关的基因或者调控元件。
5)对荞麦属物种的全基因组数据进行深入提取和挖掘,进一步分析与重要目标性状、调控相关基因在两者之间的差异,并从全基因组序列层面(基因及结构变异)筛选与成分及含量变异有关的基因及调控元件,解释其差异的原因。
6)结合转录组数据[7-8],进一步从调控层面讨论这些变异是否导致了其基因表达活性的差别。
2.5 淀粉合成机制的趋同进化
苦荞麦不仅含有丰富的黄酮类化合物,还是一种重要的谷物型粮食作物。而目前最主要的谷物基本上为禾本科植物(小麦、玉米、水稻等)。苦荞麦和水稻等谷物在种子的淀粉积累机制上是否存在相似性,即存在趋同进化,有待进一步研究。趋同进化是指处于不同进化分支的物种,独立获得了相似的性状。趋同进化是近年来基因组学领域的高关注度问题。比如咖啡、茶树、可可三个物种在进化上关系非常远,但是都能够合成咖啡因,基因组数据分析表明咖啡因合成的一些关键基因如NMT基因在三个基因组中发生类似的序列变异,从而获得了咖啡因合成能力。
通过比较苦荞、小麦、水稻等植物中与淀粉积累有关的基因,并与其它被子植物的对应基因进行比较,可以鉴定出一些在淀粉积累中发生共有性突变的基因,这些基因有很大的可能性是在进化历史中发生了趋同进化。分析苦荞淀粉积累相关基因可以为趋同进化提供新的范例。
2.6 苦荞的驯化历史及群体分化研究
苦荞分布广泛,在中国有长期的驯化历史。苦荞是在什么区域被驯化的,只有一个驯化中心还是有多个独立的驯化中心?驯化过程中,苦荞哪些基因受到了人工选择的作用?在最近几十年的品种选育过程中,又有哪些基因进一步受到了人工选择的作用?苦荞的性状变异大,品种很多,不同地理区域的苦荞品种均具有自身的特殊性,决定相关性状的基因是什么?通过不同地区、不同品种的苦荞进行全基因组重测序,能够对以上一系列问题提供启示,为苦荞的驯化起源、地方环境适应性及生物学特征研究奠定理论基础。
2.6.1 驯化中心研究
作物的驯化历程研究是作物基础研究领域最受关注的问题之一,例如菜豆、非洲栽培稻的驯化中心研究均在2014年发表在Nature Genetics上,而水稻的驯化中心研究在近年多次登上顶级杂志。利用苦荞的重测序数据,通过聚类分析,并结合其地理分布情况,我们能够初步判定苦荞的起源中心在哪个地理区域,为作物的驯化研究提供新的范例。在2014年非洲栽培稻基因组工作中,利用大量的重测序数据,研究人员首先通过聚类分析确定非洲栽培稻来自于OB-V这个分支的野生稻,之后通过野生群体的地理分布研究,确定了非洲栽培稻的驯化中心在非洲西部。
2.6.2 人工选择基因鉴定
作物的人工选择一般包括两个阶段,第一阶段是漫长的无明显目的性的人工选择,第二阶段是高效的商业品种选育阶段,两个阶段中人工选择作用的基因类型是否一致,目前争议较大,不同作物中的研究有不同的结论,在苦荞中对该问题展开研究,具有重要的科学意义,对苦荞乃至所有作物的驯化历史研究都具有重要帮助。在取样时涵盖野生种、地方品种、新育成品种,之后进行全面的分组重测序分析,我们可以对相关问题展开深入分析。
2.6.3 功能基因挖掘揭示性状遗传基础及环境适应性
通过群体选择分析,找出不同群体中受选择的区段,判断出到底是那些区域在驯化或育种过程受到了选择,结合不同地域群体的表型数据信息,挖掘与表型相关的重要性状基因。结合苦荞生物特征,研究其表型相适宜的分子机制。以苦荞耐寒为例,将苦荞耐寒的样本分为一类,以不耐寒的样本分为另一类,对这两类进行选择性清除分析,找出其中具有显著差异的位点。后续将对这些位点进行功能注释,找出与耐寒有关的候选基因。在取样齐全,且性状数据完备的条件下,其它各类性状包括黄酮含量、产量等均可采取类似方式进行研究。
2.7 抗病/抗逆基因挖掘
作物的产量经常会因受到各种各样的生物和非生物胁迫而造成减产。为了适应不同的生存环境,植物在进化过程中产生了一系列的应答机制,包括分子信号、转录因子调节及抗性基因家族扩张等。而苦荞麦作为一种重要的药食同源作物,其生长也受到了各种外部条件因素的影响。因此对于苦荞麦的抗病/抗逆基因的挖掘十分必要。通过基因组测序鉴定重要的抗病基因,可为未来的育种工作提供基础。在完成苦荞麦的全基因组测序之后,可以结合现有的数据资源和苦荞麦基因组数据,建立苦荞麦抗性基因资源数据库,为后续的抗病/抗逆育种等提供基础。
3 展望
苦荞具有“降血糖、降血压、降血脂”等功能[3]。因不含谷蛋白,是西方高发病乳糜泻病人群主食很好的替代品[9-10],具有较高的基础研究和应用开发价值。以往苦荞的研究主要集中在营养价值评价、生理特性研究、药用保健功能[2,11]分析和产品加工等方面,近年来不断发展和完善的诸如基因组测序等生物技术为苦荞的遗传学和生物学活性分子生物学基础研究开辟了新的途径,提供了新的手段。应用基因组学研究方法不仅可以解析苦荞麦物种的遗传学基础,还可以为选育高品质的苦荞新品种提供理论基础,解决诸如苦荞因“苦味”导致的口感差、无谷蛋白导致的加工性能不好、提高苦荞有效活性成份等诸多与苦荞基础生物学相关的问题。