大豆异黄酮生物合成与调控的分子机制研究进展
2021-06-01潘相文王飞飞刘长锴李彦生张秋英
陈 衡,潘相文,王飞飞,刘长锴,王 雪,李彦生,张秋英
(1.中国科学院 东北地理与农业生态研究所 大豆分子设计育种重点实验室,黑龙江 哈尔滨150081;2.中国科学院 种子创新研究院,北京 100101;3.中国科学院大学,北京 100049)
0 引 言
大豆(Glycinemax(L.)Merrill),古称菽,是双子叶植物纲、豆科、大豆属的一年生草本。原产于我国,已有5000年的栽培历史,是我国和世界最重要的几种栽培作物之一。
大豆不仅富含蛋白质和脂肪酸,还含有异黄酮及维生素E等多种营养成分。其中,大豆异黄酮(Soy isoflavone,SI)因具有降血压、降低血液胆固醇、改善人脑的认知能力和缓解更年期综合症等功能,而被称为植物雌激素[1]。可以说,大豆异黄酮与蛋白质、维生素E一样,是人类最重要的营养物质。
20世纪40年代,许多澳洲西部的母羊在食用了富含异黄酮类物质的三叶草后出现了一系列生殖问题,这一现象引起了研究者Bennetts等[2]的兴趣,他研究报道称大豆异黄酮具有植物雌激素的作用,从而引起科学界的关注。之后,研究者们也发现大豆异黄酮对猫科动物、啮齿类动物的生殖也有相似的影响,由此,“大豆异黄酮具有植物雌激素的作用”的观点开始被广泛接受。到了21世纪初,Lamartiniere等[3]研究报道了“早期食用大豆异黄酮可有效降低成年动物乳腺癌发病率”,这堪称是该领域一个里程碑式的发现。
随着研究的进一步深入,大豆异黄酮的理化性质被解析出来。研究表明,大豆异黄酮的密度为1.239 g·cm-3,沸点均在367 ℃(760 mmHg)左右。大豆包含4大类异黄酮,分别是苷元(Aglycones)、糖苷(Glycosides)、乙酰糖苷(Acetylglycosides)和丙二酰糖苷(Malonylglycosides)[2];共有12种,分别为:大豆黄素(Daidzein,DAI),染料木素(Genistein,GEN),黄豆黄素(Glycitein,GLY), 大豆黄素苷元(Daidzin,DAI-G),染料木苷(Genistin,GEN-G),黄豆黄素苷元(Glycitin,GLY-G),乙酰大豆黄素苷元(Acetyldaidzin,DAI-GA),乙酰染料木苷(Acetylgenistin,GEN-GA),乙酰黄豆黄素苷元(Acetylglycitin,GLY-GA),丙二酰大豆黄素苷元(Malonyldaidzin,DAI-GM),丙二酰染料木苷(Malonylgenistin,GEN-GM)以及丙二酰黄豆黄素苷元(Malonylglycitin,GLY-GM)[3-5]。
研究表明,丙二酰糖苷及其衍生物(DAI-GM、GEN-GM、GLY-GM)是大豆中异黄酮最主要的存在形式,占总异黄酮(Total isoflavone,TIF)的82.5%;糖苷类(DAI-G、GLY-G、GEN-G)、苷元类(DAI、GEN、GLY)和乙酰糖苷类(DAI-GA、GEN-GA、GLY-GA)的含量分别占TIF的16.48%,0.88%和0.81%[5-8]。
已有研究证实,植物苯丙氨酸代谢途径是大豆异黄酮合成的最主要途径。植物中,一切含苯丙烷骨架的物质都是由苯丙氨酸代谢途径直接或间接合成的[9-10]。该代谢过程可产生黄酮类(Flavone)和木质素(Lignin)等重要的次生代谢产物。在大豆中,大豆黄素、黄豆黄素和染料木素等3种苷元型大豆异黄酮由植物苯丙氨酸途径直接合成的,其他类型的大豆异黄酮,则是由该代谢产物运输至高尔基体后,被葡糖基化或丙二酰葡糖基化而合成的[11]。
苯丙氨酸途径的最初底物为苯丙氨酸(Phenylalanine,Phe),它在苯丙氨酸裂解酶(Phenylalanine ammonia-lyase,PAL)作用下生成肉桂酸(Cinnamate),再经肉桂酸-4-羟化酶(Cinnamic acid 4-hydrocylase,C4H)、4-香豆酰CoA连接酶(4- Coumarate:CoA ligase,4CL)催化生成香豆酰CoA。此时,部分香豆酰CoA经查尔酮合酶(Chalcone synthase,CHS)和查尔酮还原酶(Chalcone reductase,CHR)催化后生成异甘草素(Isoliquiritigenin)。异甘草素在查尔酮异构酶(Chalcone isomerase,CHI)催化下异构化,生成甘草素(Liquiritigenin)后可生成大豆黄素;异甘草素亦可经一系列反应后可生成黄豆黄素。另一部分香豆酰CoA被查尔酮合酶催化后可生成柚皮素(Naringenin),再经异黄酮合酶(Isoflavone synthase,IFS)可生成染料木素[9,12-14]。
本文评述了大豆异黄酮合成代谢过程中的相关酶,重点综述了影响异黄酮含量的QTL位点,异黄酮的生物合成途径中的多种酶系基因,以及调控该途径中相关酶系基因表达的转录因子和相关基因的研究进展,以期为大豆异黄酮的合成分子机制研究,及高异黄酮大豆品系选育等提供理论参考。
1 影响大豆异黄酮含量的QTL位点
一般认为控制大豆异黄酮含量的基因位于数量性状基因座(Quantitative rrait locus,QTL)。母体遗传效应(Maternal genetic effect)是限制大豆异黄酮含量的最主要遗传因素。胚效应(Embryogenetic effect)对大豆异黄酮含量的影响也十分显著,而胞质效应(Cytoplasmic effect)对其影响不甚明显。由于现存的大豆品种的生长环境、遗传信息均有较大差异,所以已知的大豆异黄酮及其组分含量QTL无法形成稳定表现型。有关大豆异黄酮的QTL部分工作,具体整理在表1中[15-21]。
表1 大豆异黄酮的相关数量性状基因座Table 1 The quantitative trait locus of SI
QTL定位时,大多采用构建重组自交系(Recombinant inbred lines,RIL)的方式,其构建群体所需的时间比构建近等基因系(Near-isogenic line,NIL)和染色体片段代换系(Chromosome segment substitution lines,CSSLs)而言更短,且定位的精确度较F2家系、回交群体和双单倍体群体(Double haploid,DH)更准确。而遗传图谱构建时,多采用测序后建立分子标记的方式进行构建。早期测序成本相对较高,之后出现了SLAF-Seq技术使得图谱构建的门槛显著降低。随着高通量测序技术的发展,目前,重测序的成本已经大幅降低,因此测序结果最完整、最精确的重测序成为了遗传图谱构建时的第一选择。早期的分子标记技术,主要是限制性内切酶片段长度多态标记(Restriction fragment length polymorphism,RFLP)和简单重复序列标记(Simple sequence repeat,SSR)等标记;如今,单核苷酸多态性标记(Single nucleotide polymorphism,SNP)凭借其密度高、分布广泛及遗传稳定等诸多优点而最受研究者的青睐。而随着测序和分子标记技术的快速发展,全基因组关联分析(Genome-wide association studies,GWAS)在大豆研究中的应用也逐渐增多,这种用于连锁作图、揭示表型性状与基因型间内在关系的高效方法,也开始在QTL的定位中逐渐兴起,并取代了连锁分析(Linkage analysis)[22-23]。
大豆的异黄酮含量属于典型的数量性状,且存在至少10个主效QTL位点。而且,由于品种之间差异较大,定位的位点也存在较大差异。因此,研究不同品种影响大豆异黄酮含量的QTL定位工作仍具有较大意义。而且,不同品种之间共有的QTL以及特有的QTL也值得研究。此外,QTL定位区间的精细化,以及位点对应基因的探究与验证等研究也是很重要的工作。相信,随着生物信息学的发展,这些工作将会越来越完善。
2 异黄酮合成途径中的相关酶及基因
异黄酮合成过程中,主要有苯丙氨酸途径和类黄酮合成途径两个阶段,并受到多个酶的催化,因此,该过程受到多个基因的调控。
2.1 异黄酮合成途径中的相关酶
2.1.1 苯丙氨酸代谢途径的关键酶。PALs作为苯丙氨酸代谢中的重要酶系,普遍存在于各种植物和真菌中[24]。Koukol和Conn等[24]解析了苯丙氨酸生成肉桂酸和NH3的脱氨反应,并分离出一种脱氨酶,能够催化L-苯丙氨酸发生脱氨反应。Young等[25]认为该酶受酪氨酸(Tyrosine,Tyr)的抑制。现今,PAL酶己从许多植物组织中纯化和分离,其分子量约为 240~330 kD,是由4个相同亚基构成的四聚体[10]。
C4H酶是苯丙氨酸代谢途径的关键酶之一,当体系中存在NADPH时,该酶可催化反式肉桂酸的氧化过程,并生成对-香豆酸。C4H隶属于细胞色素P450-依赖型的单加氧酶(Cytochrome P450-dependent monooxygenase)CYP73家族[26],是植物中较早发现并被研究的一种典型P450单加氧酶[26-27]。P450s是一种膜结合蛋白,广泛存在于真核生物和原核生物中。而植物中,P450s家族的成员参与了许多次生代谢中的氧化过程,间接影响了植物的抗逆及抗病等功能。除C4H外,IFS和异黄酮 2′-羟化酶(Isoflavone 2′-hydroxylase,I2′H)也属于P450s家族,但C4H的存在较二者更加广泛[28]。可以说,P450s是植物中非常重要的一类酶,而C4H则是重中之重。
4CL是木质素生物合成的关键酶之一,它位于苯丙氨酸途径与木质素特异合成途径的转折点上,催化肉桂酸及其羟基或甲氧基衍生物生成相应辅酶A酯的过程[29-30]。4CLs主要分成2类,I类包括:拟南芥At4CL1、At4CL2,杂种杨Ptd4CL1、Ptd4CL2和Pt4CL1,其主要伴随木质素以及其他苯丙烷类衍生物的生物合成;II类主要包括:拟南芥At4CL3及杨树Pt4CL2,其主要伴随着类黄酮的生物合成。大豆中,II类所占比例较高[30]。
2.1.2 类黄酮代谢途径的关键酶。CHS是首个被发现的Ⅲ型聚酮合酶(Polyketide synthase,PKS),是类黄酮合成途径的限速酶,催化3分子丙二酰-CoA和1分子对香豆酰-CoA结合形成查尔酮的过程[31]。查尔酮作为类黄酮、异黄酮及花青素等重要次生代谢物生物合成途径的中间产物[32],影响着诸多下游代谢途径的进行,也对许多植物的抗逆及抗病等性状有着重要影响。CHS蛋白是由两个40~50 kDa亚基构成的同源二聚体,单个亚基仍具有催化活性,二者之间起协同作用且高度保守。CHS蛋白具有典型的αβαβα的结构,这一结构也是β-酮乙基合酶(β-Ketoacyl synthase)的典型特征[31-33]。
CHR是植物中参与黄酮和异黄酮代谢的重要酶,它与CHS共同作用。Welle等[34]从大豆栽培品种Harosoy63中首次分离出CHR,并证明其与查尔酮合成酶协同作用催化香豆-CoA生成异甘草素。CHR是一个由318个氨基酸组成的蛋白质,分子量在35 kDa左右;其二维结构包含无规卷曲(45.28%),α-螺旋(45.28%)和延长链(10.38%);三维结构显示,CHR包含一个AKR结构域(Aldo-ket-red domain),因而具有醛酮还原酶活性[35]。
CHI是一种24~29 kDa的蛋白质,存在组织特异性。在大豆、葡萄及玉米等许多植物中都发现了该酶,但CHI保守性较低,氨基酸序列同源性仅为50%左右。CHI在植物中分为Ⅰ型和Ⅱ型,在豆科植物中,Ⅰ型和Ⅱ型CHI同时存在;而在其他植物中,几乎只有Ⅰ型CHI;在真菌中,也存在CHI酶系,一般将其定义为第Ⅲ类。CHI酶活性的高低直接影响黄酮类化合物的含量,在番茄和牵牛花中过表达CHI基因,黄酮类化合物产量比对照分别提高了48倍和79倍[36-37]。
IFS是合成大豆异黄酮最重要的酶。IFS在NADPH和O2的参与下,可催化底物的芳香基团重排过程。虽然该过程目前还未被完全解析,但可以肯定的是IFS可以直接催化染料木素和大豆黄素的合成反应,且该酶的底物柚皮素和甘草素几乎是所有大豆异黄酮的前体物质。与C4H一样,IFS也是P450s的一种,但属于CYP93C家族[38-39]。虽然IFS的分布较C4H而言并不广泛,但IFS因其直接催化异黄酮的生成,而在异黄酮的合成过程中具有无可比拟的重要性。
综上所述,大豆异黄酮的合成包含苯丙氨酸途径和类黄酮合成途径两个阶段,受到多个酶的影响。在苯丙氨酸途径中,PAL酶为限速酶,C4H酶和4CL酶是影响异黄酮前体物质合成的关键酶;而在类黄酮途径中,CHS酶、CHR酶、CHI酶与大豆异黄酮的合成密切相关,IFS酶则直接参与异黄酮的合成。
有关上述酶系及代谢途径的研究仍存在一些挑战。例如,针对“PALs作为苯丙氨酸途径限速酶”的观点,如今也有研究,通过光照和遮光处理大豆后,发现光照组的PAL基因的mRNA和酶活性均有增加,但在异黄酮等下游次级代谢产物的积累量中却没有体现,这表明可能有其他的限速酶参与该过程[10]。同样,一些发现也激发了人们的思考:既然IFS可以直接参与合成异黄酮过程,那么可否通过调控IFS基因的表达从而操纵整个异黄酮的合成代谢过程,进而改善豆科作物的农艺性状与营养价值?进一步而言,能否通过调节IFS以及其他关联基因的表达量,以改善豆科作物的抗逆境能力?同时,IFS也可在其他植物中(如玉米、拟南芥等)表达并生成异黄酮,因此在非豆科植物中的异黄酮分子(模块)设计育种也是一个非常有前景的领域。
2.2 调控大豆异黄酮合成的相关基因
酶系的合成受相关酶系基因的调控,植物中大豆异黄酮的合成受到多个基因影响的观点已被人认可。控制大豆异黄酮合成的基因中,最重要的是异黄酮合酶基因(IFS),它直接影响大豆黄素和染料木素的合成;其次,调控类黄酮途径的CHS、CHR和CHI等3个基因,对异黄酮的合成也有很大影响;此外,PAL、C4H、4CL等3个调控植物苯丙氨酸代谢的基因,也会影响大豆异黄酮的合成。
2.2.1 直接影响大豆异黄酮合成的基因。IFS基因的产物,直接催化大豆黄素和染料木素的合成反应。该基因主要存在于豆类中,基因拷贝数在1~3之间,编码区含有1个内含子(约135~218 bp长),cDNA序列高度保守,在400~600 bp和80~120 bp区段完全相同,由cDNA推导的蛋白氨基酸序列同源性在92%~97%之间。Subramanian等[40]分析了大豆IFS的启动子结构,发现IFS启动子的TATA box和CAAT box在-125 bp和-264 bp处存在抑制子(Repressor),而在-537处和-887处存在增强子(Enhancer)。IFS启动子受UV、水杨酸、茉莉酸甲醋和固氮菌的诱导。大豆中的IFS基因有两种,分别命名为IFS1和IFS2,二者高度同源,但表达上存在组织特异性。IFS1含有一个218 bp的内含子,主要在大豆的根系中表达;IFS2含有一个135 bp的内含子,主要在豆荚和胚芽中表达[40-45]。目前,有关IFS的研究已经比较深入,且存在许多直接证据表明,IFS与异黄酮的合成与含量密切相关,例如,Jung等[14]在模式植物拟南芥(非豆科植物且不生成异黄酮)中表达IFS基因并发现染料木素的生成;Sohn等[46]对水稻进行IFS基因的转化实验,结果表明水稻种子中染料木素含量最高可达103 μg·g-1。
2.2.2 类黄酮代谢途径中的相关基因。Sommer等[47]于1988年获得CHS基因的序列,目前已获得超过2 700个编码CHS的基因序列,广泛存在于在拟南芥(同源基因为tt4、lap5、lap6等)[48-49]、水稻(同源基因为LOC4334901)[50]和大豆中。CHS基因一般由2个外显子和一个内含子构成,内含子插入在同一个半胱氨酸位点密码子的前2位碱基之间。其同源基因的保守性较高,不同种类植物之间的氨基酸同源性一般在80%以上。Anguraj等[51]在全基因组范围内定位了21个CHS位点,发现CHS基因共有14种,即CHS1~14,其中,CHS1主要在绿叶中表达,CHS2主要在子叶中表达,种皮中主要表达的是CHS7和CHS8。CHS基因表达具有组织特异性和时间特异性,且受温度、光照及营养元素等条件影响[47,51-56]。并且,也正是因为CHS这种表达的差异,大多数植物具有多拷贝的CHS序列[31]。Dhaubhadel等[57]利用cDNA芯片,研究大豆胚胎发育过程中CHS7、CHS8、IFS及PAL等一些与异黄酮合成相关基因的表达,在授粉后第70天呈现出较高的水平,这与异黄酮在胚胎中开始积累的时间是一致的,说明上述基因对大豆种子的异黄酮积累有着重大影响;且该研究还通过比较RCAT(高异黄酮品种)与Harovinton(低异黄酮品种)中CHS7、CHS8表达量的差异,发现RCAT与Harovinton的异黄酮含量差异很大可能是因为CHS7、CHS8在种子发育后期表达量差异引起的[57],这再次佐证了这一观点。
Li等[58]在大豆中首次分离出GmCHR基因。在豆科植物中,CHR基因也是以小基因家族及多拷贝形式存在。他们以大豆为材料,研究发现,CHR基因在大豆的各个部位均有表达,而且其基因的表达量在花中的含量最高。而紫花苜蓿被克隆出3个CHR家族的基因,在根部中表达较多。这说明CHR基因的表达存在物种、器官和组织的差异性[58-60]。吴楠等[61]通过RNAi抑制济农28中的CHR1的表达,发现大豆苷元等异黄酮前体物质的下降了38.7%,这为CHR影响异黄酮的合成及含量提供了有力证据。
CHI基因的序列由Mehdy等[62]从法国豌豆中首次获得,之后,陆续从菜豆及玉米等多种植物中分离出CHI的同源基因,现已发现超过1 300条CHI同源基因。如前文所述,CHI酶分为Ⅰ型、Ⅱ型以及Ⅲ型(存在于真菌中),同样CHI基因家族成员也分为Ⅰ型、Ⅱ型以及Ⅲ型。CHI基因家族间的序列同源性较低,cDNA的同源性一般在42%~65%之间[62-65]。
2.2.3 苯丙氨酸途径中的相关基因。PAL基因序列已经在大豆、拟南芥和水稻等多种植物中被解析,它由一个小基因编码。在菜豆中,PAL的基因有3个,分别命名为PAL1、PAL2和PAL3。这些基因的表达存在组织特异性,在叶片中,仅PAL1表达;在根系中PAL1、PAL2和PAL3均可大量表达;在花瓣中PAL2可大量表达,PAL1表达量很少,PAL3几乎不表达。PAL受环境影响较大,是一种典型的诱导酶,受光质(光的波长)、温度(低温)和机械损伤等诱导,也有研究表明生长素、乙烯、激动素和赤霉素等植物激素也可诱导PALs基因表达[66-69]。
如前文所述,C4H酶是一种典型的P450单加氧酶,而P450蛋白家族是一种常见于动物肝脏细胞膜上的血红素蛋白。目前,约20种C4H基因已被解析。与PAL基因类似,它由一个小基因编码,在不同植物中拷贝数也不尽相同。这些基因启动子大约1.1 kb左右,序列具有较高的同源性,但也有例外,例如,来自玉米和法国菜豆的两个序列的同源性就相对较低。C4H的表达一般与该部位的木质化程度相关,如在欧芹中,C4H在维管束发达的花梗中表达丰富,在幼叶和老叶中不表达。在一项以拟南芥为对象的研究中发现,当细胞正在发生木质化时,C4H基因表达达到峰值。此外,C4H还受机械损伤及真菌感染等外界环境的影响,这点与PAL类似[70-72]。
植物中,4CL基因以小的基因家族及多拷贝的形式存在,具有细胞、组织和器官特异性。该基因的表达受到发育的调控和环境因子的影响,这些方面与PAL、C4H等酶系的基因别无二致。但由于4CL催化的反应位于苯丙氨酸代谢途径的分支处,所以它的表达与PAL、C4H又有不同。Hu等[73]在研究关于美洲山杨4CL酶时发现,该植物中存在两种4CL基因(Pt4CL1和Pt4CL2),它们分别参与不同的代谢过程,二者差异表达可以调控不同的苯丙烷类衍生物的生物合成。其中,Pt4CL1主要参与植物苯丙氨酸代谢途径中木质素生物合成这一分支,在正在发育的木质部组织中表达量较高;而Pt4CL2主要参与该途径中类黄酮的生物合成分支途径(大豆异黄酮的合成便处于这一分支),因此在表皮细胞中含量较高[73-76]。
2.2.4 影响大豆异黄酮含量的其它酶系基因。除了直接催化大豆异黄酮及其前体物质合成的酶系外,有些酶还可以通过抑制苯丙氨酸途径的其他分支,使得代谢反应更倾向于大豆异黄酮合成的方向行进。例如,黄烷酮-3-羟化酶(Flavanone 3-hydroxylase,F3H)对大豆异黄酮合成的影响就有相关报道。F3H虽然不催化大豆异黄酮的合成途径中的任何反应,但它的活性会影响苯丙氨酸途径中,柚皮素生成二氢黄酮醇(Dihydroflavonol)的分支途径,影响柚皮素的含量,进而影响柚皮素生成GEN这一分支途径,最终导致TIF变化。Yu等[77]报道了大豆中的玉米同源基因C1/R的表达,再结合F3H阻断花青素的分支途径(The anthocyanin branch pathway),导致TIF水平增加。
此外,一些编码蛋白激酶的基因对异黄酮含量也有较大影响。Wu等[21]以200个大豆品种和150个重组自交系为基础,通过全基因组关联分析和连锁定位后发现,qISO8-1号染色体上存在一个主基因座。qISO8-1在BC2F5群体中精细定位于99.5千碱基区域,两侧分别为SSR_08_1651和SSR_08_1656。qISO8-1的致病基因为编码丝裂原活化蛋白激酶的GmMPK1,其中两个天然GmMPK1多态性与异黄酮含量显著相关[21]。不仅如此,这项研究还发现,过表达GmMPK1后,大豆毛状根中异黄酮浓度升高[21]。
综上所述,大豆异黄酮的合成受多个基因的调控,其中,IFS是影响异黄酮合成最主要的基因;而CHS、CHR和CHI等3个基因的影响也十分巨大;PAL、C4H、4CL等基因通过调控植物苯丙氨酸代谢的基因来影响大豆异黄酮的合成。此外,还有一些基因,如F3H,通过抑制苯丙氨酸途径的其他分支来间接影响异黄酮的合成。这些基因都已经被克隆出来,功能也被解析清楚。但该领域中,仍有几点值得关注,如苯丙氨酸途径中各调控基因在不同品种大豆中表达量的差异,因为该代谢途径及其的分支途径对大豆的生长发育过程有很大影响,并涉及到包括抗虫、抗病及抗倒伏等诸多农艺性状,也和异黄酮含量及花青素含量等性状密切相关。因此,可以通过分析各基因在不同地方品种(系)中表达量的差异,结合该品种的特点、种植地的环境条件等因素进行分析,进而为地方品种的分子设计育种提供参考。此外,同源基因的深入挖掘是另一个重要的研究方向,这些基因在大多数植物中都存在对应的同源基因,通过综合比较基因间序列的差异性,可以为物种间的亲缘关系比较提供一定的参考。PAL、C4H、4CL等编码异黄酮合成途径上游酶系的基因在大豆中研究相对较少,在模式植物拟南芥中研究相对较多,这些基因在非模式植物中特殊功能的研究日后应有较大的发展。同样,随着测序技术和代谢组学的进一步发展,非模式植物的特殊代谢通路也是一个很有发展前景的领域。
3 影响大豆异黄酮含量的转录因子及相关基因
近期,一些转录因子对大豆异黄酮合成的影响也颇受研究者的关注。如前文所述的C1/R就是典型的编码转录因子的基因。大豆种子中的这2个转录因子,可以激活植物苯基丙酸合成途径相关的基因,从而引起染料木素的减少和大豆苷的增多,而TIF则少量增多[77]。一般认为,参与植物苯丙氨酸代谢途径调控的转录因子,主要有MYB类蛋白和bHLH类蛋白。
3.1 MYB转录因子及其相关基因
Klempnauer等[78]首次将来自髓细胞瘤病毒(Avian myeloblastosis virus)中一个癌基因(即V-MYB)和它在细胞中的同源基因(即C-MYB)成功克隆;之后,MYB的同源基因又相继在脊椎动物、果蝇(Drosophila melanogaster)和玉米中被发现,如上文提及的C1基因就是MYB基因家族;Biedenkapp等[79]研究结果显示,蛋白质V-MYB的DNA结合结构域(DNA-binding domain)有一段非常保守的氨基末端(N末端),这表明MYB/DNA互作是MYB蛋白的主要功能。此外,他们还发现了V-MYB可以特异性识别5′-AACGG-3′和5′-AACTG-3′序列(现一般认为MYB蛋白结合5′-AACNG-3′序列),且这段序列在生物中十分保守;并且,与已发现的DNA结合蛋白HLH和Zinc-Finger不同,MYB蛋白的DNA结构域位于N末端,这表明MYB又是一种新类型的DNA结合蛋白[80-83]。MYB蛋白包含1~4个R结构域,而每个R结构域包含1个HTH(Helix-turn-helix)结构以及1个作为疏水核心(Hydrophobic core)的色氨酸残基(Tryptophan residues),HTH结构一般参与DNA合成过程,而疏水核心主要功能为保持HTH结构的稳定[84-85]。
根据R结构域数目,MYB蛋白被分为4类,1R-MYB(含1个R结构域)主要功能为稳定染色体结构,是一类重要的端粒结合蛋白;含有3个和4个R结构域的MYB蛋白分别被称为R1R2R3-MYB和4R-MYB,前者在植物和真菌中发现,而后者只在拟南芥、杨树等少数植物中存在,且研究都不深入;含2个R结构域的MYB蛋白称为R2R3-MYB,是植物细胞中含量最丰富、应用最广泛的MYB蛋白,主要参与激素应答、细胞分化、抗病抗虫和环境胁迫等过程,它们也是植物苯丙氨酸途径中最重要的转录因子之一[85-88]。
MYB转录因子通过调节植物苯丙氨酸代谢途径中的各个酶基因的转录水平,来影响代谢过程行进的方向和各次级代谢产物的含量。例如,大豆中的GmMYB12B12(MYB同源基因)就是典型的CHI、CHS、IFS正调控基因,玉米中的C1基因就是F3H的负调控基因。由此确保植物在不同时期、不同环境、不同生理状态下稳定生长和发育。Pei等[19]利用大豆种质LHD2和NHZ构建的群体,定位与大豆异黄酮含量相关的24个QTL中,有13个编码MYB转录因子的基因座,这表明许多MYB转录因子对异黄酮含量有着重要的影响。因此,我们也可以在基因水平增加或者减少一些转录因子的拷贝数,从而达到增加目的产物的效果。
在大豆中,MYB的同源基因被命名GmMYBs,如GmMYB12d、GmMYB12a和GmMYB12B2等。Du等[87]定位了大约700个MYB相关的DNA序列,经过筛选、比对和分析后,得到了2个4R-MYB蛋白、6个R1R2R3-MYB蛋白和244个R2R3-MYB蛋白的基因序列。此外,还有26个与R2R3-MYB相关的基因序列,但是它们所编码的蛋白质在N末端都不完整;同时,基因Glyma09g37340虽然拥有MYB基序和完整的开放阅读框(Open reading frame,ORF),但是置信区间较低,因此被排除在MYB基因家族之外。这244种R2R3-MYB的5′-非翻译区(5′-Untranslated Regions,5′-UTR)非常短,与3′-UTR一样保守性较低,而它们的DNA 结合结构域的保守性却非常高[87]。
除此之外,Du等[87]还发现大豆中有10种R2R3-MYB的mRNA前体(Precursor mRNA,pre-mRNA)存在自我剪接(Alternative splicing,AS)现象,这会造成一段pre-mRNA发生序列的插入和删除,从而生成多种不同的mRNA,进而得到多种不同的GmMYBs蛋白,造成GmMYBs的类型发生改变,如GmMYB082的一个189 bp的可变启动子位点(Alternative promoter site)变异导致了移码(Frame shift),将一个典型的R2R3-MYB转变为信号重复型MYB(Signal-repeat MYB)。
许多MYB基因的功能也被鉴定出来,如C1亚家族(如GmMYB096、GmMYB080等7个)包含了构成GmMYBs蛋白C末端(C-terminal)的2个基序[88-89];AtMYB12(拟南芥中的MYB基因)会激活植物苯丙氨酸途径中CHS和F3H的表达,并对CHI的表达有一定促进作用[88];前文所述的玉米中C1基因,及其同源基因PcMYB1(欧芹中的MYB基因)和AtMYB111可以激活CHS的表达[88,90-91]。MYB家族中除了有转录的激活蛋白(Activator),同样也存在阻遏蛋白(Repressor)。AtMYB4通过抑制C4H的表达,来提高芥子酸酯(一类具有紫外吸收作用的羟基肉桂酸衍生物)的积累量[91];FaMYB1(草莓中的MYB基因)可以抑制烟草中花青素和黄酮的生成[92]。Yi等[93]和Li等[94]报道了GmMYB12B12通过调控大豆中CHS8基因的表达来影响大豆异黄酮的生成;Yi等[95]通过RNAi(RNA interference)抑制GmMYB176(一种R1-MYB基因)表达,影响了大豆根系细胞中的CHS的表达,从而使得大豆异黄酮含量增加,证明了GmMYB176可调控CHS的表达。
3.2 bHLH转录因子及其相关基因
Murre等[96]以小鼠为材料,报道了2段cDNA序列(E12和E47),它们及其同源序列可以合成1种具有两亲活性(Amphipathic activity)的蛋白质,该蛋白质由2个螺旋结构(Helix)通过1个环状结构(Loop)相连组成(即螺旋-环-螺旋,Helix-loop-helix,HLH),此蛋白具有二聚化(Dimerization)和DNA结合两种功能。之后,越来越多的bHLH蛋白及相关基因在线虫、果蝇、小鼠和人类中被分离出来。大多bHLH蛋白与序列5′-CANNTG-3′(E-box)相结合,有少部分这类转录因子在bHLH基序后还有一个亮氨酸拉链(Leucine zipper,LZ)。Atchley等[97]通过对242条bHLH蛋白序列的系统发生分析,提出了bHLH蛋白的自然分类法(Natural classification),并将bHLH按照结合位点、是否含有亮氨酸拉链以及其他基序氨基酸构成的不同分成了5个家族,这表明bHLH蛋白家族可能起源不是单一的[98],又对bHLH蛋白进一步解构,发现bHLH包含了19个保守的氨基酸残基:5个氨基酸残基存在于碱性序列中,5个氨基酸残基存在于第一个α-Helix中,1个氨基酸残基存在于Loop中,8个氨基酸残基存在于第一个α-Helix中。
bHLH蛋白具有一段非常保守的结构域,可以同时结合DNA,并参与蛋白质互作。这些功能主要通过几个基序实现,其中一个是主要由碱性氨基酸残基构成的基序,这保证了bHLH蛋白可以特异结合E-BOX;另一个基序是主要由疏水残基构成,这保证了bHLH蛋白可以与蛋白质互作并构成二聚体[97,99]。
已发现的bHLH转录因子主要有两种功能:DNA结合和二聚化[96]。其DNA结合功能取决于bHLH的碱性氨基酸序列,因此在氨基酸序列的前17位中是否富含碱性氨基酸残基决定了这个蛋白是DNA结合的bHLHs(DNA binding bHLHs),还是非DNA结合的bHLHs(non-DNA binding bHLHs)。在拟南芥中,DNA结合的bHLHs的氨基酸序列前17位,平均含有6个碱性氨基酸残基,而非DNA结合的bHLHs则平均含有3.8个。DNA结合的bHLHs又可根据其结合位点的不同,分为E-Box结合型(E-box binder)和非E-Box结合型(non E-box binder)。根据所识别的E-Box类型,E-Box结合型又分为G-Box结合型(G-box binder)和非G-box结合型(non G-box binder)[100]。
植物中,bHLH转录因子及其同源基因也已被发现。Li等[101]以模式植物拟南芥和水稻为材料,进行全基因组分析,鉴定出167个bHLH转录因子相关基因,其中,84.7%含有内含子,数目在0~4个范围内。前文提及的玉米中R基因,便是一种研究相对较多的bHLH转录因子编码基因[77],它可以与顺式调控元件(Cis-regulatory elements)结合,并通过招募其他的因子,调控一些参与花青素途径的基因。bHLH蛋白质被认为无法单独结合DNA,但越来越多的证据表明bHLH蛋白单独存在时,也具有结合DNA的活性。不过,主流观点依旧认为bHLH转录因子直接结合DNA的活性是可有可无的,因为绝大多数的情况下,bHLH会与MYB结合后共同调控DNA的转录过程;而且,有研究表明MYB互作区域的突变导致MYB激活bHLH的表达,这说明MYB转录因子可能可以调控bHLH基因的转录[102-103]。
3.3 MYB与bHLH互作
上述的R2R3-MYB可以直接与DNA连接,有些也需要在bHLH蛋白的参与下与DNA相连。已有实验证明部分bHLH和MYB蛋白会相互作用[88-91]。通常情况下,二者互作的结构域分别是R2R3-MYB的R3结构域和bHLH的N-末端[104-109]。植物中,两种转录因子互作的情况也是十分常见的,且在苯丙氨酸代谢途径中存在MYB与bHLH两种蛋白结合后共同调控的情况,如前文所述玉米中C1基因的产物(R2R3-MYB),便会与R基因产物(bHLH)互作,且只有在R的参与下C1才能发挥转录因子的作用,即R-依赖型。Hernandez等[110]以玉米为材料,通过C1、R、P1(一种R2R3-MYB转录因子,并可以在无R蛋白的参与下调控部分C1调控的基因(C1-regulated gene)、P1*(将P1中6个氨基酸替换成C1中对应位置中的6个,其在调控C1-调控基因时,表现为R-依赖型;调控P1-调控基因时,表现为R-增强型)等4个基因,研究了C1基因与R基因的互作关系,发现R基因其中一个功能是减轻植物中的一种抑制子对C1基因的抑制作用,从而促进C1的表达。又比如矮牵牛花中PhAN2(MYB同源基因)与PhJAF13(bHLH同源基因)的结合;以及前文中所提及的草莓中FaMYB1,也会与bHLH蛋白结合,且该bHLH与玉米中的R基因同源[92,110]。
除了MYB与bHLH直接结合外,二者还会与第三个蛋白质WDR(WD repeat)结合形成MYB-bHLH-WDR三聚体(MBW)。WDR蛋白又称WD40蛋白,是真核生物体中最丰富的蛋白质家族之一,通常会与其他生物大分子互作,并作为支架参与蛋白质复合体的装配过程[94]。WDR大约由40~60个氨基酸残基构成,是一类含4~10个随机WD重复结构域(WD repeat domain)的蛋白质家族,而WDR结构域是由以色氨酸和天冬氨酸结尾的氨基酸序列组成的[111]。因此,WDR又称为Trp-asp。此外, WDR蛋白的N-末端,还含有一个甘氨酸-组氨酸二肽[112-113]。WDR蛋白本身不具有催化功能,但它能够与多种蛋白质相互作用,进而为大分子蛋白复合体的组合起到连接作用[112-117]。WDR蛋白在真核生物中十分常见,在许多生命活动中都承担着重要的角色,包括G蛋白介导的信号转导、转录调控、泛素依赖型蛋白质降解、染色质修饰、囊泡运输、细胞骨架组装和细胞周期调控等[114-118]。并且,WDR在花青素合成、分生组织形成、幼苗发育、花发育、光信号传递和感知等方面也发挥着重要作用[116-119]。拟南芥中的TTG1基因就是一种典型的WDR蛋白编码基因,它会影响黄酮类化合物的生物合成途径(植物苯丙氨酸途径的一个分支)[120]。
MBW三聚体在植物中普遍存在。例如,在拟南芥的种皮内细胞层的原花青素积累过程,就涉及至少4种MBW复合物,包括TT2-TT8/GL3/EGL3-TTG1(依次对应为MYB-bHLH-WDR的基因),以及MYB5-TT8-TTG1。TT2-TT8-TTG1在调控后期生物合成基因中承担重要角色,包括无花色素双加氧酶、黄烷酮醇还原酶、TT12(Transparent Testa 12)、TT19(Transparent Testa 19)、AHA10(Autoinhibited H+-ATPase Isoform 10)等基因;TT2-EGL3/GL3-TTG1主要调控BAN、LODX、TT12、AHA10等基因;MYB5-TT8-TTG1主要参与DFR、LODX的调控。此外,花青素途径也受MBW复合物的调控,如PAP(Production of anthocyanin pigment)1/2/3/4(MYB同源基因),GL3/EGL3/TT8(bHLH同源基因),TTG1(WDR同源基因)(图1)[121]。
注:图为拟南芥中黄酮类、花青素、原花青素的生物合成途径。其中,前期生物合成基因(EBGs)受到MYB11、MYB12、MYB111等3个转录因子调控;后期生物合成基因(LBGs)受MBW复合物调控。流程图中大写字母表示相应的酶,如CHS,CHI等;小写字母表示相应的基因座,如tt等。Note:The biosynthetic pathway for flavanols,anthocyanins,and PAs in Arabidopsis.The early biosynthetic genes(EBGs) are activated by 3 functionally redundant R2R3-MYB proteins(MYB11,MYB12,and MYB111),whereas the expression of the late biosynthetic genes(LBGs) requires the transcriptional activation activity of the R2R3-MYB/bHLH/wD40(MBW) complex.Enzymes are denoted in uppercase(CHS,CHI) and corresponding genetic loci are indicated in italic lowercase letters(tt).图1 拟南芥中转录因子调控植物苯丙氨酸途径(修改自Li等[121])Fig.1 Regulation of phenylpropanoid biosynthetic pathway by transcription factors in Arabidopsis
综上所述,参与调控大豆异黄酮合成的转录因子主要有R2R3-MYB类、bHLH类以及二者同WD40的结合体MBW复合物。其中,MYB类蛋白可以直接调控合成代谢过程,而bHLH蛋白通常需要和MYB蛋白结合后发挥作用, bHLH能否单独结合DNA仍存在一定争议。虽然有关转录因子的研究已经开展了近40年,但该领域仍有许多问题尚未解决。如bHLH能否单独结合DNA并发挥作用的研究已经开展多年,但进展依旧缓慢。此外,有关1R-MYB,3R-MYB和4R-MYB的研究也相对较少,前者作为端粒结合蛋白,起到了稳定染色体结构的重要作用,这一领域的研究无论是在动物、植物还是微生物中的研究都十分缺乏;而后二者在植物和真菌中较多,在其他生物中鲜有发现,甚至4R-MYB只在拟南芥、杨树等少数植物中存在,这表明这些蛋白可能承担着部分物种中的特殊功能。此外,关于R2R3-MYB对异黄酮合成相关基因的调控也只停留在部分异黄酮合成阶段的早期,其对糖苷类等其他种类异黄酮的调控过程还不甚了解,这些都将会成为未来的研究热点。
4 展望
大豆异黄酮的研究虽已取得一定进展,但仍有许多重要问题亟待解决。其中有几项,在未来一段时间内可能会成为热点。
4.1 对大豆异黄酮合成机制的进一步解析
大豆异黄酮有12种,其中苷元类在植物苯丙氨酸途径和类黄酮途径中合成,该过程的解析仍然不够透彻,许多问题仍有争议,包括苯丙氨酸途径限速酶是否是PAL酶,IFS酶催化底物的芳香基团重排的机制等,这些都将是未来人们关注的重点。此外,还有一些含有糖苷配基、丙二酰配基的大豆异黄酮会由前体迁移至其他部位合成加工,目前的研究中,对这些过程的分子机制了解不够深入。加强这些方面的研究,可以对大豆异黄酮乃至其他诸多次级代谢产物合成方面的研究都大有裨益。
4.2 对相关主效QTLs进行深入挖掘
由于大豆异黄酮合成受环境因素影响很大,这给控制大豆异黄酮合成的相关QTLs的解析带来了很大的困扰。因此,对QTLs定位方法的改进也是一项重要的研究工作。不仅如此,不同品种的QTLs定位结果也存在差异,因此在多个品种当中共同存在的QTLs,以及存在于不同品种中的QTLs进行解析,也是一项值得研究的工作。
4.3 QTL位点与基因间的关系
随着测序技术与生物信息学的发展,QTL定位工作越来越精细准确,但QTL终究只是一个区间,上面可能存在着多个基因。因此,寻找QTL位点与对应基因之间的关系,将是未来一项很重要的工作。这需要更加庞大的计算量,也需要生物信息学的继续发展,同时要结合遗传转化等分子与遗传学手段,当基因达到一定数目时,需要借助“正交试验”的思路来设计实验,以便研究者更加高效地进行探究与分析。
4.4 高异黄酮大豆品种的分子设计育种
就目前已知的栽培大豆而言,虽然国内已有10余个高异黄酮大豆品种,但高异黄酮特用大豆的选育工作仍有很大发展空间。因为部分地方大豆品种具备高异黄酮的品质,但仅适合该地方种植,而在其它重要的农艺指标中呈现的水平相对较低。因此,我们可以建立高异黄酮分子模块,并以影响大豆品质性状的遗传改良为切入点,向目标受体亲本中分别导入相应分子模块。在现有大豆种质基础之上,采用分子模块设计育种与传统育种相结合的方式,将高异黄酮模块精准设计组装到现有的品种中,培育出富含大豆异黄酮、适应性强且具备高产、抗病、高蛋白等多个优良性状的特色大豆新品种。此外,由于一些基因,如IFS,在其他植物(如玉米、拟南芥等)中表达时也可生成异黄酮,因此,非豆科植物中的异黄酮分子(模块)设计育种也是一个非常有前景的领域。