APP下载

稻米贮藏蛋白家族的生物信息学分析

2018-03-20孙红正郭凯宋宁垣赵全志

中国稻米 2018年1期
关键词:谷蛋白胚乳拷贝

孙红正 郭凯 宋宁垣 赵全志

(河南农业大学农学院/河南粮食作物协同创新中心/河南省水稻生物学重点实验室,郑州450002;第一作者:sunhongzheng@foxmail.com;*通讯作者:qzzhaoh@126.com)

水稻是我国重要的粮食作物,全国以稻米为主食的人口占总人口的65%[1]。贮藏蛋白是大米的第二大主要成分,糙米中蛋白质含量占8%~11%[2],精米中蛋白质含量占5.5%~12%[3]。稻米中的蛋白质根据其在不同溶剂中的溶解性不同可分为清蛋白、球蛋白、醇溶蛋白和谷蛋白。其中,清蛋白溶于水,球蛋白不溶于水但溶于稀盐溶液,醇溶蛋白不溶于水和稀盐而溶于乙醇,而谷蛋白则只能溶于酸或碱溶液,根据其溶解性不同可以将这4种蛋白依次提取出来。贮藏蛋白在稻米中的分布是不均匀的,球蛋白、清蛋白主要分布在糊粉层和次糊粉层,谷蛋白和醇溶蛋白主要分布于胚乳外层部分[4]。水稻精米中谷蛋白占70%~80%,醇溶蛋白占18%~20%[5]。贮藏蛋白于内质网合成,然后转运至不同蛋白体中,在水稻胚乳中,贮藏蛋白主要以蛋白体PB-I、PB-II的形式存在,PB-I蛋白体是较为光滑的球形蛋白体,主要含难以被人体消化吸收的醇溶蛋白,PB-II蛋白体则是性状不规则的非球形结构,主要含易消化的谷蛋白[6-7]。大量研究表明,稻米中蛋白质含量与稻米食味品质之间存在负相关关系,蛋白质含量过高的稻米食味品质往往较差[8]。但是,也有一些研究认为,稻米品质不仅与蛋白质含量有关,与谷蛋白和醇溶蛋白的比例也有关系[3,5,9]。目前,关于稻米中4类贮藏蛋白质的遗传及表达模式相关研究较少,关于水稻贮藏蛋白的命名及分类,不同的文献中对各个基因位点的命名不尽相同,甚至出现把谷蛋白基因与球蛋白基因、清蛋白基因与球蛋白基因混淆进行研究[10-14]。本文以水稻基因组注释数据库和基因表达数据库为依据,分析水稻中4类贮藏蛋白在基因组的分布、不同拷贝之间的进化关系及其表达模式,对各个贮藏蛋白家族的分类及表达进行整理,为进一步研究稻米贮藏蛋白提供理论参考和基础。

1 材料与方法

1.1 水稻贮藏蛋白基因序列的获取

根据RGAP(Rice Genome Annotation Project,http://rice.plantbiology.msu.edu/)水稻基因组注释信息从RGAP数据库下载谷蛋白、醇溶蛋白、清蛋白和球蛋白基因序列[15]。基因在染色体上的位置及基因结构信息通过RGAP基因组浏览器获取。

1.2 水稻谷蛋白与醇溶蛋白基因进化树的构建

谷蛋白与醇溶蛋白基因家族拷贝数较多,获取谷蛋白与醇溶蛋白基因编码序列后使用MEGA6.06软件对序列进行多重序列比对[16],然后使用Neighbor-Joining法构建系统进化树,建树过程中碱基替换模型使用泊松分布模型,对多重比对中的空格采用pair-wise deletion处理,进化树的可靠性采用500次的bootstrap进行检验。

1.3 水稻贮藏蛋白基因的表达分析

谷蛋白、醇溶蛋白、清蛋白和球蛋白4类贮藏蛋白基因的表达数据从RGAP Rice Gene Expression数据库(http://rice.plantbiology.msu.edu/expression.shtml)下载。

图2 水稻谷蛋白基因的基因结构示意图

图3 水稻谷蛋白基因的系统进化树

2 结果与分析

2.1 谷蛋白(Glutelin)

在RGAP基因组注释数据库中,有15个表达的基因被注释为谷蛋白基因,在这15个基因中,有12个基因被命名分别属于GluA、GluB、GluC和GluD四种类型,3个基因未命名但属于谷蛋白家族。谷蛋白基因在水稻基因组中分别位于第1、第2、第3、第8和第10染色体上,第1染色体2个拷贝,第2染色体10个拷贝,第3、第8、第10染色体上各1个拷贝(见图1)。其中,第2染色体上10个拷贝成簇分布,8个拷贝位于第2染色体短臂上,分别是GluB类型7个拷贝和GluD类型1个拷贝。长臂靠近着丝粒位置2个拷贝分别是GluC-1和LOC_Os02g25860。

基因结构方面,在15个谷蛋白基因中,12个已命名的谷蛋白基因均有4个编码外显子区,编码氨基酸从236~531个氨基酸不等。LOC_Os02g25860有4个外显子但仅有3个编码外显子,编码区长度与GluA、GluB、GluC和GluD基因相比明显变短。LOC_Os08g03410有3个外显子,编码外显子区也有3个,编码区长度与已命名谷蛋白基因相当。LOC_Os01g55630则有5个外显子,编码长度与其他谷蛋白基因相比也较短(见图2)。

在谷蛋白基因的系统进化树中,谷蛋白基因家族分为3大支:GluA亚家族、GluB亚家族、GluC亚家族。GluA亚家族除了已命名的GluA-1、GluA-2、GluA-3外还包括LOC_Os01g55630。GluB亚家族包括GluB-1a、GluB-1b、GluB-2、GluB-3、GluB-4、GluB-5、Glu-B6、Glu-B7和GluD-1(见图3)。因此,谷蛋白基因GluD-1虽然被命名为GluD亚家族,但在亲缘关系上与GluB亚家族较为接近。GluC亚家族包括GluC-1以及2个未命名的拷贝LOC_Os08g03410和LOC_Os02g25860。

水稻谷蛋白基因的表达量基本表现为灌浆早期表达量较低,而后表达量急剧升高,到后期表达量又有所降低。花后25 d的籽粒中谷蛋白基因表达除了LOC_Os08g03410明显表现为胚乳中表达量远高于胚中的表达量,也说明谷蛋白基因的表达并不是严格的胚乳特异性表达。LOC_Os08g03410的表达模式与其他谷蛋白基因明显不同,在花后25 d,胚中的表达量达到36 316.4 RPKM(Read Per Kilobase per Million),而胚乳中的表达量只有990.4 RPKM,说明LOC_Os08g03410倾向于在胚中特异表达。15个谷蛋白基因中,GluA-1和GluA-2的表达水平最高,花后10 d籽粒中的表达量分别达到55 337.8 RPKM和38 553.9 RPKM。GluA-3、GluB-1a、GluB-1b、GluB-2、GluB-4、GluB-5、GluC-1的表达量处于同一水平,花后10 d表达量都在15000~20 000 RPKM之间。GluB-7、GluB-6、GluD-1、LOC_Os01g55630、LOC_Os02g25860的表达量相对较低(见表1)。

表1 水稻谷蛋白基因在籽粒中的表达量(RPKM)

图4 水稻醇溶蛋白基因在基因组上的分布

2.2 醇溶蛋白(Prolamin)

图5 水稻醇溶蛋白基因的基因结构示意图

水稻基因组注释数据库中有28个醇溶蛋白基因分别位于第5、第6、第7和第12染色体,其中17个拷贝成簇分布于第5染色体,其他染色体上,第7染色体5个拷贝,第12染色体4个拷贝,第6染色体2个拷贝,均呈簇状集中分布于染色体某一区段(图4)。28个醇溶蛋白基因中,有25个以“PROLM+数字”命名,有3个拷贝LOC_Os05g26400、LOC_Os05g26368、LOC_Os05g26386未被命名。其中PROLM3、LOC_Os05g26400、PROLM6在基因组上的位置完全相同,LOC_Os05g26400与PROLM6完全相同,而PROLM3与这两者编码区相同但转录本不同,属于可变剪接版本。

在28个醇溶蛋白基因中,有7个拷贝存在内含子结构,且均有2个编码区外显子,其他21个拷贝均无内含子,说明该基因家族可能是基因反转录插入重复的结果(见图5)。PROLM1编码区最短,仅编码24个氨基酸,其他拷贝编码氨基酸在89~156个氨基酸区间,相对谷蛋白编码氨基酸较小。

图6 水稻醇溶蛋白基因的系统进化树

在进化关系上,28个醇溶蛋白基因家族可分为两大亚家族,Ⅰ亚家族19个拷贝,包括第5染色体成簇分布的除PROLM1外的其他16个拷贝和第7染色体PROLM19、PROLM20、PROLM22 3个拷贝。Ⅱ亚家族包括PROLM1、PROLM23、PROLM24、PROLM25、PROLM26、PROLM27、PROLM28、PROLM29、PROLM30共9个拷贝(见图6)。其中,PROLM1序列较短,整条序列与Ⅱ亚家族的末端编码序列有同源性,因此,将PROLM1归入Ⅱ亚家族。

在28个醇溶蛋白基因中,PROLM22、PROLM24、PROLM25、PROLM26的表达量处于较高水平,花后25 d胚乳中表达量均在10 000 RPKM以上,最高的PROLM26表达量接近59 998.8 RPKM,因此,这3个拷贝是分离胚乳高效表达启动子较好的候选基因。PROLM3、LOC_Os05g26400、PROLM6、PROLM10、PROLM13的表达量极低,PROLM9、LOC_Os05g26386无表达,其他拷贝则处于中等表达水平。在表达的醇溶蛋白拷贝中,均表现出胚乳中表达量远高于胚中的表达量,表现出倾向但并不严格的胚乳特异性表达。

2.3 清蛋白(Albumin)和球蛋白(Globulin)

水稻清蛋白和球蛋白基因在基因组的拷贝数相对较少,清蛋白基因有5个拷贝被检测到表达:SSA1、SSA2、SSA3、SSA4和SSA5,清蛋白基因SSA2、SSA3和SSA4在第3染色体成簇分布,其他2个基因分别位于第5和第11染色体。在基因结构上SSA2有内含子,其他4个拷贝无内含子。清蛋白基因编码氨基酸从69~361个氨基酸不等。5个清蛋白拷贝中,SSA1和SSA5的表达量较高,SSA2、SSA3表达量极低(见表3)。清蛋白占水稻籽粒中总蛋白的5%左右,并且大部分清蛋白翻译后经过糖基化修饰,在籽粒中最高表达量出现在花后18~20 d[17]。

球蛋白基因有3个拷贝:globulin 2、7S globulin和7S globulin 2,分别位于第1、第5和第11染色体。3个拷贝中,7S globulin和7S globulin 2的基因结构中无内含子,表达水平也较低,而globulin 2在胚乳中没有检测到表达,仅在花后25 d的胚中检测到极低水平表达(见表3)。

3 结论与讨论

前人研究将水稻谷蛋白分为4个亚家族GluA、GluB、GluC和GluD。GluD-1(LOC_Os02g15090)是GluD亚家族唯一的拷贝,该基因由Kawakatsu等人于2008年命名[10]。但是从谷蛋白基因系统进化关系(图3)上看,LOC_Os02g15090与GluB亚家族基因聚成一支,并明显区别于GluC亚家族,因此本研究中将该基因以GluB-8命名。牛洪斌等于2007年克隆1个谷蛋白基因并将其命名为GluB-7[18],但是经过序列检索,该序列(AY987390)与GluB-2的相似程度最高,因此判断该序列应为GluB-2。另外3个没有命名的基因位点中LOC_Os01g55630(GluA-5)由于与GluA-3相似程度最高,鉴于之前Takaiwa报道GluA-4为假基因[12],因此将LOC_Os01g55630命名顺延为GluA-5。由于Kawakatsu等认为GluC-2是假基因[10],因此LOC_Os02g25860、LOC_Os08g03410分别根据其在系统进化树上的位置与其他谷蛋白基因的亲缘关系分别命名为GluC-3、GluC-4。

醇溶蛋白有3个拷贝LOC_Os05g26400、LOC_Os05g26368、LOC_Os05g26386未被命名,其中,LOC_Os05g26400与PROLM6、LOC_Os05g26386与PROLM9这两对基因在基因组上的位置及转录本和编码区完全相同,因此,LOC_Os05g26400、LOC_Os05g26386这2个拷贝是错误注释造成的。另外一个醇溶蛋白基因LOC_Os05g26368在系统进化关系上与PROLM13最近,因此将LOC_Os05g26368命名为PROLM13b。醇溶蛋白基因拷贝数较多,但大多数无内含子结构,因此有可能是基因转录以后被反转录插入基因组的结果。醇溶蛋白翻译后形成的蛋白根据其在电泳图谱上的位置主要有10 kDa、13 kDa和16 kDa 3类蛋白,不同种类醇溶蛋白的表达对蛋白体PB-I的形成起重要作用[19]。

表2 水稻醇溶蛋白基因在籽粒中的表达量(RPKM)

表3 水稻清蛋白和球蛋白基因在籽粒中的表达量(RPKM)

水稻籽粒中,处于高水平表达量(>10 000 RPKM)的谷蛋白基因有10个,而醇溶蛋白基因处于高水平表达的基因也有4个拷贝,因此,水稻贮藏蛋白基因是分离高效籽粒表达启动子的理想候选基因。Qu等[11]曾研究比较了6个水稻谷蛋白启动子在水稻胚乳中的表达特异性及启动活性。在应用方面,前人曾用水稻谷蛋白启动子Gt13a在水稻胚乳中特异表达人血清白蛋白和人粒细胞巨噬细胞集落刺激因子[20-21],而Gt13a胚乳特异启动子即为GluA-1(LOC_Os01g55690)的启动子。从谷蛋白基因的表达量来看,GluA-1、GluA-2、GluA-3、GluB-1a、GluB-1b、GluB-2、GluB-4、GluB-5、GluC-1这几个谷蛋白基因在胚乳中的表达量都相对较高,是克隆高效胚乳特异启动子的理想候选基因。而本研究中命名的GluC-4(LOC_Os08g03410)谷蛋白基因在花后25 d胚中的表达量远高于胚乳中的表达量(见表1),因此该谷蛋白基因启动子可以作为候选胚特异启动子来研究胚的发育进程及其对籽粒灌浆的影响。除了谷蛋白基因,醇溶蛋白基因中,PROLM22、PROLM24、PROLM25、PROLM26的表达量也比较高,特别是PROLM26在花后25 d的表达量达到将近60 000 RP-KM,比GluA-1的启动活性还要高,因此也是比较理想的候选高效胚乳特异启动子。

稻米中蛋白质含量是影响稻米品质的重要因素之一,而且蛋白质组分也会影响稻米品质。精米中蛋白质主要以谷蛋白和醇溶蛋白为主[22],研究者大都认为醇溶蛋白对稻米食味品质有负面影响[4]。稻米中蛋白质的合成处于动态平衡状态,在某一贮藏蛋白被抑制的情况下,其他贮藏蛋白会在转录和翻译水平上进行补偿,抑制醇溶蛋白表达能够提高稻米的营养价值[7,23],因此,可以通过筛选低醇溶蛋白的品种或采用基因工程的手段抑制醇溶蛋白以提高稻米的营养和食味品质。

[1]胡忠孝.中国水稻生产形势分析[J].杂交水稻,2009,24(6):1-7.

[2]陈能,罗玉坤,谢黎虹,等.我国水稻品种的蛋白质含量及与米质的相关性研究[J].作物学报,2006,32(8):1 193-1 196.

[3]张欣,施利利,丁得亮,等.稻米蛋白质相关性状与RVA特征谱及食味品质的关系[J].食品科技,2014,39(10):188-191.

[4]张启莉,谢黎虹,李仕贵,等.稻米蛋白质与蒸煮食味品质的关系研究进展[J].中国稻米,2012,18(4):1-6.

[5]吴洪恺,刘世家,江玲,等.稻米蛋白质组分及总蛋白质含量与淀粉RVA谱特征值的关系[J].中国水稻科学,2009,23(4):421-426.

[6]王继馨,张云江,程爱华,等.水稻蛋白亚基含量对米饭食味的影响[J].中国农学通报,2008,24(1):89-92.

[7]Kim H J,Lee J Y,Yoon U H,et al.Effects of reduced prolamin on seed storage protein composition and the nutritional quality of rice[J].Int J Mol Sci,2013,14(8):17 073-17 084.

[8]王忠,顾蕴洁,陈刚,等.稻米的品质和影响因素[J].分子植物育种,2003,1(2):231-241.

[9]孙平.蛋白质含量多会降低稻米食味吗?——试析日本产销界关于稻米食味和应否追肥问题的争议[J].中国稻米,1998,4(5):31-33.

[10]Kawakatsu T,Yamamoto M P,Hirose S et al.Characterization of a new rice glutelin gene GluD-1 expressed in the starchy endosperm[J].J Exp Bot,2008,59(15):4 233-4 245.

[11]Qu L Q,Xing Y P,Liu W X et al.Expression pattern and activity of six glutelin gene promoters in transgenic rice[J].J Exp Bot,2008,59(9):2 417-2 424.

[12]Takaiwa F,K Oono.Genomic DNA sequences of two new genes for new storage protein glutelin in rice[J].Jpn J Genet,1991,66(2):161-171.

[13]Duan M,Sun S S.Profiling the expression of genes controlling rice grain quality[J].Plant Mol Biol,2005,59(1):165-178.

[14]Lee H J,Jo Y M,Lee J Y,et al.Lack of globulin synthesis during seed development alters accumulation of seed storage proteins in rice[J].Int J Mol Sci,2015,16(7):1 4717-1 436.

[15]Yuan Q,Ouyang S,Liu J et al.,The TIGR rice genome annotation resource:annotating the rice genome and creating resources for plant biologists[J].Nucleic Acids Res,2003,31(1):229-233.

[16]Tamura K,Stecher G,Peterson D,et al.MEGA6:molecular evolutionary genetics analysis version 6.0[J].Mol Biol Evol,2013,30(12):2 725-2 729.

[17]Mawal Y R,Mawal M R,Ranjekar P K.Biochemical and immunological characterization of rice albumin[J].Biosci Rep,1987,7(1):1-9.

[18]牛洪斌,覃怀德,王益华,等.水稻谷蛋白的一个新基因克隆及表达分析[J].作物学报,2007,33(3):349-355.

[19]Saito Y,Shigemitsu T,Yamasaki R,et al.Formation mechanism of the internal structure of type I protein bodies in rice endosperm:relationship between the localization of prolamin species and the expression of individual genes[J].Plant J,2012,70(6):1 043-1 055.

[20]He Y,Ning T,Xie T,et al.Large-scale production of functional human serum albumin from transgenic rice seeds[J].Proc Natl Acad Sci U S A,2011,108(47):19 078-19 083.

[21]Ning T,Xie T,Qiu Q,et al.Oral administration of recombinant human granulocyte-macrophage colony stimulating factor expressed in rice endosperm can increase leukocytes in mice[J].Biotechnol Lett,2008,30(9):1 679-1 686.

[22]刘奕,程方民.稻米中蛋白质和脂类与稻米品质的关系综述[J].中国粮油学报,2006,21(4):6-10.

[23]Kawakatsu T,Hirose S,Yasuda H,et al.Reducing rice seed storage protein accumulation leads to changes in nutrient quality and storage organelle formation[J].Plant Physiol,2010,154(4):1 842-1 854.

猜你喜欢

谷蛋白胚乳拷贝
微波辅助Osborne法提取米糠谷蛋白及对其性质的影响
稻米陈化中谷蛋白变化光谱解析及其对功能性质的影响
γ-聚谷氨酸对冻藏谷蛋白水合及结构的影响
胚乳切割与置换对小麦种子萌发和幼苗生长的影响
唐氏综合征是因为“拷贝”走样了
为什么种子含有丰富的营养?
转高赖氨酸融合蛋白基因水稻谷蛋白急性毒性
小小拷贝工.最快Windows拷贝工具
文件拷贝谁最“给力”
新陈代谢测试题