谷子、水稻与其野生种基因组转座子比较
2023-07-15李亚军杨宇琭李旭凯李红英
李亚军 杨宇琭 孙 蓉 李旭凯 李红英*
(1.山西农业大学 农学院,山西 太谷 030801;2.山西农业大学 生命科学学院,山西 太谷 030801)
转座子(Transposable elements,TEs)最早由Barbara McClintock在玉米(Zeamays)中发现,在细菌、病毒以及真核生物的基因组中广泛分布[1-2]。转座子类似内源性病毒,能够在宿主基因组中“复制粘贴”、“剪切粘贴”自己的序列,以达到自我“繁殖”的目的[3-6]。按其复制方式可分为逆转录转座子(Class I retrotransposons)和非逆转录转座子(Class II DNA transposons)[4]。LTR(Long terminal repeat)属于Class I类逆转录转座子,是植物基因组中占比较高的重复序列类型。在玉米、小麦等复杂基因组中,LTR类转座子的比例超过70%[7-9]。Baduel等[10]研究发现TEs激活是拟南芥遗传变异的主要变异方式,该遗传变异受到遗传和环境因素的双重调控。应激条件下诱导的TEs移动可能会导致新基因产生或者基因功能改变以适应环境压力[11]。TEs会诱导产生新的基因,这些新基因通常由重复序列两侧的蛋白质编码序列组成,对植物发育有着重要的作用,大多数TEs衍生的基因通过TEs介导的复制形成多拷贝基因家族,随后通过各种进化过程及环境适应,发生功能分歧获得多种功能[12-13]。FAR-RED IMPAIRED RESPONSE1(FAR1)基因家族,包括FHY3、FRS和FRF,是植物中一组主要的Mutator-like转座子(MULE)衍生基因,被认为是为了适应不断变化的光照条件而进化来的,是有益于生产的农艺性状和植物适应环境变化的结果[14]。因此,研究转座子在作物基因组的变化以及介导基因功能变异对作物驯化与育种改良具有重要意义。
谷子(Setariaitalica)距今已有8 000年的栽培历史[15],是中国古代主要的粮食作物[16],也是具有极高营养价值的杂粮作物[17],其籽粒脱壳后为小米,富含蛋白质、脂肪、糖类、维生素及钙、磷、铁等人体所必需的微量元素。谷子为二倍体(2n=2X=18)C4自花授粉作物,基因组较小(约430 Mb)[17]。谷子由野生狗尾草驯化而来,狗尾草(Setariaviridis)是1种矮小的二倍体杂草[18],基因组约500 Mb。此外,狗尾草具有生命周期短(8~10周)、易种植、易诱变、易转化,单花序通常可产生数百个种子的特征。水稻(Oryzasativa)是禾本科一年生水生草本,基因组约为400 Mb。水稻在全世界各地都有广泛的种植,全球近一半的人口以稻米为主食。在谷子、水稻基因组中,与驯化相关的功能基因中转座子插入位置和数量变异的研究鲜见报道。本研究以谷子、水稻的栽培种与野生种为材料,通过对基因组进行转座子注释,分析比较各类转座子在所选材料基因组中的插入数、位置以及在驯化相关功能基因内的插入情况,旨在探究转座子在谷子、水稻驯化过程中的变异,以期为谷子作物育种改良提供理论依据。
1 材料与方法
1.1 植物材料
选取‘晋谷21’背景的早熟突变体xiaomi及‘豫谷1号’、狗尾草,其基因组数据分别来源于Multi-omics Database forSetariaitalica(MDSi,http:∥foxtail-millet.biocloud.net)和Phytozome(https:∥phytozome.jgi.doe.gov)数据库。亚洲栽培稻‘日本晴’(Oryzasativajaponica)、‘9311’(Oryzasativaindica)、尼瓦拉野生稻(Oryzanivara)和普通野生稻(Oryzarufipogon)基因组数据来源于Ensembl Plants数据库。在上述数据库中检索下载谷子、狗尾草、水稻基因组的序列FASTA文件与基因组注释gff3文件。在国家水稻数据中心(https:∥www.ricedata.cn)检索水稻中已报道与落粒(qSH1(Os01g0848400)[19-20])、矮秆(CYP724B1[21])、控制抽穗期、株高及每穗颖花数(DTH7[22])、八氢番茄红素脱氢酶(OsPSY1(Os03g0184000)[23])、少分蘖矮秆(DLT[24]、OsGRAS-32[25])等驯化相关的基因信息。
1.2 转座子注释
依据下载的7个基因组序列,使用EDTA(The Extensive de novo TE Annotator)[26]和RepeatMasker[27]软件对基因组序列中的TEs进行注释,得到转座子注释的gff3文件。
1.3 数据处理
依据物种基因注释文件中的基因起始位置、终止位置、上游2 000 bp、下游500 bp数据为阈值,设定了11个分析区域分别为:包含基因上游2 000 bp位置的区域(TE_up_on)、基因上游2 000 bp至基因起始位置区域(TE_up_in)、包含基因起始位置的区域(TE_left_on)、基因内部(TE_in)、包含基因终止位置的区域(TE_right_on)、基因终止位置至基因下游500 bp区域(TE_down_in)、包含基因下游500 bp位置的区域(TE_down_on)、基因间区(TE-I)、基因终止位置至基因500 bp区域(TE_con_down)、基因起始位置至基因终止位置区域(TE_con_Gene)、基因上游2 000 bp至基因起始位置区域(TE_con_up)。利用Python进行数据处理,对得到的结果进行统计分析,以探究转座子在基因的插入情况。利用Phytozome与Ensembl Plants数据库,对狗尾草、谷子、水稻进行同源序列比对,下载同源序列比对结果,探究转座子在作物驯化相关基因中的插入情况。
2 结果与分析
2.1 转座子插入位置的统计
由图1、表1和表2可知,谷子与狗尾草的转座子插入数目差异较大的为逆转录转座子Gypsy,而水稻中栽培种与野生种插入数目差异较大的是逆转录转座子Copia与Gypsy。依据所设定的11个区域,对各物种的转座子进行统计,基因上游2 000 bp至基因起始位置区域(TE_up_in)、基因终止位置至基因下游500 bp区域(TE_down_in)、基因内部(TE_in)这3个区域内的转座子数量有较为明显的差异。尤其在基因内部区域,栽培种与野生种差异较大,其中水稻栽培种转座子插入数目约为野生种的一半,xiaomi中插入的转座子数目比狗尾草多4 865个,‘豫谷1号’中插入的转座子数目比狗尾草少6 286个。谷子、水稻栽培种与野生种中转座子插入数目的不同,说明转座子参与了作物驯化。
2.2 基因内部区域转座子的分类统计
由表3可知,helitron转座子(DNA转座子)在谷子、水稻栽培种与野生种插入数目相较于其他转座子的插入数目是最多的,狗尾草中31 024个,‘豫谷1号’中28 087个,xiaomi中32 394个,普通野生稻中42 899个,‘日本晴’中28 087个,尼瓦拉野生稻中38 697个,‘9311’中22 642个。发现helitron在水稻栽培种中的插入数目约为野生种的一半。Tc1转座子在xiaomi基因组中的插入数少于狗尾草,而其他转座子在xiaomi基因组中的插入数多于狗尾草,LINE转座子在‘日本晴’基因组中的插入数远多于‘9311’、尼瓦拉野生稻和普通野生稻。因此,不同种类转座子插入物种基因组中存在一定的偏好性,且转座子在作物栽培种和野生种基因组中的插入差异性可能是导致作物发生驯化的原因之一。
表3 转座子在谷子、狗尾草、水稻基因内部区域的插入数统计Table 3 Statistics of transposon insertion numbers in internal regions of foxtail millet,setaria and rice genes
2.3 转座子插入基因的分析
由图2可知,‘日本晴’参与调控落粒的基因qSH1(Os01g0848400)无转座子的插入,在其他3种水稻的基因中也均无转座子的插入,而在‘豫谷1号’的Seita.5G381300和xiaomi的Si5g38220的5’UTR区域均有转座子的插入,狗尾草基因Sevir5G386500的5’UTR区域中则没有转座子的插入。Mamidi等[28]的研究发现狗尾草的落粒基因Sevir.5G085400无任何转座子的插入,呈现了谷子经过驯化的表型,而在xiaomi的Si5g09350和‘豫谷1号’的Seita.5G087200的基因中均有转座子的插入。Liu等[29]通过QTL定位到的谷子落粒性状相关基因Seita.9G154300,转座子插入其基因内影响了第二个转录本的转录,使得谷子丧失了落粒性。在xiaomi的Si9g15130和Si9g19290内部同样有转座子的插入,在狗尾草的Sevir.9G153200内,转座子更多地插入到基因上游,故谷子落粒性的丧失是由转座子插入所导致。
Sevi,狗尾草;Seita,豫谷1号;Si,xiaomi;Os,粳稻基因;BGIOSGA,籼稻基因;ONIVA,尼瓦拉野生稻基因;ORUFI,普通野生稻基因。下同。Sevir,Setaria gene;Seita,Yugu 1;Si,xiaomi;Os,Japonica rice gene;BGIOSGA,Indica rice gene;ONIVA,Wild rice Niwala gene;ORUFI,Common wild rice gene.The same below.
由图3可知,狗尾草的Sevir.7G140700、‘豫谷1号’的Seita.7G132100、xiaomi的Si7g14700中转座子数目发生了变化,谷子栽培种中出现了较多的转座子,转座子插入数目的差异可能影响了谷子茎秆基因的表达(图3(a))。而水稻的栽培种与野生种的基因内部没有任何转座子的插入。在控制抽穗期、株高以及每穗花数的各物种基因中,谷子、水稻栽培种与野生种的基因内部中均有转座子的插入且插入数具有很高的相似性,但xiaomi的Si2g43940内转座子插入数目少于狗尾草基因内的转座子数目(图3(b)),‘豫谷1号’的Seita.2G444300内转座子插入位置与狗尾草基因内的转座子插入位置不一致,因此,转座子在谷子栽培种与野生种抽穗期、株高基因中的插入数目、位置均存在差异,这种差异可能影响了抽穗和株高基因的表达。
图3 狗尾草、谷子、水稻的矮秆基因(a)、控制抽穗期与株高以及每穗颖花数基因(b)中转座子的插入情况Fig.3 Transposon insertion in dwarf genes (a),genes controlling heading date and plant height,and spikelets per panicle (b) in green foxtail,foxtail millet,and rice
由图4可知,‘日本晴’中调控八氢番茄红素脱氢酶(PSY)的关键基因OsPSY1(Os03g0184000)与‘9311’、普通野生稻、尼瓦拉野生稻中相似基因的转座子插入较为相似,水稻栽培种白色的米色并不是人工驯化的结果。谷子中调控PSY的关键基因Si4g27520与狗尾草基因Sevir.4G300900中的转座子插入数目存在差异,狗尾草的该基因上游有1个长片段的helitron插入,而栽培种的‘豫谷1号’及突变体xiaomi基因上游无任何转座子的插入(图4(a)),因此,谷子栽培种黄色的米色是经过驯化得到的性状,谷子PSY1基因是与驯化相关的关键基因。转座子在谷子栽培种与野生种米色基因中的插入数目存在差异,而在水稻中的插入数目、位置有较高的相似性,以此推测谷子与水稻米色上存在不同的驯化途径。在少分蘖矮杆谷子和水稻的基因中,转座子较为集中的插入在基因的上游(图4(b)),转座子的插入位置具有一定的相似性,因此,谷子栽培种与野生种分蘖性状可能存在其他驯化途径。
图4 转座子在狗尾草、谷子、水稻类胡萝卜素合成基因(a)和少分蘖基因(b)中的插入情况Fig.4 Insertion of transposons in carotenoid synthesis genes (a) and tiller less genes (b) in Setaria,foxtail millet and rice
3 讨 论
3.1 转座子在驯化中的变异
作物驯化是农业发展中重要的事件之一[30]。现代作物都是通过对野生种中特定的性状进行长期定向选择育种而来的。与野生种相比,栽培种往往具有更高的产量。栽培种通常具有分蘖减少[31]、顶端优势增强[32],开花期和成熟期趋于一致,产品器官变大,不落粒、休眠期变短等特征[33-34]。除了正常的农业活动,耕作的环境以及土壤的变化使作物发生驯化的原因之外,Pierre等[11]研究分析了转座子的遗传和环境调控有利于拟南芥的适应性进化,表明了转座子作为内源的诱变机制干扰或者改变基因的表达。CRISPR/Cas9技术为代表的基因编辑技术自诞生以来,已经被广泛用于农作物特定基因的编辑,目前,这一技术已经被用于定向改良作物的野生近缘种,实现了野生近缘种的加速驯化[35]。而通过谷子与“祖先”狗尾草转座子的比较,发现转座子在插入位置、插入数量以及一些驯化基因中的插入都具有一定的差异,这为探究作物驯化提供了思路。至于转座子在驯化过程中的具体功能仍需要进一步试验验证。
3.2 转座子介导基因功能变异
转座子可以通过多种方式影响宿主基因与基因组的结构,转座子的插入影响了基因的表达,可能导致基因组选择性剪接以及新的lncRNA的生成[36]。Zhang等[37]研究表明Copia转座子家族的转座子插入到玉米茎秆强度相关的主要数量性状基因stiff1的启动子序列,转座子的插入抑制了stiff1的转录,导致了细胞壁中纤维素和木质素含量的增加,从而增强了茎秆的强度。本研究中选取与驯化相关的基因进行了转座子插入特性的分析,发现转座子的插入存在差异,但转座子对基因结构与表达具体的影响,需要进一步的生物信息学分析与功能验证。
4 结 论
通过对谷子、水稻及相应野生种的基因组比较发现,转座子在基因内部的插入数目、类型、位置均存在差异。‘晋谷21’的突变体(xiaomi)基因组中插入的转座子数目比狗尾草多4 865个,‘豫谷1号’基因组中插入的转座子数目比狗尾草少6 286个,水稻栽培种基因组中插入数目及其所占比例几乎是野生种的1/2。转座子在谷子、水稻栽培种与野生种基因组内插入的差异说明转座子在谷子与水稻野生种驯化为栽培种的过程中发生明显的变异。由于转座子的插入使调控落粒的基因无法正常表达,从而导致谷子落粒性的丧失。在谷子栽培种与野生种米色的基因中,转座子在基因中的插入数目也存在差异。综上,在谷子、水稻野生种驯化为栽培种的过程中,转座子在基因组内插入数目和位置的差异导致基因功能变异,缩短了谷子、水稻野生种驯化为栽培种的时间进程。