APP下载

水稻基因组序列研究进展

2010-04-14王瑞云王计平李润植

山西农业科学 2010年10期
关键词:着丝点缺口染色体

王瑞云,王计平,李润植

(山西农业大学农学院,山西太谷030801)

粮食短缺是全球21世纪面临的最严峻问题之一[1]。水稻、小麦和玉米是最重要的3种粮食作物,其中水稻在亚洲的消费和种植超过90%,养活着占全球60%的亚洲人口。30多亿亚洲人需要的能量有35%~75%来源于水稻。每年水稻的种植面积达0.103亿hm2,占全球耕地的11%[2]。然而,由于水稻消费国人口的迅速增加,估计到2030年水稻产量需再增加40%才能满足需求[2]。生物技术和传统育种的有机结合是高产稳产的保障,而高产稳产则依赖于有特征明显的水稻基因组序列。因此,解译其基因组是对水稻和其他禾谷类作物进行应用和基础研究的先决条件。

1 水稻基因组测序计划

基因组包含了生物的进化、遗传和生命的奥秘,是细胞遗传物质的总和,其大小通常以全部DNA碱基对总数来表示。水稻基因组有12条染色体,其中染色体1最长,染色体10最短,核基因组序列总长约389Mb[3]。迄今,水稻全基因组测序工作已经完成,其覆盖度为95%。并且有6条染色体[4-9]和2个着丝粒[10-12]已完全测序。

国际水稻基因组测序计划(IRGSP)于1998年正式启动,由来自10个国家的测序小组共同完成水稻2个亚种粳稻和籼稻基因组的测序工作。已完成的序列误差率低于1/10 000(精度99.99%),即1万个核苷酸中测定错误的核苷酸少于1个。以往存在的分歧得到解决,图距再度缩短。该成果使遗传学家能够根据特征鉴定一些基因,并且发现了以前未知的较大区段重复,该区段重复占全基因组的60%[13-15]。

2002年12月,水稻12条染色体的碱基测序工作完成(提前3年)。日本在其中发挥着主导作用,并最先以99.99%的精度完成了最长的第1条染色体的测序工作。随后,中国、美国、中国台湾、印度和法国分别完成了染色体4,10,5,11和12全长序列的精确测定。

2 物理图谱、序列测定和覆盖度

IRGSP运用BAC和PAC 2个克隆系,采用克隆连克隆测定法(clone by clone sequencing)测定了日本晴的染色体序列。该策略运用的材料包括:高密度遗传图谱、表达序列标签、YAC和BAC物理图谱、BAC末端序列和2个草图序列[16-23]。对3 401个的BAC/PAC克隆系测序到约为10倍的序列覆盖度,并将该克隆系装配,完成序列的碱基错误率小于1/10 000。运用一系列底物(包括PCR片段、10 kb的质粒、40 kb的fosmid克隆系),在BAC/PAC的tiling通道中,桥接了物理缺口染色体的大部分。在12条染色体上仍有62个缺口染色体(包括9个着丝粒缺口染色体和17个端粒缺口染色体)未测序。已经测量了染色体臂和端粒缺口染色体,在CentO卫星DNA含量的基础上估测了9个着丝粒缺口染色体。估计其余的缺口染色体全长为18.1Mb[3]。

已经在GenBank/DDBJ/EMBL的PLN分区定位了97%的BAC/PAC和缺口染色体序列。上述序列和其他的草图序列克隆系组成水稻12条染色体上的假分子。这些假分子的核苷酸序列全长为370 733 456 bp,具有一个长为6.9Mb的N-average连续序列。通过比较来自不同实验室长为1.2Mb的重叠序列可以估测特征序列,总精确度达99.99%。

基于锚定BAC重叠群长度和缺口染色体大小的推定值,日本晴基因组具有403Mb的单倍体核DNA[24]。将推定的缺口染色体长度加到全部未重叠序列中,水稻核基因组的总长达388.8Mb。因此,在全基因组中假分子约占95.3%,在常染色质中假分子约占98.9%。通过寻找单一表达序列标签标记得到了通过假分子来体现基因组覆盖度的独立衡量尺度[19]。在假分子的8 440个表达序列标签中,有8 391个(99.4%)被鉴定。

染色体1的预测长度达51.4Mb,约占水稻碱基总数的1/10[5]。迄今,已完成了大约43.3Mb的测序工作(精度99.99%),其中短臂序列长为493 729 bp,约6 756个基因,其中约30%的基因(2 073个)已被功能分类。基因大小的均值是6.4 kb。染色体1富含G+C,特别是在编码区具有几个分散或串联重复序列基因簇分布的特征。

染色体4的预测长度达36.8Mb[6],已经以99.99%的精度完成了大约34.6Mb的测序工作。着丝点长达1 116Mb,是目前已知序列植物中最长的。共预测到4 658个基因和70个tRNA编码基因,其中1 681个基因与EST相匹配。35%的基因功能已被分类。G+C含量达44.16%。转座子明显偏向常染色质域。染色体5的预测序列长为42.2Mb,其中包括29.8Mb的非重叠序列[8]。运用日本晴基因组的指纹重叠群数据,通过整合280个BAC/PAC克隆序列和232个STS/EST标记,构建了依赖于BAC和PAC克隆的日本晴的精细物理图谱。该图谱包括5个重叠群,覆盖估测染色体(30.08Mb)的99%。4个物理间隙估测分别是1~3缺口为30 kb、第4缺口为20 kb。该图谱有利于对水稻功能基因组进行定位克隆和更多特征的研究。

染色体10的预测长度达23.7Mb[7],已经以99.99%的精度完成了大约22 422 563 bp的测序工作,短臂和长臂分别为7.6,14.8Mb。共预测到3 471个基因和67个tRNA编码基因,其中81.3%的基因与EST相匹配。已经对51.4%的基因的功能进行了分类。G+C含量达43.5%。这些序列贮存在美国的DNA公共数据库中,记录代码为AE016959。染色体11和12的预测序列总长为55.9Mb,占基因组全长的14.3%[4]。鉴定了5 993个非转座元件相关基因,其中包括289个类抗病基因和28个防御响应基因,这远远高于其他染色体上类抗病基因的含量。

2007年,全基因组SwaI光学限制性(酶切)图谱被构建,该物理图谱的全基因组大小为382.17Mb,图距比以往缩短了11%,包括覆盖12条染色体的14个重叠群,位于除染色体6,9和11以外的9条染色体上的9个重叠群不存在缺口[25]。

3 着丝点定位

典型真核细胞的着丝点含有重复序列,该重复序列包括CentO卫星DNA和侧翼逆转录转座子和转座子。水稻的全部着丝点都含有高度重复的155~165 bp的CentO卫星DNA序列和着丝点-特异性逆转录转座子[26-27]。染色体4和8分别含有59 kb和69 kb的CentO重复序列簇[10-12],CentO重复序列簇呈从头到尾的串联排列。已经找到介于CentO重复间和CentO重复周围的大量的逆转录转座子,包括着丝点-特异性逆转录转座子RIRE7。CentO重复序列簇显示了2条染色体在长度和取向方面存在差异。

对假分子进行BLASTN分析,结果显示,约0.9Mb的CentO重复序列簇被测序,并且这些重复序列簇与着丝点-特异性逆转录转座子有关。全部的CentO序列位点都与已鉴定的与遗传有关的着丝点区相似。在染色体4,5,8的着丝点区遍布假分子,而在其他染色体上假分子仅存在于着丝点区的某些部位[3]。

荧光原位杂交证实染色体5上与端粒和着丝粒区相应的BAC克隆在粗线期的染色体上。54.6 cM的着丝点区覆盖着一个没有物理缺口的跨度为2.1Mb的最小tiling通道。运用3个重叠的BAC/PAC约150 kb揭示了着丝点的精确位置。另外,FISH结果显示,粗线期着丝点区的染色质浓度不均一[8]。

4 串联重复序列和简单序列重复

禾本科植物中许多激素应答蛋白和防御蛋白家族(几丁质酶、病原相关蛋白、种子过敏原等)属于串联重复序列[3]。在水稻的基因组中,串联重复序列占14%。水稻染色体10上有2个基因家族,即具有27个拷贝的编码富含甘氨酸蛋白的基因家族和具有48个拷贝的编码TRAF/BTB域蛋白的基因家族[28]。每隔5Mb检测串联排列的基因,发现水稻的153个基因列阵含有10 134个成员,65%的具有27个以上成员的串联列阵和33%的具有10个以上成员的列阵中含有蛋白激酶域[3]。尽管水稻染色体11和染色体12的长度和基因总数相似,但是染色体12上所含的类抗病基因不到染色体11的1/2。染色体11和12间类抗病基因数量的差异影响其串联基因序列的长度,各有924个和684个(分别占染色体11和12基因总量的29%和24%),基因在较短的遗传距离上至少重复一次[4]。

水稻基因组Ι型简单序列重复是多于20个核苷酸的完全序列重复,而重复序列若多于20个核苷酸则被看作高变异度区,这可以为遗传育种提供丰富的标记[3,29]。已经鉴定了代表47个明显的基序家族的水稻基因组Ι型SSR 18 828个,该序列已注释在水稻基因组中;提供了应用较广的RFLP及已经公布的SSR相关的基因组Ι型SSR物理图谱位置的有关信息[16,29-30]。高变异度的SSR平均每Mb为51个,其中,最高的分布在染色体3上,为55.8个SSR/Mb;最低的分布在染色体4上,为41个SSR/Mb。成千上万的SSR在一系列不同的栽培种中显示出扩增性好、多态性高的特点,这样便可很快将其用于基因分析[3,29]。

5 结语

水稻基因组序列图谱的完成和准确定位是引人注目的,如今已经拥有了水稻全部染色体的蓝图。目前,已经获得基因、重复序列和着丝粒等主要组成元件的分布和定位[3],近41 000个水稻基因的功能已经被搞清楚[31],绝大部分的图谱序列已经被公布在公共数据库中。基于该序列上获得的暂时的水稻假分子为科学界估测基因组提供了契机。而且,已有的SNP和SSR方面的信息将促进分子标记辅助育种和定位克隆,加速水稻改良的进程,进而为全人类的食物安全提供保障。

[1] AshikariM,Sakakibara H,Lin S,etal.Cytokinin oxidase regulates ricegrain production[J].Science,2005,309:741-745.

[2] Khush G S.What itwill take to feed 5.0 billion rice consumers in 2030[J].PlantMolecular Biology,2005,59:1-6.

[3] SasakiT.Themap-based sequenceof the ricegenome[J].Nature,2005,436:792-800.

[4] The Rice Chromosomes 11 and 12 Sequencing Consortia.The sequenceof rice chromosomes11 and 12,rich in disease resistance genes and ecent gene duplications[J].BMC Biology,2005,3:20.

[5] Sasaki T,Matsumoto T,Yamamoto K,et al.The genome sequence and structure and rice chromosome 1[J].Nature,2002,420:312-316.

[6] Feng Q,Zhang Y,Hao P,et al.Sequence and analysis of rice chromosome4[J].Nature,2002,420:316-321.

[7] The Rice Chromosome 10 Sequencing Consortium.In-depth view ofstructure,activity,and evolution of rice chromosome 10[J].Science,2003,300:1566-1569.

[8] Cheng C,Cheng M,Liu SM,etal.A fine physicalmap of the rice chromosome 5 [J].Mol Gen Genomics,2005,274:337-345.

[9] Kao F I,Cheng Y,Chow T,et al.An integrated map of Oryza sativa L chromosome 5[J].Theor Appl Genet,2005,112:891-902.

[10] Wu J,Yamagata H,Mika H,et al.Composition and structure of the centromeric region of rice chromosome 8[J].Plant Cell,2004,16:967-976.

[11] Zhang Y.Structural features of the rice chromosome 4 centromere[J].Nucleic AcidsRes,2004,32:2023-2030.

[12] Nagaki K.Sequencing of a rice centromere uncovers active genes[J].NatureGenet,2004,36:138-145.

[13] Guyot R,Keller B.Ancestral genome duplication in rice[J].Genome,2004,47:610-614.

[14] Simillion C,Vandepoele K,Saeys Y,et al.Building genomic profiles foruncoveringsegmentalhomology in the twilightzone[J].GenomeRes,2004,14:1095-1106.

[15] Paterson A H,Bowers J E,Chapman B A.Ancient polyploidization predating divergence of the cereals,and its consequences for comparative genomics[J].Proc Natl Acad Sci USA,2004,101:9903-9908.

[16] Harushima Y,Yano M,Shomura A,etal.A high-density rice genetic linkage map with 2 275 markers using a single F2population[J].Genetics,1998,148:479-494.

[17] Yamamoto K,Sasaki T.Large-scale EST sequencing in rice[J].PlantMolBiol,1997,35:135-144.

[18] Saji S,Umehara Y,Antonio B A,et al.A physicalmap with yeastartificial chromosome(YAC)clones covering 63%of the 12 rice chromosomes[J].Genome,2001,44:32-37.

[19] Wu J,Maehara T,Shimokawa T,et al.A comprehensive rice transcriptmap containing 6 591 expressed sequence tag sites[J].PlantCell,2002,14:525-535.

[20]Chen M.An integrated physical and geneticmap of the rice genome[J].PlantCell,2002,14:537-545.

[21] Mao L,Wood TC,Yu Y,et al.Rice transposable elements:a survey of 73 000 sequence tagged-connectors[J].Genome Res,2000,10:982-990.

[22] Barry G F.The use of the Monsanto draft rice genome se-quence in research[J].PlantPhysiol,2001,125:1164-1165.

[23] Goff SA.A draft sequence of the ricegenome(Oryza sativa L ssp japonica)[J].Science,2002,296:92-100.

[24] Ohmido N,Kijima K,Akiyama Y,etal.Quantification of total genomic DNA and selected repetitive sequences reveals concurrent changes in different DNA families in indica and japonica rice[J].MolGen Genet,2000,263:388-394.

[25] Zhou S.Validation of rice genome sequence by opticalmapping[J].BMCGenomics,2007,8:278.

[26] Dong F,Miller JT,Jackson SA,et al.Rice(Oryza sativa)centromeric regions consistofcomplex DNA[J].Proc Natl A-cad SciUSA,1998,95:8135-8140.

[27] Cheng Z K.Functional rice centromeres are marked by a satellite repeat and a centromere-specific retrotransposon[J].PlantCell,2002,14:691-704.

[28] SongR,Llaca V,Messing J.Mosaic organization oforthologous sequences in grass genomes[J].Genome Res,2002,12:1549-1555.

[29] McCouch SR,Teytelman L,Xu Y B,et al.Development and mappingof2 240 new SSRmarkers for rice(Oryza sativa L)[J].DNARes,2002,9:257-279.

[30] Causse M A,Fulton TM,Cho YG,etal.Saturatedmolecular map of the rice genome based on an interspecific backcross population[J].Genetics,1994,138:1251-1274.

[31] Jung K,An G,Ronald PC.Towards a better bowl of rice:assigning function to tensof thousandsof rice genes[J].Genetics,2008,9:91-101.

猜你喜欢

着丝点缺口染色体
必须堵上尾款欠薪“缺口”
抗着丝点抗体B阳性的临床价值探讨
堵缺口
多一条X染色体,寿命会更长
为什么男性要有一条X染色体?
再谈着丝粒、着丝点在有丝分裂和减数分裂中的修订
抗着丝点抗体在多种疾病中的变化和意义
能忍的人寿命长
对着丝点分裂还是着丝粒分裂的分析
我国医学物理师缺口巨大