测定重复序列的一种有效方法——定向删除法
2010-03-22贾凌赵爱春马三垣何宁佳
贾凌 赵爱春 马三垣 何宁佳
(西南大学蚕学与系统生物学研究所,重庆 400716)
近年来,随着测序技术的迅速发展,已有包括人[1]、牛[2]、鼠[3]等哺乳动物,家蚕[4]、蜜蜂[5]等昆虫,拟南芥[6]、水稻[7]等植物,以及流感嗜血杆菌[8]等微生物越来越多生物物种的基因组序列被测定。这些基因组序列的测定,多是采用随机测序(shotgun method)的方法,这种方法虽然可以快速地对基因组进行大规模测定,但是由于其原理是将基因组随机打断成较短的片段,测定后再行拼接[1],因此,用这种方法测定的基因组存在一些空白(gap)。基因组序列中出现空白原因除了基因组测序覆盖度低以外,更主要的是不同物种基因组中重复序列的存在,特别是在高等生物基因组中存在大量的重复序列而导致随机测序后无法拼接。目前研究表明,不论是在低等原核生物还是高等真核生物的基因组中,都存在着一定比例(1%~77%)的重复序列[9],其结构的特殊性使其难以用随机测序后再进行拼接的方法来测定。因此,测定重复序列,尤其是高度重复序列只能用定向测序的策略。目前,定向测序的策略主要有两种:引物步移法(primer walking)和核酸外切酶Ⅲ嵌套缺失法(nested deletions with exonucleaseⅢ)。引物步移法可以有效测定非重复序列和短的重复序列(<2 kb),而利用其测定较长的高度重复序列时,无法避免引物同时和模板的多个位置退火从而无法完成准确的定向测序。核酸外切酶Ⅲ嵌套缺失法是利用核酸外切酶Ⅲ定向删除形成嵌套缺失的多个克隆后再利用载体一端引物定向测序的方法,测序准确度高[10]。
越来越多物种的基因组测序的完成为进一步揭示不同基因的功能奠定了坚实的基础,而基因组序列中无所不在的空白无疑是基因组测序工作中的一大瑕疵,对其中大量存在的重复序列的测定将有助于不同物种基因组序列完善。目前不同物种特别是高等生物基因组中的空白序列主要是一些重复序列,有研究表明大量的重复序列通过调节基因表达和染色体的生理代谢等方式行使生物功能[9]。最近越来越多的研究也表明这些重复序列在生物进化[11]、基因的转录和表达调控[12]等许多生命活动方面具有不可忽视的作用。此外,这些空白序列中的部分重复序列本身就是一些比较关键的基因,对不同生物的生命活动起着重要的作用。如为了捕食、保护后代和危机自救逃跑等目的,圆网蜘蛛一生中可以分泌达七种不同类型的丝蛋白;家蚕为了保护蚕蛹顺利地发育而吐丝结茧,这些泌丝动物的丝蛋白基因几乎都是由冗长的高度重复序列组成[13,14]。因此,对基因组中的空白序列进行测定对人类进一步了解和揭示生命的奥秘具有重要的意义。核酸外切酶Ⅲ嵌套缺失法是目前测定重复序列最有效的方法之一,本研究以黄蜂蜘蛛大壶状腺丝蛋白MaSp2(Major Ampullate silk protein),管状腺丝蛋白CySp1(Cylindrical silk protein 1)以及CySp2(Cylindrical silk protein 2)三个丝蛋白全长cDNA克隆为材料,测定这些基因序列的同时系统地探讨了利用核酸外切酶Ⅲ嵌套缺失法测定重复序列的关键技术和常见问题的处理策略,以期为不同基因组中重复序列的测定提供有用的技术参考。
1 材料和方法
1.1 材料
1.1.1 质粒和菌株
黄蜂蜘蛛大壶状腺丝蛋白基因MaSp2,管状腺丝蛋白基因CySp1和CySp2的全长cDNA克隆均由本实验室保存,其骨架载体为pGCAP1(图1);大肠杆菌(Escherichia coli)DH5α和XL-BLUE菌株购自Takara公司。
图1 含蜘蛛丝蛋白基因的载体pGCAP1图谱。不同蜘蛛丝蛋白全长cDNA基因插入多克隆位点内切酶EcoRI和NotI之间,M13R为定向删除亚克隆测序引物。
1.1.2 培养基
LB培养基:蛋白胨10g,酵母提取物5g,氯化钠10g,固体培养基添加15g琼脂,去离子水至1000ml,固体和液体培养基在使用时按需要加入氨苄青霉素至终浓度为50ug/ml。
1.1.3 酶和试剂
ExonucleaseⅢ、Mung Bean nuclease、Klenow Fragment、连接酶试剂盒[Kit Code D6022]以及XbaⅠ、SalⅠ等限制性内切酶和琼脂糖粉均购自Takara公司;BigdyeTM、聚丙烯酰胺凝胶(POP-6)、测序毛细管电泳缓冲液、高质量甲酰胺、矿物油等测序药品均购自ABI生物有限公司。
1.2 方法
1.2.1 定向删除内切酶的选择
首先利用酶切实验分别分析载体中cDNA基因MaSp2、CySp1和CySp2的酶切位点,然后根据两端载体序列的酶切位点在每个基因的同一侧分别确定一个5'黏末端酶和一个3'黏末端酶为进一步的核酸外切酶Ⅲ嵌套缺失实验。
1.2.2 利用核酸外切酶Ⅲ形成嵌套缺失
首先通过1.2.1各自选定的限制性内切酶分别处理含20ug的MaSp2、CySp1和CySp2基因的三个载体,接着采用酚和氯仿对DNA溶液进行纯化并用无水乙醇沉淀DNA和70%乙醇洗涤沉淀,接着在37℃用核酸外切酶Ⅲ酶切上述产物,每隔一分钟收集最初反应体系的十分之一置于冰上终止反应,将10次收集的产物混合获得最终收集产物。这些产物在37℃条件下用绿豆核酸酶消化1个小时,接着采用酚和氯仿对DNA溶液进行纯化后同样用无水乙醇沉淀DNA和70%乙醇洗涤沉淀,之后通过Klenow片段补齐缺口后同样使用上述纯化和沉淀方法获得具有平末端的嵌套DNA,最后使用TAKARA公司连接酶试剂盒的solutionⅠ[kit code D 6022]在16℃条件下连接13小时环化得到不同嵌套缺失亚克隆DNA文库。
1.2.3 亚克隆的获得
将1.2.2所得的不同嵌套缺失亚克隆文库的DNA溶液转化到感受态细胞DH5α或XL-BLUE中,在37℃条件下培养16个小时。利用菌液电泳,即将菌液与solutionⅡ(188 mM NaOH和1%SDS)溶液按照2:1的比例于离心管中裂解15分钟,然后取10-15ul的裂解产物进行琼脂糖凝胶电泳,初步筛选所需的亚克隆,最后再采用双酶切进一步鉴定亚克隆中目的基因片段的大小,并根据鉴定的大小从小到大进行排序和编号。
1.2.4 测序及序列拼接
以1.2.3步骤获得的亚克隆为模板,利用载体一端的通用测序引物M13R,对插入片段进行定向测序,测序PCR热循环条件为:96℃预变性5min,(96℃变性30s,50℃退火15s,60℃延伸4min)×24个循环,60℃延伸10min。测序PCR产物经纯化后上样至DNA测序仪(ABI Prism genetic analyzer 3100),获得相应亚克隆中目的基因片段的5'端的部分序列。根据亚克隆编号和相邻的相同部分完全重叠原理,利用软件Sequencher4.2对其序列依次进行拼接而最后获得这些基因全部序列。
2 结果
2.1 定向删除内切酶的选择
对pGCAP1载体的序列分析发现,插入片段上游序列中含有8个酶切位点,包括6个5'黏末端酶(XbaⅠ、SalⅠ、XhoⅠ、BamHⅠ、EcoR I、Hind III)和两个3'黏末端酶(SphⅠ和PstⅠ)。其中,对MaSp2全长cDNA克隆进行上述部分酶(XbaⅠ、SalⅠ、XhoⅠ、SphⅠ和BamHⅠ)的酶切分析,结果如图2所示:XbaⅠ、SalⅠ、XhoⅠ和SphⅠ将克隆能切成单一的片段,而BamHⅠ的酶切产物呈现出多个条带,暗示MaSp2基因中无XbaⅠ、SalⅠ、XhoⅠ和SphⅠ识别位点,而存在多个BamHⅠ位点。根据这一结果,我们选择3'黏末端酶SphⅠ和5'黏末端酶XhoⅠ进行定向删除实验。图3显示了MaSp2全长克隆SphⅠ和XhoⅠ双酶切的结果,同样也表明MaSp2基因中无XhoⅠ和SphⅠ识别位点且该基因大小约为10kb。利用同样的方法,我们确定了CySp1全长cDNA克隆含有EcoRI和多个PstI识别位点且无XhoⅠ和SphⅠ识别位点,CySp2全长cDNA克隆有多个PstI位点而无EcoRⅠ和SphⅠ位点,因此选用了XhoI-SphⅠ内切酶组合和EcoRI-SphⅠ内切酶分别为CySp1和CySp2的全长克隆进行定向删除实验。图4显示了XhoI、SphⅠ、EcoRI对CySp1和CySp2的全长克隆单酶切的电泳结果。图5显示了XhoI-SphⅠ、EcoRI-SphⅠ组合对CySp1和CySp2的全长克隆双酶切的电泳结果。这些结果不但进一步证明了上面的酶切分析结果,而且确定了CySp1和CySp2的全长基因大小也约为10kb。
图2 MaSp2全长cDNA克隆的单酶切电泳图
图3 MaSp2全长cDNA克隆的双酶切电泳图
图4 CySp1和CySp2全长cDNA克隆的单酶切电泳图
图5 CySp1和CySp2全长cDNA克隆的双酶切电泳图
2.2 基因MaSp2、CySp1和C ySp2嵌套缺失的酶切鉴定
通过使用核酸外切酶Ⅲ定向删除MaSp2全长cDNA克隆的5'黏末端,接着用绿豆核酸酶降解核酸外切酶Ⅲ定向删除后剩下的单链DNA以及Klenow片段补平缺口,然后用TAKARA公司连接酶试剂盒的solutionⅠ[kit code D 6022]环化载体,转化并用如实验材料和方法部分所述进行筛选和排序,最后我们得到了许多大小不同的亚克隆,并对这些亚克隆进行双酶切(SalⅠ、NotⅠ)分析,结果如图3所示:筛选出的亚克隆均能被SalⅠ和NotⅠ两个内切酶切开并正如预料的产生两条DNA带,其中一条约3200bp,为载体骨架DNA片段,另一条为长度不同的插入片段,即长度不同的MaSp2基因片段(图6)。这些结果表明含MaSp2全长cDNA基因的质粒载体通过核酸外切酶Ⅲ等其他酶的一系列处理后有效地形成的大小不同嵌套缺失,同时也表明利用菌液电泳先快速初步鉴定亚克隆大小和排序具有省时和节约实验成本的优点,可使下一步双酶切鉴定能够容易地实现不同亚克隆的准确排序。采用同样的方法,我们也筛选获得了CySp1和CySp2基因的不同嵌套缺失亚克隆(电泳图未显示)。
图6 (A、B) MaSp2全长cDNA克隆核酸外切酶Ⅲ不同的定向删除亚克隆双酶切(SalⅠ和NotⅠ)的电泳图
2.3 测序与序列的拼接
利用载体一端的测序引物M13R,先对图6中的不同嵌套缺失亚克隆的5'-端进行定向测序分析,然后对测定出的图6中各亚克隆插入片段的5'-端序列进行从小到大的依次拼接。在拼接过程中,我们先根据DNA Maker确定图6各亚克隆插入片段大小并大概确定大小相邻亚克隆插入片段的大小差异,然后利用相邻克隆相同DNA片段完全重叠的原理,利用软件Sequencher4.2对图6各亚克隆插入片段依次拼接(图7),这样我们测定了黄蜂蜘蛛大壶状腺丝蛋白基因MaSp2的全长序列,大小为10.086kb,其中高度重复序列的长度约为9.3kb。我们用同样的方法也测定了黄蜂蜘蛛卵囊丝蛋白基因CySp1和CySp2的全长cDNA序列,大小分别为9.1kb(登录号AB242144)和9.8kb(登录号AB242145),其中高达90%以上序列是高度重复序列[15]。
图7 MaSp2定向删除亚克隆5'-端片段的序列拼接图
3 讨论
本研究利用核酸外切酶Ⅲ定向删除的方法,成功测定了高度重复序列——黄蜂蜘蛛大壶状腺丝蛋白基因MaSp2,管状腺丝蛋白基因CySp1和CySp2的全长cDNA序列,其大小分别为10.086kb,9.1kb和9.8kb,重复序列均在90%左右。研究结果表明核酸外切酶Ⅲ定向删除法是一种能准确测定高度重复序列的有效方法,这种方法主要包括三个步骤:(1)选择合适的一个5'黏末端和3'黏末端内切酶处理待测序的克隆,在待测序列的一侧形成两个黏末端缺口;(2)利用核酸外切酶Ⅲ只能够单向删除5'黏末端单链DNA序列特点,先用核酸外切酶Ⅲ处理酶切样品,然后用绿豆核酸酶降解定向删除后剩下的单链DNA并进一步用Klenow Fragment补平线性DNA的两端,最后自连形成大小不一的亚克隆;(3)亚克隆的筛选与排序:根据亚克隆插入片段的大小顺序进行从小到大的准确排序并对这些亚克隆的插入片段的5'-端进行测序,然后是根据完全重叠原理对两两相邻的序列依次进行拼接。
在利用核酸外切酶Ⅲ定向删除法测定重复序列的过程中,各个步骤均会影响到序列测定的效果。本研究中,我们针对一些重要的环节采取了相应的策略:(1)黏性末端酶位置的选择:我们通过软件分析载体序列,在通用测序引物和待测基因之间选择合适的黏性末端酶位点,并利用单酶切进行验证,确保待测基因中没有该酶切位点。此外,为了便于形成合理的嵌套缺失,所选择的5'黏末端酶应比3'黏末端酶更邻近于待测基因。(2)筛选合适亚克隆:有研究报道,采用核酸外切酶Ⅲ定向删除法处理克隆后,大约超过三分之一的亚克隆不是由核酸外切酶Ⅲ处理后形成的合理的嵌套缺失[10]。为了快速筛选到目的亚克隆,我们采用了菌液电泳的方法对嵌套缺失的大小进行了初步判定,再进行双酶切进一步鉴定,最后根据双酶切结果严格进行排序,这将大大地有助于不同目的删除亚克隆的有效获得和准确排序,具有省时省力的优点。(3)序列拼接的准确性:为了保证序列拼接正确,在拼接过程中,我们严格按照亚克隆大小的顺序逐个进行拼接,并将拼接后的亚克隆插入片段的大小与其在琼脂糖凝胶电泳图上的大小相比较以进一步确认序列拼接的准确性。该测序方法工作量最大和最难的步骤便是亚克隆的筛选与准确排序,也是准确测定重复序列的关键,利用快速的菌液电泳和对插入片段的初步排序有助于减小筛选和准确排序的工作量。
定向删除法对序列进行单向测序,其测定重复序列的准确度高,但是该法需要形成大量的大小不一的亚克隆文库,而对这些大小不同亚克隆的有效分辨和准确排序受电泳技术的限制。如本研究中是利用普通的琼脂糖电泳技术对大小不同亚克隆进行分辨和排列,由于受琼脂糖电泳分辨率的限制,其单向所能测定DNA的最大长度仅为10kb左右,主要是由于超过10kb后相差约500-800bp(约一个测序反应长度)的相邻DNA片段很难通过琼脂糖电泳进行有效的分辨,这也是目前限制了该定向删除法的更广泛应用的瓶颈。如要利用该定向删除法测定更长的重复序列,也许可以采用以下策略:(1)可以在目的片段的两端同时进行核酸外切酶Ⅲ定向删除法,这样可使能测定的序列长度达到20kb;(2)超过20kb的重复序列可根据重复序列内酶切位点的差异选择重复序列差异内酶切进行亚克隆,然后对几个大的不同亚克隆进行分别核酸外切酶Ⅲ定向删除测序,最后完成序列连接;(3)利用新的高分子量高分辨能力的电泳技术,解决电泳分辨能力的瓶颈。通过上述改进,利用核酸外切酶Ⅲ定向删除法将可以测定长得多的重复DNA分子。
不同生物体的基因组中均存在一定比例的重复序列(比如小鼠占38%,智人占50%,玉米占77%),这些重复序列在生物体的生命活动中扮演着重要的角色,它们在基因表达,转录调控和染色体的生理代谢等都起着一定的作用[9]。另外有研究报道表明蜘蛛大壶状腺丝蛋白基因的重复序列长度可能与蜘蛛丝机械性能有密切关系[13]。因此,重复序列的测定有利于揭示其具体功能,有助于人们对不同生物的生命活动的进一步理解。然而重复序列的特性决定了其序列不能用鸟枪法等常规的测序手段进行测定,造成许多重复序列至今还没有被测定。研究者们至今已利用此法测定了高度重复的络新妇蜘蛛(Nephila clavipes)的鞭状腺丝蛋白(Flag)基因[16],以及含有22个7肽串联重复序列16个13肽基序的斑马贝(Dreissena polymorpha)足丝蛋白(foot protein)基因[17]等,这些都说明该方法是一种有效的测定重复序列的方法。本研究基于前人的研究成果,在测定三个冗长的高度重复序列的同时系统地探讨的核酸外切酶Ⅲ定向删除法测定高度重复序列一些关键问题,将对这一方法的进一步发展和应用具有重要参考价值,期望为快速、准确地测定重复序列等难测序列提供有效的技术参考,促进基因组空白序列的填补和完善。
[1]International Human Genome Sequencing Consortium.Initial sequencing and analysis of the human genome[J].Nature,2001,409(6822):860-921.
[2]The Bovine Genome Sequencing and Analysis Consortium,Christine G et al.The Genome Sequence of Taurine Cattle:A Window to Ruminant Biology and Evolution[J].Science,2009,324(5926):522-526.
[3]Mouse Genome Sequencing Consortium.Initial sequencing and comparative analysis of the mouse genome[J].Nature,2002 420(6915):520-562.
[4]Qingyou Xia,Zeyang Zhou,Cheng Lu et al.A draft sequence for the genome of the domesticated silkworm(bombyx mori)[J].Science,2004,306(5703):1937-1940.
[5]Waring.Sequencing of the honey bee genome[J].Bee Craft.2004,86(2):6.
[6]The Arabidopsis Genome Initiative(AGI).Analysis of the genome of the flowering plant Arabidopsis thaliana[J].Nature,2000,408(6814):796-815.
[7]Yu J,Hu S,Wang J et al.A draft sequence of the rice genome(Oryza sativa L.ssp.indica)[J].Sci-ence,2002,296(5565):79-92.
[8]Fleischmann RD,Adams MD,White O et al.Whole-genome random sequencing and assembly of Haemophilus influenzae Rd[J].Science,1995,269(5223):496-512.
[9]艾对元.基因组中重复序列的意义[J].生命的化学,2008,28(3):343-345.
[10]Steven Henikoff.Unidirectional digestion with exonucleaseⅢcreates targeted breakpoints for DNA sequencing[J].Gene,1984,28(3):351-359.
[11]Eichler EE,Sankoff D.Structural dynamics of eukaryotic chromosome evolution[J].Science,2003,301(5634):793-797.
[12]Volpe TA,Kidner C,Hall IM et al.Regulation of Heterochromatic Silencing and Histone H3 Lysine-9 M ethylation by RNAi[J].Science,2002,297(5588):1833-1837.
[13]Ayoub NA,Garb JE,Tinghitella RM et al.Blueprint for a High-Performance Biomaterial:Full-Length Spider Dragline Silk Genes[J].PLoS ONE,2007,2(6):e514.
[14]Cong-Zhao Zhou,Fabrice Confalonieri,Nadine Medina et al.Fine organization of bombyx mori fibroin heavy chain gene[J].Nucleic acids research,2000,28(12):2413-2419.
[15]Ai-Chun Zhao,Tian-Fu Zhao,Koichi Nakagaki et al.Novel molecular and mechanical properties of egg case silk from wasp spider,Argiope bruennichi[J].Biochemistry,2006,45(10):3348-3356.
[16]Hayashi CY,Lewis RV.Evidence from flagelliform silk cDNA for the structural basis of elasticity and modu1ar nature of spider silks[J].J.Mo1.Bio1,1998,275(5):773-784.
[17]Anderson KE,Waite JH.A major protein precursor of zebra mussel(dreissena polymorpha)byssus:deduced sequence and significance[J].Biol.bull,1998,194(2):150-160.