APP下载

锥栗基因组SSR开发及农家品种的遗传多样性分析

2020-01-14顾光仕李颖林郑国华

森林与环境学报 2020年1期
关键词:碱基核苷酸多态性

顾光仕, 李颖林, 刘 丹, 陈 辉, 郑国华, 李 煜

(1.福建农林大学林学院, 福建 福州 350002; 2.福建农林大学经济林研究所, 福建 福州 350002)

锥栗[Castaneahenryi(Skam)Rehd. et Wils.]属壳斗科栗属树种,是我国南方著名的木本粮食和果材兼用树种,锥栗果实香甜可口,风味较板栗更佳。作为我国特有的栗属植物,锥栗分布于我国秦岭以南地区,现在闽北和浙南山区大面积种植[1]。相比于同属的板栗(CastaneamollissimaBl.)和茅栗(CastaneaseguiniiDode),锥栗树干较为通直。4月底至6月中旬为锥栗的花期,9—10月为锥栗的集中收获期。锥栗喜光耐旱,生长环境要求排水良好,宜种植在海拔1 800 m以下的山坡,既抗旱又耐寒,生长较快。作为优良的经济树种,闽北锥栗拥有抗逆性强、产量高和果实品质佳等一系列优良特性,经过不断地人工选育与嫁接繁殖,建瓯市已经培育出30多个优良农家品种[2-3],对林农致富和山区经济发展发挥了重要作用。长期以来,由于缺乏相应的科学管理手段,野生锥栗资源经营管理还相对比较粗放,其果实品质较差,经济效益不高,加之近年来的开荒种果,植树造林,野生锥栗资源正在不断遭受破坏,面积也在逐年缩小[4]。需要通过分子标记对锥栗野生和栽培群体进行遗传多样性分析,制定相应的保护策略。

限制性片段长度多态性(restriction fragment length polymorphism, RFLP)和扩增片段长度多态性(amplified fragment length polymorphism, AFLP)分子标记技术复杂,操作繁琐,具有放射性危害;随机扩增多态性DNA(random amplified polymorphic DNA, RAPD)、相关序列扩增多态性(sequence-related amplified polymorphism, SRAP)、简单重复序列间扩增(inter-simple sequence repeat, ISSR)标记技术重复性差[5]。简单重复序列间(simple sequence repeat, SSR)分布于整个基因组中,SSR分子标记具有高多态性、共显性,重复性和稳定性好,对DNA要求低,操作简单,高性价比等特性,广泛应用于遗传多样性研究,种质资源鉴定、遗传图谱构建及基因定位等[6]。董蒙蒙等[7-8]通过SRAP和其他栗属SSR分子标记对建瓯市17个主栽农家品种进行遗传多样性分析,利用10对SRAP引物获得200个条带,多态性条带183个,利用12对其他栗属SSR引物共扩增出180个条带,多态性条带163个,表明建瓯市17个主栽农家品种遗传多样性丰富。向晖等[9]通过15个SRAP引物组合对7个野生锥栗居群共扩增出221个位点,平均多态性位点数为155.06,23个锥栗品种多态性位点百分率占比为89.14%,刘国彬[10]通过13对ISSR引物,对锥栗37个农家品种共扩增出来156条谱带,多态性条带为129条,这些研究都表明锥栗具有丰富的遗传多样性。目前的遗传多样性研究均使用其它栗属树种的SSR,锥栗SSR还未开发,限制了锥栗遗传育种的研究。

本研究将对锥栗SSR富集文库进行Illumina MiSeq 高通量测序,利用生物信息学对得到的序列进行SSR特征分析,开发锥栗基因组SSR并对农家品种进行遗传多样性分析。开发的基因组SSR为锥栗栽培和野生群体的遗传多样性研究奠定基础。

1 材料与方法

1.1 研究材料

选取福建农林大学经济林研究所泰宁试验地的25个农家品种。以野生锥栗种子育苗为砧木,于2000年将25个农家品种繁育成无性系,种植于泰宁。田间试验采用完全随机区组设计,每小区10株,3次重复,株行距4 m×4 m,对25个农家品种进行1~25编号。本研究于2017年5月采集各农家品种的无病害叶片,通过水培带回实验室,用锡箔纸包裹叶片置于液氮中速冻,将样品保存于-80 ℃冰箱中。

1.2 研究方法

1.2.1 DNA提取 采集无病害叶片,通过改良CTAB法[11]提取DNA,用0.8%的琼脂糖凝胶电泳检测DNA的质量,用Nano Drop ND-1000核酸蛋白检测仪(Nano Drop Technologies Inc., 美国)检测DNA的浓度。

1.2.2 SSR富集文库的构建及测序 将15个农家品种的DNA混池后片段化, 构建标准的基因组文库(文库的插入片段大小控制在400 bp左右);采用选择杂交法(磁珠富集法)富集基因组文库中的SSR片段;SSR富集所采用的探针包括8种,即p(AG)10、p(AC)10、p(AAC)8、p(ACG)8、p(AAG)8、p(AGG)8、p(ACAT)6和p(ATCT)6;将富集到的基因组文库上机测序,采用Illumina MiSeq系统收集数据。测序数据中包含一些带接头、低质量的Reads,通过接头污染去除、质量过滤、长度过滤得到高质量Reads。将建库测序的文库Read的R1端和R2端进行整合。采用FLASH的4个参数对序列进行整合,参数为①没min overlap:10;②max mismatch density:0.5;③allow “outie” pairs:false;④cap mismatch quals:false。运用SSR识别工具(microsatellite identification tool, MISA)搜索mono-10、di-6、tri-5、Tetra-5、penta-5、hexa-5,符合序列中两个不同SSR允许的最大间隔设置为100 bp。采用Perl程序屏蔽序列上的重复序列(用字母R代替),过滤掉侧翼序列短于20 bp的SSR(过短的侧翼序列无法进行相似性比对 )。利用uclust(v1.2.22q)软件对过滤后的序列进行聚类,聚类所采用的核苷酸序列的相似度设置为98%。采用Perl程序对聚类结果进行解析,根据SSR的长度分别对每一个类进行统计,一个类中所有SSR的长度一致,则该类的多态性为1;如果同一类中SSR具有2种长度则该类的多态性为2;依次类推,获得每一个类的SSR的多态性。

1.2.3 SSR引物筛选 将得到的SSR引物通过多态性长度及重复碱基数选择100对SSR引物进行筛选,反应体系:约55 ng DNA,2.5 mmol·L-1MgCl2,2 μL 1xPCR buffer,1.5 U Taq酶,0.2 mmol·L-1dNTPs,0.4 mmol·L-1上游引物,0.4 mmol·L-1下游引物,加ddH2O至25 μL。PCR反应程序:95 ℃预变性5 min;30个循环(94 ℃变性50 s, 60 ℃退火50 s, 72 ℃延伸2 min);72 ℃延伸10 min。

取5 μL的PCR扩增产物,使用8%非变性聚丙烯酰胺凝胶进行电泳分离DNA片段,电压250 V,电泳150 min后取下凝胶,蒸馏水漂洗2次,每次1 min;通过固定液,固定延伸产物;蒸馏水漂洗2次,每次1 min;置于银染液中,进行染色;蒸馏水漂洗2次,每次10 s,置于显色液中进行显色;蒸馏水漂洗2次,每次1 min,终止染色。使用数码相机照相,采取人工读取电泳图的方式,进行筛选。选取8个农家品种对100对基因组SSR引物进行筛选。

1.2.4 农家品种的遗传多样性分析 利用筛选的引物对25个农家品种进行PCR扩增, 数据转换成POPGENE软件要求的格式;使用POPGENE version1.32软件计算以下多态性指数:观测基因数(Na),有效等位基因数(Ne)、观测杂合度(Ho)、期望杂合度(He)、Shannon信息指数(I)、Nei总基因多样性(Ht)、Nei′s种群内基因多样性(Hs)、基因分化系数(FST)、基因流(Nm);利用NTSYS 2.1软件计算遗传相似系数(simple match coefficient, SM)以及以非加权组平均法(unweighted pair-group method using arithmetic average algorithm, UPGMA)进行聚类分析。

2 结果与分析

2.1 测序数据统计

通过Illumina MiSeq 高通量测序找到1 249 808 996 bp碱基数,有5 145 026个Reads,平均242.91个Reads,710个模糊碱基(表1)。得到2 572 513个序列,碱基序列长度在35~251 bp,GC值为35.8%。由图1可知,单碱基质量分布处于25%~75%之间,本次测序过滤后的数据平均质量较好。

2.2 基因组SSR特征分析

通过计算read的R1端和R2端整合后各序列的长度,做出长度分布图(图2),序列长度主要集中在200~250与350~400 bp之间。通过过滤得到高质量Reads数量4 729 726,占下机Reads的91.93%。通过序列合并,得到2 364 881,可以合并的Read pair数2 051 475对,占整数的86.75%。在2 051 475条序列中,总共搜索到2 117 345个SSR。在所有具有SSR的序列中565 603条序列包含1个以上SSR,以复合形式存在的SSR数量为640 155个(表2)。

表 1 测序数据统计Table 1 Sequencing data statistics

注:横坐标是reads碱基位置(5'→3'),纵坐标是所有reads在该位点碱基Q值统计。红线代表中位数,蓝线代表平均数,黄线代表25%~75%区间,触须是10%~90%区间。Note:theabscissaisthereadsbaseposition(5'→3'),andtheordinateisthestatisticsofthebaseQvaluesofallreadsatthatposition.Theredlinerepresentsthemedian,thebluelinerepresentstheaverage,theyellowlinerepresentsthe25%-75%range,andthetentaclesareinthe10%-90%range.图1 单碱基质量分布图Figure1 Singlebasemassdistributionmap图2 序列长度分布图Figure2 Sequencelengthmap

表 2 SSR搜索结果统计Table 2 SSR search result statistics

分别对不同类型的SSR模体进行统计。在锥栗基因组SSR数据库中,以二核苷酸为重复单元的SSR含量最多,占总数的73.22%,之后依次为三核苷酸(12.61%)、单核苷酸(12.56%)、四核苷酸(1.33%)、六核苷酸(0.23%)和五核苷酸(0.06%)(表3)。

表 3 SSR模体结果统计Table 3 SSR phantom result statistics

对每一种SSR重复类型,按照碱基序列组成进行细分,单碱基重复、二碱基重复和三碱基重复的优势重复单元分别为:单核苷酸优势重复类型为A/T,有255 848条,占单碱基重复类型的95.94%。双核苷酸优势重复类型为AC/GT,有693 105条,占二碱基重复类型的44.71%。三核苷酸优势重复类型为AAG/CTT,有110 713条,占三碱基重复类型的41.48%。其结果统计见表4。

根据SSR的长度分别对每一类进行统计,同一类中所有SSR的长度聚类进行分析,SSR长度多态性中为17的为1。长度多态性1、2和3为98.65%,说明锥栗SSR长度多态性较低,结果见表5。

根据SSR的长度分别对每一类进行统计,同一类中所有SSR的长度聚类进行分析,SSR长度多态性中为17的为1。长度多态性1、2和3为98.65%,说明锥栗SSR长度多态性较低,结果见表5。

表 4 单、双、三核苷酸重复模体结果统计Table 4 Statistics of mono-, di-, and tri-nucleotide repeat phantom

表 5 SSR长度多态性评估Table 5 SSR length polymorphism assessment

2.3 基因组SSR的开发

以8个农家品种为材料,对100对引物进行筛选,最终选出稳定性好、重复性高和多态性高的10对基因组SSR引物组合(表6、 图3)。

表 6 基因组SSR引物序列Table 6 Genome SSR primers

注: 泳道1~8为引物FAFUZL-1的扩增结果、 泳道9为maker、 泳道10~17为引物FAFUZL-3的扩增结果。 Note: lanes 1-8 are the amplification results of the primer FAFUZL-1, lane 9 is the maker, and lanes 10-17 are the amplification results of the primer FAFUZL-3.

2.4 遗传多样性分析

利用10对SSR引物组合,对25个福建省泰宁县锥栗主栽农家品种进行扩增,共扩增出70个位点,平均每对引物扩增出7个位点,扩增片段大小主要集中在111~355 bp之间。FAFUZL-4和FAFUZL-2观测等位基因和期望杂合度最高,平均观测等位基因和期望杂合度分别为6.3和0.705(表7)。FAFUZL-4有效等位基因数最高,平均有效等位基因数为3.628。FAFUZL-4的Shannon信息指数最高,平均Shannon信息指数为1.441。FAFUZL-5观察杂合度为0.958,高于其它9对SSR引物,表明锥栗农家品种具有较高的遗传多样性水平。

表 7 10对SSR引物组合的扩增多态性Table 7 The polymorphism of the 10 SSR primers

2.5 遗传相似性与聚类分析

由25个锥栗农家品种的遗传相似系数可知(表8),25个锥栗农家品种遗传相似系数在0.957~0.471之间,变幅为0.486,表明25个锥栗农家品种间存在较大的遗传变异,其中6号农家品种和14号农家品种遗传相似系数最大,说明二者的亲缘关系最近,遗传差异最小;19号农家品种和21号农家品种相似系数最小,说明两者亲缘关系最远,遗传差异最大。

表 8 25个锥栗农家品种的遗传距离与遗传相似系数Table 8 The genetic distance and the similarity coefficients of 25 C. henryi culticars

由聚类图(图4)可知遗传相似系数为0.67时,25个农家品种可以聚为三大类,第Ⅰ类包括:23号、18号、21号农家品种;第Ⅱ类包括:6号、14号、19号、13号农家品种;第Ⅲ类包括其它18个农家品种。相似系数为0.79时,第III类被分为A~G7个小类。A类包括:16号、20号;B类包括:9号、15号、7号、2号、4号、25号;C类包括:8号、24号、12号、17号;D类包括:5号;E类包括:10号;F类包括:3号、22号、11号;G类包括1号。

图 4 25个锥栗农家品种的聚类图Figure 4 Clustering map of 25 C. henryi culticars

3 讨论与结论

锥栗基因组SSR种类丰富,在高质量可合并的2 051 475条序列中,总共搜索到2 117 345个SSR,以复合形式存在的SSR数量有640 155个。锥栗GC含量为35.8%,GC含量及其分布是生物体基因组的一个重要特征,由于GC通过3个氢键配对,GC含量通过影响基因组DNA的热稳定性来影响基因组的某些功能,所以GC含量对基因组特定区域的稳定及相关功能有重要的作用。GC含量还是物种演化的特征之一,不同物种基因组序列之间的GC含量相差很大,近缘物种的GC分布有相似的趋势,通过GC分布图,可以初步判断两个物种在演化上的距离,如拟南芥[Arabidopsisthaliana(Linn.) Heynh.]GC含量为36%左右,人类基因组的平均GC含量为42%左右。此外蛋白编码序列的GC含量较高,借助GC含量的不均一分布,还可以分析基因组的特征结构,如DNA复制起点。二核苷酸为重复单元的SSR含量最多,占总数的73.22%,之后依次为三核苷酸(12.61%)、单核苷酸(12.56%)、四核苷酸(1.33%)。单碱基重复和三碱基重复的优势重复单元为:A/T、AAG/CTT。

狗枣猕猴桃[Actinidiakolomikta(Maxim. et Rupr.) Maxim.]、杜仲(EucommiaulmoidesOliv.)和油茶(CamelliaoleiferaAbel)重复单元最多为二核苷酸,次之为单核苷酸[12-14],枣(ZiziphusjujubaMill.)、二穗短柄草[Brachypodiumdistachyon(L.) P.Beauv.]和玉米(ZeamaysLinn.)基因组微卫星重复单元最多的为六碱基重复[15],而水稻(OryzasativaLinn.)、高粱[Sorghumbicolor(L.) Moench]优势重复碱基为三碱基[16],与本试验结果不相同。因为不同物种的基因组存在大小不同,碱基比例不同,SSR丰富度不同,导致不同物种间的SSR重复碱基存在不同。张晗等[17]研究表明谷子[Setariaitalica(L.) Beauv.]的优势重复单元为二核苷酸和三核苷酸,与本试验结果相似,说明谷子和锥栗都拥有较高的变异频率和较久的进化史。

单核苷酸优势重复单元A/T为255 848个,与枣和杜仲重复形式相同。A/T碱基含量高,表明碱基的偏好性[18],可能是长期进化变异的结果。双核苷酸优势重复单元AC/GT和AG/CT为1 315 044个,与北美乔松和火炬松重复碱基类似,AC、GA、GT重复能影响DNA结构及DNA重组[19-20]。

SSR具有分布范围广、检测模板的质量要求低、共显性、多态性高等优点,已经广泛应用于遗传多样性、基因定位克隆等研究中。另外,SSR标记比其他类型的分子标记更加经济和有效[21-25]。开发合适的SSR分子标记是构建遗传图谱的关键,遗传图谱是对数量性状定位的基础。徐礼羿利用茶树SSR构建了16个连锁群,图谱覆盖度为1 165.4 cmol,平均图距为6.7 cmol,并对茶树的茶橙瘿螨、日灼病和炭疽病抗性QTL的定位进行了分析[26]。本研究开发的SSR标记可以用于栗属树种的遗传多样性分析及遗传图谱的构建。

10对SSR引物组合对25个福建省泰宁县锥栗主栽农家品种共扩增出来70个位点,平均每对引物扩增出7个位点,扩增片段大小主要集中在111~355 bp之间,分布范围比较集中。平均观测等位基因和期望杂合度分别为6.3和0.705,平均有效等位基因数为3.628,平均Shannon信息指数为1.441,表明锥栗具有较高的遗传多样性水平。与董蒙蒙[27]在17个锥栗主栽农家品种的研究相比,本研究遗传多样性更为丰富。主要原因为本研究应用了通过高通量测序手段开发的锥栗SSR引物,与董蒙蒙使用的其它栗属树种的SSR不同;而且本研究使用的样本更丰富。

25个锥栗农家品种遗传相似系数在0.957~0.471之间,变幅为0.486,表明25个锥栗农家品种间存在较大的遗传变异,其中6号农家品种和14号农家品种遗传相似系数最大,说明二者的亲缘关系最近,遗传差异最小;19号农家品种和21号农家品种相似系数最小,说明二者亲缘关系最远,遗传差异最大。通过对锥栗农家品种的遗传多样性分析,可以为后续锥栗资源的开发利用提出合理的策略,从而为锥栗进一步的遗传改良提供参考。

猜你喜欢

碱基核苷酸多态性
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
MTHFR C677T基因多态性与颈动脉狭窄及其侧支循环形成的关系
RANTES及其受体CCR5基因多态性及环境因素在昆明汉族T2DM发生中的交互作用
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
基因“字母表”扩充后的生命
应用思维进阶构建模型 例谈培养学生创造性思维
Acknowledgment to reviewers—November 2018 to September 2019
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员