基于高通量测序方法的蒙古栎SSR标记开发
2021-07-12于世河姜义仁卜鹏图
陈 罡,于世河,姜义仁,卜鹏图,郑 颖,冯 健
(1辽宁省林业科学研究院,沈阳 110032;2沈阳农业大学生物科学技术学院,沈阳 110866)
0 引言
蒙古栎(Quercus mongolica)为壳斗科栎属植物,主要分布于中国的华北、东北,朝鲜半岛,俄罗斯远东和蒙古等地。蒙古栎是国内东北和华北地区针阔叶混交林的主要建群种,在维持地域生态平衡和生态系统恢复重建中有重要的作用,因此具有重要的生态价值和经济价值[1]。有关蒙古栎种内遗传变异的研究相对较少[2],为育种、造林和基因资源保存,有必要对现有的蒙古栎天然林、天然次生林进行分子水平的遗传多样性研究[3]。
SSR标记是一种比较理想的共显性分子标记,具有基因组中广泛存在、特异性强、多态性高、实验重复性好、结果稳定可靠等优点,被广泛应用于林木遗传改良、遗传图谱构建、分子标记辅助育种、遗传多样性研究、亲缘关系分析、种质资源保存、QTL作图等许多应用研究领域[4]。目前,对部分地区的蒙古栎群体遗传多样性研究大都利用RAPD标记、等位酶技术、AFLP技术及ISSR标记等显性分子标记技术[5-8],可供利用的专门针对蒙古栎开发的SSR标记较少[9-11],因此需要更多的SSR标记的开发进行补充,以增加位点数[12]。目前尚未见到利用二代基因组测序技术开发蒙古栎SSR位点的报道。本研究基于中国分布蒙古栎基因组de novo拼接的二代测序数据,旨在发掘一批扩增效率高、多态性好的引物,为进一步开展蒙古栎遗传资源评价、种质资源多样性分析提供参考。
1 材料与方法
1.1 试验材料
2018年6月下旬采集辽宁8个不同地区的蒙古栎叶片,硅胶干燥保存备用。用于二代测序建库的样本群体为DA(采自抚顺大孤家),用于引物验证的8个样本信息见表1。
表1 样本采样信息
1.2 基因组DNA提取与建库测序
采用CTAB法提取基因组DNA[13],用1%琼脂糖凝胶电泳检测DNA大小和完整性。利用NanoDrop ND-2000分光光度计(Thermo Fish Scientific公司)分析DNA纯度和浓度,随后用1×TE缓冲液稀释基因组DNA至终浓度为20 ng/μL,-20℃保存备用。
DNA打断,末端补平,3'端加A,连接测序接头,文库构建并质检,构建合格的文库利用Illumina HiSeq2500平台进行双末端测序。实验由北京阅微基因技术有限公司完成。
1.3 生物信息学分析
原始数据以FASTQ格式进行保存,用Trimmomatic软件[14]进行数据过滤,去除reads中包含的测序接头序列、低质量序列、重复reads、含N(N表示无法确定碱基信息)的序列,最后得到干净序列(clean reads)。用Flash软件进行无参考基因组的de novo拼接[15],默认参数设置。
1.4 基因组SSR位点开发与引物设计
利用MISA软件[16]对拼接好的序列片段进行SSR位点搜索和鉴定,MISA软件能识别出序列中的单核苷酸SSR和复合SSR及所在的位点,查找参数设为二、三、四、五核苷酸最小重复次数为6、5、5、5次。用Primer3对含有SSR位点且侧翼适合设计引物的序列进行引物设计。将设计的引物与前人已开发的SSR引物进行比对,去除重复位点。
1.5 引物筛选与PCR扩增
PCR 反应体系为 10 μL:10×Buffer I 1.0 μL,2.5 mmol/L dNTP 0.8 μL,带有M13序列的荧光引物TP-M13(5 μmol/L)0.5 μL(HEX 或 FAM 荧光),特异SSR 引 物 (5 μmol/L)0.6 μL,Takara HS Taq( 大 连TaKaRa生物)0.1 μL,DNA模板1.2 μL,ddH2O 5.8 μL。
按以下程序在GeneAmp 9700上(Applied Biosystems公司)完成PCR扩增。95℃在PCR仪上进行预热5 min;然后94℃模板变性30 s,60℃退火30 s,72℃延伸30 s,程序重复30次循环;随后94℃变性30 s,53℃退火30 s,72℃延伸扩增30 s,重复10个循环;最后60℃持续30 min。向96孔板中每孔加入分子量内标GS500 LIZ(Applied Biosystems公司)和甲酰胺混合液(0.5:8.5)9 μL,PCR产物1.0 μL,95℃变性3 min。带有不同荧光PCR扩增产物上ABI 3730XL测序仪进行检测。将检测得到的原始数据“.fsa”文件导入到分析软件GeneMapper 3.2(Applied Biosystems公司)中进行自动分析,手工校正。多色荧光引物合成和检测均由北京阅微基因技术有限公司完成。用Popgene32软件计算遗传距离(Nei)[17]。
2 结果与分析
2.1 蒙古栎SSR位点开发
共测得2.6 G的数据量,获得原始reads 8956795对,用Flash软件拼接后获得4876401条序列。MISA软件对拼接后的序列进行扫描,搜索鉴定SSR位点,共在282605条序列鉴定出SSR基元,占拼接序列总数的5.8%。选择含有SSR位点的序列,利用Primer3批量设计引物,设计引物参数为GC含量40%~60%,退火温度Tm为50~60℃,引物长度18~25 bp,目的片段预期100 bp以上,符合引物设计条件的序列148479条,占含SSR重复基元序列数的52.5%。这些序列构成了后续进行大规模SSR引物开发的序列基础。
2.2 蒙古栎SSR引物的确定
作为初步研究,随机挑选合成40对引物进行筛选和验证,最终筛选出10对重复性好的SSR引物(表2),其中7个位点的重复基元为3核苷酸重复,4核苷酸重复位点有3个。从重复基元的类型看,位点N1014482和N4544558重复核苷酸类型是一样的(AAT),位点N1010265和N1110207是CAA重复,位点N1105306和N4529840的重复类型是相同的(TTC),其余4个位点的重复基元序列均不同。
2.3 毛细管电泳荧光检测
为验证这些引物是否在群体中具有多态性,利用采自辽宁不同地区的8个蒙古栎样本进行扩增验证。图1所示为引物对N1010265的荧光扩增产物在自动测序仪上的条带大小,模板分别来自采集的8个地区样本,横坐标为扩增的片段大小,纵坐标为扩增产物的荧光强度。从图中可以看出,总体信号清晰,8个DNA样品的电泳峰型各异,呈现出较好的多态性。统计结果表明,这10个SSR位点均为多态性位点(表2),等位基因数最高的是N1457047位点,达到6个。总体上,片段大小范围为135~215 bp,片段最长的位点是N4529840,为200~215 bp;片段最短的是N1345390和N12361位点,扩增长度分别为135~153、139~152 bp。
图1 利用引物N1010265对8个样品扩增的峰值图
表2 蒙古栎10对SSR引物信息
2.4 新开发SSR标记群体内检测
为进一步验证新开发SSR引物的有效性,选用10对引物对采集自抚顺大孤家地区的15个蒙古栎材料进行扩增,结果表明,15个材料的遗传距离在0.689~0.919之间(表3),说明在同一地区群体内存在一定的遗传变异,通过计算得出该群体平均等位基因数为4.2个,有效等位基因数为2.7个,Shannon多样性指数为1.104,从结果可见蒙古栎群体遗传多样性处于较高水平。
表3 15个蒙古栎材料遗传距离
3 结论与讨论
SSR标记的开发需要预先知道侧翼序列信息以设计引物进行PCR扩增,这些序列通常利用一代测序方法获得,检测方法也是低通量的聚丙烯酰胺凝胶电泳。因此,传统的SSR标记开发引物通常都涉及一系列繁复的基因组建库、重复片段富集、杂交、多个克隆筛选和桑格测序等操作步骤[18],效率较低成本较高,使得SSR标记仅在模式植物或者是经济价值较高的植物上得到开发和应用[19]。随着新一代测序技术带来的高通量优势,测序效率大大提高,对物种的基因组和转录组进行大规模测序和细致分析成为简单易行的方法,给SSR标记的开发也带来了很大便利[20-21];另一方面,随着多色荧光标记检测技术的广泛应用,SSR片段的记录和分析可以实现自动化,检测效率、准确率和重复性得到明显改进[22]。本研究利用高通量测序技术,在较短时间内开发了10对蒙古栎专属SSR引物,对SSR新位点多态性验证表明,每个位点的等位基因数为4~6,平均为4.5个,且均具有较好多态性,这将为下一步分析辽宁地区分布的蒙古栎群体遗传多样性和遗传改良提供技术基础。
鉴于SSR标记的优点,研究人员十分关注SSR标记引物的开发。就SSR引物的来源看,一种是来源于近缘物种间的通用性引物,这种方法虽然方便、快捷、经济,但是存在很大的物种局限性,原物种的SSR基因位点在其他物种间转移扩增时,存在未知性和同源性问题,盲目性较大。另一种则是基于各种方法开发物种特有SSR位点。开发特有SSR标记的方法各具优势,常用方法如基于ISSR-PCR开发SSR标记、基于EST序列开发SSR标记等,本研究是基于基因组de novo拼接序列数据开发SSR标记,鉴定的10个SSR位点中,三基元的占了70%,其中CAA基元和TTC基元相对占比较高,与前人开发的栎属SSR标记特征有所不同[23-25],这可能与此次统计的SSR位点相对较少,且在引物设计时剔除了复合型和非完全型的SSR位点有关,将在今后蒙古栎SSR标记开发中做进一步研究。