APP下载

基于转录组测序的陈山红心杉EST-SSR 开发及应用

2020-08-31陈兴彬何龙燕肖复明娄永峰徐海宁孙世武

中南林业科技大学学报 2020年8期
关键词:种子园红心杉木

陈兴彬,何龙燕,2,肖复明,娄永峰,徐海宁,孙世武

(1. 江西省林业科学院 江西省植物生物技术重点实验室,江西 南昌 330013;2. 厦门市江平生物基质技术股份有限公司,福建 厦门 361000;3. 青原区白云山林场,江西 吉安 343000)

分子标记是以DNA 序列变异为基础的遗传标记,能在分子水平上反映个体间的差异。简单重复序列(SSR)在真核生物基因组中分布广泛,具有高度的多态性。与其它分子标记相比,SSR 标记具有可靠性强、共显性遗传、信息含量高、操作简单等特点,广泛用于谱系地理学和遗传多样性分析等方面[1-2]。根据来源不同,SSR 标记可分为基于基因组开发的g-SSR 和基于表达序列标签开发的EST-SSR,开发g-SSR 操作繁琐,难度高,效率低。EST-SSR 标记源于基因的转录区,与gSSR 标记相比,免去了文库构建,开发时间短,无效等位基因频率低,种间通用性更好[3-4]。同时,由于ESTSSR 是基因转录本的一部分,因此可作为功能基因直接鉴定的重要依据[5]。目前,基于转录组数据,火炬松Pinus taeda[6]、桉树Eucalyptus[7-8]、橡胶树Hevea brasiliensis[9]、日本落叶松Larix kaempferi[10]等树种已开发了大量多态性EST-SSR 标记。

杉木Cunninghamia lanceolata是我国南方重要的速生用材树种,广泛分布于我国亚热带地区。由于长期自然和人工选择以及分布区内气候、土壤和地形地貌差异导致的生殖隔离等,杉木种源间存在显著的遗传差异。陈山红心杉是具有江西地方特色的杉木优良种源,其近髓心的木质部为高比例的油亮的栗褐色,红心香溢,材质优良,坚韧耐腐[11],是工艺建筑和室内装潢极为宝贵的天然材料,且在浙江、福建、四川等地栽植表现良好[12-13]。在杉木遗传改良研究方面,各省区均开展了各具特色的资源收集、种子园营建、无性系筛选等工作,然而,杉木尚无全基因组序列信息,同时分子标记开发滞后,仅开发出少量分子标记[14-18]。分子标记数量不足,严重制约了杉木基因定位、关联分析等工作的开展。本研究在分析陈山红心杉转录组数据基础上开发EST-SSR标记,旨在丰富可用于杉木遗传分析的分子标记数量,同时利用开发的EST-SSR 标记对陈山红心杉二代种子园进行遗传变异评价,以便了解该种子园的遗传基础,为其高效管理提供参考信息。

1 材料和方法

1.1 植物材料

以课题组培室培养的红心杉优良基因型C25作为转录组测序的材料,随机挑选3 株C25 组培苗,取顶端约2 cm 长茎段进行液氮速冻,随后放到-80 ℃冰箱保存备用。

选取江西省安福县武功山林场收集的5 个杉木种源(江西安福、湖南会同、广西融水、浙江龙泉和福建建瓯)的10 个杉木单株进行引物初筛。SSR 群体扩增所用材料取自江西省青原区白云山林场陈山红心杉二代种子园,共计32 个无性系。取当年生嫩叶,液氮速冻后保存于-80 ℃冰箱备用。采用改良的CTAB 法提取基因组总DNA。

1.2 转录组测序

组培苗茎段在液氮中迅速研磨成粉末,等量混匀后提取总RNA。在Illumina HiSeq 2000 高通量测序平台上对总RNA 进行测序,获得测序序列(reads)。采用Trinity 软件对reads 进行拼接,得到transcript 片段。利用Corset[19]进行层次聚类,得到unigene。

1.3 EST-SSR 挖掘和引物设计

采用MISA 软件(http://pgrc.ipk- gatersleben.de/misa/)对unigene 序列中的1 ~6 核苷酸重复类型SSR 位点进行检索,各重复序列长度均≥18 bp,1 ~6 核苷酸类型最小重复数分别为10、9、6、5、5 和 4 次。

随机挑选150 个EST-SSR 位点,用Primer3.0对进行引物设计,引物设计遵循以下原则:引物长 度 为 18 ~ 25 bp;Tm 值 为 52.0 ~ 60.0 ℃,上下游引物Tm 值在5 ℃以内;(G+C)含量为40%~60%;引物扩增长度在100 ~300 bp 之间。由生工生物工程(上海)股份有限公司合成引物。

1.4 引物筛选与产物检测

用合成的引物扩增5 个杉木种源的10 个杉木DNA 样品,8%非变性聚丙烯酰胺凝胶电泳筛选多态性引物。PCR 反应体系和扩增程序同落叶松标记开发的相关方法[20]。对自行开发得到的EST-SSR和检索文献得到的3 对SSR 标记的正向序列进行5′荧光修饰。用荧光修饰的引物对陈山红心杉二代种子园32 个无性系基因组DNA 进行PCR 扩增,并进行毛细管电泳检测。荧光修饰和毛细管电泳检测交由北京睿博兴科生物技术有限公司完成。

1.5 数据统计与分析

利用Gene Marker 2.2.0 软件分析各毛细管电泳结果,得到各无性系的基因型数据;利用POPGENE version 1.32 软件计算等位基因数(Na)、有效等位基因数(Ne)、Shannon 多样性指数(I)、观察杂合度(Ho)、期望杂合度(He);由CERVUS3.0 软件得出多态性信息含量(PIC);采用NTSYS-pcV2.1[21]软件计算无性系间的遗传相似系数,选用UPGMA 法进行聚类分析。

2 结果与分析

2.1 转录组数据的组装

红心杉叶片转录组测序共获得99 122 394 个reads 片段,包含 14.87 Gb 序列信息,GC 含量平均值为43.40%,碱基Q30 为90.44%,说明测序质量非常可靠。采用Trinity 拼接得到201 234个transcript 片段,序列信息为146 288 475 bp(146.29 Mb), 平 均 长 度 为 727 bp,N50 为1 270 bp。对不同长度transcript 进行统计,长度为200 ~ 500 bp 的 transcript 最多,有 127 065 个,占总体的63.14%(表1)。对序列进行组装,共获得76 597 个unigene,序列信息为104 182 562 bp(104.18 Mb),序列大小为201 ~17 690 bp,平均长983 bp,N50 为1 963 bp,表明数据组装质量较高。其中,≥1 000 bp 的unigene 最多,有37 687 个,占总体的49.20%;其次为500 ~1 000 bp的unigene,占总体的29.79%(表1)。

2.2 转录组中 EST-SSR 位点的分布特点

对76 597 个unigene 进行SSR 位点搜索,共检测到8 072 个SSR 位点,分布频率(与总非重复序列数量之比)为10.54%,平均密度为12.88 kb。SSR 重复类型丰富,各重复类型所占比例变化较大(表2)。其中单核苷酸型位点最多,有5 352 个,占总数的66.30%,其次为三核苷酸类型,为1 411个,占总数的17.48%,五核苷酸、六核苷酸类型数量最少。2 ~6 核苷酸重复类型和复合型的平均密度为38.30 kb,平均长度分别为13.73、16.29、20.56、25.00、32.84 和 62.97 bp。2 720 个 ESTSSR 位点中共包含250 种重复基序,复合型和四核苷酸类型重复基序种类最多,分别为159 和32个。AT/TA 重复基序出现频率最高(548 次),占总EST-SSR 位点数的6.79%,其次是AG/TC(156次),占总EST-SSR 位点数的1.93%。AGA/TCT和AAG/TTC 是主要的三碱基重复序列,分别占总位点数的1.45%和1.44%。

表1 红心杉转录组transcript 和unigene 数据组装统计Table 1 Data assembly for transcript and unigene in the transcriptome of red-heart Chinese fir

表2 EST-SSR 重复基序的分布特征Table 2 Distribution of the SSR motifs in transcriptome of red-heart Chinese fir

2.3 EST-SSR 引物的筛选

以来自5 个种源的10 个杉木DNA 为模板扩增随机选择的150 对SSR 引物,通过8%非变性聚丙烯酰胺凝胶电泳共筛选出11 对与预期产物片段相符的多态性引物,图1 为引物H8 的聚丙烯酰胺凝胶电泳图。表3 列出了11 个多态SSR 引物的相关信息。

图1 引物H8 在10 份杉木中的扩增结果Fig. 1 DNA fragments amplified by SSR primer H8 in 10 Chinese fir

2.4 陈山红心杉二代种子园遗传多样性和遗传相似系数

用筛选出11 个EST-SSR 标记和来自文献[13]的 3 个 EST-SSR 标 记(LX-13、LX-18、LX-55)对陈山红心杉二代种子园32 个杉木无性系进行遗传多样性分析(表4)。图2 为引物H33 扩增的荧光电泳图。开发的11 对引物中,有4 对引物的PIC 大于0.5,说明这4 对引物为高信息含量的引物。14 对引物共扩增得到62 个等位基因,等位基因范围为3 ~7 个,平均等位基因数是4.4 个,其中,引物H245、LX-18 等位基因数最多,为7 个,H7、H8、H33、H193、LX-13 等位基因数最少,均为3 个。有效等位基因范围为1.814 4 ~3.457 1,平均有效等位基因是2.4 个。位点多态信息含量(PIC)变动幅度为0.373 0 ~0.660 0,平均为0.492 0。平均观察杂合度和期望杂合度分别为0.533 5 和0.563 8,计算得出固定指数F为0.054,说明存在纯合子过量现象,但不明显。Shannon 多样性指数为1.003 4,说明红心杉二代种子园的遗传多样性较高。

遗传相似系数分析表明,红心杉二代种子园无性系间的遗传相似系数变化范围较大,在0.240 0~0.977 8 之间,平均值为0.589 3。无性系SS1 和SS25 遗传相似系数最近,无性系SS9 和SS13 遗传相似系数最远。依据遗传相似系数对红心杉二代种子园无性系群体进行聚类分析,在阈值0.62处可将32 个无性系划分为6 个亚群体(图3),亚群体内个体数量差异较大,无性系最多的亚群包含21 个无性系,无性系SS9 和SS10 单独成群,与其它群无性系亲缘关系较远。

表3 红心杉11 对EST-SSR 的引物序列、重复基序、片段大小和退火温度Table 3 The sequence of forward and reverse primers, repeat motif, expected size and annealing temperature of the 11 EST-SSR developed in red-heart Chinese fir

图2 引物H76 在红心杉二代种子园无性系个体中的荧光电泳Fig. 2 Fluorescence electrophoresis by H76 in two clones of the second generation orchard of red-heart Chinese fir

表4 红心杉二代种子园遗传多样性的SSR 分析Table 4 Genetic diversity estimates for the second generation orchard of red-heart Chinese fir by SSR markers

图3 基于遗传距离的红心杉二代种子园无性系的聚类Fig. 3 A dendrogram of based on gentic distance for the second generation orchard clones of red-heart Chinese fir

3 结论和讨论

3.1 陈山红心杉转录组数据质量和EST-SSR 的分布特点

Illumina 高通量测序适合于没有参考基因组的物种展开转录组研究[22],Q30 值是测序质量的指标,Q30 在80%以上就认为测序质量非常可靠[23],N50 值反映组装质量,N50 越大说明组装得到的长片段就越多,组装效果就越好[24]。本研究通过Illumina 高通量测序得到14.87 Gb 序列信息,GC 含量平均值为43.40%,碱基Q30 为90.44%,组装得到76 597 个unigene,unigene 平均长度为983 bp,N50 为1 963 bp。说明此次测序的质量和组装的质量均较高,可以满足转录组数据分析的要求。

从陈山红心杉76 597 个unigene 中共检测到8 072 个 SSR 位点,2 ~ 6 核苷酸重复类型 SSR 位点分布频率为3.28%,平均密度为41.47 kb。就SSR位点分布频率而言,红心杉与火炬松(4.32%)[25]、马尾松Pinus massoniana(3.62%)[26]、红松Pinus koraiensis(4.24%)[27]和日本落叶松(3.58%)[20]相当,但小于杨树Populus的SSR 位点分布频率(14.83%)[28]。物种差异、数据库大小、SSR 搜索条件及组织处理方式等均会对SSR 分布频率和分布密度产生影响[29],为客观地比较不同转录组数据,亟需统一SSR 搜索条件。红心杉转录组中,除单核苷酸重复外,以三核苷酸重复最多,占SSR 总数的17.48%。在榧树Torreya grandis[30]、桉树[31]等的研究中,也发现三核苷酸重复比重最大,这可能与密码子的选择性有关。而茶树Camellia sinensis[32]、云南金花茶Camellia fascicularisH.T.Chang[33]、橡胶树[34]等则以二核苷酸重复最多。因此,为提高引物筛选效率,在设计SSR 引物时,应重点设计出现频率较高的重复类型。本研究还发现重复基序类型AT/TA 的SSR位点最多,同样的在干旱胁迫处理的杉木转录组中,占主导到位的也是AT/TA 类型(占总ESTSSR 的19.01%)[16],说明SSR 位点基序类型具有物种特异性。

3.2 陈山红心杉二代种子园遗传多样性

本研究基于多个杉木地理种源样本筛选出的11 对多态性EST-SSR,可用于不同产区杉木的分子遗传分析。其中4 对引物的PIC 大于0.5,为高信息含量的引物。红心杉二代种子园的观察杂合度、期望杂合度和Shannon 多样性指数分别为0.533 5、0.563 8 和1.003 4,高于华北落叶松[35]一代无性系种子园的Shannon 多样性指数0.712 7 和马尾松[36]二代无性系种子园的Shannon 多样性指数0.850。在杉木的遗传多样性研究中,欧阳磊等[37]研究表明国家级杉木种质资源库第1 代种质资源的观察杂合度为0.430 0,Shannon 信息指数为0.980 0;徐阳等[38]研究得出42 个杉木种源的观测杂合度为0.284 5,Shannon 信息指数为0.518 2,均低于本研究结果,但略低于Duan 等[39-40]对广西149 个红心杉单株和6 个杉木种源700 个无性系的遗传多样性研究。其观测杂合度和期望杂合度分别为0.562 0 和0.584 0,0.561 和0.604,这可能与其分析个体数量较多有关。因此,陈山红心杉二代种子园遗传多样性相对较高,具有较大的育种潜力。

经检测红心杉二代种子园无性系之间遗传相似系数在0.240 0 ~0.977 8 之间,说明这一群体有较宽的遗传基础,在遗传相似系数0.62 处可将32 个无性系划分为6 个亚群体。通过分子标记明确种子园无性系间的亲缘关系,并结合无性系的表型性状,可为无性系间的杂交育种、新建种子园无性系间的科学配置提供依据。

本研究利用陈山红心杉转录组数据开发ESTSSR标记,共获得11个多态性高、重复性好的标记,丰富了杉木分子标记库,可用于杉木种质资源评价及分子标记辅助育种等方面。利用SSR 标记对陈山红心杉二代种子园的遗传多样性分析表明,该种子园遗传多样性较高,遗传基础较宽,具有产生优良子代的潜力。虽然SSR 标记具有可靠性强、共显性遗传、操作简单的特点,但也存在引物设计筛选费时、筛选成功率低(本研究为7.3%)、标记数量有限等缺点,难以满足短期内区分大量样本的需要。SNP 是第3 代分子标记,与SSR 标记相比,具有数量更多、分布更广泛、遗传稳定性更高、易于快速高通量进行基因分型等优点。随着SNP 标记检测成本的逐渐降低,高通量的SNP 标记在群体扩增、遗传图谱构建方面具有非常广阔的应用前景。因此,开发合适的SNP 标记可作为今后杉木分子标记研究的重点。

猜你喜欢

种子园红心杉木
杉木双系和三系杂交种子园近交衰退的比较研究
红心火龙果不神奇
落叶松种子园土壤养分特征研究
心心相印数独
浅谈山西省林木种子园建设思路
一颗“红心”,只为一个使命
不同混交方式杉木人工林生长量影响研究
杉木黄化病的防治技术措施研究
不同比例凋落物的分解动态变化研究
庆元林场打造国内首个枫香无性系种子园