基于全长转录组测序的金乌贼微卫星位点筛选与特征分析*
2020-11-03张金勇何暮春项子龙柳淑芳庄志猛
张金勇 何暮春 项子龙 柳淑芳① 庄志猛
(1. 中国水产科学研究院黄海水产研究所 农业农村部海洋渔业可持续发展重点实验室 青岛 266071;2. 青岛海洋科学与技术试点国家实验室海洋渔业科学与食物产出过程功能实验室 青岛 266071;3. 南京农业大学无锡渔业学院 无锡 214081;4. 中国海洋大学海洋生命学院 青岛 266003;5. 上海海洋大学水产与生命学院 上海 201306)
金乌贼(Sepia esculenta Hoyle, 1885)俗称墨鱼或乌鱼,主要分布于中国沿海海域、日本北海道以南、朝鲜西南海域及菲律宾群岛海域(Okutani, 1995)。金乌贼是一种具有较高经济价值的优良品种,曾是我国渤、黄海重要捕捞对象。然而,20 世纪80 年代以来,由于过度捕捞、栖息地破坏等原因,金乌贼资源急剧衰退(郝振林等, 2007)。金乌贼具有营养丰富、生长迅速、个体大(均重700 g)、生命周期短(约1 年)、世代更新快和洄游规律性强等特点,为保护和恢复金乌贼资源,我国学者在金乌贼基础生物学、增养殖技术及种群遗传学等方面开展了系列研究(郑小东等,2002、2003; 赵厚钧等, 2004; 郝振林等, 2008; 韩松等,2010; Zheng et al, 2007、2009),并于2010 年突破了金乌贼人工繁育和增殖放流技术(佚名, 2010)。为更好地开展金乌贼繁育及增殖养护工作,有必要从分子层面精准评估现有种群的种质状况和遗传多样性。
简单重复序列(Simple sequence repeat, SSR)分子标记技术,也称为微卫星DNA 序列标记,其串联重复的核心序列为1~6 个核苷酸(Powell et al, 1996;Toth et al, 2000)。作为一种遗传标记,SSR 广泛存在于原核和真核生物基因中,具有重复性好、共显性高、稳定性强、多态性丰富等特点(Tuler et al, 2015)。按照SSR 的来源,可分为表达序列标签SSR (EST-SSR)和基因组SSR(g-SSR)。近年来,相对于传统的ESTSSR 开发,通过转录组测序平台开发SSR 标记已在多种水产动物中得到应用。本研究在金乌贼Pacific Biosciences 单分子实时(Single-molecule real-time,SMRT)测序技术和Illumina RNA-Seq 技术转录组测序获得生物学数据信息的基础上,利用Micro Satellite(MISA)软件筛选SSR 位点并分析其分布及组成特征,以期为后续的金乌贼群体遗传结构分析、遗传图谱构建、重要性状QTL 定位和良种选育等研究提供基础数据。
1 材料与方法
1.1 动物材料
实验用金乌贼于2017 年1 月~7 月取自青岛金沙滩水产开发有限公司,挑选体形完整,无伤害的个体。分别从生长(约6 月龄)、产卵(10~11 月龄)和产后濒死(11~12 月龄)三个关键时期随机选择3 个雌性金乌贼亲体。从选择的雌性个体解剖脑亚脚叶/嗅叶、视腺、卵巢和缠卵腺组织样品,浸没在RNAlater(天根, 中国)中,并于–80℃储存。
1.2 转录组数据来源
提取金乌贼不同时期的脑亚脚叶/嗅叶、视腺、卵巢和缠卵腺组织样本的总RNA,送天津诺禾致源生物信息科技有限公司,采用PacBio SMRT 测序技术和Illumina RNA-Seq 技术进行转录组测序,通过整合PacBio SMRT 和Illumina 测序数据,生成高质量的金乌贼转录组,包含177,951 条全长转录本(Zhang et al, 2019),以此作为分析数据。
1.3 金乌贼EST-SSR 的筛选
为检测金乌贼的SSR 位点,利用MISA(v1.0) (http://pgrc.ipk-gatersleben.de/misa)对其Unigene 序列进行分析。SSR 位点包含了单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸以及六核苷酸重复。判断的标准为单核苷酸重复至少12 次;二核苷酸重复至少6 次;三核苷酸重复至少5 次、四核苷酸重复至少5 次、五核苷酸重复至少4 次、六核苷酸重复至少4 次。
2 结果与分析
2.1 金乌贼转录组SSR 位点数量与分布
金乌贼转录组测序共获得177,951 条全长转录本,序列总长度为198,175,926 bp。检索Unigene 序列,共发现161,327 个SSR 位点,分布在64,933 条Unigene 中,发生频率(含SSR 的Unigene 数与Unigene总数之比)为36.49%,出现频率(SSR 数目与Unigene总数之比)为90.66%,平均每1,228 bp 含有1 个SSR位点。此外,有33,136 条Unigene 含超过1 个SSR位点,33,260 条Unigene 含有复合型SSR(表1)。
金乌贼EST-SSR 类型丰富,从表2 可以发现,单核苷酸到四核苷酸重复最多,占总SSR 位点数量的99.55%,其中,单核苷酸和二核苷酸所占的比例较大,分别占总数的46.00%和39.93%;其次为三核苷酸和四核苷酸,分别为9.48%和4.14%。五、六核苷酸重复率总计0.448%,数量很少。
2.2 金乌贼SSR 重复基元的序列组成
金乌贼SSR 中,单核苷酸重复以A/T 重复基序最多,占总SSR 的44.79%;二核苷酸重复以AT/AT和AC/GT 重复基序为主要类型,共占SSR 总数的34.73%;三核苷酸重复则以AAT/ATT 和ATC/ATG出现频率最高,共占 4.71%;四核苷酸重复则以AAAG/CTTT 居多,AGAT/ATCT 次之。其他五核苷酸和六核苷酸重复基元类型较多,数量非常少,出现频率很低,见表3。
表2 金乌贼EST-SSR 不同重复基元分布情况Tab.2 Distribution of different repeat motifs in S. esculenta
表3 金乌贼EST-SSR 重复基元的类型Tab.3 Type of EST-SSR repeat motifs in S. esculenta
2.3 金乌贼转录组中的SSR 重复次数
重复片段的长度会影响SSR多态性,而SSR重复次数可以决定重复片段的长度。金乌贼SSR的碱基重复次数很广泛,整体波动在5~100次范围内,多集中于5~29次。单核苷酸重复12~102次;二核苷酸重复6~50次;三核苷酸重复5~24次;四核苷酸重复6~19次;五核苷酸重复6~19次;六核苷酸重复6~12次。重复12次的频率最高,共有18,289条,占总SSR数的11.34%,其次是重复6次(10.98%)、13次(7.73%)、7次(6.82%)、14次(6.28%),30次以上(含30)占3.40%。总体上,金乌贼转录组SSR的重复次数以11~20次最多,占总SSR比例为47.92%,4~10次次之,为35.03%;重复次数21~30次为14.24%;重复次数大于30次为2.80% (图1)。
图1 金乌贼转录组EST-SSR 不同重复基元的重复次数Fig.1 Repeat numbers of EST-SSR with different motifs in transcriptome of S. esculenta
2.4 金乌贼转录组SSR 的长度
SSR位点中重复基元的长度是影响其多态性高低的重要因素,当SSR≥20 bp时,其多态性高;重复基元长度12≤SSR<20 bp时,多态性中等;而低于12 bp时,多态性极低。本研究中去除了12 bp以下的SSR,长度≥12 bp的SSR共有161,327个。从金乌贼转录组中SSR基元长度分布情况可以看出,其中,重复基元长度在12~19 bp的SSR位点最多,共有95,323个,占SSR总数的59.09%;其次为20~30 bp,共有43,977个,占SSR总数的27.26%;长度在31~40 bp的,共10,931个,占SSR总数的6.78%;长度在41~ 50 bp的,共5,588个,占SSR总数的3.46%;基元长度大于50 bp的数量最少,共5,508(3.41%)。根据该结果,可推测该研究中Ⅱ型SSR(长度为12~20 bp)的SSR的比例为59.09%,具有中等多态性,有较高的潜在可用性。而具有高度多态性的I型SSR(长度≥20 bp)中,含有低级基元(二、三核苷酸重复)SSR位点数量占优,这部分SSR位点具有丰富的多态性(图2)。
图2 金乌贼转录组SSR 位点重复基元序列长度分布频率Fig.2 Frequency of SSR repeat sequence length distribution in transcriptome of S. esculenta
3 讨论
本研究以金乌贼转录组信息对其EST-SSR 进行开发。结果显示,金乌贼转录组中含有丰富的SSR位点。从金乌贼转录组的177,951 条Unigene 中,共搜索出161,327 个SSR,分布在64,933 条Unigene 中,SSR 的出现频率为90.66%。与其他水生动物SSR 的出现频率相比,明显高于扁玉螺(Neverita didyma)(86.53%) (卢玮筱等, 2018)、黄姑鱼(Nibea albiflora)(39.30%) (龚诗琦等, 2016)、翘嘴鳜(Siniperca chuatsi)(27.51%) (袁文成等, 2015)、罗氏沼虾(Macrobrachium rosenbergii) (45.91%) (王传聪等, 2018)、无针乌贼(Sepiella japonica) (48.70%) (吕振明等, 2017; 管奥等,2018)、马氏珠母贝(Pinctada martensii) (13.34%)(王忠良等, 2015)、栉江珧(Atrina pectinata) (8.2%)(李东明等, 2017)、缢蛏(Sinonovacula constricta)(8.89%) (刘博等, 2012)、泥蚶(Tegillarca granosa)(14.83%) (周小龙等, 2013) (表5)。
SSR 检索标准、数据库丰富程度以及物种差异,都会影响SSR 的出现频率(Varshney et al, 2005)。如张秀英等(2012)采用不同检索条件从栉孔扇贝BES文库筛选SSR,表明SSR 出现频率随检索标准的提高而降低。数据库丰富程度也会影响EST-SSR 位点出现频率,石耀华等(2008)和王忠良等(2015)先后从马氏珠母贝6,979 和74,007 条EST 序列中筛选得到243 和9,872 个EST-SSR 位点,位点出现频率分别为3.48%和13.34%。Franklin 等(2005)和王艳红等(2011)对凡纳滨对虾(Litopenaeus vannamei)不同数量的EST序列进行EST-SSR 筛选,其出现频率分别为4.9%和7.8%。
表5 目前已获得EST-SSRs 出现频率的部分水生动物Tab.5 Some aquatic animals that have obtained the frequency of EST-SSRs
大量研究表明,在已开发的EST-SSR 标记中,二核苷酸和三核苷酸重复基元类型最为丰富。虾夷扇贝和栉江珧的EST-SSR 均以二核苷酸重复基元所占比例最高,分别占40.54%和77.08% (李云峰等, 2010;李东明等, 2017);缢蛏SSR 以三核苷酸重复SSR 比例最高,为37.13% (刘博等, 2012)。本研究发现,金乌贼EST-SSR 重复类型中,以单核苷酸重复基元最多,比例达到46.00%,其次为二核苷酸,为39.93%。这和无针乌贼(吕振明等, 2017)、马氏珠母贝(王忠良等, 2015)、罗氏沼虾(王传聪等, 2018)和扁玉螺(卢玮筱等, 2018)中单核苷酸重复基元是主导类型的研究结果相似。同时,本研究发现,金乌贼转录组中,SSR位点最多的是单核苷酸的重复基元A/T,占总SSR 的44.79%;其次为二核苷酸的AT/AT 和AC/GT,共占SSR 总数的34.73%。此外,金乌贼转录组SSR 位点重复基元序列长度在20 bp 以上的SSR 位点共有66,004 个,占SSR 总数的40.91%,并且其中含有低级基元(二、三核苷酸重复) SSR 位点数量占优,这部分SSR 可能具有较高的利用价值。
4 结论
整体而言,金乌贼转录组SSR 出现频率较高且类型丰富,共检测出161,327 个SSR 位点,分布在64,933 条Unigene 中,SSR 位点发生频率为36.49%,出现频率高达90.66%。这些SSR 在提高物种遗传多样性潜能方面发挥着重要的作用。研究结果为下一阶段开发金乌贼多态性SSR 分子标记提供了基础数据,也为开展金乌贼种质资源保护利用、遗传多样性评价和未来分子标记辅助育种等研究奠定基础。