基于RNA-seq技术的奥利亚罗非鱼转录组SSR位点信息分析
2020-11-18周康奇潘贤辉覃俊奇徐俊龙杜雪松文露婷潘志忠
周康奇,潘贤辉,黄 姻,覃俊奇,徐俊龙,杜雪松,文露婷,陈 忠,潘志忠,邓 潜,林 勇
(1.广西壮族自治区水产科学研究院/广西水产遗传育种与健康养殖重点实验室/广西水产良种南繁基地,广西 南宁 530021; 2.广西钦州农业学校,广西 钦州 535000)
微卫星(Microsatellite)或称简单序列重复(Simple sequence repeats,SSR),具有分布广泛、多态性高、共显性遗传以及扩增稳定等优点,被广泛应用于物种遗传育种、种质资源评定、遗传图谱构建和数量性状座位(Quantitative trait locus,QTL)分析等研究领域[1-2]。高度可变的微卫星区域可以提供更加精细的群体水平动态变化的分辨率,适合用于保护遗传学、种质资源鉴定、种群遗传多样性、种群关系、性状遗传分析和进化等研究[3-4]。与传统SSR分析方法相比,RNA-seq二代测序技术具有便捷、高效、通量大等优势,目前已成为大规模开发SSR标记的有效方法,已在牙鲆(Pralichthysolivaceus)[5]、黄姑鱼(NibeaalbifloraRichardson)[6]、黄唇鱼(Bahabaflavolabiata)[7]、银鲴(Xenocyprisargentea)[8]等鱼类上广泛应用。
奥利亚罗非鱼(Oreochromisaurea)隶属于鲈形目(Perciformes)、丽鱼科(Cichlidae)、罗非鱼属(Oreochromis),是罗非鱼中的大型种类,因其具有适盐性广、生长快、易繁殖、肉质鲜嫩等优势,备受广大消费者和养殖户的喜爱,如今是罗非鱼主要养殖品种之一[9]。目前,关于奥利罗非鱼的研究多在遗传结构和核型分析[10-11]、性别机制探索[12-14]、耐寒性能[15]、肉质营养评价[16-17]等方面,但也有少数学者对奥利亚罗非鱼不同盐度条件下的养殖进行了研究,研究发现奥利亚罗非鱼可以在低于20‰盐水中生存,且日增体质量超过1 g[18-19]。据此,有学者认为只要控制好养殖条件,可以在盐水中养殖奥利亚罗非鱼,并能获得较好品质和经济效益[18-19]。
目前,在海南、广西、广东等沿海地区,已有养殖户在天然海水中成功养殖奥利亚罗非鱼,并取得良好的经济效益[20]。耐盐罗非鱼传统选育存在培育周期长、投入成本高等瓶颈问题,因此,结合现代生物分子技术选育耐盐罗非鱼成为一种高效选育手段。为此,笔者所在课题组采用RNA-seq测序方法,结合生物信息学分析方法挖掘有关奥利亚罗非鱼耐盐性能的微卫星分子标记,同时深入探讨其组成特点与分布规律,旨在为开发有效的辅助育种分子标记奠定基础。
1 材料和方法
1.1 样品采集
在广西水产科学研究院的广西水产良种南繁基地开展为期3个月盐度养殖试验,从盐度组中随机选取30尾奥利罗非鱼,取其肝脏和脾脏组织置于RNA保护液中[生工生物工程(上海)股份有限公司],-80 ℃保存备用。
1.2 总RNA提取和cDNA文库构建
根据Trizol试剂盒(Invitrogen公司,美国)的操作说明提取总RNA。RNA完整性和浓度分别通过1%琼脂糖凝胶电泳和2 100安捷伦生物分析仪(Agilent公司,美国)进行检测。当RNA完整性数(RIN)大于8,且存在完整28S和18S核糖体条带时,可用于构建RNA-seq文库。等量混合每个个体RNA样品后,按照LI等[21]的方法进行cDNA文库的构建。
1.3 RNA测序和拼接组装
利用Illumina HiSeq 4 000测序平台(广州基迪奥生物科技有限公司,中国)进行高通量测序。并通过Assembly A Perl程序对Raw date转录组进行过滤,去除接头序列和低质量的Reads(基础质量<20)。采用Trinity软件组装方法对序列进行拼接获得转录组序列,然后所有测序读段通过De novo组装产生单一序列和重叠群。
1.4 SSR位点分析和筛选
按照以下配置参数使用软件MISA(http://pgrc.ipk-gatersleben.de/misa/)对转录组的所有 Unigene进行搜索,并鉴定SSR。配置参数信息:二核苷酸重复单元重复次数≥6次,三核苷酸单元则重复数≥5次,四、五和六核苷酸单元重复次数≥4次;同时,2个SSR序列的距离短于100 bp则合并作为1个SSR位点处理。
2 结果与分析
2.1 奥利亚罗非鱼转录组中SSR的数量及分布
将初始reads进行严格数据质控获得高质量clean reads共41 292 300个,平均GC含量为48.94%,Q20和Q30碱基百分比分别超过98.88%和94.80%,表明本研究中RNA-seq测序所得数据质量良好。通过组装、聚类和拼接,取得了平均长度为1 097 bp,共计71 009条的Unigenes序列,合计全长为77 936 593 bp。
运用MISA软件对获得的所有Unigenes序列进行SSR位点检索,共发现了10 875个SSR位点,含有SSR位点的Unigenes序列(约占11.71%)有8 315条。其中,含有SSR位点1个以上序列数量有1 844条,存在复合形式的SSR位点数量有821个。此外,在奥利亚罗非鱼转录组中存在较为丰富的SSR位点类型,共发现5种核苷酸重复类型(即二到六个核苷酸重复),但是不同核苷酸重复类型的占比差异比较大,二、三和四核苷酸的SSR位点类型占总位点数的95.90%,而五、六核苷酸SSR位点数量占比只有4.10%。其中,数量最多的是二核苷酸SSR位点,为5 779个,约占总数的53.14% ;三核苷酸和四核苷酸SSR位点个数分别为3 281个(30.17%)和1 369个(12.59%);五核苷酸和六核苷酸SSR位点数量很少,分别为389个(3.58%)和57个(0.52%)。另外,从5个类型的SSR位点的序列长度上看,从大到小依次为二、三、四、五和六核苷酸,每种类型位点的平均长度是20.12 bp,每种类型的SSR位点平均长度分别是23.49、15.15、17.21、21.92、22.84 bp(表1)。从整体分布来说,奥利亚罗非鱼转录组中每1个SSR位点平均相距约7.17 kb,即平均分布密度约为139个/Mb SSR位点。
表1 奥利亚罗非鱼SSR位点的分布情况
按照WEBER[22]的分类方法可在奥利亚罗非鱼转录组中找到5种完美型的SSR位点,即完美二碱基重复(p2)、完美三碱基重复(p3)、完美四碱基重复(p4)、完美五碱基重复(p5)和完美六碱基重复(p6)类型,其中p2、p3分布数量最多,分别为91.35、49.64 kb,其次是p4、p5,分别为23.16、8.45 kb,而p6数量最少为1.28 kb,完美型SSR位点数约0.01个/Mb。
2.2 奥利亚罗非鱼转录组SSR特点
依据奥利亚罗非鱼转录组中的不同类型SSR位点重复次数分布,发现6次重复数量最多,有3 048个SSR位点,占总数的27.77%;其次是5次重复数,达2 292个,占总数的20.89%;而7次重复数(1 500个,13.67%)和4次重复数(1 260个,11.48%)分别位于第2和第4(表2)。统计4~14次重复数的位点共存在10 189个,占总位点数的92.85%,而大于或等于15次重复数位点合计785个,占比7.15%。
表2 奥利亚罗非鱼转录组中不同类型SSR位点的重复次数分布
另外,统计奥利亚罗非鱼转录组中SSR重复类型出现频率,结果显示,在总SSR位点中共有126个不同串联重复单元类型,从二核苷酸到六核苷酸重复类型分布依次是4、10、29、50、33种类型。其中,AC/GT和AG/CT二核苷酸类型各出现3 954次和1 116次,具有明显优势,分别占总SSR位点数量的36.36%和10.26%;三核苷酸类型中以AGG/CCT重复类型最多,共出现749次,约占总数的6.89%,随后依次是AGC/CTG和AAT/ATT类型,各出现571次(5.25%)和503次(4.63%);而四核苷酸和五核苷酸类型分别以AAAC/GTTT(441次,4.06%)和AAAAC/GTTTT(91次,0.84%)重复类型为主。剩余重复单元类型出现次数和频率均比较低(图1)。
图1 奥利亚罗非鱼转录组中SSR主要重复单元的类型及出现频率Fig.1 Types and frequency of SSR major repeat units in Oreochromis aurea transcriptome
2.3 奥利亚转录组SSR多态性评价
通过分析奥利亚罗非鱼SSR位点长度分布发现,所统计的SSR位点均分布在12~254 bp,其中,长度在12~20 bp(不含20 bp)的位点个数最多,为8 462个(占比70.86%);而处于20 bp以上(含20 bp)的SSR位点个数为3 480个,占总数的29.14%。此外,本研究未发现长度小于12 bp的SSR位点。依据TEMNYKH等[23]的研究,可将SSR位点区分为Ⅰ和Ⅱ类,即Ⅰ类为高度多态性(碱基数≥20 bp);Ⅱ类则为中等多态性(12 bp≤碱基数<20 bp)。推测奥利亚罗非鱼转录组中SSR位点以中等多态性为主,其次是高度多态性。这2种类型的SSR位点均具有较高开发利用价值。
3 结论与讨论
本研究通过RNA-seq二代测序技术对无参物种奥利亚罗非鱼的转录组进行SSR位点分析,在71 009条Unigenes上识别到10 875个SSR位点,不含单核苷酸类型位点。统计分析发现,奥利亚罗非鱼转录组中含有SSR位点的Unigenes数量占总数的11.71%,低于黄唇鱼(30.23%)[7]和牙鲆(27.12)[5],高于鳕鱼(Lotalota)(10.27%)[24]和银鲳(Pampusargenteus)(2.62%)[25],说明奥利亚罗非鱼转录组中含有SSR位点较为丰富。另外,本研究还评估了SSR位点在Unigene上平均分布距离为7.17 kb,远大于牙鲆(2.95 kb)[5]、巨魾(Siluriformes:Sisoridae)(2.0 kb)[26]和鳕鱼(4.25 kb)[24],表明未统计单核苷酸数量影响了奥利亚罗非鱼转录组中的SSR位点分布密度。从SSR位点多态性来看,本研究发现了29.14%的Ⅰ类高度多态性和70.86%的Ⅱ类中等多态性位点,而未发现极低多态性位点(<12 bp)。李超等[5]运用RNA-seq测序技术在牙鲆转录组中共识别Ⅰ类、Ⅱ类和极低多态性SSR位点,3类位点占比依次为65.10%、21.84%和13.05%。刘磊等[25]在银鲳转录组中获得了45.06%的Ⅰ类位点,31.89%的Ⅱ类位点和23.05%的极低多态性位点。依据本研究结果,推测奥利亚罗非鱼转录组中所含SSR位点多态性属于中等以上水平[27]。同时,经过多态性数据比较发现,在进行转录组SSR位点检测时不记录单核苷酸重复单元类型位点可以避免筛选到极低多态性位点,但也漏选了部分中高等多态性的单核苷酸位点。大部分研究者将重复单元的重复次数高低作为评价SSR位点多态性的重要指标之一,在奥利亚罗非鱼转录组中6次重复出现频率最高,而后随着重复次数的增加,SSR位点数量呈现下降趋势。有学者认为,SSR位点重复次数发生变化,是SSR位点序列在DNA复制过程中出现滑移导致原序列长度增加而形成的,这可能在物种进化过程中受到了自然选择压力的作用[28-29]。而对于基因结构而言,重复次数的不断变化会导致基因序列上碱基的移码突变,进而直接影响基因功能,这也是目前物种进化、遗传变异等研究内容中的热点话题。
在对奥利亚罗非鱼转录组中的SSR位点进行分析发现,二核苷酸AC/GT重复基元类型占主要优势(36.36%),其次是AG/CT重复类型(10.26%)。类似的研究结果在其他鱼类上也有发现,前人采用EST-SSR分子标记检测技术对草鱼(Ctenopharyngodonidellus)进行研究,发现AC/GT类型的SSR位点分布最广(分别为60.19%和50.30%),AG/CT类型次之(分别为28.16%和40.40%)[30-31];LI等[32]运用RNA-seq测序技术在大鳞副泥鳅(Paramisgurnusdabryanus)上进行研究,结果表明,AG/CT类型出现频率高(18.17%),其次为AG/CT(10.42%)。以上结果说明,AC/GT和AG/CT重复单元类型普遍存在鱼类中,但这种相似结果出现的原因还有待进一步探索。此外,本研究中,三核苷酸以AGG/CCT、AGC/CTG和AAT/ATT等3种重复单元类型为主,而在不同的鱼类上三核苷酸的主要重复类型存在差异,如在银鲳上是以AAT/CAG、GAG/AAC和AAT/CCT为主[25];在牙鲆上则以AGC、AAG和AAT为主[33];在半滑舌鳎(Cynoglossussemilaevis)主要分布着AAT、AAG和AAC重复单元类型[34]。这表明三核苷酸重复基序除了形成了不同的DNA结构外,还可能在重复的起源中产生物种特异性细胞因子[29]。
综上,本研究运用RNA-seq测序技术首次对奥利亚罗非鱼转录组进行鉴定获得了一批中等水平以上的多态性SSR位点标记,运用性高、位点类型丰富、覆盖了整个奥利亚罗非鱼的基因组;而且对奥利亚罗非鱼SSR位点的分布特征进行了归纳统计分析,为奥利亚罗非鱼遗传连锁图谱构建、遗传结构分析等遗传学研究奠定了坚实的基础。同时,为奥利亚罗非鱼耐盐家系人工辅助育种分子标记开发提供了可靠的数据资料。