马口鱼全基因组简单重复序列特征分析与多态性标记开发
2023-12-03葛健辉关文志任晋东牛宝龙胡金春翁旭东许晓军
葛健辉,关文志,任晋东,牛宝龙,胡金春,王 伟,翁旭东,楼 宝,于 瑾,许晓军,*
(1.浙江万里学院 生物与环境学院,浙江 宁波 315100; 2.浙江省农业科学院 水生生物研究所,浙江 杭州 310021; 3.龙游县养殖业发展中心,浙江 龙游 324000; 4.衢州市水产技术推广中心,浙江 衢州 324000; 5.浙江渔老大农业科技有限公司,浙江 衢州 324000)
马口鱼(Opsariichthysbidens)是一种生活在山涧溪流中的小型鱼类,别称花杈鱼、桃花鱼、坑爬、宽口等。按新硬骨鱼分类,其隶属于鲤形目(Cyprinoidei)鲴科(Xenocyprididae)马口鱼亚科(Opsariichthyinae)马口鱼属(Opsariichthys)[1],是东亚溪流中特有的杂食偏肉食性小型凶猛鱼类[2],其在经济鱼类养殖过程中曾被当作敌害鱼类之一[3-4]。由于过度捕捞,以及江河水质污染和拦河筑坝水利工程等因素的影响,马口鱼自然资源急剧下降。因其肉质细嫩鲜美,营养价值较高,近年来深受消费者青睐,成为山区旅游消费的溪流性鱼类代表品种之一。马口鱼雄鱼体色艳丽,还具有较高的观赏价值。迅速发展的市场需求促使养殖业者和研究人员开展马口鱼繁殖生物学[5-7]和人工繁育研究[8-9]。
微卫星(microsatellite)即简单重复序列(simple sequence repeat, SSR),由1~6个核苷酸呈串联重复序列构成的核心序列和侧翼序列组成,核心序列高度变异且数量丰富,侧翼序列位于其两端,为保守序列的特异单拷贝序列,具有保守性[10]。SSR广泛存在于真核生物基因组中,原核生物基因组中也存在。SSR标记因为种类多、共显性、杂合子比率高并且遗传连锁不平衡等特点[11-12],在鱼类中已得到广泛应用,可以用于遗传连锁图谱的构建[13-14]、种群遗传多样性分析[15-17]、遗传变异性分析与种质资源保护[18-19],以及亲缘关系鉴定[20]等方面。
本研究使用微卫星识别工具(microsatellite identification tool, MISA)对马口鱼全基因组进行SSR位点搜索,通过1个马口鱼野生群体开展SSR标记开发,获得的多态性SSR标记可为马口鱼种群遗传多样性分析和亲缘关系鉴定等研究提供有力支持。
1 材料与方法
1.1 材料
马口鱼全基因组序列来源:从国家基因组科学数据中心(https://ngdc.cncb.ac.cn/)下载马口鱼全基因组序列,检索号为GWHBEIO00000000,马口鱼全基因组已定位到染色体。
马口鱼野生群体样本:32尾野生马口鱼鳍条样本采集于浙江省青田县瓯江段,每尾鱼剪取全部鳍条,用无水乙醇固定,置于-20 ℃冰箱保存备用。
1.2 SSR鉴定与引物设计
使用MISA软件(https://webblast.ipk-gatersleben.de/misa/)按照二核苷酸至少8重复、三和四核苷酸至少6重复、五和六核苷酸至少5重复的标准对马口鱼全基因组进行SSR筛选,并且两个SSR之间小于100 bp视为1个SSR。在马口鱼39条染色体上随机选取39个三核苷酸SSR位点,使用Primer 3软件对其侧翼序列进行引物设计。引物在生工生物工程(上海)股份有限公司合成,荧光标记引物在上海良皓生物科技有限公司合成。
1.3 马口鱼基因组DNA提取
参照天根组织基因组DNA提取试剂盒说明书提取马口鱼个体基因组DNA,并通过1.0%琼脂糖凝胶电泳和NanoDrop-2000紫外分光光度仪检测基因组DNA纯度和浓度,置于-20 ℃保存。
1.4 马口鱼SSR位点适用性检验与多态性检测
以随机3尾马口鱼的混合DNA为模板,对合成的39对引物进行PCR扩增。PCR反应体系为马口鱼基因组DNA(50 ng·μL-1)0.5 μL,2×TaqPCR Mix[天根生化科技(北京)有限公司]10 μL,上下游引物(10 μmol·μL-1)各0.8 μL,ddH2O补足至20 μL。PCR反应条件:94 ℃ 3 min;94 ℃ 30 s,适宜退火温度(52~62 ℃)退火30 s,72 ℃ 30 s,30个循环;72 ℃ 5 min,于4 ℃保存备用。取5 μL反应产物用1.5%琼脂糖凝胶电泳检验。
用32尾野生群体马口鱼DNA模板对筛选出的15对引物进行荧光标记引物PCR扩增和多态性检测。PCR反应体系:马口鱼基因组DNA(50 ng·μL-1)1 μL,2×TaqPCR MasterMix (上海翊圣生物科技有限公司)10 μL,上下游引物(10 μmol·μL-1)各0.3 μL,ddH2O补足至20 μL。PCR反应条件:94 ℃ 2 min;94 ℃ 20 s,56 ℃或58 ℃ 20 s,72 ℃ 40 s,35个循环;72 ℃ 5 min,4 ℃保存。取1 μL PCR产物加9 μL高度去离子甲酰胺(highly deionized-formamide, HiDi),95 ℃变性3 min,立即冰水浴后上样,使用ABI 3730XL毛细管电泳仪进行电泳检测,并用GeneMarker v2.2.0软件读取基因分型结果。
1.5 数据分析
将基因分型数据导入CERVUS 3.0软件,利用allele frequency analysis功能对15个位点进行多态性分析,计算多态信息含量(polymorphism information content, PIC)、哈迪-温伯格平衡(Hardy-Weinberg equilibrium, HWE)、无效等位基因频率(Fnull),再用PopGene 32软件统计等位基因数(Na)、有效等位基因数(Ne)、平均观测杂合度(Ho)、平均期望杂合度(He)等遗传参数。
2 结果与分析
2.1 马口鱼基因组SSR组成特征
马口鱼全基因组中SSR总数量为30 4870个,其SSR序列的长度为800 442 bp,占全基因组长度的0.10%,其总频率为372.35 个·Mb-1,总密度为977.61 bp·Mb-1。二核苷酸重复类型SSR最多,达到67.03%,其余依次为四核苷酸SSR(占比为21.39%)、三核苷酸SSR(占比为8.34%)、六核苷酸SSR(占比为1.71%)、五核苷酸SSR(占比为1.53%)(图1)。
图1 马口鱼基因组中不同重复类型SSR的数量分布占比
2.2 马口鱼基因组不同区域SSR分布规律
统计马口鱼39条染色体上的SSR发现,马口鱼2号染色体上的SSR数量最多,占SSR总数的4.32%,其次是6号、1号、4号、3号和12号染色体,数量较少的是39号和38号染色体(表1)。马口鱼各染色体上不同重复类型SSR中,均以二核苷酸重复类型最多。其他重复类型的分布类型分为2种:2号、6号、12号、14号、15号、18号、20号、24号、26号、28号、31号和36号染色体为四核苷酸SSR>三核苷酸SSR>六核苷酸SSR>五核苷酸SSR;其余的染色体重复类型的分布类型为四核苷酸SSR>三核苷酸SSR>五核苷酸SSR>六核苷酸SSR(表1)。通过检验表明,马口鱼染色体长度与所含SSR数量具有高度正相关性(r=0.941,P<0.01)。由此可知,马口鱼染色体DNA序列越长,所含SSR数量越多。
表1 马口鱼染色体上不同重复类型SSR数量的分布
在马口鱼基因组不同区域中,内含子区SSR数量最多,为93 380个,5′非翻译区SSR数量最少,为622个;不同区域SSR数量顺序为内含子区>基因间隔区>启动子>3′非翻译区>编码区>5′非翻译区(图2)。6个不同区域中,不同重复类型的SSR数量差异较大,编码区总数量最多的是三核苷酸SSR,占比高达79.52%,而其他5个区域最大的是二核苷酸SSR,占比为57%~67%。具体看来,内含子区和启动子区各重复类型SSR数量大小顺序基本一致,为二核苷酸SSR>复合型SSR>三核苷酸SSR>四核苷酸SSR>五核苷酸SSR>六核苷酸SSR,5’非翻译区和3’非翻译区中各重复类型SSR数量大小顺序基本一致,为二核苷酸SSR>三核苷酸SSR>复合型SSR>四核苷酸SSR>五核苷酸SSR>六核苷酸SSR,编码区各重复类型SSR数量为三核苷酸SSR>复合型SSR>二核苷酸SSR>六核苷酸SSR>五核苷酸SSR>四核苷酸SSR,基因间隔区各重复类型SSR数量为二核苷酸SSR>复合型SSR>三核苷酸SSR>四核苷酸SSR>六核苷酸SSR>五核苷酸SSR(图2)。
图2 马口鱼全基因组不同区域SSR各重复类型数量
2.3 马口鱼SSR重复单元拷贝数比较
马口鱼基因组二核苷酸SSR重复单元拷贝数主要集中在11~20,占所有二核苷酸SSR的45.80%;其次是重复单元拷贝数≤10的,占所有二核苷酸SSR的41.99%;重复21~30次的占所有二核苷酸SSR的8.82%,重复>30次的占所有二核苷酸SSR的3.39%。三核苷酸SSR重复单元拷贝数绝大多数≤10,占所有三核苷酸SSR的92.10%,重复单元拷贝数为11~20的占所有三核苷酸SSR的7.75%,重复21~30次和大于30次的极少,分别占所有三核苷酸SSR的0.11%和0.03%。四核苷酸SSR重复单元拷贝数主要在10及以下,占所有四核苷酸SSR的47.28%,重复11~20次的占所有四核苷酸SSR的35.61%,重复21~30次的占所有四核苷酸SSR的14.56%,重复大于30次的占所有四核苷酸SSR的2.55%。五核苷酸SSR重复单元拷贝数大多数≤10次,占所有五核苷酸SSR的82.21%,重复11~20次的占所有五核苷酸SSR的13.02%,重复21~30次的占所有五核苷酸SSR的3.46%,重复大于30次的占所有五核苷酸SSR的1.31%。六核苷酸SSR重复单元拷贝数绝大多数≤10,占所有六核苷酸SSR的92.74%,重复11~20次的占所有六核苷酸SSR的5.97%,重复21~30次和重复大于30次的比较少,分别占所有六核苷酸SSR的0.80%和0.48%(表2)。
表2 马口鱼全基因组SSR重复单元拷贝数
2.4 马口鱼全基因组中各重复类型SSR的主要重复基序比较
二核苷酸SSR重复基序数量最多的是AC,其次是AT和AG;三核苷酸SSR重复基序数量最多的是AAT,其次是AAC、ATC、AAG、AGC和AGG;四核苷酸SSR重复基序数量最多的是AGAT,其次是ATCC和ACAG;五核苷酸SSR重复基序数量最多的是AATAT,其次是AAAAT和AAGTC;六核苷酸SSR重复基序数量最多的是AACCCT,其次是AACCAT和ACACTC(表2)。
2.5 马口鱼适用简单重复序列位点引物与多态性信息
对设计的39对引物进行适用性检验,筛选得到15对适用性引物(表3)。荧光标记引物多态性检测共检测到106个等位基因,平均每个位点有7.07个等位基因,其中,3Chr8位点等位基因数最少,只有4(图3),3Chr15位点等位基因数最多,有11。观测杂合度(Ho)为0.125~0.813,平均值为0.538;期望杂合度(He)为0.359~0.862,平均值为0.666;平均多态信息含量(PIC)为0.339~0.830,平均值为0.622;所选的马口鱼15个SSR位点中除3Chr10、3Chr12和3Chr27位点的PIC介于0.25~0.50,属于中度多态性位点,其余12个SSR位点的PIC均大于0.50,属于高度多态性位点(表4)。
表3 十五个马口鱼SSR位点引物基本信息
表4 十五个马口鱼SSR位点多态性信息
图3 马口鱼3Chr3位点2个样品的毛细管电泳基因分型结果
3 讨论
已公布的鲤鱼(Cyprinuscarpio)[21]、大黄鱼(Pseudosciaenacrocea)[22]和暗纹东方鲀(Takifuguobscurus)[23]研究中,全基因组中SSR含量分别为0.91%、0.47%和0.78%,而马口鱼全基因组中SSR含量为0.10%,所占比例较低。这可能有两方面的原因:一方面是由于不同物种基因组之间存在差异;另一方面是由于本研究统计SSR的标准较为严苛。为提高SSR引物设计的成功率,本研究省略了单核苷酸重复,将二核苷酸重复次数提高到8个,三和四核苷酸重复次数提高到6个。
马口鱼全基因组5种SSR重复类型的数量和频率分布模式为二核苷酸SSR>四核苷酸SSR>三核苷酸SSR>六核苷酸SSR>五核苷酸SSR,这5种SSR重复类型与大菱鲆(ScophthalmusmaximusL.) SSR分布[24]一致。马口鱼的二核苷酸SSR数量最多,这与大菱鲆、大黄鱼、花斑无须鲶(Ageneiosusmarmoratus)、瓦氏黄颡鱼(Pelteobagrusvachelli)、绿鳍马面鲀(Thamnaconusmodestus)、团头鲂(Megalobramaamblycephala)等[22,24-28]相似,说明在大多数鱼类基因组中,二核苷酸SSR重复为优势重复序列;其次是四核苷酸SSR和三核苷酸SSR重复序列,与大黄鱼全基因组SSR重复类型的分布模式[22]相同。马口鱼六核苷酸SSR比五核苷酸SSR多,这不同于鲤鱼、大黄鱼等[21,22];在马口鱼二核苷酸SSR重复类型中,重复基序AC占比最高,这与大菱鲆、大黄鱼、暗纹东方鲀、红鳍东方鲀(Takifugurubripes)、鲤鱼等一致[21-24],而在团头鲂、中国对虾(Fenneropenaeuschinensis)、拟南芥(Arabidopsisthaliana)、酿酒酵母(Saccharomycescerevisiae)、家蚕(Bombyxmori)、东方蜜蜂(Apiscerana)等的二核苷酸SSR重复类型中[26,29-34],重复基序AT占比最高,可能是由于SSR重复类型在不同物种中的分布有差异。而二核苷酸SSR重复类型中占比最少的是基序CG,在许多水生生物中同样如此,这可能是因为甲基化的C易脱氨基转化为T,而GC是作为维持DNA热力学稳定的碱基[35]。因此,CG含量逐渐减小,对应TG含量逐渐上升。
马口鱼SSR在基因组中少部分分布于编码区,大部分分布在非编码区。在黑腹果蝇(Drosophilamelanogaster)、家蚕、东方蜜蜂、西方蜜蜂(ApismelliferaL.)、家鼠(Musmusculus)、牛(Bostaurus)、绵羊(Ovisaries)、山羊(Caprahircus)、藏羚羊(Pantholopshodgsonii)等物种中均有相同分布规律[32-34,36-37]。同一物种的不同类型SSR的分布具有一致性,SSR整体分布特征是位于非编码区的。
目前已报道的马口鱼SSR标记数量很少,有将宽鳍鱲(Zaccoplatypus)的SSR标记应用于马口鱼遗传分化的研究[38],尚未见到基于高通量测序技术大量开发马口鱼SSR标记的报道。本研究通过分析马口鱼全基因组序列,选取其中39个SSR位点设计引物并筛选得到15个适用性位点,并采用荧光标记引物对这15个位点进行多态性检测。结果表明,这15个位点中有12个为高度多态性位点(PIC>0.50),这可能与我们选择的SSR位点重复次数相对较多有关。本研究所筛选得到的15个多态性SSR位点可用于今后马口鱼种群遗传多样性分析和亲缘关系鉴定等方面的研究。