基于de novo高通量测序的叶尔羌高原鳅微卫星位点筛选与多态性分析
2020-07-23王锦秀王新月陈生熬任道全
王锦秀 宋 勇,2 王新月 陈生熬,2 任道全,2*
(1塔里木大学动物科学学院,新疆 阿拉尔 843300)
(2新疆生产建设兵团塔里木畜牧科技重点实验室,新疆 阿拉尔 843300)
叶尔羌高原鳅(Triplophysa yarkandensis)地方名为狗头鱼,隶属鲤形目、鳅科、条鳅亚科、高原鳅属、鼓鰾鳅亚属,广泛分布于塔里木河水系,是塔里木河水系优势种[1-2]。目前关于叶尔羌高原鳅的研究主要集中在形态学[3]、生长繁殖[4]和线粒体[5]等方面,与种群遗传和分子标记相关的研究还未见报道,种群遗传信息的匮乏,将对其资源评估和有效地保护产生影响。
微卫星,又称短串联重复序列(short tandem repeats,STR)或简单串联重复序列(simple sequence repeats,SSR)[6],微卫星标记具有多态性高、变异性强、数据易统计分析等突出优点[7],在各种分子遗传标记中,微卫星DNA标记技术受到许多研究者的青睐。鱼类微卫星标记开发中常用二碱基重复类型为主[8-9],但也有学者认为三碱基重复较二碱基重复具有更高的筛选效率和多态性[10-11]。高通量测序除具有二代测序高效、快捷的普遍特点外,其片段读长更大,因此更适合于微卫星标记的开发[12]。
本研究基于高通量测序平台对叶尔羌高原鳅基因组进行随机测序并挑选出100对含二、三碱基重复的微卫星序列设计引物,探索最佳PCR反应体系,筛选具有多态性的微卫星标记,比较二、三碱基微卫星标记的筛选效率和多态性差异,并检测塔里木河支流五处采样点的叶尔羌高原鳅野生群体的遗传多态性,旨在为叶尔羌高原鳅的种群遗传结构和遗传多样性分析提供技术基础,为塔里木河特有鱼类的保护积累资料。
1 材料与方法
1.1 样品采集与基因组DNA提取
叶尔羌高原鳅采集于塔里木河支流的五处采样点,分别是阿克苏河17尾,台南河18尾,阿尔干25尾,台特玛湖15尾,车尔臣河27尾,共计102尾。每个样品取20 mg鳍条,使用血液/细胞/组织基因组DNA提取试剂盒(慈达生物技术有限公司,DP348)提取基因组织DNA。用核酸蛋白检测仪(上海创萌生物科技有限公司,DS-11)检测基因组DNA的浓度及纯度,并用1%的琼脂糖电泳检测(BIO-RAD,164-5056),将提取纯度较好的DNA-20℃保存备用。
1.2 高通量测序与引物合成
采用HiSeq PE150模式(双端测序)测序(上海生工),进行基因组de novo组装,在获取拼接基因组序列后,使用MISA对序列中的SSR进行了检测,SSR最小间距为200 bp。随机挑选100个二碱基重复、三碱基重复且重复次数在十次以上的微卫星序列(真核生物基因组中,二碱基重复的微卫星最为丰富,三碱基重复的微卫星比二碱基重复微卫星的含量低10倍,四碱基重复的微卫星与之相比,含量更少[13])进行引物开发,送至公司进行引物合成。
1.3 引物最佳退火温度的筛选
叶尔羌高原鳅基因组DNA对100对SSR引物进行PCR扩增,筛选出PCR反应过程中的最佳退火温度,优化PCR反应条件,并对引物进行首轮筛选,筛选出琼脂糖检测能扩增出稳定且均一目的片段的SSR引物。PCR反应体系总体积为30 μL,其组成为PCR Mix15 μL(天根,北京),DNA模板3 μL,上游引物Forward 1.5 μL,下游引物Reverse 1.5 μL,剩余体系双蒸水补足。反应条件95℃预变性3 min,94℃变性 30 s,退火 30 s(温度 1:62℃、2:61.2℃、3:59.6℃、4:56.9℃、5:53.5℃、6:50.8℃、7:48.9℃、8:48℃),72℃延伸40 s,以上程序循环34次,最后72℃继续延伸10 min。
1.4 引物多态性检测
以8尾叶尔羌高原鳅个体的基因组DNA为模板对能够扩增出稳定条带的SSR引物进行多态性筛选。PCR反应体系同上,退火温度为上步骤筛选得出。反应产物采用8%非变性聚丙烯酰胺凝胶电泳检测,经0.1%硝酸银染色后在化学发光成像分析系统(BIORAD ChemiDoc Imaging System)下拍照保存。将扩增产物基于Fragment Analyzer 5200毛细电泳平台进行基因分型,检测引物是否具有多态性,并得到微卫星的基础数据(北京华世百奥生物技术有限公司)。
1.5 数据处理与分析
原始数据通过CONVERT1.31软件转化为各软件所需格式。利用Cervus3.03软件计算出几个群体叶尔羌高原鳅的等位基因数(Na)、有效等位基因数(Ne)、观测杂合度(Ho)、期望杂合度(He)、多态信息含量(PIC),利用PopGen32进行群体内Hardy-Weinberg平衡检测。
2 结果
2.1 高通量测序结果与微卫星位点分析
图1 各碱基重复微卫星序列所占比例
高通量测序共获得27 802条存在微卫星位点的序列,总长度为2 056 661 bp,最大长度为21 111 bp,最小长度为185 bp,平均长度为1 637 bp。图1为叶尔羌高原鳅各碱基重复类型在所有微卫星序列中所占的比例,其中单碱基重复是叶尔羌高原鳅最主要的微卫星类型,占44.59%,其次二碱基、三碱基重复,占全部微卫星序列的34.34%、12.46%,前三者占全部微卫星序列的91.39%,而四碱基(2.53%)、五碱基(2.86%)、六碱基(5.22%)只占全部微卫星序列的8.61%。同时在碱基类重复型中二碱基重复次数在6~61次,三碱基在5~31次,四碱基在7~27次、五碱基在6~12次,六碱基在5~17次,碱基数越大,重复次数逐渐减小,相应微卫星数量变少。
2.2 引物最佳退火温度的选择
100对引物中经琼脂糖检测出能扩增出稳定且均一的目的片段的微卫星引物共79对,有21对引物经琼脂糖检测不能扩增出稳定且均一目的片段,两条引物上的互补碱基相结合形成二聚合体,导致DNA无法与其相结合,使得扩增效率降低,将其舍去。图2为叶尔羌高原鳅部分引物(Y7、Y8、Y23、Y24)经不同温度(1:62℃、2:61.2℃、3:59.6℃、4:56.9℃、5:53.5℃、6:50.8℃、7:48.9℃、8:48℃)PCR后琼脂糖电泳检测结果。引物Y7在62℃、61.2℃、59.6℃、56.9℃、53.5℃、50.8℃条件下条带较明亮且清晰,因此50.8~62℃均可成为引物Y7的最佳退火温度;引物Y8在61.2℃条件下条带明亮且清晰,因此将61.2℃设为引物Y8最佳退火温度;引物Y23在59.6℃条件下条带明亮且清晰,故61.2℃为Y23的最佳退火温度;引物Y24在61.2℃、59.6℃条件下条带明亮且清晰,将61.2℃设为Y24的最佳退火温度,其余引物亦按此方法筛选。
图2 叶尔羌高原鳅SSR引物琼脂糖凝胶电泳
2.3 多态性检测及引物信息
以8尾叶尔羌高原鳅个体的基因组DNA为模板,79对微卫星引物中,只有33对引物经聚丙烯酰胺凝胶电泳后,条带显示出特异性,表示其具有多态性。图3为部分引物(Y7、Y11、Y45)经硝酸银染色后得到的,引物Y7片段大小在203~238 bp,引物Y11片段大小在101~136 bp,引物Y45片段大小在188~212 bp,电泳后得到的目的片段出现条带不同的现象,说明具有多态性,其余引物亦按此方法筛选。33对引物经毛细电泳平台进行基因分型,得到微卫星的基础数据,如表1所示。
图3 叶尔羌高原鳅SSR引物聚丙烯酰胺凝胶电泳
表1 叶尔羌高原鳅微卫星位点及PCR引物信息
(续表)
2.4 叶尔羌高原鳅微卫星位点的分离及多态性分析
33对多态性的微卫星位点对102尾叶尔羌高原鳅进行遗传变异和遗传多态性检测,引物在叶尔羌高原鳅群体中进行扩增,得到群体的遗传多样性信息见表2。叶尔羌高原鳅的等位基因数介于24~52,有效等位基因数Ne介于4.040~30.626之间,平均等位基因和有效等位基因数分别为43.848、12.163。其中Y96位点的等位基因数最少,为 24,Y7、Y11、Y17、Y28、Y32、Y42、Y44、Y49等位点的等位基因数最多,为52。各个位点的香农多样性指数介于2.012~3.699之间,观测杂合度Ho介于0~0.957之间,多态信息含量PIC介于0.729~0.972之间。对各位点进行Hardy-Weinberg平衡检测,发现有22个(67%)位点符合Hardy-Weinberg平衡(PHWE>0.05),有11个(33%)位点显著偏离 Hardy-Weinberg平衡(PHWE<0.05)。与三碱基重复类型微卫星相比,二碱基类型微卫星标记的多态性无论是等位基因数Na、观测杂合度Ho,还是多态信息含量PIC等参数都明显比三碱基重复类型的高。
表2 叶尔羌高原鳅微卫星标记的遗传学特征
(续表)
3 讨论
不同引物的退火温度不一样,从特异性和条带数量角度考虑,确定合适的退火温度十分必要[14]。本研究中叶尔羌高原鳅100对引物的退火温度也不同,能扩增出稳定条带的79对微卫星引物退火温度大多在56.9~62℃效果较好,说明其引物的最佳退火温度在56.9~62℃范围内,高于西昌华吸鳅(Sinogastromyzon sichangensis)[15]51~60℃的退火温度,中华金沙鳅(Jinshaia sinensis)[16]的退火温度在 51~57℃之间,长体圆鲹(Decapterus macrosoma)[17]退火温度在55~60℃之间,塔里木裂腹鱼(Schizothorax bid-dulphi)[18]的退火温度在 54~57℃之间,不同种类鱼类退火温度不尽相同,这可能与其序列所含碱基的比例相关,有待进一步研究。从本研究的结果可以看出,一二三碱基是叶尔羌高原鳅的主要微卫星碱基类型,四五六碱基类型相对较少,随碱基数量的增加,微卫星数量逐渐减少的现象,这与Chistiakov、屈政委、黄杰[19-21]等学者研究的微卫星组成情况类似,说明在叶尔羌高原鳅微卫星标记的开发中二三碱基是主要的筛选对象。在碱基类重复型中二碱基重复次数在6~61次,三碱基在5~25次,四碱基在7~27次、五碱基在6~12次,六碱基在5~17次,发现碱基数越大,重复次数越小,这与吕振明[22]等研究的曼氏无针乌贼微卫星位点筛选的结果一致。从具有多态性的33对微卫星标记中发现二三碱基重复类型微卫星相比,二碱基类型微卫星标记的多态性无论是等位基因数Na、观测杂合度Ho、多态信息含量PIC等参数都明显比三碱基高,这与房祖业[13]等研究大刺鳅二、三、四碱基重复微卫星标记的筛选结果一致,这也提示了更为有效的筛选多态性微卫星标记,二碱基类型将是首先筛选的对象。
多态信息含量PIC是评价微卫星位点的重要参考标准,PIC>0.5表明该位点具有较高的多态性,0.25<PIC<0.5表明该位点具有中度多态性,PIC<0.25表明该位点具有低度多态性[23]。张智等[15]等对利用高通量测序法对西昌华吸鳅基因组进行测序并筛选出29对具有多态性的引物,平均等位基因数为14.5,观测杂合度(Ho)和期望杂合度(He)分别为0.620和0.882,多态信息含量(PIC)为0.859,引物在西昌华吸鳅中表现出较高的多态性。李薇[24]等通过高通量测序成功筛选出达氏鲟(Acipenser dabryanus)25个微卫星位点,每个位点的等位基因数(Na)为4~11(平均值7.2),观测杂合度(Ho)为0.160~1.000(平均值0.744),期望杂合度(He)为0.346~0.875(平均值0.727),除了其中一个位点以外,所有位点的多态信息含量(PIC)均大于0.5,其多态性较好。本研究基于高通量测序技术共筛选出33对具有多态性的微卫星位点,并用于检测塔里木河干流叶尔羌高原鳅野生群体的遗传多态性,其多态信息含量PIC介于0.729~0.927之间,表明这33个位点均具有多态性(PIC>0.5),塔里木河支流叶尔羌高原鳅野生群体具有较高的遗传多样性。33个位点中有11个位点显著偏离Hardy-Weinberg平衡,这种现象可能与样本量及无效等位基因的存在有关[25]。由于微卫星标记具有通用性,本文筛选出叶尔羌高原鳅的微卫星引物,同样可用于其他高原上的鳅科鱼类,亦可参照此引物来进行实验分析。
4 结论
本研究的结果表明,基于de novo的高通量测序技术是开发叶尔羌高原鳅微卫星标记的理想方法。与传统的DNA建库和探针杂交富集法开发微卫星标记相比,具有快速、高效等优点。本研究表明二碱基重复类型的微卫星标记在叶尔羌高原鳅中占优势,多态性较好,且本研究筛选的33对多态性引物可以应用于群体间遗传多样性、遗传距离和遗传图谱的构建,以及亲缘关系的鉴定等方面,为叶尔羌高原鳅种质资源保护研究奠定分子基础。