河川沙塘鳢GH基因及侧翼的克隆与生物信息学分析
2019-09-23刘加林刘士力蒋文枰迟美丽郑建波贾永义赵金良尹绍武顾志敏
刘加林,刘士力,蒋文枰,程 顺,迟美丽,郑建波,贾永义,赵金良,尹绍武,顾志敏
(1.南京师范大学 生命科学学院,江苏 南京 210000;2.浙江省淡水水产研究所 农业农村部淡水渔业健康养殖重点实验室/浙江省淡水水产遗传育种重点实验室,浙江 湖州 313001;3.上海海洋大学 农业农村部淡水水产种质资源重点实验室,上海 201306;4.上海海洋大学 上海水产养殖工程技术研究中心,上海 201306)
河川沙塘鳢(Odontobutispotamophila)隶属于鲈形目(Perciformes)鰕虎鱼亚目(Gobioidei)塘鳢科(Eleotridae)沙塘鳢属(Odontobutis),主要分布于长江中、下游及沿江各支流,钱塘江水系,闽江水系,偶见于黄河水系[1]。河川沙塘鳢需要摄食活饵,可以与虾蟹一起养殖,能够提高水体利用率;其味道鲜美,随着苗种培育技术的突破,沙塘鳢已成为一种极具发展潜力的水产养殖新品种[2]。沙塘鳢的价格随着规格的增加而提高,对其进行选育具有重要的经济意义。
生长激素(growth hormone,GH)与催乳素(prolactin,PRL)和胎盘催乳素(placentallactogen,PL)属于同一个基因家族[3],是主要影响动物生长相关性状的基因[4],可以促进骨骼、内脏的生长以及蛋白质的合成[5-6],在动物生长发育中起着关键性作用,并且该基因可以人工合成。近年来,对于生长激素基因研究在不断增加,已在禽畜物种上做过很多研究[7-8],对鱼类GH基因的报道也层出不穷,已对鲤形目[9]、鲽形目[10]、鲀形目[11]、鳗鲡目[12]、鲶形目[3]等鱼类进行了该基因的序列分析以及其多态性与生长性状相关的关联分析。大部分鱼类研究中,仅发现一种GH基因,但在鲑鳟及罗非鱼中发现GH基因以两种形式存在,可能是由于其祖先中发生了四倍体事件所导致[13]。本研究采用T-A克隆技术克隆了河川沙塘鳢GH基因全序列,通过对其核苷酸序列的比较分析,以期为河川沙塘鳢人工选育奠定技术基础,同时为塘鳢科鱼类起源及进化机制研究提供理论依据。
1 材料与方法
1.1 材料
实验用河川沙塘鳢采自浙江省淡水水产研究所综合实验基地,剪取少量尾鳍,用无水乙醇于-20 ℃保存备用。
主要试剂:PCR反应试剂、Genome Walking Kit试剂盒和pMD19-T载体购自宝生物技术(北京)有限公司;胶回收试剂盒、大肠埃希菌(Escherichiacoli)DH5α、氨苄和异丙基硫代半乳糖苷购自天根生化科技(北京)有限公司;用于DNA提取的试剂购自生工生物工程(上海)股份有限公司。
1.2 方法
1.2.1 DNA提取
采用苯酚-氯仿法提取样本DNA。用1%琼脂糖凝胶检测提取DNA完整性,DNA原液于-20 ℃保存备用。
1.2.2 引物设计
对本实验室获得河川沙塘鳢转录组中GH的mRNA序列进行分析,在开放阅读框两侧设计引物进行扩增。这样既可以扩增出内含子,同时也可对mRNA序列进行验证。按照Genome Walking Kit试剂盒的要求在两端分别设计两条特异性引物(表1)。引物由生工生物工程(上海)股份有限公司合成。
表1 河川沙塘鳢GH基因克隆PCR引物序列
Table1Primers used forGHgene cloning ofOdontobutispotamophila
引物Primer序列Sequence (5′-3′)产物长度Length/bp用途UsageGH-FAGACCCAACATAAACTAA3325扩增GH内含子 Amplification of GH intronGH-RTAGGGTTAACATACAGAGGGH-5 (SP1)GACACGGCTCACAGCAATGG≈12005′端步移5′-terminal walkingGH-5 (SP2)AAACGCTGGCTGTCAGTGH-3 (SP1)TTGCCTTTGGTCCCTTTGAA≈8003端步移3′-terminal walkingGH-3 (SP2)AGGTGGAGACATACTTGACG
1.2.3 PCR反应体系
PCR反应体系为25 μL∶10×Buffer(含Mg2+)2.5 μL,dNTPs(各2.5 mmol·L-1)2.0 μL,模板DNA(50 ng·μL-1)1 μL,上游、下游引物(10 μmol·L-1)各0.5 μL,Taq聚合酶(5 U·μL-1)0.2 μL,灭菌超纯水补足体系。
PCR反应程序:94 ℃预变性5 min;94 ℃变性30 s,58 ℃退火30 s,72 ℃延伸3 min,共32个循环;72 ℃延伸10 min;4 ℃保存。
操作步骤:以所研究目的片段设计巢式PCR特异性引物SP1和SP2。首先以纯化后的河川沙塘鳢基因组DNA为模板,根据试剂盒PCR反应体系,以试剂盒中提供的兼并引物AP与目的片段特异性引物SP1进行第一轮巢式PCR,再取第一轮巢式PCR反应产物1 μL作为第二轮巢式PCR反应的模板,利用相同的AP引物和特异性引物SP2进行第二轮巢式PCR,将两次PCR产物按顺序分别进行凝胶电泳检测。
1.2.4 克隆及测序
PCR产物送生工生物工程(上海)股份有限公司测序,如序列中包含微卫星和Poly结构导致测序不完整,克隆后再进行测序。
1.2.5 序列分析
利用软件ContigExpress将所获得的DNA片段和已知的mRNA序列拼接在一起,利用NCBI中BLAST软件进行序列对比,确定河川沙塘鳢GH基因正确性。GH基因的mRNA及编码的氨基酸序列按照刘士力等[14]的方法进行分析。内含子的相似度通过GenBank的BLAST功能计算。微卫星和小卫星的查找分别通过SSRhunter 1.3和在线软件Repfind进行。
2 结果与分析
2.1 GH基因及侧翼的克隆、测序及鉴定
PCR扩增产物的电泳条带清晰,无杂带,片段长度在3 340 bp左右,经测序后与本实验室转录组中GH的mRNA序列进行比对分析,可确定获得的为正确目的片段,与通过基因组步移法获得的5′端和3′端序列进行拼接共获得5 120 bp的序列,其碱基组成为:A+T占53.26%,C+G占46.74%。将该序列提交GenBank数据库,获得登录号MH717101。
河川沙塘鳢GH基因转录单元长3 518 bp,5′端侧翼序列长度为920 bp,包含(AC)12(AC)14的微卫星序列,3′端侧翼序列长度682 bp,包含(TA)5(A)6(TA)10的微卫星序列。包含4个内含子、5个外显子。其内含子均以GT开始,以AG结束,符合真核生物外显子与内含子之间的剪接规律。其中4个内含子大小分别为75、333、2 070和121 bp,5个外显子长度分别为150、131、117、138和373 bp;mRNA序列全长为909 bp,5′-非翻译区(5′-UTR)为140 bp,3′-非翻译区(3′-UTR)为175 bp,开放阅读框区(ORF)为594 bp,编码由197个氨基酸残基组成的蛋白质多肽,其所编码氨基酸序列信息如图1所示。
相对于外显子,GH基因内含子存在相对较大的差异。河川沙塘鳢GH基因中第3内含子长达2 070 bp,其长度是翘嘴鲌第3内含子的4倍以上,且没有任何相似性。河川沙塘鳢GH基因内含子和外显子中没有微卫星序列。
通过分析发现,河川沙塘鳢GH蛋白质相对分子质量为22.57 ku,理论等电点(isoelectric point,pI)为6.43,分子式:C1022H1610N272O294S5。其中,亮氨酸(Lue,L)含量最高,为10.7%,其次是丝氨酸(Ser,S),含量为12.2%;半胱氨酸(Cys,C)含量最低,为1.0%;带负电荷氨基酸残基(Asp+Glu)22个,带正电荷氨基酸残基(Arg+Lys)21个;不稳定指数(instability index,II)为48.66;脂肪族氨基酸指数(aliphatic index)为107.36。经过蛋白质序列分析,河川沙塘鳢GH基因氨基酸预测无跨膜结构;河川沙塘鳢生长激素成熟肽序列中包含一个信号肽,由16个氨基酸组成;用NCBI的Conserved Domains(CD-Search)程序分析蛋白质结构域,分析表明,河川沙塘鳢GH基因具有1个保守的蛋白结构域,位于第25-179位氨基酸处,可信度(E-value)为2.42e-58。蛋白质二级结构预测表明,河川沙塘鳢二级结构含57.87%的螺旋(helix,包括α-、pi-和 3.10-helix)、38.07%的环(loop)及4.06%的链(strand)。
*为终止密码子;下划线上氨基酸序列表示信号肽;阴影部分氨基酸序列表示保守的蛋白结构域;黑体核苷酸表示多聚腺苷酸加尾信号(AATAAA)。* was the termination codon; The amino acid sequence on the underline represented the signal peptide; The shaded amino acid sequences represented the conserved protein domain; The blackbody nucleotide denoted polyadenylate plus tail signal (AATAAA).图1 河川沙塘鳢GH基因CDS区氨基酸序列Fig.1 Amino acid sequence in the CDS region of O. potamophila GH gene
2.2 GH侧翼区的分析
利用DNA Star软件进行分析,获得的河川沙塘鳢GH基因的启动子。如图2所示,转录起始位点A在翻译起始密码子ATG上游140 bp。所得到的河川沙塘鳢的GH的5′侧翼序列中启动子含有TATA-box,却未发现与转录密切相关的其余两个核心启动子转录元件:CAAT-box和CArG motif。以转录起始位点A为+1位,-400~-394处有一个TATA-box,此外,在-647~-641处也存在TATA-box。河川沙塘鳢GH基因5端序列在GenBank中没有比对到同源序列。
经alggen(http://alggen.lsi.upc.es)在线预测发现,GH启动子含有MF3、GAGA factor、HNF-3alpha、C/EBP、R2、GATA-1等多种转录调控元件。
推测的转录因子结合位点用单下划线和阴影表示;转录起始位点用粗体表示;翻译起始密码子ATG用粗体表示。Putative transcription factor binding sites were single-underlined and shaded; The transcription initiation site was in bold; The translation start codon ATG was in bold.图2 河川沙塘鳢GH基因5′侧翼区序列及部分潜在转录因子结合位点预测Fig.2 Sequence of the 5′-flanking region of O.potamophila growth hormone (GH) gene and partial prediction of transcription factor binding sites
2.3 GH基因外显子、内含子及其编码氨基酸序列的结构比较
将河川沙塘鳢与其他鱼类的GH基因比较发现(表2),其编码区序列长度相差9~39 bp,除鲈形目鱼类点带石斑鱼和翘嘴鳜含有6个外显子和5个内含子外,其余均含有5个外显子和4个内含子。前4个外显子的长度河川沙塘鳢与点带石斑鱼和翘嘴鳜几乎一致,但第5外显子的长度与两种鱼类第5外显子和第6外显子长度之和相似;除第4内含子长度具有一致性外,河川沙塘鳢与点带石斑鱼和翘嘴鳜在其余内含子的长度上均有很大程度的差异性。
由表2可知,河川沙塘鳢与除石斑鱼和翘嘴鳜外其他鱼类外显子长度几乎相同,第1内含子长度均小于翘嘴鲌等鱼类,除翘嘴鲌外第2内含子均大于黄颡鱼等鲇形目鱼类,第3内含子长度皆远大于翘嘴鲌等鱼类,约是其平均长度的3.5倍,第4内含子长度明显小于黄颡鱼。经NCBI中BLAST分析发现,河川沙塘鳢与这几种鱼类的内含子均没有相似性。
将河川沙塘鳢同鲈形目鱼类:彼氏冰鰕虎鱼(Leucopsarionpetersii)、点带石斑鱼(Epinepheluscoioides)、黄金鲈(Percaflavescens)、褐石斑鱼(Epinephelusbruneus)、翘嘴鳜(Sinipercachuatsi);鲉形目鱼类:西刺杜父鱼(Cottuskazika);鲤形目鱼类:草鱼(Ctenopharyngodonidella)、斑马鱼(Daniorerio)、翘嘴鲌(Culteralburnus);鲇形目鱼类:黄颡鱼(Pelteobagrusfulvidraco)、南方大口鲇(Silurusmeridionalis)、兰州鲇(Siluruslanzhouensis)、斑点叉尾鮰(IctalurusPunctatus),通过NCBI经BLAST进行GH基因编码区核苷酸序列及氨基酸序列同源性分析,如表3及图3所示,河川沙塘鳢与鲈形目(Perciformes)鰕鯱鱼亚目(Gobioidei)的彼氏冰鰕虎鱼GH氨基酸序列同源性最高,为83.8%,有35个氨基酸残基的差异和一个氨基酸残基的缺失;其次与翘嘴鳜、点带石斑鱼的同源性相近,分别为78.6%和78.0%;与草鱼(Ctenopharyngodonidella)同源性最低,为49.1%。河川沙塘鳢与黄颡鱼编码区核苷酸序列同源性最低,为46.2%,同其他鱼类的相似性与氨基酸序列同源性分析结果基本一致。在河川沙塘鳢GH所编码的氨基酸序列中,只有两个半胱氨酸残基(Cys68和Cys171),比其他鱼类少,但是非常保守,参与了二硫键;另外,该序列中无N-糖基化位点。
表2 河川沙塘鳢与其他鱼类GH基因外显子和内含子大小的对比
Table2Size comparison of exon and intron ofGHgene amongO.phiocephalusand other fish species
区域Region河川沙塘鳢OdontobutispotamophilaMH717101点带石斑鱼EpinepheluscoioidesKR269816翘嘴鳜SinipercachuatsiEF205280黄颡鱼PelteobagrusfulvidracoKU323395兰州鲇SiluruslanzhouensisKM215221斑点叉尾鮰IctalurusPunctatusAF267989翘嘴鲌CulteralburnusKX9259765′侧翼5′flanking14005374526854第一外显子ExonⅠ10101010101010第一内含子IntronⅠ75107406302229309271第二外显子ExonⅡ131134134140140140140第二内含子IntronⅡ33393292385103114454第三外显子Exon Ⅲ117117117117117117117第三内含子IntronⅢ20707191138642565716437第四外显子ExonⅣ138144144132132132162第四内含子IntronⅣ1219986835103340136第五外显子Exon Ⅴ198147147204204204204第五内含子Intron Ⅴ196494第六外显子Exon Ⅵ63633′侧翼3flanking175022348541849651CDS 序列 CDS sequence594615616603603603633
图3表明,河川沙塘鳢在1~179氨基酸序列处十分保守,表现为氨基酸数量十分保守和超过半数的氨基酸排列相同,但在180~197氨基酸序列处,河川沙塘鳢表现出高度不保守性,与所列鱼类氨基酸排列均完全不一致,该段序列为TIDSDLVLVWTWFWSGLI,与该段序列对应的鲈形目鱼类氨基酸序列为ETYLTVAM/KCRLSPEANCTL,鲉形目鱼类氨基酸序列为ETYLTVAKCRLSPEANCTL,鲤形目氨基酸序列为ETYLRVANCRRSLDSNCTL,鲇形目氨基酸序列为ETYLSVAKCRRSLDSNCTL。这一现象表明河川沙塘鳢GH基因所编码的蛋白质具有独特性,对其进行深入研究具有重要意义。
2.4 河川沙塘鳢GH氨基酸序列和其他物种的比较分析
利用MEGA 7.0等软件,对本实验所获得的河川沙塘鳢GH氨基酸序列及从GenBank数据库中获得的包括鲈形目、鲉形目、鲤形目、鲇形目在内的13种鱼类GH氨基酸序列,构建NJ系统进化树。在图4中可以看出,河川沙塘鳢先与彼氏冰鰕鯱鱼聚集在一起,然后与鲉形目的西刺杜父鱼聚成一小支,最后与其他鲈形目鱼类聚成单独的一大支,点带石斑鱼是鲈形目鱼类中与河川沙塘鳢关系最远的鱼类。用作参考的鲤形目和鲇形目鱼类聚成一支。
3 讨论
GH基因是胚胎生长发育过程中重要的发育调控因子, 包括肢体的发育、细胞的定向分化、信号传导等[15],鱼生长激素是鱼类脑垂体中分泌的促进生长的单一亚基的蛋白激素,它参与鱼的生长代谢,能够加速蛋白质合成和脂类降解[16-17],据报道,温海深等[18]已经建立了用来测定鲤科鱼类的鲤鱼生长激素(cGH)RIA的实验方法,效果较佳。本实验室已克隆出翘嘴鲌的GH基因[19]与IGF-I基因[20],在翘嘴鲌GH基因的5′端侧翼区具有2个微卫星位点,将该2个位点与翘嘴鲌的体长、体质量进行相关性分析发现与生长性状具有关联性,且这2个位点中优势等位基因所占的比例较高,可在翘嘴鲌近缘物种或者不同地理种群中做下一步分析;在IGF-I基因的第一、二内含子中共发现6个微卫星,且其中一个微卫星序列(CT)8在所进行比对的鲤科鱼类中具有同源序列。本实验中,在河川沙塘鳢的5′端侧翼区也存在(AC)12(AC)14的微卫星序列,并在3′端侧翼区发现了包含(TA)5(A)6(TA)10的微卫星序列,对于其与生长相关性状之间的关联分析试验还未进行,预测位于两端的微卫星位点具有多态性。
半胱氨酸用“”和斜体表示;加粗下划线表示N-糖基化位点。Cysteine was expressed as “” and italicized; bold underlining indicated N-glycosylation sites.图3 河川沙塘鳢与其他鱼类GH氨基酸序列对比分析Fig.3 Comparative analysis of GH amino acid sequence between O. phiocephalus and other fish species
表3 河川沙塘鳢与其他鱼类GH基因编码区核苷酸序列及氨基酸序列的同源性分析
Table3Homology analyses of nucleotide sequences of encoding region and amino acid sequences ofO.phiocephalusandGHgenes in other fish species
鱼类FishO.potamophilaL.petersiiE.coioidesP.flavescensC.kazikaE.bruneusS.chuatsiC.idellaD.rerioC.alburnusP.fulvidracoS.meridionalisS.lanzhouensisI.punctatusO. potamophila100.080.775.574.071.970.374.862.048.263.446.271.773.050.5L. petersii83.8100.071.871.868.066.070.951.552.052.047.547.046.548.0E. coioides78.073.3100.087.086.571.091.163.067.563.559.062.562.562.5P. flavescens76.273.393.1100.084.471.489.368.571.567.553.062.562.560.0C. kazika75.971.894.189.7100.069.989.663.564.063.055.044.561.057.5E. bruneus59.358.267.264.266.7100.072.056.048.555.050.549.549.050.5S. chuatsi78.674.398.592.693.667.6100.066.568.063.058.046.061.571.0C. idella49.148.154.254.554.846.054.2100.088.898.375.076.075.577.1D. rerio49.748.153.753.454.346.053.791.0100.089.479.378.874.775.2C. alburnus50.350.354.254.255.447.154.298.191.9100.075.576.376.377.1P. fulvidraco52.152.854.654.654.448.654.674.373.875.2100.091.491.592.5S. meridionalis50.551.053.952.952.947.553.975.273.876.296.0100.099.591.0S. lanzhouensis50.551.053.952.952.947.553.975.273.876.296.0100.0100.091.2I. punctatus50.052.353.452.952.547.153.974.874.375.794.594.594.5100
对角线上方为编码区核苷酸序列的同源性,下方为氨基酸序列的同源性。
Above the diagonal is the homology of the nucleotide sequences of encoding region and below is the homology of the amino acid sequence.
图中枝上的数据代表置信度。Numbers on nodes indicate bootstrap values.图4 基于GH氨基酸序列构建的河川沙塘鳢及其他鱼类系统发育树Fig.4 Phylogenetic tree of O. potamophila and other fish species based on GH amino acid sequences
通过对草鱼[21]、鲤鱼(Cyprinuscarpio)[22]、鲶鱼(Silurusasotus)[23]GH基因外显子与内含子的研究及对比发现,含有5个外显子及4个内含子的鱼类占据大多数,也有少部分鱼类具有6个外显子和5个内含子[24-26],如本文所提及的点带石斑鱼和翘嘴鳜。本实验采用T-A克隆得到河川沙塘鳢GH序列全长,具有5个外显子及4个内含子,同点带石斑鱼和翘嘴鳜比较发现,前4个外显子的长度几乎一致,但河川沙塘鳢第5外显子的长度约等于该两种鱼类第5外显子和第6外显子长度之和,除第4内含子长度具有一致性外,其余内含子的长度均有很大程度的差异性,且第3内含子长度皆远大于同鲈形目鱼类在内的其他鱼类。因此表明外显子的保守性比内含子高,从而可能导致GH基因在不同物种进化速率的差异[27]。
刘士力等[28]对翘嘴鲌GH基因进行分析发现,其氨基酸序列与团头鲂完全一致,且与草鱼只有一个氨基酸残基的差异,对此所建立的系统进化树符合基本的分类地位。本研究对4个目的14种鱼类进行GH基因氨基酸序列的比较,发现河川沙塘鳢和鲈形目鱼类的同源性为59.3%~83.8%,其中河川沙塘鳢与同为鰕鯱鱼亚目的彼氏冰鰕虎鱼同源性最高;作为参考的鲉形目、鲤形目及鲇形目鱼类,同鲉形目的同源性为75.9%,同鲤形目鱼类的同源性为49.1%~50.3%,同鲇形目鱼类的同源性为50.0%~52.1%。鲉形目鱼类较部分鲈形目鱼类与河川沙塘鳢之间的同源性高,可能因为地理分布及其他客观原因形成,所以对河川沙塘鳢生长激素基因的研究是很有必要的。
传统的物种分类方法是以形态学和生化特征作为基础的,而以基因序列为基础的可以通过构建系统进化树来分析物种之间亲缘关系的远近,这有助于对不同鱼类之间进化关系有更加深刻的认识[29]。通过构建N-J系统进化树对14种鱼类进行分析,发现鲈形目与其他两个目的鱼类各聚为一支,在鲈形目中,河川沙塘鳢最先与彼氏冰鰕鯱鱼聚为一支,然后与西刺杜父鱼再聚为一支,最后与褐石斑鱼等鱼类聚成一大支。在传统分类学上,彼氏冰鰕鯱鱼与河川沙塘鳢同属于鰕鯱鱼亚目,褐石斑鱼等属于鲈亚目,而西刺杜父鱼却属于鲉形目,从分类学上讲,褐石斑鱼等鱼类要比西刺杜父鱼与河川沙塘鳢亲缘关系近。但从地理分布分析,西刺杜父鱼分布于亚洲日本淡水及半咸水域,要比点带石斑鱼、黄金鲈距河川沙塘鳢地理分布近,与翘嘴鳜和褐石斑鱼地理分布相似。仅凭单个基因的分析不足以客观判断出二者的亲缘关系, 还需要综合分析更多的基因序列以及其他方面的证据。由于目前公开的文献或基因数据库中尚缺乏这些种类的生长激素基因序列,要深入探讨鲈形目鱼类之间的进化关系和分类地位还有待于继续研究。