APP下载

蒙古栎醇脱氢酶基因电子克隆及生物信息学分析

2018-09-10任伟超李相全董上王渌高金辉马伟

林业科技 2018年6期
关键词:生物信息学

任伟超 李相全 董上 王渌 高金辉 马伟

摘要:  以栓皮栎醇脱氢酶基因序列为探针,运用电子克隆技术进行蒙古栎醇脱氢酶基因预测和生物学分析。研究结果表明:蒙古栎醇脱氢酶基因全长594 bp,包含516 bp的开放阅读框,编码171个氨基酸;蛋白为亲水性的非分泌蛋白,不存在跨膜区;二级结构主要为无规则卷曲、延伸链和α螺旋;存在4个丝氨酸、10个苏氨酸、1个酪氨酸,可能成为蛋白激酶磷酸化位点。

关键词:  蒙古栎;  醇脱氢酶;  电子克隆;  生物信息学

中图分类号:   S 792. 186                  文献标识码:   A

蒙古栎(Quercus mongolica),又称柞木、柞树,在我国主要分布于东北和华北地区,是我国温带地区落叶阔叶林及针阔混交林的主要树种[ 1 ],对维持地域生态平衡和生态系统恢复重建有重要作用[ 2 , 3 ]。醇脱氢酶(ADH)是生物体内一类非常重要的对醇或醛有解毒作用的酶,可有效抵御外源或内源有毒化合物的攻击。研究表明,醇脱氢酶是改善植物对缺氧反应适应性的关键酶,是植物提高水淹耐受性的重要基因调控手段之一[ 4 ]。当前,国内针对醇脱氢酶的研究主要集中于大豆、玉米、水稻等农作物,对森林植物研究较少,对于蒙古栎醇脱氢酶的研究更未见报道。本研究运用电子克隆及生物信息学方法,开展蒙古栎醇脱氢酶基因研究,有助于探明蒙古栎的抗逆机理,进而改善蒙古栎在极端环境下的生长状况。

1 试验材料与方法

1. 1 试验材料

本次试验的探针材料为栓皮栎(Quercus suber)醇脱氢酶基因(来源:GenBank;序列号:KF704745),以及多款电子克隆及生物信息学在线分析软件,具体如下:

(1)Blastn(http://blast.ncbi.nlm.nih.gov/);

(2)CAP3(http://doua.prabi.fr/software/cap3);

(3)ORF finder(http://www.ncbi.nlm.nih.gov/gorf/orfig.cgi);

(4)ProtParam(http://web.expasy.org/protparam/);

(5)SignalP 4.1(http://www.cbs.dtu.dk/services/SignalP/);

(6)ProtScale(http://web.expasy.org/protscale/);

(7)TMpred(http://www.ch.embnet.org/software/TMPRED_form.html);

(8)Psort(http://www.genscript.com/psort.html);

(9)SOPM(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html);

(10)NetPhos(http://www.cbs.dtu.dk/services/NetPhos/)

1. 2 试验方法

电子克隆(In silico cloning)是利用计算机技术,依托EST数据库、基因数据库等网络资源,采用生物信息学方法延伸已知EST序列,以期获得部分或全部cDNA的方法 [ 5 - 7 ]本试验主要围绕电子克隆和生物信息学分析技术开展。

1. 2. 1 基因序列获取

在GenBank中选取序列号为KF704745的栓皮栎醇脱氢酶基因,作为本次试验的基因探针。使用Blastn在蒙古栎EST数据库中进行同源检索,得到与探针序列同源性较高的蒙古栎EST序列。使用在线工具CAP3[ 8 ]进行拼接,以拼接好的重叠群Contig为探针,再次进行Blastn检索,直至不出现新EST序列且Contig不延續时,获取到蒙古栎醇脱氢酶的基因序列。

1. 2. 2 基因结构和蛋白特征分析

对基因序列结构和蛋白特征进行分析,具体步骤如下:(1)采用ORF finder对蒙古栎醇脱氢酶预测基因进行开放阅读框分析;(2)采用ProtParam分析蒙古栎醇脱氢酶一级结构;(3)采用SignalP 4.1对蒙古栎醇脱氢酶的信号肽进行预测;(4)采用ProtScale分析蒙古栎醇脱氢酶的亲/疏水性;(5)采用TMpred分析蒙古栎醇脱氢酶的跨膜结构;(6)采用Psort对蒙古栎醇脱氢酶在细胞中可能存在的位置进行定位;(7)采用SOPMA预测蒙古栎醇脱氢酶的二级结构;(8)采用NetPhos对预测的蒙古栎醇脱氢酶的磷酸化位点进行分析。

2 结果与分析

2. 1 蒙古栎醇脱氢酶基因序列预测

经过同源检索、序列拼接等电子克隆过程,获取到全长为594 bp的蒙古栎醇脱氢酶基因序列(图1)。开放阅读框是DNA序列中具有编码蛋白质潜能的碱基序列,采用ORF Finder对该基因进行分析,发现其开放阅读框长度为516 bp,据此编码171个氨基酸。

2. 2 蛋白质一级结构预测

蛋白质是结构复杂的有机大分子物质,蛋白质一级结构是氨基酸残基在蛋白质肽链中的排列顺序,对其进行分析可以探明蛋白质的理化性质。基于蛋白质数据库和在线软件ProtParam[ 9 ],对蒙古栎醇脱氢酶基因编码的蛋白质一级结构进行预测,结果表明:氨基酸171个,等电点6.15,相对分子质量18 852.47,正电荷残基(Arg+Lys)17,负电荷残基(Asp+Glu)20,分子式为C821H1289N235O249S13,不稳定系数34.24,平均疏水性-0.27,脂肪系数71.75。一般而言,当蛋白不稳定系数(II)< 40时,可能是稳定蛋白。由此可见,蒙古栎醇脱氢酶基因编码的蛋白质可能是稳定蛋白。

2. 3 信号肽预测及亲/疏水性分析

采用SignaIP4.1Server[ 10 ]在线软件,对蒙古栎醇脱氢酶基因所编码蛋白质信号肽进行预测的结果(图2)表明,蒙古栎醇脱氢酶不存在信号肽,为非分泌蛋白,不参与蛋白质在细胞内转运。采用ProScale[ 11 ]对蒙古栎醇脱氢酶编码的氨基酸进行亲/疏水性分析,从分析结果(图3)可以看出,最小值为-2.211,最大值为1.767。按照氨基酸位点判定规律,正值越大,蛋白质疏水性越强;负值越大,蛋白质亲水性越强;介于-0.5~0.5之间的主要为两性氨基酸。据此推测,蒙古栎醇脱氢酶编码的蛋白质为亲水性蛋白,此结果与一级结构预测结果一致。

2. 4 跨膜结构预测及亚细胞定位

膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难明确其结构。因此,如何对膜蛋白的跨膜螺旋进行预测是生物信息学的重要问题。采用在线跨膜蛋白结构预测软件Tmpred[ 12 ],对该蛋白质的跨膜结构域进行预测。一般认为,当纵坐标分值大于500时,会存在跨膜结构域。由预测结果(图4)可以看出,蒙古栎醇脱氢酶不存在跨膜结构。亚细胞定位与蛋白质功能存在着非常紧密的联系,由于各细胞器中理化性质存在差异,因此其对内部所容纳的蛋白也具有选择性。采用Psort[ 13 ]在线软件,基于蛋白质数据库,对蒙古栎醇脱氢酶进行亚细胞定位,结果显示:细胞质占43.5%,线粒体占30.4%,细胞核占21.7%,囊泡分泌系统占4.3%,这表明蒙古栎醇脱氢酶主要分布于细胞质、线粒体和细胞核中,少量分布于囊泡分泌系统。

2. 5 蛋白质二级结构预测

采用SOPMA[ 14 ]对蒙古栎醇脱氢酶进行蛋白质二级结构预测,由预测结果(图5)可以看出,该蛋白质的二级结构主要由四种折叠方式构成,无规则卷曲结构占比52.05%,延伸链占比28.07%,α螺旋占比14%,β转角占比5.85%。据此推测,无卷曲结构、延伸链、α螺旋三种结构是蒙古栎醇脱氢酶二级结构的主体。

2. 6 蛋白质磷酸化位点分析

蛋白质磷酸化是蛋白质翻译后修饰的重要方式之一,蛋白质发生磷酸化后会改变蛋白质活力或形成蛋白复合体,从而促进信号在细胞内的传递。采用NetPhos3.1Server[ 15 ]进行蛋白磷酸化位点分析(阈值为0.5)的结果(图6)表明,该蛋白有4个丝氨酸(Ser)、10个苏氨酸(Thr)、1个酪氨酸(Tyr)可能成为蛋白激酶磷酸化位点。

3 结 论

本研究运用电子克隆技术对蒙古栎醇脱氢酶基因序列进行预测,采用生物信息学软件分析其基因结构和蛋白特征,得到以下结论:(1)蒙古栎醇脱氢酶基因序列全长为594 bp, 开放阅读框长度为516 bp,编码171个氨基酸。(2)蒙古栎醇脱氢酶基因不稳定系数为34.24,可能是稳定蛋白。(3)蛋白为亲水性的非分泌蛋白,且不存在跨膜区。(4)蛋白二级结构主要由无卷曲结构、延伸链、α螺旋构成,在细胞质、线粒体和细胞核中分布的可能性较大。(5)有4个丝氨酸(Ser)、10个苏氨酸(Thr)、

1个酪氨酸(Tyr),可能成为蛋白激酶磷酸化位点。通过本次试验,基本探明了蒙古栎醇脱氢酶基因结构和性状,这有助于提高蒙古栎在极端生境中尤其是水淹环境中的抗逆性,并为下一步开展基因克隆、表达、结构、分布及生理功能等方面的研究提供有益参考。

参考文献

[1] 殷晓洁,  周广胜,  隋兴华,  等.  蒙古栎地理分布的主导气候因子及其阈值[J].  生态学报,  2013,  33(1):  103 - 109.

[2] 张桂芹,  刘德江,  姚盛智,  等.   蒙古栎林经营技术综述[J]. 林业勘查设计,  2017(3):  92 - 94.

[3] 李文英,  顾万春.  蒙古栎天然群体表型多样性研究[J].  林业科学,  2005,  41(1):  49 - 56.

[4] 刘威,  陈昊,  靳亚忠,  等.  高等植物醇脱氢酶及其基因家族研究进展[J].  植物生理学报,  2014(10):  1 479-1 493.

[5] 胡皝,  萧浪涛.  生物信息学在新基因全长 cDNA 电子克隆中的应用[J].  生物技術通報,  2007,  2007(4):  93 - 96.

[6] Gill R W, Sanseau P. Rapid in silico cloning of genes using expressed sequence tags (ESTs)[J]. Biotechnology annual review, 2000, 5: 25 - 44.

[7] 王冬冬,  朱延明,  李勇,  等.  電子克隆技术及其在植物基因工程中的应用[J].  东北农业大学学报,  2006,  37(3):  403 - 408.

[8] PHuang X, Madan A. CAP3: A DNA sequence assembly program[J]. Genome research, 1999, 9(9): 868 - 877.

[9] Gasteiger E, Hoogland C, Gattiker A, et al. Protein identification and analysis tools on the ExPASy server[M]. Humana Press, 2005.

[10] Petersen T N, Brunak S, von Heijne G, et al. SignalP 4.0:discriminating signal peptides from transmembrane regions[J]. Nature methods, 2011, 8(10): 785 - 786.

[11] Kyte J, Doolittle R F. A simple method for displaying the   hydropathic character of a protein[J]. Journal of molecular biology, 1982, 157(1): 105 - 132.

[12] Hofmann K, Stoffel W. TMbase-A database of membrane spanning protein segments[J]. 1993.

[13] PSORT I I. PSORT: a program for detecting sorting signals in  proteins and predicting their subcellular localization[J]. J. Mol. Biol, 1997, 266: 594 - 600.

[14] Geourjon C, Deleage G. SOPMA: significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments[J]. Computer applications in the biosciences: CABIOS, 1995, 11(6): 681 - 684.

[15] Blom N, Gammeltoft S, Brunak S. Sequence and structure-based prediction of eukaryotic protein phosphorylation sites[J]. Journal of molecular biology, 1999, 294(5): 1 351 - 1 362.

In Silico Cloning and Bioinformatics Analysis of Alcohol

Dehydrogenase Gene from Quercus mongolica

REN Weichao

(Yichun Academy of Forestry,  Heilongjiang Yichun 153000)

Abstract In Quercus suber alcohol dehydrogenase sequence as the probe sequenc,using in silico cloning technology to prediction alcohol dehydrogenase gene of Quercus mongolica and Protein analysis. The results showed that the full length of alcohol dehydrogenase gene obtained 594 bp and contained a 516 bp ORF with 171 amino acid. The protein was predicted a hydrophilic non-secretory protein and no transmembrane region. Random coil, Extended strand and Alpha helix were the main secondary structure. There were 4 serine, 10 threonine and 1 tyrosine kinase phosphorylation site.

Key words Quercus mongolica;  Alcohol dehydrogenase;  In silico cloning;  Bioinformatics

猜你喜欢

生物信息学
中药蛋白质组学研究策略
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
中医大数据下生物信息学的发展及教育模式浅析
生物信息学课堂危机及对策研究
案例教学法在《生物信息学》本科教学中的应用
论生物信息学研究进展及在蛋白质组学研究中的应用
农学类专业《生物信息学》课程教学改革探讨
微生物二元网络作用关系研究