紫苏密码子偏好性分析及fad3基因的异源表达预测
2017-11-20张天缘
张天缘,沈 奇,宋 莉*
(1.贵州大学 生命科学学院/农业生物工程研究院,贵州 贵阳 550025;2.贵州省油菜研究所,贵州 贵阳 550008)
*通讯作者:宋 莉(1971-),女,博士,副教授,主要研究方向:植物基因工程研究;Email:lpsssl@126.com。
紫苏密码子偏好性分析及fad3基因的异源表达预测
张天缘1,沈 奇2,宋 莉1*
(1.贵州大学 生命科学学院/农业生物工程研究院,贵州 贵阳 550025;2.贵州省油菜研究所,贵州 贵阳 550008)
紫苏α-亚麻酸(ALA)含量极高,其合成相关基因偏好性及异源表达宿主的阐明,是揭示紫苏不饱和脂肪酸调控机制及表达生产的重要前提。本研究从密码子特性、有效密码子数、相对使用度、最优密码子、碱基相关性、奇偶偏好性及异源表达特性等方面,对不同形成时期的紫苏种子转录组序列进行密码子偏好性分析,并对筛选出的pfFAD3s基因进行三种微生物异源表达预测分析比较。结果表明:紫苏转录核酸序列中的GC含量为45.85%,大部分基因密码子偏好性相对较弱,其蛋白编码基因密码子偏好以A/T结尾;pfFAD3s基因异源表达的适宜微生物宿主为酿酒酵母。分析结果为进一步研究紫苏ALA合成的分子调控奠定了基础,并为其微生物基因工程生产提供了一定依据。
紫苏;密码子偏好性;异源表达
不同生物的蛋白质编码基因对简并密码子使用频率不相同,构成了物种特异的密码子偏好性[1]。密码子偏好性除了受自然选择[2]和压力突变[3]影响之外,还受mRNA二级结构、基因长度、G+C含量、蛋白结构[4-7]等因素影响。密码子偏好性是影响基因异源表达的重要因素。在合成生物学及基因工程研究中,对密码子偏好性的优化可以大幅提高基因表达水平,增加目标物质的调控及产量[8-11]。伴随着测序技术的迅猛发展,草菇、拟南芥、川母贝、菠萝[12-15]等多个物种的密码子偏好性得到了很好研究。
紫苏PerillafrutescensL.,是我国卫生部首批公布的60种药用型植物之一[16]。《中国药典》2015年版本收录其三个药用部位,分别为紫苏叶、紫苏梗、紫苏子[17]。紫苏种子中α-亚麻酸含量可达65%,是陆生植物α-亚麻酸含量最高的物种之一,经济价值较高。目前,紫苏α-亚麻酸的合成及调控途径研究已受到广泛关注,利用该合成途径重要基因进行异源表达生产是紫苏利用的一个主要方向。研究表明,通过密码子优化后的oAiFADS17表达量大幅提高[11],FAD7基因在双子叶植物异源表达也能获得理想的效果[18]。本研究通过对紫苏种子转录组数据密码子进行分析研究,为进一步开发利用紫苏和异源表达其基因产物奠定基础。
1 材料与方法
1.1材料
实验材料为贵州省油菜研究所自育新品种“M40”开花至种子完熟后2、6、10、14、18、22、26 d的紫苏种子。紫苏种子转录组数据为课题组测序获得。使用天根试剂盒提取总RNA,进行Illumina测序。获得数据使用Trinity软件组装形成unigene库,并过滤除去长度低于300 bp的序列用于本研究的数据来源。大肠杆菌(Escherichiacoli)、酿酒酵母(Saccharomycescerevisiae)、毕赤酵母(Pichiapastoris)密码子偏好性数据来源于Codon Usage Database数据库中。
1.2分析方法
1.2.1紫苏种子蛋白质编码基因密码子特性分析 使用Codon W1.4.2软件(http://codonw. sourceforge. net/)对紫苏种子蛋白质编码基因密码子特性的计算和统计分析,得到鸟嘌呤和胞嘧啶总量(G+C)、密码子第3位碱基成分(A3、G3、C3、T3)、密码子第3位的C+G含量(GC3)。密码子第1、2位的G+C含量(GC12)等数据。
1.2.2紫苏种子表达基因有效密码子数分析 参照Fuglsang[19]的方法,使用有效密码子数(effective number of codons,ENC)来评估单个密码子使用频率的偏好程度。数据区间为20~61。数值越接近20,密码子使用偏好性越强。
1.2.3同义密码子相对使用度分析 参照Sharp[20]的方法,应用同义密码子相对使用度(relative synonymous codon usage,RSCU)的数据来衡量密码子使用偏好性。如果RSCU=1则说明密码子使用无偏好性;如果RSCU>1则表明该密码子使用频率较高;反之RSCU<1。
1.2.4最优密码子分析 采用高表达优越密码子分析方法[21]进行最优密码子分析,统计所有基因的ENC值,有序数据集的上下10%区间形成高RSCU集合和低RSCU集合。根据两个子集的△RSCU值及卡方检验确定最优密码子。
1.2.5中性绘图分析 采用中性绘图用来研究影响密码子偏好性的因素,以密码子第一、二个碱基的G+C平均含量为纵坐标,以密码子第三个碱基的G+C含量为横坐标绘图,分析密码子第一、二位与第三位碱基组成的相关性[22]。
1.2.6PR2分析 采用PR2(parity rule 2,PR2)进行奇偶偏好分析[22],计算每个基因A3/(A3+T3)和G3/(G3+C3),分别作纵坐标和横坐标,以平面图显示各基因碱基组成。为了避免由第三位碱基对A/T或T/A和G/C或C/G的突变不均衡,分析时仅选择以下氨基酸密码子:丝氨酸(TCA、TCC、TCG、TCT)、亮氨酸(CTA、CTC、CTG、CTT)、脯氨酸、精氨酸(CGA、CGC、CGG、CGT)、苏氨酸、缬氨酸、丙氨酸和甘氨酸。
1.2.7关键基因异源表达分析 统计大肠杆菌、毕赤酵母、酿酒酵母密码子偏好性,并与紫苏的密码子使用情况进行比较。通过注释和近源比对得到α亚麻酸合成相关的关键基因,分析关键基因所含有的密码子与异源宿主的稀有碱基的异同,预测异源表达最适宿主。
2 结果与分析
2.1蛋白质编码基因密码子特性分析
经过滤获得紫苏种子转录组数据共包括13825条完整开放阅读框序列。使用Codon W对完整开放阅读框序列进行密码子使用模式分析。结果显示,所有完整开放阅读框序列总长度为16 417 617 bp,N50=1 503 bp,平均GC含量为45.85%,GC含量在30.4~68.3%之间。紫苏GC含量平均值比大肠杆菌基因组GC含量平均值52.35%要低,但高于毕赤酵母平均GC含量42.73%及酿酒酵母平均GC含量39.77%要稍稍略高。第一二位碱基的GC含量变幅在30.9~83.3%之间,其平均GC含量为47.62%。第三位碱基的GC含量变幅在15.3~91.3%之间,平均GC含量是44.00%。第三位碱基A和T的使用频率(30.70和38.39%)略高于C和G使用频率(26.29和39.09%),表明紫苏种子发育过程对A和T结尾的密码子使用的偏好程度大于G和C密码子。第三位碱基平均GC含量略高于毕赤酵母密码子第三位碱基平均含量42.16%,比酿酒酵母密码子第三位碱基平均GC含量38.10%略高,但比大肠杆菌密码子第三位碱基平均GC含量55.62%要低很多,研究表明紫苏种子密码子使用并无对碱基使用的特殊偏好,其密码子使用特点与大肠杆菌的差别最大,与酿酒酵母和毕赤酵母的差别略小。
表1 不同物种密码子平均GC含量Tab.1 Average GC content of different species Codon
2.2紫苏种子表达基因有效密码子数分析
紫苏种子有效密码子数ENC分布范围是26.22~61,平均值ENC为53.39。通常将ENC为35作为区分密码子偏好性强弱的标准[23]。紫苏种子基因有23条基因的ENC小于35,表明紫苏种子表达基因整体水平密码子偏好性较低,只有少数基因有密码子偏好性。显示只有少数密码子偏好性受到选择影响的基因应该落在标准曲线下方较远的位置(图1)。相关性分析表明(表2),GC和GC3及GC12均达到极显著水平,但是GC3和GC12存在很弱的相关性,密码子成分明显不同。ENC值与密码子数也没有达到显著水平,表明密码子数对ENC影响很弱,排除了基因长度过短对密码子偏好性的影响。
2.3同义密码子相对使用度分析
紫苏种子编码基因密码子RSCU值大于1的有25个,表明紫苏偏好使用这些密码子(表3)。除了只由一种密码子编码的Trp和Met外,编码Cys的UGU和UGC以及编码Leu的CUG也都均无偏好性。RSCU>1的密码子主要是以U和A结尾,说明这两个密码子是编码基因最偏爱的密码子,GC使用频率较低。
图1 ENC绘图分析Fig.1 Analysis of ENC and GC3 relationship
注:“**”在0.01水平上显著相关。
2.4最优密码子分析
最优密码子统计分析表明,有31个密码子是紫苏种子发育时期所需的最优密码子,它们分别是UUU,UUA,UUG,CUU,CUA,AUU,AUA,GUU,GUA,UAU,CAU,CAA,AAU,AAA,GAU,GAA,UCU,UCA,CCU,CCA,ACU,ACA,GCU,GCA,UGU,CGU,CGA,AGU,AGA,GGU,GGA(表4),分别编码Phe,Leu,Ile,Val,Tyr,His,Gln,Asn,Lys,Asp,Glu,Ser,Pro,Thr,Ala,Cys,Arg和Gly 18个氨基酸。其中Leu、Ser、Arg包含3个最优密码子。除了UUG外,所有的最优密码子都是A或T结尾,说明紫苏偏爱使用A/T结尾的密码子。
表3 同义密码子使用度Tab.3 RSCU analysis
注:“*”表示RSCU大于1。
表4 最优密码子分析Tab.4 Uasge bais analysis
注:“*”代表最优密码子。
2.5中性绘图分析
权衡选择对密码子使用模式的影响运用中性绘图分析(neutrality plot)。结果表明(图2A),GC12的取值范围是0.309~0.833,GC3的取值范围是0.153~0.913,两者相关系数为0.233,回归系数为0.43。紫苏种子中GC3及GC12的相关性较低,说明紫苏的密码子的使用易受突变的影响。
2.6PR2分析
注:A. 中性绘图,B.PR2绘图
图2 紫苏密码子使用模式图
Fig.2 Codon usage pattern plot of Perilla
通过PR2(图2B)分析了基因部分氨基酸的嘌呤含量和嘧啶的关系,图中结果表明紫苏中碱基T使用频率大于碱基A;碱基G使用频率大于碱基C。正常情况下突变应该均衡,但紫苏种子发育并不均衡,说明紫苏种子密码子使用模式不只受到突变的影响,还可能受到其他因素影响。
2.7关键基因异源表达预测
根据紫苏转录组注释信息及与近源比对,预测其pfFAD3s基因在不同宿主表达情况。首先比较了紫苏和毕赤酵母、酿酒酵母、大肠杆菌的密码子偏好性情况。统计分析表明,毕赤酵母5个最稀有的密码子是CGG,CGC,GCG,CCG,CGA,不存在紫苏偏好的密码子。酿酒酵母中5个最稀有的密码子分别为:CGG,CGC,CGA,UGC,CCG,也不存在紫苏偏好的密码子。大肠杆菌中5个最稀有的密码子分别为: AGA,AGG,AUA,CGA,CGG,有2个是紫苏使用的密码子(AGG和AGA)。如果表达基因中含有较多的AGG和AGA密码子,很可能难以在大肠杆菌中表达。综上分析表明,紫苏密码子偏好性与大肠杆菌的差异巨大。进一步统计这3条基因中存在三种宿主稀有密码子的比例,结果表明毕赤酵母稀有密码子在这三条基因中所占的比例是3.42~11.74%,酿酒酵母稀有密码子所占的比例为3.65~9.69%,大肠杆菌稀有密码子所占的比例最宽,范围在3.19~21.17%之间,可见酿酒酵母和毕赤酵母稀有碱基所占比例比大肠杆菌稀有碱基所占比例整体水平偏低。DN26137基因和DN23844基因含有酿酒酵母稀有碱基的比例最少(表5),推测酿酒酵母更利于这两条基因表达;而DN35418基因含量大肠杆菌和毕赤酵母稀有密码子的数目少于酿酒酵母,但差别不大,推测这三种宿主均适合该基因异源表达。对基因进行异源表达时,如果基因存在宿主的稀有密码子的比例很高,我们可以根据宿主偏好的密码子来对基因进行优化,多使用优势密码子,以提高表达水平。
3 结论与讨论
编码基因密码子存在冗余性,自然界中61组编码碱基只能编码20种氨基酸,每种氨基酸利用1~6个同义密码子编码。异源基因表达活性与密码子偏好性具有密切关系,通过密码子改造后进行酵母表达生产青蒿酸可实现青蒿素的工业化生产[24],并大幅度提高目标产物产量。张琦等[25]对FAD4的ATG上游+4位基因进行改造,将A变成G进行酿酒酵母转化研究,获得FAD4高效表达。目前,研究密码子偏好性,并根据最优密码子设计构建基因异源表达已成为合成生物学及基因工程研究中的重要内容。
表5 紫苏pfFAD3s基因中不同宿主的稀有密码子数Tab.5 Number of rare different hosts codon in perilla pfFAD3s
中草药中广泛含有重要次生代谢产物,其调控基因的异源表达及密码子偏好性分析具有重要意义。本研究对紫苏种子密码子偏好性进行全面分析,发现紫苏主要偏好A或T结尾的密码子,而G和C使用频率略低,符合双子叶植物密码子偏好的特点[26]。紫苏密码子偏好的确定对于未来在转基因工程中对载体和宿主的选择有重要的指导意义,针对紫苏偏好的密码子进行优化,从而提高翻译效率和表达能力,也为异源表达选择合适的宿主提供参考。紫苏密码子使用特点与大肠杆菌的差异较大,与毕赤酵母和酿酒酵母的差异略小。参与其α-亚麻酸合成途径的fad3分析表明,酿酒酵母可能是适合紫苏a-亚麻酸基因异源表达的理想宿主。随着大量编码油脂代谢通路的关键基因已被克隆,改造这些基因来提高受体细胞的油脂已经成为一个油脂生产的主要研究方向,本研究从生物信息学角度初步探明了紫苏密码子偏好性和异源表达宿主,这对紫苏基因工程开展具有重要的意义。
[1] Ikemura T.Correlation between the abundance of Escherichia coli transfer RNAs and the occurrence of the respective codons in its protein genes: a proposal for a synonymous codon choice that is optimal for the E. coli translational system[J].JournalofMolecularBiology,1981, 146(1):1-21.
[2] Trotta E.Selection on codon bias in yeast: a transcriptional hypothesis[J].NucleicAcidsResearch,2013,41(20):9382-95.
[3] Bulmer M.The selection-mutation-drift theory of synonymous codon usage[J].Genetics, 1991, 129(3):897.
[4] Zama M. Codon usage and secondary structure of mRNA[J].NucleicAcidsSymposium, 1990(22):93-94.
[5] Duret L, Mouchiroud D.Expression pattern and, surprisingly, gene length shape codon usage in Caenorhabditis, Drosophila, and Arabidopsis[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,1999,96(8):4482-4487.
[6] Knight R D, Freeland S J,Landweber L F.A simple model based on mutation and selection explains trends in codon and amino-acid usage and GC composition within and across genomes[J].GenomeBiology,2001,2(4):1-13.
[7] Gupta S,Majumdar S T,Ghosh T.Studies on the relationships between the synonymous codon usage and protein secondary structural units[J].Biochemical&BiophysicalResearchCommunications,2000,269(3):692-696.
[8] Feng L,Chan W W,Roderick S L,etal.High-level expression and mutagenesis of recombinant human phosphatidylcholine transfer protein using a synthetic gene: evidence for a C-terminal membrane binding domain[J].Biochemistry,2000,39(50):15399-15409.
[9] Kotula L, Curtis P J.Evaluation of Foreign Gene Codon Optimization in Yeast: Expression of a Mouse IG Kappa Chain[J].Biotechnology(NY),1991,9(12):1386-1389.
[10] Gao F,Li Y,Decker J M,etal.Codon usage optimization of HIV type 1 subtype C gag, pol, env, and nef genes: in vitro expression and immune responses in DNA-vaccinated mice.[J].AidsResearch&HumanRetroviruses,2003,19(9):817-823.
[11] 梅甜甜,陈海琴,郝光飞,等.一种新ω-3脂肪酸脱饱和酶的克隆表达和活性鉴定[J].食品与发酵工业,2016,42(8):31-37.
[12] 蒋 玮,吕贝贝,何建华,等.草菇密码子偏好性分析[J].生物工程学报,2014,30(9):1424-1435.
[13] 范三红,郭蔼光,单丽伟,等.拟南芥基因密码子偏爱性分析[J].生物化学与生物物理进展,2003,30(2):221-225.
[14] 李 滢,匡雪君,孙 超,等.川贝母转录组密码子使用偏好性分析[J].中国中药杂志,2016,41(11):2055-2060.
[15] 陈 哲,胡福初,王祥和,等.菠萝转录组基因密码子使用偏好性分析[C].中国热带作物学会2016年学术年会论文集,2016.
[16] 沈 奇,秦信蓉,王仙萍,等.种植密度对紫苏经济产量及农艺学性状的影响[J].农业科学与技术:英文版,2014(9):1516-1520.
[17] 中国药典.一部[S].北京:中国医药科技出版社,2015.
[18] 王海波,郭俊云,姚晴晴,等.植物质体型ω-3脂肪酸去饱和酶7基因的密码子偏性分析[J].基因组学与应用生物学,2015,34(11):186-189
[19] Fuglsang A.The effective number of codons for individual amino acids: some codons are more optimal than others[J].Gene,2003,320(3):185-190.
[20] Sharp P M,Li W H.The rate of synonymous substitution in enterobacterial genes is inversely related to codon usage bias[J].MolecularBiology&Evolution,1987,4(3):222-230.
[21] Stenico M,Lloyd A T,Sharp P M.Codon usage in Caenorhabditis elegans:delineation of translational selection and mutational biases[J].NucleicAcidsResearch,1994,22(13):2437.
[22] Zhang WJ,Zhou J,Li Z F,etal. Comparative analysis of codon usage patterns among mitochondrion, chloroplast and nuclear genes in Triticum aestivum L[J].JournalofIntegrativePlantBiology,2007,49(2):246-254.
[23] Wright F.The effective number of codons' used in a gene[J].Gene,1990,87(1):23-29.
[24] Paddon C J,Westfall P J,Pitera D J,etal.High-level semi-synthetic production of the potent antimalarial artemisinin[J].Nature,2013,496(7446):528-32.
[25] 张 琦,李明春,孙 颖,等.转译起始密码子周边序列的改变对Δ6-脂肪酸脱氢酶基因表达的影响[J].微生物学报,2004,44(4):536-539.
[26] 刘汉梅,何 瑞,张怀渝,等.玉米同义密码子偏爱性分析[J].农业技术生物学报,2010,18(3):456-461.
AnalysisofCodonBiasandpfFAD3sHeterologousExpressioninPerillafrutescens(L.)TranscriptionalGeneSequence
ZHANGTian-yuan1,SHENQi2,SONGLi1*
(1.CollegeofLifeSciences/InstituteofAgro-Bioengineering,GuizhouUniversity,Guiyang,Guizhou550025,China;2.GuizhouRapeseedInstitute,Guiyang,Guizhou550008,China)
Perilla is one of the best oil crops with high level of α-linolenic acid (ALA). It is important to reveal the regulatory mechanisms of ALA biosynthesis for its industrial production, based on the codon usage bias and appropriate heterologous host of perilla genes. In this study, codon characteristics, codon numbers, relative synonymous codon usage, optimal codon, base correlation, parity rule and microbial heterologous expression ofpfFAD3swere respectively analysed for gene using, according to the RNA sequence from seven development period of perilla seeds. Results showed that GC content was 45.85% in transcribed perilla sequences. Most gene codon bias were not obvious and tend to end with A/T base.Saccharomycescerevisiaemay be a more suitable host forpfFAD3sexpression. This research provides a foundation for the synthesis regulation mechanism of perilla ALA and its large-scale production by microbial gene engineering.
perilla;coden usage;heterologous protein expression
2017-03-27;
2017-05-16
国家自然科学基金项目(31360067);贵州省科技厅农业攻关项目(黔科合NY字[2016]3052号);贵州省科学技术基金项目(黔科合J字[2014]2020号)。
Q755
A
1008-0457(2017)05-0014-08国际DOI编码10.15958/j.cnki.sdnyswxb.2017.05.003