APP下载

橄榄转录组密码子使用偏好性及其影响因素

2019-01-09赖瑞联钟春水陈义挺吴如健

核农学报 2019年1期
关键词:密码子橄榄样本

赖瑞联 冯 新 陈 瑾 钟春水 陈义挺 吴如健

(福建省农业科学院果树研究所,福建福州 350013)

密码子是生物体遗传和变异的基本单元,生物体中,一种氨基酸一般对应多个密码子,称为同义密码子,而生物体基因编码氨基酸对同义密码子的选择并非完全随机,存在密码子使用偏好性(codon usage bias,CUB)[1]。 物种之间[2-3]、器官之间[4]、细胞核基因和细胞器基因之间[5]、基因家族成员之间[6]均存在不同的密码子使用偏好模式,但一般认为近缘物种密码子使用偏好性相对一致。大量研究表明,生物体对同义密码子的选择不改变其蛋白质种类,但会影响蛋白质的翻译效率,且在长期进化过程中,突变的最优密码子往往更倾向存在于高表达的基因和具有丰富多态性的位点中,从而保持密码子选择的有效性[7-9]。

密码子使用偏好性是突变压力和自然选择2种作用力相互平衡的结果,但作用力的主成分却往往不一致[10-11],如柑橘[12]、白花蝇子草[13]和云杉[14]等主要是自然选择的结果,咖啡[15]主要受突变压力,而玉米[16]、菊花[17]和二穗短柄草[18]被认为是2种因素共同作用的结果。研究表明,密码子使用偏好性的形成还与基因长度、基因功能、基因表达水平[19]、内含子数量[20]、蛋白亲水性[19]、mRNA 二级结构[21]、tRNA 丰度[22]等有关。此外,在基因异源表达和遗传转化过程中,目标基因与宿主基因组之间的密码子使用偏好性差异也会导致基因甲基化或表达沉默,根据宿主基因组密码子使用偏好性优化和改造目标序列密码子,对异源转化试验的顺利开展也具有重要意义[23]。

橄榄[Canarium album(Lour.)R.]为橄榄科橄榄属常绿乔木果树,其果实富含大量酚类化合物、黄酮类化合物、多糖、氨基酸等营养成分,是一种深受消费者青睐的药食两用作物[24]。橄榄也是我国热带和亚热带地区特色名贵果树,然而其耐寒性差,在福建闽侯、闽清、尤溪、上杭等橄榄主产区均发生过大规模冻害,导致产量锐减甚至绝收,低温冻害已成为橄榄产业稳定发展的重要制约因素[25]。此外,橄榄遗传背景和分子进化研究起步较晚,目前国内外对橄榄密码子偏好性相关报道也并不常见[26]。开展橄榄密码子尤其是低温胁迫下转录组密码子偏好性分析,对进一步揭示橄榄遗传背景及其抗寒机制具有重要作用。

本研究以低温胁迫处理后通过Illumina HiSeq平台测序获得的福榄1号橄榄转录组数据为基础,利用codonW、EMBOSS等软件对橄榄转录组密码子使用偏好特征及其可能的影响因素进行分析,以期为橄榄遗传背景和分子进化研究提供一定的科学依据。

1 材料与方法

1.1 材料及处理

2017年3月,福建省农业科学院果树研究所橄榄课题组对选育的橄榄鲜食优良品种福榄1号进行低温胁迫处理,并基于Illumina HiSeq平台进行转录组测序和数据分析。随后,参照张太奎等[27]的方法编写perl脚本程序,从转录组中筛选并提取满足以下条件的编码序列用于后续分析:包含起始密码子ATG并以终止密码子TAA、TAG或TGA结尾的完整CDS序列;不含有内含子,编码区长度大于300 bp的蛋白质编码区序列。此外,拟南芥 (Arabidopsisthaliana)、烟草(Nicotiana tabacum)、大肠杆菌(Escherichia coli)和酵母菌(Saccharomyces cerevisiae)的密码子使用偏好性数据来源于Codon Usage Database在线数据库(http://www.kazusa.or.jp/codon/),其中用于数据分析的4个物种基因样本数分别为 80 395、1 534、5 347和1 611 503,所涉及的密码子个数分别为31 098 475、609 684、1 611 503 和 6 534 504。

1.2 方法

1.2.1 密码子使用偏好性参数分析 采用codonW软件分析橄榄转录组密码子使用偏好性参数,包括有效密码子数(effective number of codon,ENc)、密码子适应指数(codon adaptation index,CAI)、同义密码子相对使用度(relative synonymous codon usage,RSCU)、密码子G和C(GC)平均含量、密码子第3位上G和C(GC3s)含量、密码子第1、第2位上G和C(GC12)的平均含量及密码子第3位上 A、G、C和T(A3、G3、C3和T3)含量。采用EMBOSS在线程序的CUSP模块分析密码子使用频率(frequency of optional codons,FOP)(http://emboss.toulouse.inra.fr/cgi-bin/ emboss/cusp)。

1.2.2 中性绘图分析 中性绘图分析(neutrality plot)以GC12为纵坐标,GC3s为横坐标,通过分析编码区密码子GC12和GC3s的相关性衡量自然选择和突变压力对密码子使用偏好性的影响程度。如果GC12和GC3s存在相关性,则密码子不同位置上碱基的组成无差异,密码子使用偏好性主要受突变压力影响;如果二者不相关,说明密码子第1和第2位上碱基组成与第3位差异显著,密码子使用偏好性主要受自然选择作用。

1.2.3 ENc-GC3s关联分析 ENc-GC3s关联分析(ENc-GC3s plot)以ENc为纵坐标,GC3s为横坐标,绘制散点图和标准曲线,如果基因分布在标准曲线附近,其密码子使用偏好性主要受突变压力影响,若基因分布在标准曲线下方较远位置,则认为密码子使用偏好性主要受自然选择作用。其中,ENc比值频率作为重要参考标准,反映了ENc实际值与期望值之间的差异,通常认为ENc比值频率介于-0.05~0.05[28]时,密码子使用偏好性主要受突变压力影响。

1.2.4 偏倚分析 偏倚分析(PR2-plot)以A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标,分析编码区中嘌呤和嘧啶之间的相对关系。若基因样本主要分布在平面图的中心位置,说明4种碱基出现的概率相对一致,密码子使用偏好性主要受突变压力影响,若偏离中心位置较远说明该样本可能还存在其他作用因素。

1.2.5 最优密码子分析 参照Yang等[29]和吴彦庆等[30]的方法,对筛选的橄榄转录组基因样本按CAI值由高到低排序,分别提取前后各5%的序列作为高低表达基因样本并分析其RSCU值。将高表达转录本中RSCU值明显高于低表达转录本的密码子确定为橄榄转录组最优密码子群。

2 结果与分析

2.1 GC含量与中性绘图分析

橄榄低温胁迫转录组中筛选获得符合条件的CDS序列2 664条,包含492 676个密码子,将样本进行密码子偏好性分析。由图1-A可知,橄榄转录组密码子GC变化范围为0.325~0.588,平均为0.435,其中大部分基因介于0.4~0.5之间,占总数的93.56%,表明橄榄转录组密码子总体上偏好使用碱基A和T;由图1-B可知,橄榄转录组密码子GC3s变化范围为0.234~0.802,基因样本间差异较大,但大部分介于0.3~0.5之间,占总数的94.16%,平均值仅为0.377,说明橄榄转录组密码子末位碱基同样偏好使用A或T。

中性绘图分析结果如图2所示,基因样本集中在中性图回归线两侧(y=0.033x+0.451),GC12和GC3s呈正相关,相关性系数为0.033(R2=0.004),即密码子3个位置上的碱基组成无差异,表明橄榄转录组密码子使用偏好性主要受突变压力影响。

图1 橄榄转录组GC(A)和GC3s(B)的GC含量直方分布Fig.1 Distribution of GC content of GC(A)and GC3s(B)in Canarium album(Lour.)R.transcriptome

图2 橄榄转录组中性绘图Fig.2 Neutrality plot of Canarium album(Lour.)R.transcriptome

2.2 ENc与GC3s关联分析

ENc是衡量密码子使用偏好性的重要参考指标,其值介于20~61之间,越接近61则密码子使用偏好性越弱,当ENc值为61时表明该基因样本对密码子的使用完全随机,反之越接近20则密码子使用偏好性越强,35是基因密码子使用偏好性强弱的重要参考依据[31]。由图3可知,橄榄转录组密码子ENc值介于34.65~61.00之间,平均为51.80,且大部分基因ENc介于45.00~60.00之间,表明其偏好性普遍较弱。在这些基因样本中,ENc值小于35的基因仅有1个,为功能未知的蛋白;而ENc值达到61的基因样本数目为25,占总数的2.15%,主要涉及编码tRNA特异性腺苷脱氨酶、DNA聚合酶亚基、细胞色素、环指蛋白、糖基转移酶,以及一些功能未知的蛋白。

进一步对ENc和GC3s关联分析发现,橄榄转录组各基因样本均匀分布在标准曲线(y=-170.82x2+169.48x+ 12.965,R2=0.276)两侧(图4)。 ENc比值频率取值范围为-0.159~0.344,其中介于-0.1~0.1之间的基因样本数占总数86.08%,-0.05~0.05之间的基因样本数占总数59.54%,实际ENc值和理论ENc值差异相对较小(图5),说明橄榄转录组密码子使用偏好性主要受碱基组分影响,突变压力是其形成的主要作用方式。

图3 橄榄转录组ENc值直方分布Fig.3 Distribution of ENc value of Canarium album(Lour.)R.transcriptome

图4 橄榄转录组ENc-GC3s关联绘图Fig.4 ENc-GC3s plot of Canarium album(Lour.)R.transcriptome

2.3 偏倚分析

由图6可知,橄榄转录组基因样本平均分布位置为(0.438,0.555),说明总体上密码子腺嘌呤A的比例高于胸腺嘧啶T,鸟嘌呤G的比例低于胞嘧啶C。转录组中大部分基因样本位于平面中心点附近,嘌呤和嘧啶出现的概率相对一致,密码子使用偏好性可能主要受突变压力影响。此外,也存在部分基因样本偏离中心点较远,其密码子使用偏好性可能还受其他作用力影响。综上,橄榄转录组密码子使用偏好性是以突变压力为主,多种作用方式共同影响的结果。

图5 橄榄转录组ENc比值频率分布Fig.5 Frequency distribution of ENc ratio of Canarium album(Lour.)R.transcriptome

2.4 转录组最优密码子分析

以CAI作为衡量依据,对CAI指数由高到低前后各5%的序列作为橄榄高低表达基因样本进行RSCU分析,结果如表1所示。高低表达基因样本之间的RSCU值差异相对较小,这可能与橄榄转录密码子使用偏好性较弱有关。但CGC、ATC、CTC和ACC等在高表达样本组中的RSCU值仍明显高于低表达样本组,可作为橄榄转录组最优密码子群。这些最优密码子均以C结尾,表明橄榄转录组最优密码子偏好使用G或C结尾,而橄榄转录组密码子整体偏好使用A或T结尾,可能是造成其使用偏好性较弱的关键因素之一。

图6 橄榄转录组PR2-plot分析Fig.6 PR2-plot analysis of Canarium album(Lour.)R.transcriptome

表1 橄榄转录组高低表达基因样本的RSCU比较Table1 Comparison of RSCU in Canarium album(Lour.)R.transcriptome with high and low level of expression

2.5 密码子使用频率分析

物种间严格的密码子使用偏好性是影响异源转化效率的重要因素,通常以密码子使用频率作为参考标准[23]。由图7可知,橄榄与拟南芥和烟草这2种模式植物之间的整体密码子使用偏好性差异极小,除拟南芥GCG外(比值为0.499),其他密码子均无明显差异;而与大肠杆菌和酵母菌相比,存在使用偏好性差异的密码子个数分别为11和3。表明烟草和酵母菌可作为橄榄目标基因遗传转化功能验证或异源表达的理想受体系统。

3 讨论

在长期进化过程中,特定物种往往形成适应自身基因组环境的密码子使用模式[32]。本试验中,橄榄转录组密码子平均ENc为51.80,远高于35,与橄榄类黄酮异构酶基因CHI的ENc值(50.89)较为接近[26],表明橄榄转录组密码子使用偏好性较弱,同时橄榄中不同基因密码子在长期进化过程中可能保持较高的同步性。而在GC含量方面,橄榄转录组偏好使用富含A和T且以A或T结尾的密码子,符合大部分双子叶植物密码子组成规律[33]。此外,橄榄最优密码子群体数目较少,且高低表达基因样本间RSCU值差异不明显,已确定的最优密码子偏好以G或C结尾。由此推断,橄榄本身密码子使用偏好性弱且主要偏好使用以A或T结尾的密码子是造成其最优密码子缺乏的重要原因之一。

密码子使用偏好性是突变压力和自然选择共同作用的结果。橄榄密码子组分、中性绘图、ENc-GC3s关联和偏倚绘图等综合分析认为,橄榄转录组密码子使用偏好性是突变压力为主,多种作用方式共同影响的结果。结合橄榄转录组密码子组分、赖瑞联等[34]和Novembre[35]的观点推断,这种可能从GC向AT突变为主,即橄榄转录组密码子可能在突变压力作用下,由GC向AT突变从而形成了橄榄特定密码子使用偏好性,而偏好性强弱也与突变作用力大小有关。

密码子使用频率常被用于比较不同物种对特定密码子的选择和使用偏好,为目标基因进行模式生物异源转化提供参考[36]。本研究中,橄榄转录组与模式植物基因组间的密码子使用频率较为一致,预示在长期进化过程中其密码子使用偏好性并未发生特异性改变,这也是造成其密码子使用偏好性偏弱的可能因素之一。在后续研究中,可进一步与楝科、芸香科和苦木科等物种密码子进行比较,同时对密码子的具体区域分布进行精细分析,研究基因蛋白编码区与非编码区之间、内含子与外显子之间,以及可变剪接体之间密码子的使用偏好模式等。此外,通过结合现代高通量测序技术对橄榄品质、产量和抗性等相关转录本间密码子使用偏好模式进行分析,可为橄榄目标性状形成的遗传机理研究提供重要依据。

图7 橄榄转录组与模式生物基因组密码子使用频率比较Fig.7 Comparison of codon bias between Canarium album(Lour.)R.transcriptome and representative organism genomes

4 结论

本研究通过对橄榄转录组的密码子进行分析发现,橄榄转录组密码子使用偏好性较弱,但倾向使用富含A和T并以A或T结尾的密码子,而这种使用偏好模式是以突变压力为主,多种作用方式共同影响的结果。此外,烟草和酵母菌可作为橄榄目标基因异源转化的理想受体系统。本试验结果初步揭示了橄榄密码子使用规律,为进一步深入研究橄榄遗传背景和分子进化提供了一定的科学依据。

猜你喜欢

密码子橄榄样本
橄榄林中的乡村酒店
用样本估计总体复习点拨
密码子与反密码子的本质与拓展
推动医改的“直销样本”
10种藏药材ccmFN基因片段密码子偏好性分析
冬清肺火用橄榄
橄榄情
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
榨橄榄器