APP下载

梓叶槭基因组密码子偏好性分析

2023-12-09董万鹏马文宝

西北林学院学报 2023年6期
关键词:密码子碱基绘图

龙 婷,董万鹏,曹 萌,马文宝,于 涛

(1.贵州省植物园,贵州 贵阳 550001;2.中国消防救援学院,北京 102202;3.四川省林业科学研究院,四川 成都 610081;4.中节能生态产品发展研究中心,北京 100089)

梓叶槭(Aceramplumsubsp.catalpifolium)为我国特有植物,是无患子科槭属的落叶乔木,树干通直,树高可达28 m[1-2],狭域分布于华西雨屏地区海拔500~1 300 m范围内的亚热带常绿阔叶林中,种群处于濒危状态,被国家林业和草原局列为全国极小种群野生植物和国家二级保护植物[3]。华西雨屏地区属中亚热带季风气候,降水日多,日照时数短,常年日照相比同纬度地区少600多小时,为一个独特的气候地理单元,对我国生物多样性维持具有重要价值[4]。鉴于梓叶槭的濒危现状与其生境的特殊性,梓叶槭的分子遗传研究对区域生物多样性保护具有标志性的意义。

在生物体中存在多个编码mRNA的密码子对应同一种氨基酸,但编码同种氨基酸的不同密码子使用频度不同,存在密码子使用的偏好性[5-6]。密码子使用偏好性可以反映出物种间的遗传差异,且密码子偏好性越高其基因的表达性越高,故探究密码子偏好性对利用基因工程技术进行品种改良、促进特异基因的高效稳定表达与对基因演化具有十分重要的参考作用[7]。近年来,随着高通量测序技术的快速发展和测序价格的下降,公布的动植物基因组数量逐年增加,这些数据为系统地分析物种基因组密码子偏好性提供了良好基础。

自Yang等[8]完成了槭属第一个基因组漾濞槭(Aceryangbiense)基因组以来,槭属已陆续公布了6个基因组数据。其中,Yu等[9]在2021年完成了梓叶槭染色体级别基因组测序与组装工作,这为梓叶槭分子遗传学相关研究提供了重要的数据支撑[10]。此前,梓叶槭的研究主要集中于种子萌发特征、群落结构特征与生理特征等方面[1,3,11],尚无槭属基因组层级密码子偏好性的相关研究。本研究利用梓叶槭全基因组数据集,对其密码子偏好使用模式特征进行分析,探究可能造成梓叶槭基因组密码子使用偏好性的影响因素。作为槭属基因组层面第一项密码子偏好性研究,其结果为后续探讨梓叶槭分子演化提供依据,也为槭属基因工程改良等相关研究提供基础数据。

1 材料与方法

1.1 基因序列信息

梓叶槭基因组编码基因序列(coding DNA sequence,CDS)下载自国家基因组科学数据中心(CNCB-NGDC),登录号为GWHASIS00000000[9],本研究选用的梓叶槭为无患子科槭属植物,采集于四川省都江堰地区。为了增加数据的可靠性和减少数据的冗杂,使用perl脚本对梓叶槭编码序列进行处理,保留序列长度≥300 bp的基因序列用于后续分析。

1.2 密码子偏好性参数计算

使用Codon W 1.4.2(http://codonw.sourceforge.net/)分析梓叶槭基因组密码子的使用相关指数,具体包括每条序列的GC含量相关数值,包括密码子第1、2、3位GC含量(GC1、GC2、GC3)、平均GC含量、密码子适应指数(CAI)、同义密码子数(L_sym)、密码子偏好指数(CBI)、氨基酸总数(L_aa)、最佳密码子频率(Fop)、有效密码子数(ENC)、反映蛋白质疏水性对密码子偏好影响的亲水性指数(GRAVY)与芳香族氨基酸的频率(aromoa)[12]。

密码子适应指数(CAI,式中用CAI表示)的计算公式如下

(1)

(2)

式中:Wij为密码子相对适应度,RSCUimax、Ximax分别指编码第i个氨基酸的使用频率最高的密码子RSCU值和X值,L为基因中所使用的密码子数。

密码子偏好指数(CBI,式中用CBI表示)的计算公式如下

(3)

式中:Nopt为优越密码子在基因中出现次数之和;Nran为氨基酸序列不变,所有同义密码子随机出现时优越密码子的出现次数之和;Ntot为优越密码子对应的氨基酸在基因中出现的次数之和。

后将梓叶槭基因组蛋白编码序列整合为一条序列,计算同义密码子的相对使用度(relative synonymous codon usage,RSCU)与对应密码子类型使用次数。

1.3 中性绘图分析

中性绘图利用GC1与GC2的均值GC12为纵坐标,GC3为横坐标,使用散点图并做其回归曲线拟合判断影响梓叶槭基因组密码子偏好性的因素[13]。

1.4 ENC-plot绘图

利用ENC-plot评估梓叶槭基因组整体密码子偏好程度及碱基组成间的关系。设置横坐标为GC3(式中用GC3表示)值、纵坐标为ENC值作散点图,并绘制标准曲线。

ENC(式中用ENC表示)计算公式如下

ENC=2+GC3+29/[GC32+(1-GC3)2]

(4)

根据基因离标准曲线远近程度,判断造成密码子偏好的原因是否受到突变与选择的影响[5]。

1.5 PR2-plot偏倚分析

对各密码子第3位碱基上的A、T、G、C含量进行分析,以A3/(A3+T3)为横坐标,G3/(G3+C3)为纵坐标,进行梓叶槭基因组PR2-plot偏倚分析。散点图中心原点位置(A3=T3和G3=C3)表示密码子没有使用偏好,中心点(中心的横纵坐标均为0.5)周围的点分布情况表示受到偏性的方向和程度[14]。

1.6 最优密码子的确定

以梓叶槭基因组中基因ENC值为排序标准,从ENC值高低各选取10%作为目标基因,构建高低偏性基因表达库,并分别整合到fasta文件中计算RUSC值。计算高低偏性基因表达库RSCU的差值,并按照ΔRSCU≥0.08的标准确定高表达密码子[5];并参考梓叶槭基因组RSCU值,按照RSCU值>1的判定标准,同时符合上述2个条件确认为梓叶槭基因组中最优密码子类型[15]。

2 结果与分析

2.1 梓叶槭基因组密码子组成分析

梓叶槭基因组包含35 132个编码基因,经过筛选选取33 034个编码基因用于全文后续分析。数据(表1)显示,梓叶槭基因组中编码基因组序列GC1、GC2、GC3的平均含量均<0.5,其中,密码子第1位GC含量(GC1)平均值为0.494,变化范围为0.269~0.894,密码子第2位GC含量(GC2)平均值为0.397,变化范围为0.142~0.832,密码子第3位GC含量(GC3)平均值为0.417,变化范围为0.129~0.819。梓叶槭基因组中有效密码子数(ENC)在25.530~61.000,平均值为52.185。在分析的33 034个编码基因中,仅有53个基因的ENC值低于35,说明梓叶槭基因组中仅有少数基因偏好性较强,多数基因密码子使用偏好性较弱。

表1 梓叶槭基因组密码子偏好性参数变化范围

2.2 梓叶槭基因组密码子各参数的相关性分析

梓叶槭基因组密码子各参数的相关性分析结果显示(表2),GC1仅与基因长度(N)相关性不显著(P>0.05),与其他参数均呈现极显著相关性(P<0.01);GC2与其他参数均极显著相关(P<0.01);GC3与GRAVY相关性显著(P<0.05),且与其他参数极显著相关(P<0.01)(表2)。以上结果说明基因不同位置的碱基组成会对密码子参数造成一定影响。CAI、CBI与FOP相互之间都呈极显著正相关(P<0.01),但Fob与GRAVY、Aromo的相关性不显著(P>0.05)。此外,N与ENC相关性不显著(P>0.05),表明基因序列长度对密码子的使用偏好性影响较小。

表2 梓叶槭基因组密码子各参数的相关性分析

2.3 梓叶槭基因组中性绘图分析

梓叶槭基因组中性绘图分析结果显示(图1),GC12处于27.57%~81.98%,GC3处于12.94%~81.94%,GC12与GC3之间的相关性较弱(R2=0.012 7),回归系数为0.061 7,大多数基因偏离对角线,表明梓叶槭基因组密码子偏好性受到突变与选择的共同作用[16]。

图1 梓叶槭基因组中性绘图分析

2.4 梓叶槭基因组PR2-plot分析

梓叶槭基因组PR2-plot绘图分析结果显示(图2),在坐标系内各基因并未均匀分布,主要集中于下方,且右下方基因较多,表明梓叶槭基因组在碱基使用频率上T>A,G>C,在密码子第3位碱基使用上存在偏好性。

不同的黑点代表不同的基因。

2.5 梓叶槭基因组ENC-plot分析

梓叶槭基因组ENC-plot分析结果显示(图3),大多数基因的ENC值位于期望曲线下方,总体点位集中分布于ENC-plot图中期望曲线附近,说明梓叶槭基因组密码子偏好性受碱基突变压力影响较大[5]。梓叶槭基因组ENC比值频率分布显示(表3),有54.19%基因的ENC比值集中在0.05~0.15,有30.02%基因的ENC比值分布在-0.05~0.05,总体上实际ENC值与期望ENC值较为接近。以上结果也表明梓叶槭基因组密码子偏好性受突变压力影响更大。

图3 梓叶槭基因组ENC-plot分析

表3 ENC比值频率分布

2.6 梓叶槭基因组最优密码子的确定

将梓叶槭基因组基因按照ENC值最高与最低值排序,选取各10%的基因分别作为高低基因表达样本库,根据ΔRSCU计算结果显示,有30个密码子ΔRSCU>0.08定义为高表达密码子,结合RSCU>1作为共同判定条件,确定梓叶槭基因组29个最优密码子(表4)。在最优密码子当中,存在21个密码子以A/U为第3位碱基,说明梓叶槭基因组偏好第3位碱基为A/U的密码子。

表4 梓叶槭基因组最优密码子分析

3 结论与讨论

随着高通量测序时代的正式到来,越来越多的生物遗传数据陆续公开,对基因组的密码子偏好性研究可以更全面地揭示密码子偏好性产生原因与物种进化模式[14,17-19]。本研究对梓叶槭基因组中33 034个编码基因进行了中性绘图、PR2-plot与ENC-plot分析,揭示梓叶槭基因组密码子使用模式及其影响因素。结果显示梓叶槭基因组中GC含量GC1(49.4%)>GC3(41.7%)>GC2(39.7%),RSCU分析也表明了梓叶槭基因组密码子末位碱基偏好A与U密码子结尾,这与桃(Prunuspersica)[5]、苦马豆(Sphaerophysasalsula)[20]密码子偏好性结果相似。

梓叶槭基因组编码基因ENC值显示出多数基因存在弱偏好性,ENC均值为52.185,结果与香樟(Cinnamomumcamphora)[21]研究结果类似。ENC-plot结果显示大多数基因位置处于期望曲线下方,54.19%的基因分布在0.05~0.15,表明梓叶槭基因组密码子偏好性受碱基突变压力影响更大,这与已经报道的桃[5]、普通油茶(Camelliaoleifera)[22]等结果类似,说明在这些物种之间碱基突变压力是影响密码子偏好性的主要因素。梓叶槭基因组相关性分析结果显示,GC3与GC1、GC2、ENC与GC呈极显著相关,这也表明梓叶槭基因组密码子偏好性主要受到碱基突变的影响较大。本研究同时筛选了29个梓叶槭基因组中最优密码子,有21个密码子以A/U结尾,结果符合高等植物最优密码子“NNA”和“NNU”模式,这与香花枇杷(Eriobotryafragrans)[23]及香樟[21]等物种最优密码模式相同,这些最优密码子的确定为后续利用基因工程改良槭属相关性状提供了遗传数据基础。

槭属基因组、转录组与功能基因的分子克隆研究数量在近几年大幅增加,并对多个神经酸生物合成中功能的关联性与调控花青素合成相关基因进行克隆与表达分析[24]。应用基因组密码子偏好性信息将提高转化目的基因表达的成功率。此外,基因组密码子信息也将为槭属适应性、分子系统进化研究提供参考依据。

猜你喜欢

密码子碱基绘图
来自河流的你
“禾下乘凉图”绘图人
应用思维进阶构建模型 例谈培养学生创造性思维
密码子与反密码子的本质与拓展
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来4名新成员
生命“字母表”迎来4名新成员
10种藏药材ccmFN基因片段密码子偏好性分析
基于HTML5 Canvas绘图技术应用
Surfer和ArcView结合在气象绘图中的应用