APP下载

南欧大戟叶绿体基因组密码子偏好性分析

2023-09-11余涛蒲芬管芹范敏

江苏农业科学 2023年15期

余涛 蒲芬 管芹 范敏

摘要:为了揭示南欧大戟叶绿体基因组密码子使用偏性及形成原因,以南欧大戟叶绿体基因组中长度大于300 bp的非重复蛋白质编码序列为研究对象,利用Codon W 1.4.1、CUSP在线程序等生物信息学分析工具对其密码子偏性及使用模式进行分析。结果表明,南欧大戟叶绿体基因组密码子中相对同义密码子使用度>1的有31个,其中以 A/U 结尾的占71%,表明其偏好使用以A/U结尾的密码子;有效密码子数均值为46.74,说明密码子使用的偏好性较弱;GC1与GC2呈极显著相关,GC3与GC2、GC1无显著相关性,表明密码子第3位碱基与其他位置碱基的组成有差异;此外,ENC与GC3呈极显著相关,说明密码子末尾碱基组成在一定程度上会影响密码子使用偏好性。ENC-plot绘图分析、中性绘图分析、PR2-plot偏倚分析结果表明,影响南欧大戟叶绿体基因组同义密码子使用偏性的主要因素是自然选择,但同时也受到突变压力等其他因素的影响;通过建库分析,筛选出GAU、AUA、UUG等14个最优密码子。研究结果可为开展目的基因优化、物种改良和系统进化分析等研究提供科学参考。

关键词:南欧大戟;叶绿体基因组;密码子偏好性;最优密码子

中图分类号:S184 文献标志码:A

文章编号:1002-1302(2023)15-0035-07

基金项目:云南省乡村振兴科技专项(编号:202204BK090318);云南省地方高校联合专项(编号:202001BA070001-104)。

作者简介:余 涛(1997—),男,云南丽江人,硕士研究生,主要从事中药资源化学研究。E-mail:2958263230@qq.com。

通信作者:范 敏,女,博士,讲师,主要从事中药资源化学研究。E-mail:fanmin@dali.edu.cn。

南欧大戟(Euphorbia peplus L.)为大戟科(Euphorbiaceae)大戟属(Euphorbia)一年生草本植物,原产于地中海沿岸,在我国云南、广西、广东及台湾等地区均有分布[1]。民间常用其治疗哮喘、癌症等疾病[2]。已有研究发现,南欧大戟含有二萜、三萜、甾醇、黄酮、酚酸和糖类等化学成分[3-5],具有抗炎[6]、抗肿瘤[7]、治疗心血管疾病和改善多重耐药性[8]等作用。目前,关于南欧大戟的研究主要涉及化学成分、药理活性等方面,在核酸等生物大分子层面的研究较少。笔者所在課题组前期对南欧大戟叶绿体基因组特征和系统发育关系进行了阐述[9],但未对其叶绿体基因组密码子使用偏性影响因素及使用模式进行分析。

密码子由信使RNA上3个连续的核苷酸组成[10],又称为遗传密码,是生物体遗传信息传递的载体[11]。标准的64种密码子由4个碱基随机组合形成,其中包括不具有编码功能的3个终止密码子和61个编码20种氨基酸的密码子[12];除甲硫氨酸、色氨酸外,其余氨基酸均由1个以上同义密码子编码[13]。经过不断的进化,不同物种在mRNA翻译的过程中,编码相同氨基酸的不同密码子被选择性地使用,从而形成其特有的使用模式,这种现象被称为密码子使用偏好性(codon usage bias,CUB)[14]。研究发现,特定基因的功能和蛋白表达水平受密码子使用偏好性的影响[12],而CUB又受到自然选择、基因表达水平、基因组长度、碱基突变和tRNA丰度等因素的综合影响[13]。

叶绿体基因组具有规模小、多拷贝、分子结构相对保守[15]、母系遗传[10]和序列易获得的特点。近年来,测序技术飞速发展,被广泛应用于系统发育分析、DNA条形码鉴别研究和基因工程等领域[16]。基于叶绿体基因组进行密码子使用模式研究及筛选最优密码子,对于提高遗传转化效率、基因表达水平和物种改良有重要意义[17-18]。因此,为了解南欧大戟叶绿体基因组密码子使用偏好性及其形成的影响因素,本研究对南欧大戟叶绿体基因组密码子使用模式进行探讨,并筛选出最优密码子,以期为目的基因优化、物种改良和分子育种等提供科学依据。

1 材料与方法

1.1 材料与方法

从云南省大理市(25°84′95″N,100°11′96″E)采集南欧大戟新鲜叶片,用液氮速冻后将样品送至上海元莘生物医药科技有限公司进行测序,随后对获得的原始数据进行组装注释,将测序结果提交至美国国家生物技术中心数据库(NCBI),登录号:MZ 678242。南欧大戟叶绿体基因组序列大小为 159 466 bp,包含84条蛋白质编码序列(coding sequences,CDS),将CDS中长度小于300 bp的基因和重复基因剔除[18],最终共获得52条CDS用于后续分析。

1.2 密码子偏好参数的计算

将筛选到的52条蛋白质编码序列整合成1个fasta文件,用Codon W 1.4.1[19]软件分析,获取南欧大戟叶绿体基因组CDS的相对同义密码子使用度(relative synonymous codon usage,RSCU)、有效密码子数(effective number of codon,ENC)等相关信息。不同基因中各个密码子第1、2、3位的GC含量(GC1、GC2、GC3)和基因序列总的GC含量(GCall)由EMBOSS在线程序CUSP计算得到。

1.3 ENC-plot绘图分析

以各CDS的有效密码子数为纵坐标、GC3为横坐标绘制散点图,并插入ENCexp=2+GC3+29/[GC23+(1-GC3)2]的标准曲线;然后通过公式计算得到ENC期望值(ENCexp),再利用ENCRatio=(ENCexp-ENCobs)/ENCexp公式获得ENC比值(ENCRatio)频数分布情况。结合以上2种分析结果,对密码子偏好性受突变、自然选择的影响程度进行评价[19]。

1.4 中性绘图分析

以各CDS中密码子第1、2位GC的平均值(GC12)为纵坐标、GC3为横坐标构建坐标系,拟合GC12与GC3的线性关系,添加对角线,解析GC1、GC2和GC3的相关性,以进一步分析密码子使用偏性的影响因素。

1.5 PR2-plot偏倚分析

为了揭示密码子第3位4种碱基的數量和关系,用计算得到的G3/(G3+C3)、A3/(A3+T3)值分别作为x轴、y轴,绘制散点图,以A=T且G=C作为图中心点,基因的偏性程度和方向则用该基因点与中心点的矢量距离表示[21]。

1.6 最优密码子的分析

以ENC值作为指标,对南欧大戟叶绿体基因组的CDS序列进行由高到低的排序,筛选出前后10%的基因序列,分别构建高、低偏性库。用Codon W 1.4.1 软件获取偏性库中密码子的RSCU值,ΔRSCU=RSCU高表达-RSCU低表达;高表达密码子的ΔRSCU≥0.08,高频密码子的RSCU>1,最优密码子的ΔRSCU≥0.08且RSCU>1[22]。

2 结果与分析

2.1 密码子的RSCU值分析

对南欧大戟叶绿体基因组中的52条蛋白质编码序列的RSCU值进行分析,图1结果显示,在64个编码氨基酸的密码子中,RSCU值<1的密码子有31个;RSCU值=1的密码子有2个,分别为编码Met、Trp的AUG、UGG;RSCU值>1的密码子有31个,其中第3位碱基为G的密码子有8个,第3位碱基为C的密码子有1个,第3位碱基为A、U的密码子有22个,占比为71%,表明南欧大戟叶绿体基因组密码子偏好以A、U结尾。

2.2 密码子组成分析

对南欧大戟叶绿体基因组各CDS序列的密码子碱基组成情况及ENC值进行统计分析。表1结果显示,在各基因序列的密码子中,总GC含量平均值为37.80%,范围为29.55%~46.04%;密码子第1、2、3位的GC含量均值分别为46.73%、39.39%、27.28%,范围分别为33.44%~57.56%、27.07%~56.83%、16.95%~36.41%。由此可知,密码子不同位置的碱基数量有差异。在绝大多数密码子中,GC1、GC2显著高于GC3,表明南欧大戟叶绿体基因组密码子偏好以A或U结尾。南欧大戟各CDS的ENC值为38.42~55.14,平均值为46.74,大于35[23]。由分析结果可知,南欧大戟叶绿体基因密码子的使用偏性较弱。

对南欧大戟叶绿体基因组密码子参数进行Pearson相关性分析,由图2可知,GCall与GC3、GC2、GC1间相关系数分别为0.52、0.79、0.85,P值均<0.01,呈极显著相关;GC1与GC2间也呈极显著相关(P<0.01);而GC3与GC1、GC2之间相关系数分别为0.24、0.13,无显著相关性,表明密码子碱基组成第3位与其他位置间有一定差异,第1、2位间的碱基组成较相似。ENC与GCall呈显著相关关系,与GC3呈极显著相关关系说明密码子末尾碱基组成在一定程度上会影响密码子使用的偏好性。ENC与N(密码子数)未呈显著相关,表明基因序列长度对密码子使用偏性的影响较弱。

2.3 ENC-plot绘图分析

南欧大戟叶绿体基因组密码子的ENC与GC3关联分析结果如图3所示,在标准曲线及曲线附近仅有小部分基因分布,表明该部分基因的实际ENC值与期望ENC值间差异较小,突变对这些基因序列密码子的偏性起主要作用;其他大部分基因距标准曲线较远,且大多数分布于曲线下方,说明该部分基因的实际ENC值与期望ENC值间有较大差异,CDS序列密码子偏好性受自然选择影响较大。此外,对参试基因ENC比值计算分析结果显示,有15个基因分布在ENC比值为-0.05~<0.05的区间,占比为0.289;分布于-0.15~<-0.05、0.05~<0.15、0.15~<0.25、0.25~0.35区间的基因分别有3、27、6、1个,占比分别为0.058、0.519、0.115、0.019(表2),说明基因主要分布在 -0.05~<0.05区间外,其偏好性主要受到选择压力的影响。以上结果表明,南欧大戟叶绿体基因组密码子偏好性在受碱基突变压力影响的同时,更多受到自然选择的影响。

2.4 中性绘图分析

南欧大戟叶绿体基因组52个CDS序列中性绘图分析结果(图4)显示,在对角线上分布的基因为atpF,在对角线下方分布的基因有ycf1、ycf2,其余基因则分布于对角线上方,表明绝大多数基因的GC3值小于其自身的GC12值。GC12、 GC3的取值范围分别为0.316 6~0.554 0、0.169 5~0.364 1,Pearson相关系数=0.048 2,r=0.219 5,2个参数呈较低的相关性,表明密码子不同位置的碱基组成存在差异。上述结果说明,自然选择对南欧大戟叶绿体基因组密码子偏性起主要作用。

2.5 PR2-plot偏倚分析

采用PR2绘图对52条CDS序列密码子第3位碱基的使用频率进行分析。图5显示,各基因散布于以0.5为中心的4个象限中,且分布不均匀,表明密码子第3位4种碱基的使用频率有差异;多数基因位于水平中心线下方,表明密码子中碱基使用频率表现为G>C,T(U)>A。若碱基突变为影响密码子使用偏性的唯一因素时,基因应位于中心位置,但分析结果表明,南欧大戟叶绿体基因组密码子的使用偏性在受到突变影响的同时还受到自然选择等其他因素的影响。

2.6 最优密码子筛选

将52条参试基因按ENC值的高低进行排序,选取首尾各10%的基因建立高、低基因表达库,并计算ΔRSCU值。表3结果显示,ΔRSCU≥0.08的高表达密码子有27个,其中包括以G结尾的12个密码子,以C结尾的7个密码子,以A结尾的5个密码子,以U结尾的3个密码子。筛选ΔRSCU≥0.08且RSCU>1的密码子作为南欧大戟叶绿体基因组的最优密码子,最终共获得14个密码子,分别为GCG、GAU、GGA、GGG、AUA、CUU、UUG、AAU、CCA、AGA、AGG、CGG、UCC和UCG,其中以G/C结尾和以A/U结尾的各占50%(图1)。

3 讨论与结论

密码子由mRNA上3个连续排列的碱基构成[10],是生物传递遗传信息不可或缺的部分[11]。密码子使用偏好性是物种不断进化过程中形成的特有结果,其形成机制受tRNA丰度、GC含量、碱基组成等生物因素的影响[13]。氨基酸的种类特征由密码子第3位碱基决定,且其组成受到选择的压力较小,因此GC3對衡量密码子偏好性具有重要作用[24]。本研究通过对南欧大戟叶绿体基因组52条CDS序列密码子使用特征进行分析,发现GC3的含量明显小于GC1、GC2,且各位置GC含量不同,表明密码子第3位碱基偏好于使用A或U。在南欧大戟叶绿体基因组中,GC1、GC2与GC3无显著相关性,可见密码子末尾碱基的组成存在差异。这与灯盏花[25]、沙枣[26]、藿香[27]等植物的研究结果一致,也说明不同植物间叶绿体基因组密码子使用模式具有相似性。ENC值范围为20~61,通常将35作为边界值,当ENC值>35时,表明密码子偏性较弱,当ENC值越接近61时,表明密码子的偏性越弱,基因表达量也越低[23,28]。在本研究中,南欧大戟叶绿体基因组密码子ENC值为38.42~55.14,均值为46.71,表明其密码子偏性较弱。

已有研究结果表明,影响生物密码子偏性的主要因素为自然选择力和突变压力[18,29-30]。南欧大戟叶绿体基因组密码子ENC-plot绘图分析结果显示,其多数基因位于曲线的下方,且分布于ENC比值在-0.05~<0.05区间的基因较少,说明南欧大戟叶绿体基因组密码子偏性受自然选择力主导的同时也受到碱基突变力的影响;中性绘图分析中,GC3与GC12呈较低的相关性,说明GC碱基含量相对保守,自然选择对其密码子偏性起主导作用;PR2-plot 偏倚分析结果表明,密码子偏性受自然选择、突变等因素的共同影响。以上分析结果表明,南欧大戟叶绿体基因组密码子偏性受自然选择、突变压力等因素的共同作用,但自然选择占主导位置。这与灯盏花[25]、朝鲜淫羊藿[10]、西藏凹乳芹[18]等植物密码子偏性影响特征一致,与葡萄[31]、竹节参[32]等研究中,突变是影响密码偏好性的主要因素不同,表明不同物种密码子偏性主要影响因素有差异,且不同影响因素作用大小亦存有差异,这可能与物种碱基组成及其生长环境有关。此外,本研究通过建库分析,共筛选出14个最优密码子,其中以A/U、G/C结尾的各占50%,确定的最优密码子可为探索物种分子进化机制提供有用信息。

本研究首次对南欧大戟叶绿体基因组密码子使用模式及其影响因素进行了系统的分析,并确定了最优密码子,为目标基因的优化和开展南欧大戟叶绿体基因工程及系统进化分析提供了科学参考。

参考文献:

[1]中国科学院中国植物志编辑委员会. 中国植物志:第44卷 第3分册[M]. 北京:科学出版社,1997:111.

[2]万落生,邱明华. 大戟属南欧大戟的化学成分和生物活性研究[C]//陈纪军. 中国化学会第十二届全国天然有机化学学术会议论文摘要集. 昆明:中国化学会,2018:257.

[3]Chen Y N,Ding X,Li D M,et al. Diterpenoids with an unprecedented ring system from Euphorbia peplus and their activities in the lysosomal-autophagy pathway[J]. Organic & Biomolecular Chemistry,2021,19(7):1541-1545.

[4]Frezza C,Venditti A,Sciubba F,et al. Phytochemical profile of Euphorbia peplus L. collected in Central Italy and NMR semi-quantitative analysis of the diterpenoid fraction[J]. Journal of Pharmaceutical and Biomedical Analysis,2018,160:152-159.

[5]宋智琴,穆淑珍,邓 彬,等. 药用植物南欧大戟的化学成分研究[J]. 内蒙古中医药,2009,28(14):37-38.

[6]Corea G,Fattorusso E,Lanzotti V,et al. Discovery and biological evaluation of the novel naturally occurring diterpene pepluanone as antiinflammatory agent[J]. Journal of Medicinal Chemistry,2005,48(22):7055-7062.

[7]Lebwohl M,Shumack S,Stein G L,et al. Long-term follow-up study of ingenol mebutate gel for the treatment of actinic keratoses[J]. JAMA Dermatology,2013,149(6):666-670.

[8]王东妮. 南欧大戟中潜伏期HIV病毒再激活的活性成分研究[D]. 厦门:厦门大学,2019:22-24.

[9]余 涛,蒲 芬,管 芹,等. 南欧大戟叶绿体基因组特征及其系统发育分析[J]. 分子植物育种,2022,20(6):1828-1837.

[10]王英哲,国 坤,孟芳芳,等. 朝鲜淫羊藿叶绿体基因组密码子偏好性分析[J/OL]. 分子植物育种:1-11. [2022-10-13]. http://kns.cnki.net/kcms/detail/46.1068.S.20220621.1951.010.html.

[11]Sahoo S,Das S S,Rakshit R. Codon usage pattern and predicted gene expression in Arabidopsis thaliana[J]. Gene X,2019,721:100012.

[12]Quax T E,Claassens N J,Soll D,et al. Codon bias as a means to fine-tune gene expression[J]. Molecular Cell,2015,59(2):149-161.

[13]Parvathy S T,Udayasuriyan V,Bhadana V. Codon usage bias[J]. Molecular Biology Reports,2022,49(1):539-565.

[14]Romero H,Zavala A,Musto H. Codon usage in Chlamydia trachomatis is the result of strand-specific mutational biases and a complex pattern of selective forces[J]. Nucleic Acids Research,2000,28(10):2084-2090.

[15]Xu C,Cai X,Chen Q,et al. Factors affecting synonymous codon usage bias in chloroplast genome of oncidium gower ramsey[J]. Evolutionary Bioinformatics Online,2011,7:271-278.

[16]李江飛,王 瑜,颜廷雨,等. 云南油杉叶绿体基因组密码子偏好性分析[J]. 中南林业科技大学学报,2022,42(4):30-39.

[17]周 涛,杨 林,舒军霞,等. 3种含笑属植物叶绿体基因组密码子偏好性分析[J]. 西部林业科学,2022,51(3):91-100.

[18]关云会,姚文燕,杨青淑,等. 西藏凹乳芹叶绿体基因组密码子偏好性分析[J]. 分子植物育种,2021,19(23):7771-7781.

[19]Wright F. The ‘effective number of codons used in a gene[J]. Gene,1990,87(1):23-29.

[20]Rice P,Longden I,Bleasby A. EMBOSS:the European molecular biology open software suite[J]. Trends in Genetics,2000,16(6):276-277.

[21]Sueoka N. Near homogeneity of PR2-bias fingerprints in the human genome and their implications in phylogenetic analyses[J]. Journal of Molecular Evolution,2001,53(4/5):469-476.

[22]原晓龙,李云琴,张劲峰,等. 降香黄檀叶绿体基因组密码子偏好性分析[J]. 广西植物,2021,41(4):622-630.

[23]He Z,Gan H F,Liang X Y. Analysis of synonymous codon usage bias in potato virus m and its adaption to hosts[J]. Viruses,2019,11(8):752.

[24]Wang Z J,Xu B B,Li B,et al. Comparative analysis of codon usage patterns in chloroplast genomes of six Euphorbiaceae species[J]. Peer J,2020,8:e8251.

[25]李显煌,杨生超,辛雅萱,等. 灯盏花叶绿体基因组密码子偏好性分析[J]. 云南农业大学学报(自然科学),2021,36(3):384-392.

[26]王 婧,王天翼,王罗云,等. 沙枣叶绿体全基因组序列及其使用密码子偏性分析[J]. 西北植物学报,2019,39(9):1559-1572. [HJ2mm]

[27]梁湘兰,覃逸明,孙晓波,等. 藿香叶绿体基因组密码子偏好性分析[J/OL]. 分子植物育种:1-23. [2022-10-13]. https://kns.cnki.net/kcms/detail/46.1068.S.20210325.0900.002.html.

[28]陈 哲,胡福初,王祥和,等. 菠萝密码子使用偏好性分析[J]. 果树学报,2017,34(8):946-955.

[29]Chakraborty S,Yengkhom S,Uddin A. Analysis of codon usage bias of chloroplast genes in Oryza species:codon usage of chloroplast genes in Oryza species[J]. Planta,2020,252(4):67.

[30]张海霞,王玉道,许雪妮. 苜蓿质膜内在蛋白编码基因MsPIPs家族的密码子偏好性分析[J]. 江苏农业学报,2021,37(6):1393-1399.

[31]续 晨,蔡小宁,钱保俐,等. 葡萄基因组密码子使用偏好模式研究[J]. 西北植物学报,2012,32(2):409-415.

[32]梁 娥,齐敏杰,丁延庆,等. 竹节参转录组使用密码子偏好性分析[J]. 江苏农业科学,2019,47(2):59-63.