硬头黄竹叶绿体基因组密码子偏好性分析
2024-04-08龚明贵白娜李影姜霞
龚明贵 白娜 李影 姜霞
摘要:以硬头黄竹叶绿体基因组为研究对象,使用CodonW、CUSP以及R语言等软件分析密码子偏好性形成的主要原因。结果表明:(1)硬头黄竹叶绿体基因组密码子的平均GC含量为39.59%,且GC1>GC2>GC3,表明密碼子偏好使用以A/U结尾的碱基;(2)硬头黄竹大多数有效密码子数(ENC)在35以上,适应指数(CAI)为0.166,说明其密码子偏好性较弱;(3)中性绘图分析、ENC-plot和PR2-plot分析表明,自然选择对硬头黄竹叶绿体基因组密码子使用偏好性产生重要影响;(4)最终筛选出硬头黄竹叶绿体基因组有GCA、GCU、GAU、GGU及AAA等14个最优密码子,多数以A/U结尾。本研究结果可为硬头黄竹叶绿体基因组水平上的研究提供依据。
关键词:硬头黄竹;密码子偏好性;叶绿体基因组;最优密码子
中图分类号:S188 文献标志码:A
文章编号:1002-1302(2024)03-0067-06
叶绿体是植物体内进行能量转换和光合作用的场所[1]。植物叶绿体中含有一套独立的遗传物质,其规模小、拷贝数多、遗传特性稳定,且含有大量的遗传信息[2]。叶绿体基因组编码与光合作用有关的蛋白质,含有丰富的遗传信息[3]。密码子是维系蛋白质与DNA之间的桥梁,也是识别和传递生物体遗传信息的载体[4]。密码子的使用偏好性是指不同种类的生物在蛋白质翻译过程中倾向于使用特定的简并密码子的现象[5]。在物种演变过程中,密码子的使用偏好性体现为受到自然选择和突变的影响不同[6]。不同物种密码子的偏好性有较大差异,因此,对物种密码子偏好性的分析,可为利用基因工程技术改良植物等研究奠定理论基础[7]。
硬头黄竹(Bambusa rigida)属于竹亚科簕竹属的中型丛生竹种,其适应性强、产量高,是优质纸浆原料,杆材坚固厚实,经济价值高[8],在我国广东、贵州、四川、广西、江西等省大量分布[9]。目前,未曾有针对硬头黄竹叶绿体基因组密码子使用偏好性的研究报道,本研究以硬头黄竹叶绿体基因组序列为研究对象,对其密码子偏好性使用模式进行分析,以期得到影响硬头黄竹叶绿体基因组密码子偏好性的主要因素,并筛选出其最优密码子,为后续叶绿体基因工程中提高外源基因在载体内表达等研究提供理论基础。
1 材料与方法
1.1 叶绿体基因组序列的获取
从NCBI数据库中获取硬头黄竹叶绿体基因组编码区的CDS序列,硬头黄竹(GenBank登录号:MT648824.1)有84条CDS序列。为了减少取样误差,利用生物信息学软件(Geneious)剔除长度<300 bp 的CDS序列,最终硬头黄竹保留56条CDS序列用于后续分析。
1.2 分析方法
1.2.1 密码子组成分析
运用CodonW 1.4.2计算有效密码子数(ENC)和适应指数(CAI)等。通过在线软件CUSP计算密码子第1、2、3位碱基的GC含量(GC1、GC2、GC3)以及平均GC含量(GCall),然后利用SPSS 25.0、Excel 2019及R语言等数据处理软件对数据进行分析处理。
1.2.2 相对同义密码子使用度分析
运用CodonW 1.4.2对同义密码子相对使用度(RSCU)进行计算分析,RSCU值是指该密码子的实际使用频率与其理论使用频率的比值[10]。若密码子的使用没有偏好性,则RSCU=1。当RSCU>1时,表明该密码子为使用较多的密码子,反之亦然。
1.2.3 中性绘图分析
中性绘图分析可对影响叶绿体基因组密码子使用偏好性的主要因素进行首次分析判断。以GC3为x坐标,GC12(GC1和GC2的平均值)为y坐标,利用Excel 2019绘制散点图,对GC3和GC12的相关性进行分析。若回归系数接近于1,则GC12和GC3相关性显著,3个位置碱基组成相似,说明基因突变是影响密码子使用偏好性的主要因素,反之,3个位置碱基组成有较大差别,则说明自然选择是主要因素。
1.2.4 ENC-plot绘图分析
ENC-plot绘图分析用于判断突变在密码子使用偏好性中的影响,可将密码子偏好性情况进行图片可视化。散点图和曲线图组成ENC-plot分析图,以GC3为x坐标,ENC值为y坐标,利用R语言构建散点图,并在散点图中添加ENC值的标准曲线,标准曲线公式:ENC=2+GC3+29/[GC23+(1-GC3)2][11]。若基因位点靠近或在标准曲线上,则密码子使用偏好性主要由突变决定;若基因位点远离标准曲线,则主要由自然选择决定。
1.2.5 PR2-plot偏倚分析
计算各基因中密码子的第3位上A、T、C、G的含量,以G3/(G3+C3)为x坐标,A3/(A3+T3)值为y坐标,绘制散点图并对其进行分析,图中的中心点代表A和T、C和G的使用频率一样,表明密码子使用偏好性是由基因突变造成的[12]。
1.2.6 最优密码子分析
将ENC值作为衡量密码子偏好性的重要指标,ENC值与密码子的偏好性呈负相关,选取升序排列后的ENC值的前后两端各10%的基因,并以此为基础建立高、低表达基因库[13]。根据CodonW软件计算2个表达库中密码子的RSCU值和ΔRSCU值(ΔRSCU=RSCU高表达-RSCU低表达),同时满足高频密码子和高表达密码子(ΔRSCU≥0.08)2个条件的为最优密码子。
2 结果与分析
2.1 密码子组成分析
运用CUSP和CodonW 1.4.2分析硬头黄竹叶绿体基因组CDS序列的碱基组成(表1),硬头黄竹的T3S、A3S、C3S、G3S分别为44.98%、41.81%、18.30%、18.11%,T3S和A3S远高于G3S和C3S,表明硬头黄竹叶绿体基因组密码子的第3位碱基以A/U结尾为主。硬头黄竹的ENC值为50.60,适应指数(CAI)为0.166,表明硬头黄竹叶绿体基因组密码子偏好性比较弱。
硬头黄竹叶绿体基因组密码子的平均GC含量为39.59%,且GC1(47.50%)>GC2(39.89%)>GC3 (31.38%)(表1),ENC值的范围为39.04~61.00,共有49条CDS序列的ENC值大于45,在密码子上GC未均匀分布(表2)。根据ENC值及3个位置的GC含量的相关性分析(表3)发现:ENC值与GC1、GC2相关性不显著,与GC3相关性极显著,说明密码子使用偏好性形成中GC3的影响作用大于GC1、GC2。
2.2 相对同义密码子使用度分析
对硬头黄竹叶绿体基因组蛋白编码序列RSCU分析(表4)表明,在硬头黄竹中编码亮氨酸(Leu)的密码子UUA表现最明显,其RSCU值为1.93,其次是编码丙氨酸(Ala)的密码子GCU和编码精氨酸(Arg)的AGA,两者的RSCU值都是1.73。表中为硬头黄竹叶绿体基因组密码子56条CDS序列的RSCU值,从中筛选出32个高频密码子,其中以A、U、C、G结尾的密码子分别有13、16、2、1个,说明硬头黄竹叶绿体基因组密码子偏好以A和U结尾。
2.3 中性绘图分析
中性绘图分析结果(图1)表明,硬头黄竹GC12、GC3的数值范围分别为32.68%~52.03%、23.42%~51.11%。Pearson相关系数分别为0.314、0.138,进一步说明GC12和GC3的相关性不显著。回归系数分别为0.265 8、0.412 8,说明硬头黄竹受自然选择影响压力较大。
2.4 ENC-plot绘图分析
ENC值的大小可表明密码子偏好性的强弱,ENC>35表明密码子偏性弱[14]。分析结果(图2)
显示,硬头黄竹叶绿体基因组的ENC值基本上都>35,说明其密码子偏好性较弱。硬头黄竹只有少数基因位于期望曲线上或其附近,实际ENC值和预期ENC值相差不大,说明该部分基因的密码子偏好性主要受突变的影响;多数基因离标准曲线距离较远,实际ENC值和预期ENC值有差距,说明该部分基因的密码子偏好性主要受自然选择的影响。分析结果显示,硬头黄竹的叶绿体基因组密码子偏好性主要受到自然选择的影响。
2.5 PR2-plot绘图分析
对硬头黄竹叶绿体基因组的第3位碱基T3/A3和G3/C3的关系进行奇偶校验分析。PR2-plot分析结果(图3)显示,基因位点在平面图4个区域内分布并不均匀,在A3/(A3+T3)<0.5和G3/(G3+C3)>0.5区域范围内分布最多,表明第3位碱基使用频率为T>A、G>C,表明密码子的第3位碱基在选择上具有偏好性,同时说明硬头黄竹叶绿体基因组密码子的使用主要受自然选择的影响。
2.6 最优密码子的确定
对硬头黄竹的ENC值进行升序排列,前10%为高表达基因,后10%为低表达基因,从硬头黄竹叶绿体基因组中得到6个高表达基因rps18、rpl16、psbA、rps14、petB、ndhA和6个低表达基因rpl2、ycf3、cemA、ndhE、atpE、infA。对RSCU和ΔRSCU进行计算(表5),硬头黄竹叶绿体基因组有32个高频密码子,筛选出GCU、GAU等20个高表达密码子,最终确定14个密码子作为硬头黄竹叶绿体基因组的最优密码子,分别为GCA、GCU、GAU、GGU、AAA、UUA、CCA、CCU、CGA、CGU、UCC、ACU、GUA、GUU,这13个最优密码子13个以A/U结尾,1个以C结尾。
3 讨论与结论
基因组数据为密码子偏好性的分析提供有力支撑,碱基的组成情况也会影响密码子的偏好性,密码子的使用偏好性会受到自然选择或突变的影响[15-16]。本研究对硬头黄竹叶绿体基因组密码子进行使用偏好性分析,筛选出了56条CDS序列,分析表明GC1>GC2>GC3,可见密码子在3个位置上的分布并不均匀,密码子偏好使用以A或U结尾的碱基。这与复羽叶栾树(Koelreuteria bipinnata Franch.)[17]和千果榄仁(Terminalia myriocarpa van Huerck et Muell.-Arg.)[18]等植物叶绿体基因组密码子偏好性较为相似,也说明这些植物叶绿体基因组密码子的使用模式相似且高度保守。利用ENC值可以判断密码子偏好性的程度,当ENC>35时,说明密码子偏好性比较弱;反之,说明偏好性强[19],本研究得出硬头黄竹叶绿体基因组中多数ENC值>35,表明硬头黄竹叶绿体基因组密码子使用偏好性较弱。
为了更清楚影响密码子使用偏好性的因素,本研究对硬头黄竹叶绿体基因组密码子进行了中性绘图、ENC-plot以及PR2-plot分析。在中性绘图分析中,硬头黄竹的回归系数为0.265 8,说明硬头黄竹更多受到自然选择的影响;在ENC-plot分析中,硬头黄竹的多数基因离标准曲线距离较远,实际ENC值和预期ENC值存在差异,表明了这些基因的密码子偏好特性主要受自然选择的制约;在PR2-plot绘图分析中,硬头黄竹叶绿体基因组的大部分基因都在平面图的右下方,这表明4个碱基的使用頻率不同,即T>A、G>C,同时表明硬头黄竹叶绿体基因组密码子的使用更多的是受自然选择的影响。结合以上分析得出结论:影响硬头黄竹叶绿体基因组密码子偏好性的主要原因是自然选择。这与美国红梣(Fraxinus pennsylvanica Marsh.)[20]、降香黄檀(Dalbergia odorifera)[19]以及云南油杉(Keteleeria evelyniana)[21]等植物研究结果基本一致。但在乳油木(Vitellaria paradoxa C.F. Gaertn)[22]和银白杨(Populus alba)[23]等植物中影响密码子偏好性的因素主要为突变,说明密码子的使用偏好性受选择和突变等多种因素影响。
本研究利用RSCU、ENC值筛选出GCA、GCU、GAU以及GGU等14个最优密码子,最优密码子大部分以A或U结尾。在硬头黄竹与抽筒竹[24]、毛竹[25]等其他禾本科植物的叶绿体基因组密码子偏好性的比较中,具有高度一致的密码子偏好性及使用模式,都是以A或U结尾。然而,在毛竹全基因组的最优密码子多以G、C结尾,这与硬头黄竹叶绿体基因组中的最优密码子不同,可反映出核基因组和叶绿体基因组在密码子偏好性方面不同。
本研究基于硬头黄竹叶绿体基因组CDS序列,对硬头黄竹的叶绿体基因组进行密码子组成、中性绘图、PR2-plot绘图及ENC-plot绘图等分析比较,最终得出自然选择为影响硬头黄竹叶绿体基因组密码子的使用偏性的主要因素。筛选出硬头黄竹叶绿体基因组有14个最优密码子,为后续硬头黄竹叶绿体基因工程中提高外源基因在载体内的表达等研究提供理论基础。
参考文献:
[1]丁 锐,胡 兵,宗小雁,等. 杓兰叶绿体基因组密码子偏好性分析[J]. 林业科学研究,2021,34(5):177-185.
[2]Wright F.The ‘effective number of codons used in a gene[J]. Gene,1990,87(1):23-29.
[3]毕毓芳,温 星,潘雁红,等. 叶绿体DNA条形码在林木中的应用及研究进展[J]. 分子植物育種,2020,18(16):5444-5452.
[4]周 涛,杨 林,舒军霞,等. 3种含笑属植物叶绿体基因组密码子偏好性分析[J]. 西部林业科学,2022,51(3):91-100.
[5]Dang Y K,Dong Y Y,Ren G P. Codon codes:codon usage bias influences many levels of gene expression[J]. Scientia Sinica Vitae,2019,49(7):839-847.
[6]赵 英,付海天,金 刚,等. 木薯叶绿体基因组密码子偏好性分析[J]. 江西农业学报,2022,34(4):46-52.
[7]辛雅萱,黎若竹,李 鑫,等. 杧果叶绿体基因组密码子使用偏好性分析[J]. 中南林业科技大学学报,202 1(9):148-156,165.
[8]王路君,蔡春菊,唐晓鹿,等. 硬头黄竹地上生物量分配特征及模型构建[J]. 南京林业大学学报(自然科学版),202 5(1):189-196.
[9]何 川,刘 渝. 硬头黄竹竹材物理力学性质研究[J]. 世界竹藤通讯,2012,10(3):19-22.
[10]毛立彦,黄秋伟,龙凌云,等. 7种睡莲属植物叶绿体基因组密码子偏好性分析[J]. 西北林学院学报,2022,37(2):98-107.
[11]杨 林,谭 萍,姜月影,等. 3种木莲属濒危药用植物叶绿体基因组密码子偏好性分析[J]. 中国中医药信息杂志,2022,29(8):93-99.
[12]唐晓芬,陈 莉,马玉韬. 密码子使用偏性量化方法研究综述[J]. 基因组学与应用生物学,2013,32(5):660-666.
[13]尚明照,刘 方,华金平,等. 陆地棉叶绿体基因组密码子使用偏性的分析[J]. 中国农业科学,201 4(2):245-253.
[14]Jiang Y,Deng F,Wang H L,et al. An extensive analysis on the global codon usage pattern of baculoviruses[J]. Archives of Virology,2008,153(12):2273-2282.
[15]李显煌,杨生超,辛雅萱,等. 灯盏花叶绿体基因组密码子偏好性分析[J]. 云南农业大学学报(自然科学),2021,36(3):384-392.
[16]侯 哲,娄晓鸣,李 昂,等. 11种唐松草属(Thalictrum)rbcL基因的密码子偏好性研究[J]. 江苏农业科学,2023,51(3):46-53.
[17]肖明昆,聂恺宏,沈绍斌,等. 复羽叶栾树叶绿体基因组密码子偏好性分析[J]. 西南林业大学学报(自然科学),2023,43(3):56-63.
[18]余 潇,赵振宁,杜 春.千果榄仁叶绿体基因组特征及密码子偏好性分析[J]. 山西农业大学学报(自然科学版),2022,42(6):81-92.
[19]原晓龙,李云琴,张劲峰,等. 降香黄檀叶绿体基因组密码子偏好性分析[J]. 广西植物,202 1(4):622-630.
[20]柳燕杰,田旭平,李 倩. 美国红梣叶绿体基因组密码子偏好性分析[J]. 江苏农业科学,2020,48(15):83-88.
[21]李江飞,王 瑜,颜廷雨,等. 云南油杉叶绿体基因组密码子偏好性分析[J]. 中南林业科技大学学报,2022,42(4):30-39.
[22]原晓龙,李云琴,张劲峰,等. 乳油木叶绿体基因组密码子偏好性分析[J]. 分子植物育种,2020,18(17):5658-5664.
[23]Raubeson L A,Peery R,Chumley T W,et al. Comparative chloroplast genomics:analyses including new sequences from the angiosperms Nuphar advena and Ranunculus macranthus[J]. BMC Genomics,2007,8:174.
[24]李江平,秦 政,国春策,等. 抽筒竹叶绿体基因组的密码子偏好性分析[J]. 竹子学报,2019,38(2):79-87.
[25]黄笑宇,许在恩,郭小勤.基于全基因组的毛竹同义密码子使用偏好性分析[J]. 浙江农林大学学报,2017,34(1):120-128.