APP下载

粗毛纤孔菌转录组密码子偏好性分析

2023-11-23刘备备杨贵明宋永学

北方蚕业 2023年3期
关键词:孔菌密码子碱基

王 敬 李 立 刘备备 王 晖 王 鹏 杨贵明 宋永学*

(1.承德医学院蚕业研究所/ 2.河北省高校特色蚕桑应用技术研发中心,河北承德 067000;3.承德医学院生物医学工程系,河北承德 067000;4.天津脉络医学检验有限公司,天津 30038;5.承德应用技术职业学院,河北承德 067000)

桑黄是锈革孔菌科(Hymenochaetaceae)一类真菌的统称,包括许多个种,药用价值极高[1]。其中粗毛纤孔菌(Inonotushispidus)是桑黄类群的一个种,其子实体符合本草古籍中记载的桑黄特征,寄生于桑、柳等阔叶树的树干上,子实体为一年生,革质至软木栓质,干后木栓质,侧生无柄,菌盖平展呈半圆形,表面黄色至暗褐色,被粗毛,无环带,下生菌孔。分布于华北、东北、西北等地。桑黄作为中药使用已有两千多年的历史,《神农本草经》《药性论》《本草纲目》等许多中医古籍中均有记载。《本草图经》云:“桑耳—名桑黄,有黄熟陈白者,又有金色者,皆可用”[2]。并附有“信州桑黄”图一幅,图中桑黄上有毛,符合粗毛纤孔菌特征。桑黄具有活血、化饮,止泻等功效,常用于血崩,血淋,脱肛、泻血等的治疗。现代医学研究发现桑黄中所含有的多糖[3]、黄酮[4]、萜类[5]等多种活性成分具有很好的抗肿瘤[6]、降血糖[7]、提高免疫力等功效[8]。

遗传密码子是连接蛋白质和DNA的信息桥梁[9]。人体所存在的氨基酸中绝大多数的氨基酸往往对应着几种不同编码的密码子。这种编码同一种氨基酸的不同密码子就被称之为同义密码子。然而对于编码同一种氨基酸的密码子来说,生物体对于选择哪种密码子并不是随机的,而是有着自身的选择偏好性,且这种偏好性在不同的物种之间,甚至是同一物种的不同部位也有着很大的区别。有实验研究发现,选择最优密码子可使相关基因和蛋白质的表达量增加[10]。同时,通过筛选最优密码子可提高生物的外源基因表达量[11]。

本研究通过对粗毛纤孔菌转录组密码子使用的偏好性进行研究,揭示其密码子的使用规律,并与4种生物的密码子使用偏好性进行对比,为提高粗毛纤孔菌基因的表达及选择合适的异源表达宿主提供一些理论基础。

1 材料与方法

1.1 材料及编码序列的筛选

用承德地区野生粗毛纤孔菌桑黄子实体提取菌种后,进行人工栽培,接种栽培菌包后于室内避光恒温28 ℃培养。30天后菌丝长满菌包,转入温室大棚培养18 d(散射光小于1 000 Lx,20~32 ℃),在出子实体之前,在每个菌包的同样位置挖取菌丝组织,液氮速冻,-80 ℃保存。将所需的材料送检至北京诺禾致源科技股份有限公司进行测序工作。测序工作完成后对编码序列进行筛选:使用perl语言选取长度≥300 bp且以ATG为起始密码子,TAG、TGA、TAA为终止密码子的完整的编码序列,并将重复的序列删除,最终的得到所需的编码序列[12]。

1.2 密码子碱基组成分析

使用CodonW软件计算粗毛纤孔菌转录组编码序列GC的含量、有效密码子数(ENC)、密码子中第3位碱基的GC含量(GC3s)和相对同义密码子相对使频率(RSCU)等。使用Python对GC12(GC1与GC2的平均值)的值进行计算[13]。

1.3 中性绘图分析

中性绘图:以GC3s的值为横坐标、GC12的值为纵坐标。当GC12和GC3s相关且二者回归线斜率趋近1时表明突变是影响密码子偏好性的主因。反之,则是由自然选择导致的密码子偏好性[14]。

1.4 ENC-plot绘图分析

ENC-plot绘图:以GC3s作为横坐标,ENC值作为纵坐标作图,公式为:ENC=2+GC3s+29/[GC3s2+(1-GC3s)2]。ENC的值在20~61的范围之间,当ENC的值越大说明密码子的偏好性越弱,反之则说明密码子的偏好性越强[15]。

1.5 PR2-Bias plot偏倚分析

PR2-Bias plot:以GC[G3/(G3+C3)]的值为横坐标,AT[A3/(A3+T3)]的值为纵坐标作图。若基因不受突变压力或自然选择的影响时T=A,C=G。但实际上由于生物体收到外界环境的影响导致基因突变、选择压力等的作用是会导致G、C的数量变化[16]。

1.6 最优密码子的筛选

RSCU值指的是编码某一氨基酸的密码子与能够编码这个氨基酸的所有密码子的比值。当RSCU的值大于1时表明密码子使的偏好性较大。将ENC的由小到大依次排列,选取最小值的10%和最高值的10%的编码序列分别建成高表达库和低表达库,并计算出两个表达库的RSCU值,两个表达库的差即为ΔRSCU。当ΔRSCU的值大于等于0.08的密码子即为最优密码子。

1.7 粗毛纤孔菌与模式生物之间的密码子偏好性比较

在Codon Usage Database(http://www.kazusa.or.jp/codon/)网站上下载库德里阿兹威酵母、家蚕、拟南芥和大肠杆菌的密码子使用频率,并与粗毛纤孔菌转录组编码基因密码子使用频率进行比较。

1.8 数据作图

使用Origin 2023b作图并进行分析。

2 结果与分析

2.1 粗毛纤孔菌GC含量的分析

通过使用Perl语言对粗毛纤孔菌转录组数据进行筛选,共筛选出符合条件的10 716条CDS序列。对筛选出的10 716条CDS序列进行分析,结果显示:粗毛纤孔菌转录组编码基因的总GC含量在31.6%~71%,并主要分布在50%~55%之间;粗毛纤孔菌的平均总GC的含量为51.7%。这说明粗毛纤孔菌转录组密码子偏向于使用G、C碱基(结果如图1A所示),但偏好性不是很强。GC3s的总含量在25.6%~90.4%之间,GC3s的总平均含量为50.8%且大部分的基因分布在50% ~60%之间,说明粗毛纤孔菌转录组基因的末位更偏向于使用G、C为结尾的碱基(结果如1图B所示)。

图1 粗毛纤孔菌转录组GC和GC3s含量的柱状图

2.2 粗毛纤孔菌的中性绘图分析

由粗毛纤孔菌的中性绘图分析结果显示GC12的含量范围为33.8%~73.0%,大部分的基因样本分布在回归线(y=-0.13667x+57.84914)的两侧,GC12与GC3的关系为负相关,且相关性系数为-0.13667,R2为0.04005(结果如图2所示),GC12与GC3的相关性较弱,说明密码子1、2位上的碱基与3位的碱基基本无关联性,即粗毛纤孔菌密码子使用的偏好性受自然环境影响最大。

图2 粗毛纤孔菌转录组GC12和GC3含量的中性绘图分析

2.3 粗毛纤孔菌的ENC-plot绘图分析

粗毛纤孔菌转录组ENC的范围是27.98~61,平均值是59.41。根据ENC=35为密码子偏好性强弱的分界值,粗毛纤孔菌转录组基因的编码序列中有24条(占比为0.22%)这部分基因在密码子的使用上具有比较强的偏好性;ENC值为61的编码序列有1852条(占比为17.3%),这部分基因在密码子的使用上无偏好性。通过ENC-plot的图示观察发现,基因没有均匀的分布在期望曲线的两边(图3所示)。

图3 ENC-GC3s相关性分析

综合上述分析,受选择压力的作用,粗毛纤孔菌转录组密码子的偏好性较低,但在不同的基因中密码子使用的偏好性有一定程度上的差异,通过公式:ENC比值=(ENC期望值-ENC观测值)/ENC得出表1的数据。

表1 ENC比值分布

由表1可以看出,比值主要集中在-0.1~ 0.2之间,为总基因的88.4%,ENC期望值和观测值之间的差异较小,说明粗毛纤孔菌转录组密码子的偏好性主要受突变压力和自然选择的影响。

2.4 PR2-Bias plot 分析

根据偏倚性分析,粗毛纤孔菌转录组基因的平均分布位置为(0.4915,0.4824),从图4可以看出大部分转录组基因都分布在中心位置的附近,少部分的基因相对于中心有一定程度上的偏离。这进一步说明了粗毛纤孔菌转录组基因密码子使用的偏好性主要来源于突变压力产生的影响。

图4 A3/(A3 + T3)与G3/(G3 + C3)的偏倚性分析

2.5 粗毛纤孔菌同义密码子的使用频率及最优密码子分析

RSCU值指的是编码某一氨基酸的密码子与能够编码这个氨基酸的所有密码子的比值。当RSCU的值大于1时表明密码子使用的偏好性较大,说明编码某一氨基酸的密码子使用偏好性较强;当RSCU值小于1时说明密码子的使用偏好性较弱;当RSCU的值等于1时说明密码子无使用偏好性。

从表2中可以看出:RSCU>1的密码子有35个,且在这些密码子中,第三位置的碱基以A结尾的有7个;以U为结尾的有10个;以C为结尾的有9个;以G为结尾的有9个。说明粗毛纤孔菌转录组密码子在同义密码子使用频率中在第三位密码子的选择上无大的差别。

粗毛纤孔菌转录组最优密码子的个数为14,分别为UUC、UCC、UAC、UGC、CUU、CUC、CGC、AUC、ACG、AAC、AAG、GUC、GCG、GAG,且在最优密码子中第三位碱基中C、U、G的数量分别为9、1、4。这说明在最优密码子的选择上,粗毛纤孔菌转录组在碱基第三的位置上更为倾向于使用C和G 。

2.6 密码子使用频率的比较

不同物种之间对于密码子使用的偏好性不同,因此,研究不同物种间在密码子使用上的偏好性差异有利于提高目标基因在进行外源表达时的效率。当两个物种在同一密码子使用频率上的比值≤0.5或≥2.0,说明它们在使用同一密码子时的偏好性较大,反之则说明在密码子的使用上差异较小。

粗毛纤孔菌与库德里阿兹威酵母、家蚕、拟南芥和大肠杆菌密码子使用频率的比较如图5所示。粗毛纤孔菌与这四种生物之间密码子使用的偏好性有着不同程度上差异:与库德里阿兹威酵母密码子使用频率的比值结果中,大于等于2的密码子为3种,小于等于0.5的密码子为59种;与家蚕密码子使用频率的比值结果中,大于等于2的密码子为0种,小于等于0.5的密码子为58种;与拟南芥密码子使用频率的比值结果中,大于等于2的密码子为1种,小于等于0.5的密码子为61种;与大肠杆菌密码子使用频率的比值结果中,大于等于2的密码子为1种,小于等于0.5的密码子为60种。这说明粗毛纤孔菌与这几种生物在密码子使用偏好性上均有很大程度上的差异性。

图5 粗毛纤孔菌与其他物种密码子偏好性的成对比较

3 讨 论

生物在自然选择条件下不断进化,最终形成了一套自己所特有密码子的使用模式,而这种模式在不同种物种之间,甚至是在自身的不同器官中差异往往也是不同的[17]。研究密码子使用的偏好性可以为后续研究提供一定程度上的应用价值,例如可以提高异源基因的表达效率、预测蛋白质的结构及功能、解析生物体的进化规律等[18-19]。本研究以粗毛纤孔菌转录组中的10 716条编码基因为研究对象,通过使用CodonW软件和perl语言对它的密码子使用偏好性进行研究,发现粗毛纤孔菌转录组编码基因的总GC含量在31.6%~71%之间,平均值为51.7%,GC3s含量在25.6%~90.4%之间,平均值为50.8%。从这些数据中可以看出GC3s的含量范围要大于总GC的含量范围,表明GC3s的含量不集中,且粗毛纤孔菌转录组密码子和末尾碱基偏向于使用G、C碱基,但偏好性不是很强。粗毛纤孔菌转录组ENC值的范围是27.98~ 61,平均值59.41高于35,且转录组编码序列ENC值大于35的占97.8%,说明粗毛纤孔菌密码子在使用时偏好性较弱。这与对马尾松[20]、橄榄[21]的研究结果一致。偏倚性分析的结果显示大部分的基因分布于中心的周围,少部分基因偏离中心,说明粗毛纤孔菌转录组密码子偏好性主要来源于突变压力对其产生的影响。粗毛纤孔菌转录组编码基因的ENC值与ENC期望值的差别不大,说明粗毛纤孔菌在密码子使用偏好性上是受突变压力和自然选择等多重因素的影响,这和大黄[22]转录组密码子偏好性的研究一致。

粗毛纤孔菌转录组的编码基因中,RSCU>1的密码子有35个,且在这些密码子中,第三位置的碱基以A结尾的有7个;以U为结尾的有10个;以C为结尾的有9个;以G为结尾的有9个。说明粗毛纤孔菌转录组密码子在同义密码子的使用频率中在第三位密码子的选择上无大差别,但在最优密码子的使用上在碱基第三的位置上更为倾向于使用C和G。粗毛纤孔菌与库德里阿兹威酵母、家蚕、拟南芥和大肠杆菌密码子使用频率差异较大,这说明粗毛纤孔菌与这几种生物在密码子使用偏好性上均有很大程度上的差异性[23],因此,若选择粗毛纤孔菌进行外源基因表达时应避开这几种生物作为外源表达体。

本研究通过对粗毛纤孔菌转录组编码序列密码子进行偏好性分析并探讨导致密码子偏好性的影响因素。结果显示粗毛纤孔菌密码子使用的偏好性比较弱,说明突变压力和自然选择为影响密码子使用偏好性的主要原因。通过对粗毛纤孔菌密码子偏好性的分析,从中筛选出14个最优密码子,可为粗毛纤孔菌桑黄在基因工程、遗传机理及在其他生物体中进行异源表达提供一些参考价值及理论基础。

猜你喜欢

孔菌密码子碱基
桦褐孔菌的生物活性及其应用研究
桦褐孔菌的研究现状及应用前景*
应用思维进阶构建模型 例谈培养学生创造性思维
密码子与反密码子的本质与拓展
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来4名新成员
生命“字母表”迎来4名新成员
10种藏药材ccmFN基因片段密码子偏好性分析
拟黄薄孔菌菌丝体的固体培养条件及CAT和SOD活力动态研究
红缘拟层孔菌发酵物体外抗氧化活性研究