APP下载

类球红细菌基因组密码子偏好性分析

2023-08-12张艳艳江贤章

生物化工 2023年3期
关键词:密码子外源基因组

张艳艳,江贤章*

(1.福建师范大学 生命科学学院,福建福州 350117;2.工业微生物发酵技术国家地方联合工程研究中心,福建福州 350117)

密码子是核苷酸三联体,而遗传密码是指遗传物质存储遗传信息的生化指令,由64 个密码子组成。遗传密码具有简并性,所有的氨基酸都由2 ~6 个密码子以不同的使用频率进行编码(色氨酸和甲硫氨酸除外),这种现象被称为密码子使用偏倚[1]。这种密码子使用的差异在使蛋白质序列保持一致的同时,也可以调节蛋白质生产的效率与准确性[2]。造成密码子使用差异的影响因素有很多,如自然选择(tRNA丰度、蛋白质折叠、基因长度等)、突变压力(包括GC 含量和碱基的突变位置)以及随机遗传漂变。密码子使用偏倚在预测外源基因的最佳宿主方面具有重要作用,可通过密码子优化来提高外源基因的表达水平[3]。

类球红细菌(Rhodobacter sphaeroides)属于紫色非硫细菌,是目前研究最深入的光合微生物之一,可以产生辅酶Q10 等,已被广泛应用于食品、农业、医药等多个领域,拥有巨大的工业化开发潜力[4]。同时,类球红细菌经常被用来表达外源蛋白,广泛应用于基因表达研究中。本研究以R. sphaeroides基因组为研究对象,对其密码子使用偏好性进行分析,对在类球红细菌中开展合成生物学研究、改造基盘细胞、表达外源基因等具有重要的意义。

1 对象与方法

1.1 数据检索与处理

在NCBI(美国国家生物信息中心,https://www.ncbi.nlm.nih.gov/genome/)公共数据库中检索获得类球红细菌2.4.1 基因组,基因组数据编号GCA_000012905.2。主要使用的软件有Galaxy生物信息学分析平台(https://usegalaxy.org/)、Python 3.9、CodonW 1.4.2、Origin 9.0 等。

1.2 ENC-pot 与PR2-plot 分析

利用Galaxy 的脚本过滤长度小于300 bp 的CDS,收集到3 921 个CDS。利用中性图估计和表征3 个密码子(GC1、GC2、GC3)位置之间的密码子使用模式。以ENC 为纵坐标,GC3 为横坐标绘制ENC-plot 进行分析。以G3/(G3+C3)为横坐标,A3/(A3+T3)为纵坐标绘图分析[5]。中心点代表无偏度使用时密码子的状态,其余点与中心点的矢量距离代表其偏倚程度和方向[6]。

1.3 高表达密码子分析

RSCU(同义密码子相对使用度)代表一个密码子的实际使用频率与无偏好性时理论使用频率间的比值。运用CodonW 1.4.2 软件分析相对同义密码子使用度,将RSCU >1 的密码子作为高频密码子[7]。根据ENC 值的大小,取两极(最大值和最小值)10%的基因建立高、低表达基因库,计算两库的差值,将ΔRSCU ≥0.08 的密码子视为高表达优越密码子[8]。结合统计结果筛选RSCU >1 且ΔRSCU ≥0.08 的密码子确定为最优密码子[9]。

1.4 密码子偏好性比较

利用CodonW 分别计算类球红细菌与常见的基盘微生物,如大肠杆菌(Escherichia coli)、谷氨酸棒杆菌(Corynebacterium glutamicum)以及酿酒酵母(Saccharomyces cerevisiae)的密码子使用频率并进行比较。

2 结果与分析

2.1 密码子中性分析

构建了类球红细菌2.4.1基因组编码序列的中性图,结果显示多数基因分布在对角线下方(图1)。GC12的含量分布在0.389 ~0.741 2,GC3 的含量分布在0.411 ~0.957,基因大多分布在对角线下方,密码子中GC12 和GC3 之间相关系数r为0.128 5。结果表明类球红细菌基因组密码子受到突变的影响很弱,而自然选择压力是导致密码子偏好性产生的主要原因。

图1 中性绘图分析

2.2 ENC-plot 分析密码子偏好性

由图2 可知,大部分基因的ENC 观察值落在曲线下方,偏好性显著,表明类球红细菌密码子的偏好性主要受自然选择压力的影响。为更准确地估计观测ENC 值和期望值之间的偏差,计算了(ENCexp-ENCobs)/ENCexp,结果发现ENC 值略小于GC3s 的预期ENC 值,说明突变可能是类球红细菌2.4.1 进化史上的一个影响较弱的因素,自然选择压力可能在影响密码子使用模式中发挥重要作用。

图2 ENC-plot 曲线

2.3 PR2-plot 分析

利用PR2-plot 绘图分析了类球红细菌2.4.1 基因中氨基酸家族中密码子第三位碱基A 与T 或G 与C 之间的关系,结果如图3 所示,大部分基因分布在图的右上方(直线表示中位数),表明密码子第3 位A的使用频率高于T,G 的使用频率高于C。理论上,如果密码子的使用模式仅受到突变的影响,则A 与T、G 与C 碱基使用频率相等。然而,图3 结果显示A 和T、G 和C 的使用存在不均衡,表明类球红细菌2.4.1基因组密码子的使用模式除了受到突变的影响外,还可能受到其他因素,如选择压力等的影响。

图3 PR2-plot 分析

2.4 最优密码子分析

为了分析类球红细菌2.4.1 基因组中不同氨基酸的相对密码子的使用度,确定同义密码子的使用模式以及C/G 末端密码子的首选程度,本实验计算了RSCU 值,绘制了RSCU 堆积图(图4)。分析表明RSCU >1 的密码子有27 个,其中G 或C 结尾的密码子占85.19%,以G 结尾的有10 个,以C 结尾的有13 个,说明类球红细菌偏爱使用以G 或C 结尾的同义密码子。以ENC 值为偏好性标准,构建高、低表达库,分别计算高表达和低表达基因中各密码子的RSCU 值和ΔRSCU 值,结果发现ΔRSCU 值>0.3 的共有19 个密码子是高表达优越密码子。选取高表达优越密码子与高频密码子结合分析,将其共有的密码子定义为最优密码子,共有15 个(CUC、CUG、AUC、GUG、CCG、ACC、GCC、CAG、AAC、AAG、GAC、GAG、UGC、UGA 和GGC)。在这15个最优密码子中,除了UGA 是终止密码子外,其余密码子全都以G 或C 结尾,进一步表明了类球红细菌中的密码子使用偏向于G 或C 结尾的同义密码子。

图4 相对密码子使用堆积图

2.5 与其他基盘微生物密码子偏好性的比较

将类球红细菌基因组密码子使用频率分别与常见的基盘微生物,如大肠杆菌、谷氨酸棒杆菌及酿酒酵母的密码子使用频率进行比较,结果发现大肠杆菌和谷氨酸棒状杆菌中分别有27 个和26 个密码子使用频率与类球红细菌2.4.1 密码子使用频率差异倍数大于2 或者小于1/2,而密码子使用频率差异倍数大于3 或者小于1/3 的密码子分别有16 个(占25.0%)和17 个(占26.6%)。以类球红细菌为基盘细胞,表达来自大肠杆菌、谷氨酸棒杆菌的基因时,需注意对Glu、Arg、Pro、Ser 以及Gly 等几个氨基酸密码子的优化。酿酒酵母中有38 个密码子的使用频率与类球红细菌密码子使用频率差异倍数大于2 或者小于1/2(占59.4%),有27 个密码子的使用频率差异倍数大于3 或者小于1/3(占42.2%),有9 个密码子使用频率差异倍数大于10 或者小于1/10。结果说明类球红细菌与酿酒酵母的密码子使用频率差异较大,在表达类球红细菌中表达来自酿酒酵母的基因时,需要考虑整体密码子偏好性对基因表达的影响,反之亦然。

3 结论

随着合成生物学的兴起,在基盘细胞中表达多个外源基因,构建新的代谢通路,调控关键基因的表达水平,成为合成生物学研究的主要方向。类球红细菌具有重要的开发前景,因此研究类球红细菌密码子使用偏好性,对人工合成外源基因,使之在类球红细菌中高效地表达,具有重要的意义。本文通过对类球红细菌基因组进行分析,发现在类球红细菌使用频率较高的27 个密码子中,以G 或C 结尾的密码子占85.19%。同时,在15 个高表达优越密码子中,除了终止密码子外,其余密码子全都以G 或C 结尾,说明类球红细菌偏爱使用以G 或C 结尾的密码子。通过研究分析得到类球红细菌基因组密码子使用的偏好性主要受到选择压力的影响。最后经过ENC 差异分析构建了类球红细菌高低表达基因库,确定了19 个高表达优越密码子和15 个高表达最优密码子。

猜你喜欢

密码子外源基因组
具有外源输入的船舶横摇运动NARX神经网络预测
牛参考基因组中发现被忽视基因
密码子与反密码子的本质与拓展
外源铅胁迫对青稞生长及铅积累的影响
10种藏药材ccmFN基因片段密码子偏好性分析
外源钙对干旱胁迫下火棘种子萌发的影响
外源添加皂苷对斑玉蕈生长发育的影响
基因组DNA甲基化及组蛋白甲基化
有趣的植物基因组
茶树CsActin1基因密码子偏性分析