APP下载

遗传算法背景下人工信号肽优化设计探讨

2020-04-06刘洋

荆楚理工学院学报 2020年6期
关键词:特征向量遗传算法

刘洋

摘要:为提高信号肽以及识别信号肽拼接精度,在结构融合度特征的基础上,构建氨基酸综合替代矩阵和马尔科夫转移矩阵,对不分泌/极低分泌的信号肽序列进行人工调整和优化设计。结果表明:通过寻找信号肽中不同位置氨基酸的偏向性选取趋势,能够确定影响蛋白质分泌水平的关键氨基酸,提高了外源蛋白质高分泌表达信号肽拼接准确度。

关键词:信号肽;马尔科夫转移矩阵;特征向量;人工优化序列;遗传算法

0 引言

随着科研水平的提高,发现信号肽对于蛋白质的定位有着非常重要的作用,使得信号肽的研究成为各大科研工作者的研究热点。例如,使用枯草芽孢杆菌进行过分泌试验的外源蛋白试验时,出现不同水平分泌表达,通过构建重组质粒并转化到枯草芽孢杆菌WB800N中进行诱导表达[1]。此外,宫悦等[2]研究表明影响蛋白质分泌水平一般为信号肽中的几个关键氨基酸。陈龙冠等[3]认为通过对信号肽序列进行调整或重新设计可在一定程度上提高外源蛋白质的分泌表达量。因此,本文在信号肽序列的优化设计范围内,尝试对信号肽SacB中H-domain的部分氨基酸进行调整和替换,再拼接地衣芽孢杆菌α-淀粉酶的蛋白质主链,然后提取拼接序列的结构融合度特征与可分泌蛋白进行相似性比较,从中找出相似性较高的优化序列。

1 基于遗传算法的人工信号肽设计研究

1.1 构建氨基酸综合替代矩阵

根据Blosum62氨基酸替代矩阵[4],尽可能不改变氨基酸的疏水性进行构建氨基酸综合替代矩阵。首先对氨基酸替代矩阵和疏水性矩阵进行标准化处理,过程如下

1.2 构建Markov转移矩阵

本文把信号肽序列上的状态分布转移行为用20 × 20的转移频次矩阵M描述,依次以链上两个相邻的氨基酸为行和列,可构造反映二肽组成情况的邻接矩阵。设Lij = { ( X,U,z) }表示序列上的一系列状态关系,其中X是前一个氨基酸,U是后一个氨基酸,z是从X到U的转移次数,即在转移频次矩阵中,第i行(对应氨基酸X)第j列(对应氨基酸U)的元素值是z,这样一条序列中的所有二肽都会显示在矩阵中,将大量同一种属的信号肽序列的转移行为全部统计出来,就得到马尔科夫转移频次矩阵。

由于枯草芽孢杆菌属于属于革兰氏阳性真细菌,因此在信号肽标准数据集(http://www.cbs.dtu.dk/ftp/signalp)中选择Gram + bacteria的140个分泌蛋白信号肽序列,计算得到马尔科夫频次矩阵如表2所示。

1.3 基于遗传算法的人工序列设计

使用signalP3.0-HMM(http://www.cbs.dtu.dk/services/SignalP/)分析枯草芽孢杆菌果聚糖蔗糖酶(SacB)天然信号肽中三个区域的分布范围,根据分析结果,信号肽SacB的H区包括位于第11~22的氨基酸残基,然后对H区的12个氨基酸残基进行替换。运用遗传算法结合适应值函数,实现对信号肽的人工优化设计。最终得到信号肽SacB的H区不同位置可能替代的氨基酸,如表3所示。

根据表3进行替换后共得到432(3 × 4 × 3 × 4 × 3)条未知信号肽序列。这样就把优化候选信号肽的序列数量大大缩减,然后通过数值实验分析和寻找关键氨基酸的位置。

1.4 SacB酶活性测定

枯草芽孢杆菌果聚糖蔗糖酶信号肽(SacB)和优化后基因序列克隆体(SacB2)委托生工生物工程(上海)有限公司进行全基因合成,连接到地衣芽孢杆菌α-淀粉酶主链,分别得到菌载体amy-SacB和amy-SacB2。将两杆菌载体接种于LB培养基试管中30 ℃培养,8 h后转移至MMCH培养基中,加入5%蔗糖溶液,24 h后取样,在4 000 rpm下离心,取上清液根据还原糖DNS法在540 nm处测定酶活(OD值)。

2 實验与结果分析

2.1 蛋白序列特征提取

针对拼接蛋白序列作为研究对象的特殊性,使用432条信号肽序列分别与地衣芽孢杆菌α-淀粉酶主链拼接得到实验样本,然后按照以上的方法提取SFD特征,最后分析寻找信号肽中不同位置氨基酸的偏向性趋势。

2.2 人工序列设计的相似性分析

使用核度量标准[5]式(1)来计算实验样本与高分泌蛋白的相似性距离,这里参考的高分泌蛋白是文献[6]中所有高分泌蛋白的类中心。

计算得到的相似性距离越小,则未知样本实现高水平分泌的可能性越大。

人工样本与分泌蛋白类中心的相似性分析如图1所示。

由图1可知,发现不同位置的氨基酸有明显的偏向选取趋势。其中第12个位置的偏向取值为L(亮氨酸),第22个位置的偏向取值为S(丝氨酸)和N(天冬酰胺),特别是第12个位置替换为L时,未知样本与分泌蛋白有明显的相似性趋势。而其它几个位置的氨基酸选取偏向性不太明显。通过替换第12个位置和第22个位置的氨基酸种类,结合高斯核函数计算得到氨基酸组合的相似性距离。对比发现:当第12个位置为L(亮氨酸)和第22个位置为S(丝氨酸)时,相似性距离数值最小,约为0.237,说明该优化结果更能实现外源蛋白质高分泌表达。因此,在上述2个位置用偏向性选取的氨基酸代替原有的氨基酸,得到偏向性序列SacB-2,然后进一步分析SacB-2的序列特征。

2.3 偏向性序列的结构分析

小波变换是一种信号的时间—频率分析方法,具有“数学显微镜”的功能,蛋白质序列的结构信息能从小波分解系数中反映出来,可用来分析和估计信号肽的H区。使用db2滤波器在尺度(1:30)下对分别对天然信号肽SacB和人工序列SacB-2的信号肽疏水序列进行一维连续小波分解,得到信号肽的结构信息如图2所示。

信号肽作为蛋白质的起始序列,具有一定的序列特点,因此调整和优化以后的序列也应该符合作为信号肽的序列特点。从图2中的结果可以看出,人工序列SacB-2与天然高分泌信号肽SacB的序列特点基本一致,因此在很大程度上SacB-2能与枯草芽孢杆菌的转移通道相容,同时根据特征向量的相似性分析,SacB-2又能与地衣芽孢杆菌α-淀粉酶的成熟蛋白相容,是可能实现外源蛋白质高分泌表达的优化候选信号肽。

2.4 信号肽分泌蛋白的表达量分析

SacB基因编码分泌型蔗糖果聚糖酶,能够催化蔗糖水解成葡萄糖和果糖等还原性糖。根据该特性测定样品中的葡萄糖含量换算信号肽分泌蛋白的表达量,结果如图3所示。

由图3可知,菌载体amy-SacB和amy-SacB2在5%蔗糖溶液中培养10 h后,α淀粉酶的酶活性比空白(CK)高,说明SacB基因片段能有效的调控菌体在蔗糖的诱导下将还原糖產物分泌到细胞外。此外,菌载体amy-SacB2的α淀粉酶的酶活性比菌载体amy-SacB高,说明优化基因片段SacB2比天然肽段SacB具有更高的分泌蛋白表达,与偏向性序列测试结果一致。

3 结论

本文从理论上尝试对信号肽序列的H端进行调整和重新设计,从中筛选可能实现外源蛋白质高分泌表达的优化候选信号肽。该方法以氨基酸替代综合得分矩阵和马尔科夫转移矩阵为替换依据,可使替换以后的人工序列具有信号肽的特征结构和原有极性。针对拼接蛋白序列作为研究对象的特殊性,提取SFD特征向量,通过与高分泌蛋白的相似性比较,得到不同位置的氨基酸有明显的偏向性选取趋势,优化基因片段SacB2比天然肽段SacB具有更高的分泌蛋白表达。

参考文献:

[1] 杨何宝,胡美荣,郑翔,等.不同信号肽及分子伴侣对中性蛋白酶在枯草芽孢杆菌中分泌表达的影响[J].生物技术通报,2018,34(6):134-140.

[2] 宫悦,陈晨,李亚东,等.不同信号肽对重组B群脑膜炎奈瑟菌H因子结合蛋白表达的影响[J].中国生物制品学杂志,2017(2):141-145,149.

[3] 陈龙冠,覃锦红,黄云娜,等.信号肽优化对重组抗体分泌表达的影响及研究进展[J].中国生物工程杂志,2016,36(3):77-81.

[4] 孟翔燕,孟军,葛家麒.一种基于亲疏水性的替代矩阵[J].数学的实践与认识,2009,39(7):105-112.

[5] Zhang D Q,Chen S C. Clustering Incomplete Data Using Kernel Based Fuzzy C-means Algorithm[J].Neural Processing Letter,2003,18(3):155-162.

[6] 高翠芳,吴小俊,田丰伟,等.一种表征蛋白质可分泌性的结构融合度特征[J].生物工程学报,2010,26(5):687-695.

[责任编辑:许立群]

猜你喜欢

特征向量遗传算法
面向成本的装配线平衡改进遗传算法
高中数学特征值和特征向量解题策略
三个高阶微分方程的解法研究
基于遗传算法对广义神经网络的优化
基于遗传算法对广义神经网络的优化
基于遗传算法的临床路径模式提取的应用研究
基于遗传算法的临床路径模式提取的应用研究
遗传算法在校园听力考试广播系统施工优化中的应用
物流配送车辆路径的免疫遗传算法探讨
氨基酸序列特征向量提取方法的探讨