基于数据融合的细菌素发掘及类别判定模型
2021-09-16杨慧慧李柏林李航陈昊刘程国王玉堂
杨慧慧,李柏林,李航,陈昊,刘程国,王玉堂
(1.东北农业大学 食品学院,哈尔滨150030;2.东北农业大学 生命科学学院,哈尔滨150030;3.东北农业大学 分析测试中心,哈尔滨150030)
0 引言
细菌素是由细菌在代谢过程中通过核糖体合成机制产生的一类具有抗菌活性的多肽或蛋白质类物质,对其他细菌具有抗菌活性[1]。细菌素是一种无抗药性、无残留的天然蛋白类抗菌剂,具有成本低、生产快、广谱杀菌等优点,而且能安全有效地抑制病原体生长,是一种极具潜力的食品防腐剂[2]。近年来,科学家挑选少数的细菌素进行了深入的研究,开辟出细菌素新的研究领域,并拓宽了其应用范围。随着遗传学和纳米技术的快速发展,细菌素极有可能发展成为下一代新型抗生素[3]、新型载体分子[4]、肿瘤治疗的药物[5]等。因此,如何发现更多的新型细菌素成为如今研究的热点。
1925年首次命名细菌素以来,科研人员主要通过多种实验手段研究细菌素、确定抑菌谱以及评价抑菌能力[6],这种方法耗费大量的时间、精力及费用。细菌素具有多种独特的序列和结构特征,因此,采用生物信息学技术发现细菌素并进行进一步研究逐渐成为一个趋势。通过生物信息技术发掘细菌素主要分为两种方法。一种是序列比对,最常见的是蛋白质序列之间和核酸序列之间的两两比对。比对工具有FASTA[7]、CLUSTALW[8]、HMMER[9]、BLAST[10]等。基 于这种方法发现了一系列细菌素的结构特征,可以用来识别细菌素。Yount等[11]在细菌素中发现了一个保守的“GXC”序列基序,这段基序在蛋白质三级结构中形成特定的结构域。Schutte等[12]利用BLAST等分析工具在能表达细菌素的细菌的染色质区域发现了防御素基因。由于细菌素的抗菌作用不取决于单一的蛋白质序列信息、结构信息及相应氨基酸的理化信息,而是这些信息的综合反映,因此这种方法准确度一直不够高[13]。另一种方法是基于细菌素氨基酸的理化性质、三维结构与空间特征进行预测,通过建立氨基酸理化性质数据库[14],计算细菌素的数学描述符,利用数学模型进行细菌素的识别和预测。这种方法更常见于二肽和三肽数学模型的构建[15],在肽链长度较长且氨基酸数量相差较多的细菌素的研究中,模型准确度也不高。
缺少建立生物大分子数学描述符的方法和数学模型选择不准确是导致上述研究准确度不高的主要原因。本研究利用数据融合技术,对细菌素氨基酸序列的排列信息、物理化学性质、蛋白质同源模型的结构数据等进行筛选整合,作为细菌素的数学描述符;利用机器学习方法建立了一种从细菌分泌的类细菌素蛋白片段中发掘细菌素并进行类型判别的数学模型。此方法能够极大提高细菌素的发现速度,为细菌素在食品、畜牧业养殖、医疗健康等多个领域的应用提供帮助。
1 材料与方法
1.1 数据集的构建
细菌素数据主要来源于研究细菌素的相关文献和公开发表的细菌素数据库,包括AMPs from Bacteria(http://bacteriocins.cpu-bioinfor.org/)[16]和BCAIBASE(http://bactibase.hammamilab.org/main.php)[17]。数据库中细菌素的基本信息包括细菌素的氨基酸序列、英文名称、细菌素分类、细菌素抑菌谱及相应蛋白质结构文件等信息。从Uniprot(https://www.uniprot.org/)和PDB(http://www.rcsb.org/)数据库及相关文献中,筛选出来自细菌或真菌、氨基酸序列长度介于5~100之间[18]、经研究不具抗菌抑菌能力的蛋白质,加入非细菌素蛋白质数据集。从Uniprot数据库和PDB数据库中,筛选出来自细菌、氨基酸序列长度介于5~100之间、未经抗菌抑菌能力研究的蛋白质,加入细菌分泌的类细菌素蛋白质数据集。所有数据通过人工交叉复查,确保数据的准确性及可信性。
1.2 描述符的生成和筛选
将细菌素氨基酸序列通过MOE(Molecular Operating Environment)(v2015.10)和Swiss-Model[19-20]进行蛋白质同源建模,得到细菌素蛋白质三级结构。一般情况下,模板序列和靶序列相似性大于30%就可以用于同源建模,序列的同源性越高则结构模型的准确性越高[21],本研究以细菌素氨基酸序列与模板序列之间的相似性大于50%为标准进行筛选,将得到细菌素的三级结构与非细菌素蛋白质三级结构相结合。将细菌素的氨基酸序列与所得到的三级结构分别利用MOE软件和E-Dragon[22]生成2D、3D、pro3种描述符,接着,对描述符进行筛选,保留显著性高的描述符。然后,将保留的描述符进行主成分分析,保留贡献率大的主成分作为本文所构建的新型细菌素描述符(以下称为Pes描述符)。
1.3 细菌素发掘模型的建立
1.3.1 模型构建
细菌素发掘模型分别是由Pes、2D、3D、pro 4种描述符构建的RF模型和支持向量机(Support Vector Machine,SVM)模型[23],均由R语言实现。SVM可由R中免费的“e1071”包用于实现该功能。RF可由R中Random Forest包(ver 4.6.14)来实现的。
1.3.2 模型评估
评估分类模型的指标常采用准确度。计算公式分别如下:
式中:真正例(True Positive,TP)、真负例(True Negative,TN)为正确的分类;假正例(False Positive,FP)为非细菌素蛋白质被预测为细菌素的情况;假负例(False Negative,FN)为细菌素被预测为非细菌素蛋白质的情况。
1.4 细菌素类别判定模型的建立
1.4.1 模型构建
细菌素类别判定模型采用KNN和SVM。KNN模型由R语言kernlab包(ver 0.9.29)与kknn包(ver 1.3.1)实现。由于细菌素三级结构数量不足,为了增加样本量,选择细菌素氨基酸序列描述符作为细菌素类别判定模型的变量。数据以3:1划分为训练集和测试集。
1.4.2 模型验证
测试集用于模型验证,并比较两个模型得出的结果和准确率。其中,KNN模型是基于欧式距离得到最终的结果。其计算公式如下:
式中:n为描述符数量;xi、yi为细菌素在n维空间内的坐标。
2 结果与讨论
2.1 细菌素/非细菌素蛋白质数据集
本研究建立的细菌素数据集和非细菌素蛋白质数据集用于建模,建立细菌分泌的类细菌素蛋白质数据集用于发掘潜在细菌素。细菌素数据库中共有405个细菌素,细菌素三级结构140个,其中与同源建模模板序列相似性大于50%的三级结构有100个。本文所建立的细菌素数据库与其他同类型研究相比[16-17],加入了通过同源建模得到的蛋白质三级结构,通过软件计算获得了共1979种描述符。
将细菌素与非细菌素蛋白质的2D、3D、pro描述符进行主成分分析,由图1计算得到前三个主成分累计贡献率分别为71.321%、59.671%、70.382%,能够较为准确地表示每种描述符所包含的信息。图1为细菌素与非细菌素蛋白质在三维空间内的分布情况,可以看出细菌素分布较为广泛,细菌素与非细菌素蛋白质在三维空间内的区分度并不高。但是,细菌素内部存在密集聚集的情况,说明部分细菌素三级结构极为相似。同时也可以看出现有描述符对细菌素的区分效果并不好,通过进一步筛选并融合已有的描述符能够更全面地表达其中所包含的信息,较为容易地分离细菌素与非细菌素蛋白质。
图1 细菌素-非细菌素蛋白质三维分布散点图
2.2 描述符生成和筛选
蛋白质三级结构共得到1979种描述符,分为2D、3D、pro3种;细菌素氨基酸序列得到1806种描述符。经过筛选与融合描述符,我们得到氨基酸序列Pes描述符15种,蛋白质三级结构Pes描述符23种,其累积贡献率分别为94.91%和86.14%。因此本文所构建的描述符可以通过更少的数据有效表达细菌素蛋白质结构中所包含的信息。与其他描述符筛选方法相比[24],本文的方法在Frecer[25]、Hilpert[26]等人针对特定类型抗菌肽而建立的描述符基础上,改进了Cherkasov[27-28]等人建立的多肽可通用的描述符,通过计算绝对电负性、共价半径、分子间距离、相互作用力等多种物理化学性质和蛋白质相关参数来全面描述蛋白质结构中所包含的信息,并最终将这些信息整合在所构建的描述符中。这样不仅保留了更多的蛋白质信息,同时降低数据维度,增加可解释性。
图2为PCA得分图。A图为氨基酸序列Pes描述符的PCA得分图,前两个主成分的累计贡献率为70.70%。可以观察到除IID类细菌素外,其余细菌素都有较为规律的分布区域。由于IID类细菌素其序列特异性较弱,为提高模型的准确率,将IID类细菌素排除在外,只对其他四类细菌素进行模型判定。B图为蛋白质三级结构Pes描述符的PCA得分图,前两个主成分的累计贡献率为30.91%。通过筛选融合后得到的Pes描述符保留了细菌素与非细菌素蛋白质中的主要信息,可以较为准确地区分细菌素与非细菌素蛋白质。
2.3 细菌素发掘模型
图3为2种不同算法与4种描述符组合得到的8个模型的准确率,可以观察到RF模型准确率优于SVM模型准确率,通过Pes描述符和RF算法建立的发掘模型准确率最高,为0.9187,其余所有RF模型准确率都保持在0.8000左右,说明Pes描述符能够更准确、全面地表征蛋白质三级结构信息。
图3 模型准确率
此前,VELTRID[29]利用单词嵌入的方法来描述细菌素,发现通过DNN(Deep Neural Networks)深度学习算法建立的识别模型显著优于BLAST比对等其他几种细菌素识别方法。其他同类研究中多采用分析蛋白质一级结构和氨基酸的组成等方法[30],本文通过同源建模,获得更能代表蛋白质真实形态的三级结构,并从中获取其物理化学性质等信息,得到了比以往方法更为准确的模型。说明三级结构内包含了更多肽链中无法显示的信息,也表示本文构建的描述符可以准确地用数字形式全面描述蛋白质三级结构。但该方法精确测得的蛋白质三级结构数量较少,而且通大部分机器学习的方法仍是黑箱方法,无法对学习过程做出合理的解释,这也是今后研究中需要考虑的问题[31]。
2.4 细菌素类别判定模型
氨基酸序列描述符建立的细菌素类别判定模型中,k NN模型准确率为0.9000,SVM模型准确率为0.8269。因此说明kNN模型更适用于细菌素类别判定模型的构建。图4为测试集结果得到的混淆矩阵,可以观察到IIB类细菌素在k NN模型中易于被识别为IIA类细菌素,在SVM模型中几乎全部被识别为Lantibiotic类细菌素,分类效果不理想,有待进一步添加更多信息,增加其与其他类别细菌素的区分度。
图4 类别判定模型测试集混淆矩阵
学术界基于蛋白质翻译修饰类型、二硫键结构、序列相似性以及细菌素来源等多种因素,提出了许多种对细菌素的分类标准。我们根据Kumariya[32]所介绍的细菌素分类标准,选取数量较多的细菌素种类进行类别判定模型的构建,得到了较高准确率的类别判定模型,说明氨基酸序列描述符较好地涵盖了上述分类标准所要求的信息,同时也说明氨基酸序列中除排列顺序以外包含着更多有待发掘的信息。细菌素发掘模型的成功建立,表明今后蛋白质三级结构经补充丰富后,利用蛋白质三级结构中提取的描述符建立起的类别判定模型将会有更高的准确率。由于IID类细菌素分类效果不明显,III类、IV类细菌素数量过少等,我们并未对全部细菌素种类进行类别判定模型的构建。在今后明确不同细菌素的作用机理后,通过本文介绍的提取生物大分子描述符的方法进行细菌素的重新分类将更为科学合理。另外,为了解决数据不平衡的问题,对其中几类进行欠采样后可能会造成数据不完整,影响模型的拟合效果[33]。
2.5 细菌素发掘
表1是发掘出的7种细菌素,根据细菌素发掘模型,判定为细菌素准确度>50%的蛋白质极有可能具有细菌素活性。通过细菌素类别判定模型预测了可能的细菌素种类,预测结果中多数为Class IIB类细菌素。因此,本文所介绍的方法能够在大量蛋白质中进行高效的细菌素筛选与类别判定,在进一步完善后,将成为科研人员进行细菌素发现与鉴定的有效辅助工具。
表1 细菌素发掘表
3 结 论
本研究采用数据融合的方法,建立细菌素、非细菌素蛋白质数据集,并将数据生成数学描述符。基于RF算法建立的细菌素发掘模型,准确度最高,为0.9187;k NN算法建立的细菌素类别判定模型,准确度最高,为0.9000。另外,发现了7种可能具有抗菌作用的蛋白质,将在后续的研究中进行进一步验证。本文建立的生物大分子描述符生成方法不仅可以用于细菌素的发掘,且对研究其他类型蛋白质的生物功能也具有一定的借鉴意义。