固定骨架的从头蛋白质设计:多目标优化与深度学习算法研究进展
2024-01-11李瑞祥沈红斌
摘 要: 固定骨架的蛋白质设计通过计算的方法生成能够折叠为目标蛋白结构的氨基酸序列,该过程可以被视作蛋白质结构预测的逆过程.蛋白质的功能与结构有着紧密的联系,因此基于特定结构的蛋白质设计在酶、疫苗、制药、蛋白质材料等领域都有着潜在的作用.基于蛋白质设计的方法原则,根据当前该领域的进展讨论了基于能量函数优化和基于深度学习这两种主要的蛋白质设计算法类型,最后总结当前蛋白质设计领域的瓶颈问题并做出了展望.
关键词: 蛋白质设计;能量函数;多目标优化;深度学习;蛋白质序列与结构
中图分类号:TP18;Q816"" 文献标志码:A"""" 文章编号:1673-4807(2024)06-069-07
收稿日期: 2023-11-10"" 修回日期: 2021-04-29
基金项目: 国家自然科学基金项目(62073219)
作者简介: 李瑞祥(1990—),男,博士研究生,研究方向为计算蛋白质设计.E-mail:21331004@zju.edu.cn
引文格式: 李瑞祥,沈红斌.固定骨架的从头蛋白质设计:多目标优化与深度学习算法研究进展[J].江苏科技大学学报(自然科学版),2024,38(6):69-75.DOI:10.20061/j.issn.1673-4807.2024.06.011.
Advances in computational de novo protein design with fixedbackbone based on muti-objective optimization and deep learning
LI Ruixiang, SHEN Hongbin
(Institute of Image Processing amp; Pattern Recognition, Shanghai Jiao Tong University, Shanghai 200240, China)
Abstract:Fixed backbone protein design generates amino acid sequences capable of folding into target protein structures by computational methods, which can be regarded as the inverse process of protein structure prediction. The function of proteins is closely linked to their structure; hence, protein design based on specific structures plays a potential pivotal role in fields such as enzymology, vaccines, pharmaceuticals, and protein materials. This paper briefly introduces the principles of protein design methods and then, based on current progress in the field, discusses two main types of protein design algorithms: those based on energy function optimization and those based on deep learning. Finally, we summarize the bottleneck in the field of protein design and discuss the potential directions in this field.
Key words:protein design, energy function, multi-objective optimization, deep learning, protein sequence and structure
蛋白质在维持生物体的生理活动中扮演着不可或缺的角色,也是用于构筑合成生物系统的重要单元.氨基酸序列在生物体中自组织折叠成特定的三维结构,从而实现其生物学功能.蛋白质的这种空间结构由其线性氨基酸序列决定,揭示这一维序列与三维结构之间的内在联系是结构生物学领域长期的挑战.针对特定的功能进行定制设计的蛋白质,开辟了科学研究与工业应用的新领域,在这过程中,识别出能够正确折叠形成目标结构的蛋白质序列变得至关重要.固定主链的计算蛋白质设计是根据已知的蛋白质三维结构预测相应的一维氨基酸序列的过程,它可以被视作蛋白质结构预测的逆过程(由蛋白质序列预测蛋白质的三维空间结构).由于常见的氨基酸有20种,因此一条长度为100的蛋白质序列有20100种序列表达方式.在如此庞大的空间中搜索能折叠成目标结构的氨基酸序列非常困难,这为蛋白质设计算法带来了巨大的挑战[1].
当前计算蛋白质设计的方法主要分为两大类:一是基于能量函数优化搜索的策略,它主要根据文献[2]提出的折叠热力学假说,即蛋白质在生物体内折叠为最低自由能状态,这一状态由氨基酸序列确定;二是基于人工智能的端对端蛋白质设计,这主要得益于深度学习技术的快速发展.在第一类方法中,设计过程往往被看作是一个最优化问题.而在第二类方法中,深度学习作为一种强大的统计和近似工具,通过处理大数据来捕捉复杂的结构与序列的高阶隐含关联关系[3].
在蛋白质设计领域,基于单目标优化的方法存在一些限制,主要是由于单一能量函数精确性有限,难以描述蛋白质的所有可能形态.不同的能量函数对不同的蛋白质结构的适用性具有差异,这就导致了单目标优化方法在特定情下可能会遇到性能瓶颈.因此,基于多目标优化的蛋白质设计方法可以有效地利用不同的能量函数特点以一个整体且全面的角度评估采样的蛋白质序列,这种方法有望能提供更高的准确度和鲁棒性.
通常蛋白质设计包含了固定主链构象的蛋白质设计和可变主链构象的蛋白质设计;其中前者基于固定不变的目标蛋白结构预测生成相应的氨基酸一维序列,后者在符合目标蛋白质结构与功能的范畴下对蛋白质结构与序列进行相互迭代的设计,因此蛋白质结构可以在一定范围内进行变化.文中讨论的蛋白质设计问题主要是固定主链构象的蛋白质设计,如图1.
1 相关蛋白质数据库与方法介绍
在蛋白质结构数据库方面,蛋白质数据库(protein data bank,PDB)是结构生物学和生物信息学领域的一个重要资源,用于存储生物大分子的实验确定的三维结构,主要集中在蛋白质和核酸上[4].PDB中的蛋白质结构数据主要是通过 X 射线衍射,NMR核磁共振光谱学和低温冷冻电镜测定.基于固定主链构象的蛋白质设计算法的目标蛋白通常使用PDB文件格式表示,同时蛋白质设计的效果评估往往离不开结构比对所获得的分数(如模板建模得分[5]和均方差偏差),这一过程也是在PDB文件格式下进行的,因此PDB数据库在蛋白质设计中有着至关重要的位置.
蛋白质二级结构构象参数数据库(dictionary of protein secondary structure,DSSP)[6]是一个用于描述蛋白质二级结构的数据库和计算工具.DSSP定义了蛋白质中可能出现的二级结构元素,包括α-螺旋、β-折叠、β-转角、无规则卷曲、π-螺旋等.它为每个氨基酸残基分配了一个特定的二级结构状态,以便更好地理解蛋白质的结构.DSSP工具可以根据输入的蛋白质三维结构数据,自动计算和分配二级结构状态.
2 基于能量函数优化的蛋白质设计算法
在蛋白质设计的研究领域,固定骨架设计方法的核心是探索那些能够折叠成预定结构的氨基酸序列,被认为是一个对指定能量函数进行优化的过程,其成效依赖于能量函数的精确描述能力以及优化算法寻找最小能量解的有效性.
2.1 蛋白质设计中的能量函数
能量函数是评估蛋白质序列与其目标三级结构匹配程度的关键数学工具.该函数综合考虑了氨基酸序列在空间结构中的多种物理化学相互作用,通过计算不同的能量分量来估算整个蛋白质构象的稳定性.这些能量分量包含键能、静电作用、疏水作用、以及基于大量经验数据得出的统计势能等.每一种能量项都对构象的稳定性做出不同贡献,进而影响整体能量值.
常见的能量函数可以分为两类:基于物理势能的能量函数和基于统计信息的能量函数.前者根据蛋白质分子内的各种物理作用力场建立,用于评估蛋白质分子的结构稳定性.后者往往根据目标蛋白结构特征从蛋白质数据库中统计得到,反应了特定结构下的氨基酸类型分布情况.
FoldX[7]能量项是一种基于物理力场的能量函数,由各种作用力场项组成,公式如下:
f1=w1EVDW+w2ESOLVH+w3ESOLVP+EWB+EHBOND+EEL+EKON+w4ESMC+w5ESSC(1)
式中:w1,w2,…,w5分别为不同的权重;E为不同能量项,依次为范德华力项,疏水项,极性项,双氢键项,氢键项,静电项,额外静电项,主链熵惩罚项,侧链熵惩罚项.
该公式考虑了很多蛋白质内部和相互作用力,例如分子间作用力、静电相互作用力、蛋白质内部能量等.FoldX能量函数可以用来评估蛋白质的稳定性和相互作用的趋势,并在蛋白质设计中提供有用的信息.
Rosetta[8]是一个结合力物理势能与统计信息的能量函数.它是一个多组分能量函数,包含多个项来考虑蛋白质内部和蛋白质-蛋白质相互作用的不同贡献.Rosetta能量函数可以考虑蛋白质在不同环境中的稳定性,包括水相和膜相.它基于统计模拟方法,考虑了大量已知的实验数据以模拟蛋白质的结构,并引入机器学习技术,以提高其预测性能和准确性[6].
EvoEF2(evolutionary optimized function 2)[9]是一种用于分子蛋白质折叠和蛋白质-蛋白质相互作用模拟的分子力场,旨在描述蛋白质的结构和相互作用.它采用了演化优化技术来调整参数,以提高对蛋白质结构和相互作用的描述精度.如同Rosetta能量函数,它结合了物理力场和统计势能两种信息.EvoEF2的公式为:
EEvoEF2=EVDW+EELEC+EHB+EDESOLV+ESS+EAAPP+ERAMA+EROT-EREF(2)
EvoEF2能量函数可以分解为分子间作用力、静电作用力、氢键作用力、蛋白质分子与水分子间作用力、二硫键作用力、基于特定残基键角条件下的氨基酸概率分布、二面角构象项、基于特定主链键角下不同侧链类型的概率分布等.
ABACUS[10]能量函数是一个基于统计信息的能量函数,相比其他传统能量函数加入了基于各残基位置结构属性和残基对之间距离的统计能量项,可以作为以物理力场为主的能量函数的有效补充.ABACUS的能量函数如下:
ESEF(r1,r2,...,rL)=∑Li=1Ei(ri)+∑Li=1∑j in contact with iEij(ri,rj)(3)
式中:L为目标序列的长度;i和j为链上的残基位置;ri为位置上的氨基酸残基类型.ABACUS能量函数不仅考虑了每个氨基酸残基的统计能量项,还考虑了不同氨基酸残基对的联合统计能量项.
ABACUS能量函数通过计算两个不同残基位置下相应的氨基酸对类型的耦合程度,挖掘目标蛋白不同残基位置之间的关系,以及其相应的氨基酸类型的二元联合概率分布,为优化过程提供更多的统计信息从而提升算法的表现.
2.2 蛋白质设计中的优化算法
搜索和采样方法通常分为两类:确定性算法和随机性算法.确定性算法遍历所有的潜在数据,所以当算法完成必然能找到基于能量目标函数的最小值.常用的确定性算法有dead-end elimination(DEE)[11]、分子动力学模拟(molecular dynamic,MD)[12]、马尔科夫随机场(Markov random field,MRF)[13]等.由于蛋白质序列是极其庞大的高维空间,因此确定性算法逐渐在蛋白质设计领域被淘汰.对于针对蛋白质设计优化的这种NP难问题,随机算法是非常合理的选择.在蛋白质设计领域,常用的算法主要是遗传算法(genetic algorithms,GA)[14]、模拟退火算法(simulated annealing)[15]、蒙特卡洛算法(Monte Carlo algorithm)[16].同时根据目标函数的数量,优化算法可以分为单目标优化和多目标优化.与单目标优化不同,多目标优化同时并行优化多个目标,通过多种角度评估样本,被广泛的应用在各类问题.
2.2.1 单目标优化算法
遗传算法是一种启发式搜索和优化算法,灵感来自生物学中的进化过程,如自然选择和遗传.遗传算法用于解决复杂问题,特别是那些如蛋白质设计这种搜索空间巨大且多维的问题,它通过模拟自然进化的过程来寻找问题的最优解或接近最优解.遗传算法的性能往往受到参数设置、种群大小、交叉率、变异率等因素的影响,因而合适的参数选择和调整对于成功应用遗传算法至关重要.
模拟退火算法是一种启发式优化算法,灵感来自于材料加工中的物理退火过程,它的目标是在搜索空间中寻找全局最优解或接近最优解的解决方案,通过引入一个温度参数,温度初始较高使得搜索范围更大更容易跳出局部最优解,随着温度逐渐降低,搜索逐渐收敛至最优解.模拟退火算法的优点是它可以跳出局部最优解,允许全局搜索,且在理论上可以收敛到全局最优解.当前许多主流蛋白质设计算法均采用模拟退火作为搜索策略的一部分,例如RosettaDesign、Evodesign、ABACUS等.
蒙特卡洛算法是一类数值计算方法,通常用于解决复杂的随机性问题和优化问题,其基本思想是通过生成大量的随机样本来估计或模拟概率分布、数值积分、最优解等.在蛋白质设计中,蒙特卡洛算法也有应用,如初始的氨基酸序列在每一轮迭代中都会随机选择主链位置上的残基进行突变,类似蒙特卡洛算法中的一个随机样本,然后可以根据Metropolis[16]原则决定是否接受突变,理论上当迭代次数无穷多时能找到全局最优解.
目前主流方法如RosettaDesign[8]、ABACUS[10]等均结合了蒙特卡洛和模拟退火两种方法[17],旨在解决能量最小化问题或者全局优化问题,尤其适用于氨基酸序列这种复杂多维的空间.该方法能采用并行的方式,多个复制的优化副本在不同的温度模拟下同时进行,每个温度下的系统独立地执行Metropolis蒙特卡洛模拟,以进行状态的随机演化.不同温度的副本之间会周期性地尝试交换状态,这样有助于更充分地探索系统的能量空间.
2.2.2 多目标优化算法
多目标优化策略在多个研究与应用领域获得了广泛地运用,这一策略核心在于不是单一地追求一个优化目标,而是寻求在多个目标之间实现平衡,并行推进.多目标优化问题的定义如下:
minimize F(x)=(f1(x),f2(x),...,fN(x))T
subject to x∈Ω(4)
式中:x为候选解;F(x)为待解决的多目标问题;fi(x)为其中一个目标函数;Ω为可行解空间.在目标函数存在相互冲突时,通常无法找到一个解能同时在所有能量函数上达到最优.因此需要提出一种新的评估方法来平衡不同的能量函数,这里可以定义一种支配关系,对于定义域内任意两个解x1∈Ω,x2∈Ω,其在多个目标函数下的函数值为:
Fx1={f1x1,f2x1,…,fNx1}
Fx2={f1x2,f2x2,…,fNx2}(5)
通常认为x1支配x2(记作x1x2),即x1优于x2,当且仅当满足如下关系:
fk(x1)≤fk(x2) k∈{1,2,…,N}
fk(x1)lt;fk(x2) k∈{1,2,…,N}(6)
当存在一个解x*∈Ω,在定义域中没有任何解可以支配它时,x*就被称为非支配解,也被称为Pareto最优解.所有的Pareto非支配解组成的集合被称为Pareto解集,这些解在目标函数空间中的映射则被称为Pareto边沿[18].因此对于多目标优化问题通常是尽可能地寻找分布广泛的非支配解,广泛的非支配解可以拟合出它的Pareto边沿曲线,非支配解集既需要收敛性也需要多样性.
这些非支配解通常使用一个存档储存起来,被存储的个体在算法具体的选择和决策过程中可能会以不同的方式被使用.存档主要储存了算法各个迭代中生成的所有全局非支配解,同时舍弃了局部支配解.当算法结束时,存档的所有解即Pareto解集.存档的尺寸可能是固定的或者动态变化的.
多目标优化算法总体可以分为两大类:进化型(evolutionary)和群体型(swarm).除了这两类,有部分算法将二者结合起来属于混合型.进化算法利用自然演化的概念,允许在单次执行中生成一组权衡后的解,并且在找到解决方案时需要更少的计算资源.群体算法是在一个种群基础上不断进行迭代,算法从种群中一个随机的个体开始,为了发现最佳值,这些个体被进化和修改迭代许多次.混合算法结合了两种方法的优势,增强了所得到的Pareto最优解的多样性和收敛性,可以通过多种方式实现.
2.3 基于能量函数优化的蛋白质设计算法
2.3.1 基于单目标优化的蛋白质设计算法
RosettaDesign[8]是一种从头蛋白质设计算法,它使用Rosetta能量函数作为优化目标,结合蒙特卡洛和模拟退火进行优化初始的氨基酸序列.RosettaDesign将目标蛋白上的每个氨基酸位置划分为不同的类,划分方法根据残基位置所对应的局部结构属性所确定,例如溶剂可及面积,二面角,二级结构等,从而降低氨基酸序列的搜索难度.RosettaDesign从几个随机生成的氨基酸序列开始并行的优化,优化迭代完成后从5个不同的优化路径中挑选出能量最低的氨基酸序列进行输出.
ABACUS[10]提出一个专为从头蛋白质设计而构建的基于统计的能量函数.它采用基于Metropolis准则的蒙特卡洛模拟退火算法进行完整序列的从头蛋白质设计,并对所得设计进行理论和实验的验证.ABACUS的主要特点在于其提出的完全基于统计信息的能量函数SEF,不同于其他主要基于物理力场的能量函数,SEF充分地利用了在PDB数据库中获得的针对目标蛋白在每个残基位置以及两两残基对的结构与氨基酸类型的概率分布信息,基于这一概率分布信息对搜索的氨基酸序列进行评估,这种统计信息主要是希望设计出的蛋白质序列在局部结构上与目标蛋白结构有着较高的拟合度.
2.3.2 基于多目标优化的蛋白质设计算法
蛋白质设计算法的性能在很大程度上依赖于所使用的能量函数的准确性.目前的挑战在于,单一能量函数往往无法全面捕捉蛋白质的多样性和复杂性.这种局限性导致了在蛋白质设计过程中对某些特性的过度优化,而往往忽略了其他可能同等重要的特性.多目标优化通过同时考虑多个评价标准,有助于平衡这些交互作用,并避免过度专注于单一属性,从而可能产生更加全面和平衡的解决方案.
文献[19]提出一种基于多目标优化算法的蛋白质设计方法,使用了两种能量函数,分别是蛋白质折叠自由能函数和蛋白质-四面体中间体复合物与未结合状态之间的自由能势垒.它首先用权重系数将两种能量函数串联起来作为一个能量函数进行传统的模拟退火算法优化,但在优化的过程中权重系数会逐渐变化以调整两种能量函数所占据的比例.同时在整个迭代过程中,除了考虑优化串联后总的能量函数以外,还会保存过程中产生的非支配解,整个过程相比单目标优化并没有太多额外的计算成本.
文中提出了一种基于多目标优化的蛋白质设计算法—Hydra[20],采用两个能量函数,分别是FoldX和EvoEF.一个侧重于物理力场保证蛋白质结构的稳定性和折叠性,另外一个侧重局部结构的统计信息,从频率统计上期望设计的蛋白尽可能的符合自然界蛋白质的规律.它首先将目标蛋白结构与裁剪过后的PDB数据库中的蛋白质结构进行逐一比对得出目标蛋白序列的关于结构信息的打分矩阵.之后在DSSP数据库中寻找与目标蛋白在局部结构上相似的残基类型,获得相应的结构与氨基酸类型的统计信息.利用这两个统计信息将原有的氨基酸序列空间转变为连续的量化空间,然后使用多目标粒子群优化算法在变换后的量化空间中对两个能量函数进行并行优化.算法结束后对储藏的非支配解按照收敛性和分散度综合进行排序,输出最终的氨基酸序列.Hydra使用统计的先验信息将一个高维离散优化问题转化为高维连续优化问题,一方面可以便捷地使用各种连续优化算法进行序列的搜索,另一方面空间的变换将稀疏分布的最优解集中在一个小范围区域内,因此算法更容易获得优质的非支配解.Hydra设计的序列经过湿实验验证,多个属于不同折叠类型的蛋白能够正确表达,并且拥有与目标结构拟合度很高的二级结构比例和稳定的三级结构.
3 基于人工智能方法的蛋白质设计算法
尽管基于能量函数优化的蛋白质设计方法取得了巨大的成功,但算法的效果很大程度上受制于能量函数的精确度,因此依然有许多提升的空间.近些年随着蛋白质数据库信息的不断增加,基于数据推动的人工智能算法越来越多的被应用在蛋白质设计算法[21].
基于深度卷积网络的蛋白质设计方法受到较广泛关注,卷积神经网络(convolutional neural networks,CNN)特别适合于处理具有网格结构的数据,如图像和声音.它的主要结构特点是卷积层和池化层,在蛋白质设计算法中,卷积层可以对蛋白质残基间距离图进行变换提取特征,池化层则通过降采样的方式降低数据的空间尺寸,在减少计算资源耗费的同时有效控制过拟合.如ProDCoNN[22]将蛋白质三维原子结构用边长为18 的网格划分后作为输入特征,使用每个残基位置周围的三级结构环境作为输入特征来预测残基类型,卷积层将目标蛋白中的局部结构信息如扭转角、共价键信息等转化为特征图,通过池化层等运算,最后输出每个残基位置的氨基酸类型概率分布.
近年来,基于图神经网络的蛋白质设计正逐渐受到重视.图模型很适合用来表示蛋白质设计中残基之间的关系.在一个基本的图中,每个节点或顶点对应一个残基,两个残基之间存在一条边的连接当且仅当两个残基之间的空间距离在一定的阈值内,这类图等同于蛋白质的接触图(contactmap).当氨基酸之间的联系较少时(由一个小的距离阈值决定),图模型用来表示蛋白质结构具有明显的优势.对于一个稀疏的图(较少的边),它的计算效率明显高于常规的包含所有两两残基间距离的分布图.接触图通常较为稀疏,因为每个残基的接触数目被限定在一定范围,而且图的顶点和边通常可以包含除了氨基酸类型和欧式距离以外更多的特征信息.这种带注释的图可以由专门的图神经网络(graph neural network,GNN)结构进行处理.
图模型非常适合捕获空间近邻信息,但它们缺乏像素上的CNN那样捕获精细几何信息的能力.最直接的方式来表示一个蛋白质结构可以是作为一个点云(pointcloud),即其构成部分的所有三维坐标的列表,这与PDB文件非常相似.这些密集的信息可以被过滤,仅保留Cα碳原子的坐标,或可以保留所有(重)原子的表示[23-24].这些点接着可以作为图中的节点,并因此可以被类似GNN的架构处理,例如MimNet[25]等.
文献[26]提出基于几何向量感知器(geometric vector perceptron,GVP),它可以发挥多层感知器(multi-layer perceptron,MLP)的作用.该模型将每个氨基酸骨架的所有原子间的标准化距离作为节点特征;同时考虑每个氨基酸的Cα与其35个最近邻氨基酸的Cα之间的距离作为边特征.经过这些特征的编码,它们被整合到GNN模型中.模型的输出是序列中的氨基酸类型,适用于基于能量函数的蛋白质设计.文献[27]等采用了深度的SE(3)等变图Transformer模型,直接处理源于蛋白质主链结构的特征,旨在预测每一残基的氨基酸种类与其侧链构象.其所用的局部感知图Transformer结构考虑了蛋白质主链的空间几何信息,集中注意力于空间上紧邻的残基对.这些信息连同蛋白质主链坐标被送入张量融合网络(tensor fusion network,TFN)来输出标量和残基的空间位置.随后,TFN-Transformer对每一输入的残基进行侧链构象和氨基酸种类的生成.在评估过程中,该方法测试了5种不同的残基掩蔽策略,并详细探讨了损失函数、网络结构和模型超参数对结果的影响.实验结果显示,模型中的TFN-Transformer层对恢复率的影响尤为显著.
相较于CNN方法,图模型无需独立处理每个残基周围的结构特征,一定程度上减少了数据规模提高了训练效率.GNN能够正确处理氨基酸序列的长短程相互作用,更加充分地提取目标蛋白结构的特征信息,从而提升算法的表现.
4 结论
蛋白质设计中基于能量函数优化方法的有效性极大依赖于能量函数本身的准确度.尽管多种能量函数被开发用于映射蛋白质结构与序列间的复杂关系,但它们通常仅覆盖了蛋白质特性的一部分,并不能全面准确地预测不同蛋白的结构或功能.许多方法如Rosetta和ABACUS等将物理能量函数和统计能量函数使用权重系数串联成一个新的能量函数,这样在一定程度上可以结合二者的优点[28].但这种方法首先对参数的选取非常敏感,其次对于不同的目标蛋白结构系数并非总是最优解,因此它需要根据不同的环境进行调整,但这种调整需要耗费大量的时间进行尝试.对于这个问题,潜在的方法是收集目前精度较高的各种能量项,包括基于物理力场方法的和基于统计方法的,甚至可以根据准确率较高的深度学习模型输出的氨基酸概率分布生成交叉熵能量函数项,然后将这些不同的能量项根据它们的相关性进行聚类(目的是更准确的选取参数),并使用参数将这几类能量项串联起来,然后通过优化这些参数生成一个更为准确的能量函数.采用多目标优化的策略能够在一定程度上缓解单一能量函数可能存在的局限性,它可以平衡搜索的方向,同时一定程度能防止过早陷入局部最优解,可以尽可能多的保留潜在的最优解,多个能量函数同时优化的方式也可以期望设计的序列在多个指标上都有着不错的表现,从而增强设计的可靠性.因此如前所述的聚类后的不同能量项,也可以使用多目标优化的方式并行优化它们,由于经过聚类后的能量函数彼此相关程度较低,降低了函数间的冗余性,从而进一步地可以提升多目标优化的效果.
基于深度神经网络的蛋白质设计算法的性能高度依赖于数据量规模和注释准确度.对于深度神经网络模型来说,充足的数据是模型准确和泛化能力的基本条件,随着深度学习算法技术的不断进步,基于深度学习的蛋白质设计预期将有很大的发展空间,未来的探索方向之一是考虑将图神经网络和卷积神经网络结合起来,图神经网络抽取蛋白质分子的空间特征,卷积神经网络则利用氨基酸序列之间的局部相关性.或者考虑蛋白质分子的全局特征,通过信息传递方式得到每个残基位置周围节点传输的信息,利用这些信息进行节点的更新,同时利用多头注意力机制,学习不同节点间的重要性.还可以将深度学习方法与能量函数优化方法结合起来,深度学习模型具有快速高通量的特点,将它生成的大量序列使用能量函数进行评估.反过来也可以在基于能量函数的优化过程中使用深度学习模型的信息引导优化的方向或者评估序列,多目标的优化方法可以将深度学习模型训练的函数作为能量函数和其他能量函数同时进行优化,这样可以提升算法的效果.融合深度学习网络的多目标优化方法将来是蛋白质设计领域一个充满潜力的方向,有望为进一步的基于功能和特定结构的蛋白质设计及其应用提供新的思路和实现途径.
参考文献(References)
[1] LIU Y, ZHANG L, WANG W, et al. Rotamer-free protein sequence design based on deep learning and self-consistency[J]. Nature Computational Science, 2022,2(7):451-462.
[2] ANFINSEN C B. Principles that govern the folding of protein chains[J]. Science, 1973,181(4096):223-230.
[3] FERRUZ N, HEINZINGER M, AKDEL M, et al. From sequence to function through structure: Deep learning for protein design[J]. Computational and Structural Biotechnology Journal, 2022,21:238-250.
[4] SUSSMAN J L, LIN D, JIANG J, et al. Protein Data Bank (PDB): Database of three-dimensional structural information of biological macromolecules[J]. Acta Crystallographica Section D: Biological Crystallography, 1998,54(6):1078-1084.
[5] ZHANG Y, SKOLNICK J. Scoring function for automated assessment of protein structure template quality[J]. Proteins: Structure, Function, and Bioinformatics, 2004,57(4):702-710.
[6] LEVITT M, GREER J. Automatic identification of secondary structure in globular proteins[J]. Journal of Molecular Biology, 1977,114(2):181-239.
[7] SCHYMKOWITZ J, BORG J, STRICHER F, et al. The FoldX web server: An online force field[J]. Nucleic Acids Research, 2005,33:382-388.
[8] KUHLMAN B, DANTAS G, IRETON G C, et al. Design of a novel globular protein fold with atomic-level accuracy[J]. Science, 2003,302(5649):1364-1368.
[9] HUANG X, PEARCE R, ZHANG Y. EvoEF2: accurate and fast energy function for computational protein design[J]. Bioinformatics, 2020,36(4):1135-1142.
[10] XIONG P, WANG M, ZHOU X, et al. Protein design with a comprehensive statistical energy function and boosted by experimental selection for foldability[J]. Nature Communications, 2014,5:5330.
[11] DESMET J, MAEYER M D, HAZES B, et al. The dead-end elimination theorem and its use in protein side-chain positioning[J]. Nature, 1992,356(6369):539-542.
[12] KARPLUS M, PETSKO G A. Molecular dynamics simulations in biology[J]. Nature, 1990,347(6294):631-639.
[13] CLIFFORD P. Markov random fields in statistics[J]. Disorder in physical systems: A volume in honour of John M. Hammersley, 1990:19-32.
[14] LAMBORA A, GUPTA K, CHOPRA K. Genetic algorithm—A literature review[C]∥2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon). Faridabad, India: IEEE, 2019:8862255.
[15] BERTSIMAS D, TSITSIKLIS J. Simulated annealing[J]. Statistical Science, 1993,8(1):10-15.
[16] KIKUCHI K, YOSHIDA M, MAEKAWA T, et al. Metropolis Monte Carlo method as a numerical technique to solve the Fokker—Planck equation[J]. Chemical Physics Letters, 1991,185(3/4):335-338.
[17] KANNAN S, ZACHARIAS M. Simulated annealing coupled replica exchange molecular dynamics—An efficient conformational sampling method[J]. Journal of Structural Biology, 2009,166(3):288-294.
[18] VAN VELDHUIZEN D A, LAMONT G B. Evolutionary computation and convergence to a pareto front [C]∥Late Breaking Papers at the Genetic Programming 1998 Conference. USA:Citeseer, 1998.
[19] SUAREZ M, TORTOSA P, CARRERA J, et al. Pareto optimization in computational protein design with multiple objectives[J]. Journal of Computational Chemistry, 2008,29(16):2704-2711.
[20] LI R, ZHANG N, WU B, et al. Multiobjective heuristic algorithm for de novo protein design in a quantified continuous sequence space[J]. Computational and Structural Biotechnology Journal,2021,19:2575-2587.
[21] EISENSTEIN M. AI-enhanced protein design makes proteins that have never existed[J]. Nature Biotechnology, 2023,41:303-305.
[22] ZHANG Y, CHEN Y, WANG C, et al. ProDcoNN-protein design using a convolutional neural network[J]. Biophysical Journal, 2020,118(3):43-44.
[23] FERRUZ N, HCKER B. Controllable protein design with language models[J]. Nature Machine Intelligence, 2022,4(6):521-532.
[24] FERRUZ N, SCHMIDT S, HCKER B. ProtGPT2 is a deep unsupervised language model for protein design[J]. Nature Communications, 2022,13(1):4348.
[25] ELIASOF M, BOESEN T, HABER E, et al. Mimetic neural networks: A unified framework for protein design and folding[J].Frontiers in Bioinformatics,2022,2:715006.
[26] JING B, EISMANN S, SURIANA P, et al. Learning from protein structure with geometric vector perceptrons[C]∥International Conference on Learning Representations. Vienna, Austria:ICLR,2021.
[27] MCPARTLON M, LAI B, XU J. A deep SE (3)-equivariant model for learning inverse protein folding[J]. bioRxiv, 2022, preprint bioRxiv:20220311.483812.
[28] 陈志航, 季梦麟, 戚逸飞. 人工智能蛋白质结构设计算法研究进展[J].合成生物学,2023,4(3):464-487.
(责任编辑:曹莉)