人工智能辅助的蛋白质稳定性优化
2024-05-20李瑞赵阳张晗杨广宇
李瑞 赵阳 张晗 杨广宇
摘 要 蛋白质药物具有作用机制清晰、作用特异性强、不良反应少等优势,临床应用前景巨大。蛋白质的稳定性是蛋白质药物的一项非常重要的指标,对于其成药性、安全性和有效性都至关重要。近年来,人工智能辅助的蛋白质改造工程逐渐发展成为一种高效的蛋白质分子设计新策略,并被广泛应用于蛋白质稳定性预测、药物设计和抗体优化等方面。本文介绍主要的人工智能辅助的蛋白质稳定性优化方法,讨论不同种类优化方法的优劣及其在蛋白质药物设计和优化中的应用,探讨人工智能在蛋白质稳定性设计中的挑战和前景,以期为研究者们开发更稳定、更高效的蛋白质药物提供新的思路。
关键词 人工智能 蛋白质稳定性 蛋白质药物
中图分类号:TP399; Q819 文献标志码:A 文章编号:1006-1533(2024)07-0010-06
引用本文 李瑞, 赵阳, 张晗, 等. 人工智能辅助的蛋白质稳定性优化[J]. 上海医药, 2024, 45(7): 10-15; 75.
基金项目:国家自然科学基金资助项目(32030063);国家自然科学基金青年科学基金资助项目(BC0800411);广东省重点领域研发计划资助项目(2022B1111050001)
Artificial intelligence-assisted protein stability optimization
LI Rui1, ZHAO Yang1, ZHANG Han1, YANG Guangyu1, 2
(1. State Key Laboratory of Microbial Metabolism, Shanghai Jiao Tong University School of Life Science and Biotechnology, Shanghai 200240, China; 2. Institute of Key Raw Materials, Shanghai Academy of Experimental Medicine, Shanghai 200240, China)
ABSTRACT Protein drugs have the advantages of strong targeting, clear mechanism of action and fewer adverse reactions, so they have great application prospects in clinic. The stability of protein is one of the most important properties of protein drugs, which is crucial for drugs efficacy, safety and stability. In recent years, protein engineering assisted by artificial intelligence (AI) has been developed into an efficient strategy for protein molecular design, and has been widely used in protein stability prediction, drug design and antibody optimization. In this paper, we introduce several major methods of AI-assisted protein stability optimization, discuss their advantages and disadvantages and their applications in protein drug design and optimization. We also discuss the challenges and prospects of AI in protein stability design. We hope this paper will provide new ideas for researchers to develop more stable and efficient protein drugs.
KEY WORDS artificial intelligence; protein stability; protein drugs
蛋白質药物是指以蛋白质为活性成分的药物,主要包括单克隆抗体、重组蛋白、抗体-药物结合物、融合蛋白和重组蛋白疫苗等,具有高特异性、高有效性和较低毒副作用的特点。蛋白质药物已广泛用于治疗癌症、自身免疫性疾病、心血管疾病、糖尿病、神经系统疾病等,其市场规模在过去几年中持续增长,2020年仅单克隆抗体药品的全球销售额就达到1 250亿美元,占当年全球药品总销售额的15%。蛋白质的稳定性是限制蛋白质药物发展的主要瓶颈之一。开发具有高度稳定性的蛋白质药物对于确保药物的质量、药效、安全性和方便临床使用都具有重要意义[1]。
传统的蛋白质稳定性优化方法主要包括定向进化、半理性设计和理性设计等,它们都已广泛应用于蛋白质的稳定性工程[2-3]。随着计算机技术和人工智能算法的不断发展,人工智能方法也开始应用于蛋白质工程,并逐渐发展成为一种新的蛋白质稳定性改造方法[4-6]。相较于传统的蛋白质稳定性改造方法,人工智能辅助的蛋白质稳定性工程的优点是不需要了解目标蛋白质分子的作用机制和三维结构等信息,也不依赖对突变体文库的高通量筛选方法,故可有效减轻实验筛选负担,提高蛋白质分子改造效率[7-8]。此外,人工智能方法可以学习突变体的不同特征,从数据中学习整个蛋白质适应性景观来避免陷入局部最优陷阱[9-10]。因此,通过人工智能辅助的蛋白质稳定性优化策略,有望基于有限数量的实验数据来有效设计最具稳定性的突变体,此具有非常重要的科学和现实意义。目前,研究者们已开发出多种人工智能模型,这些模型根据学习方式可分为监督学习模型和无监督学习模型,也可根据算法类型分为回归模型和分类模型等。在面对如此繁多的模型时,如何选择适合特定任务的模型成为关键问题。本文介绍不同人工智能模型在蛋白质稳定性优化方面的应用及其优缺点,总结人工智能模型在抗体药物和药物合成相关酶稳定性优化方面的应用成果。
1 人工智能辅助的蛋白质稳定性优化方法
人工智能是指通过计算机系统模拟人类智能的能力,这种智能包括理解语言、学习、推理、感知、解决问题和自适应等方面的能力,目的是让计算机系统能够执行需要人类智能才能完成的任务。人工智能应用于蛋白质稳定性优化的方法主要依赖机器学习和深度学习算法。机器学习是人工智能的分支领域,其目标是通过使用算法和统计模型,让计算机系统从数据中学习并提高性能,主要算法包括偏最小二乘回归、支持向量机、决策树/随机森林、贝叶斯优化、变分自编码器和神经网络等。深度学习是机器学习的一种特殊形式,其试图模仿人类大脑的神经网络结构及其工作原理,通过构建多层神经网络来学习复杂的特征和模式,常用算法包括卷积神经网络(convolutional neural network, CNN)、循环神经网络、长短时记忆网络、自编码器、生成对抗网络等。根据上述算法搭建的模型可以分为监督学习模型和无监督学习模型。监督学习模型的特点是在训练阶段使用带有标记的数据集进行学习,通过让模型学习输入数据和对应的输出标记之间的关系,使模型能够对新的、未见过的输入数据进行准确的预测或分类。无监督学习模型的特点是在训练阶段使用不带标记的数据集进行学习,让模型自主在数据中发现内在的结构、模式或规律,而不依赖于预先标记的输出[11]。基于不同机器学习算法建立的人工智能模型,根据其在蛋白质稳定性优化方面的应用范围不同,可主要分为如下4类。
1.1 基于氨基酸物理化学特征的建模
基于氨基酸物理化学特征的建模是利用氨基酸的物理化学性质来预测蛋白质的性质或行为,将氨基酸的物理化学特征(如氢键、疏水效应等)作为输入特征,通过机器学习模型学习这些特征与蛋白质稳定性之间的关系。例如,AAindex利用547个氨基酸物理化学指标来表示氨基酸残基[12];VHSE给出了20个氨基酸的总共50个物理化学变量,并使用主成分分析方法进行降维,最终得到八维的氨基酸向量表示[13]。相似的还有z-Scales[14]、BLOSUM[15]等。将此类表示与机器学习算法相结合,Chen等[16-17]开发出2种用于核酸和蛋白质序列分析、预测和可视化的综合机器学习平台iLearn和iLearnPlus,这2种平台集成了12种分类算法、2种集成学习框架和7种深度学习方法用于预测任务,提供19种主要的编码方案(生成147个特征描述符)用于全面的特征提取,并有能够适用于具有不同计算机专业知识用户的特点。
基于氨基酸物理化学性质的模型能够捕捉氨基酸分子间的物理化学相互作用及其特性,这种方法不需要复杂的实驗数据,容易上手,通常与生物化学和生物物理学的理论基础相对应,使人更容易解释和理解模型在蛋白质研究中的作用和意义。但此类模型通常会对氨基酸的性质进行简化处理,从而忽略更复杂的分子结构及其相互作用,损失部分原始信息。
1.2 基于蛋白质序列或结构的建模
早期基于蛋白质序列建模的主要原理是将20种氨基酸表示为不同维度的向量,通过不同氨基酸向量拼接组合来表示蛋白质序列,再与机器学习算法相结合,用于预测蛋白质的稳定性,如One-hot[18]、Binary[19]和Identity[20]。随着蛋白质序列数据库的不断扩大,机器学习模型能够通过对大量蛋白质序列进行保守性分析来更全面地理解蛋白质序列与稳定性的关系。例如,Benevenuta和Pancotti等[21-22]基于CNN,将突变邻近氨基酸的局部信息作为输入,开发出ACDC模型;Montanucci等[23]使用非线性回归结合进化信息和统计潜力预测,开发出DDGun模型。
随着结构生物学技术的进步,基于蛋白质序列的模型被广泛应用于蛋白质工程。例如,Bagley等[24]在Feature方法的基础上,将每个氨基酸的局部结构先分解为氧、碳、氮和硫通道,然后再将由每种原子类型通道得到的三维位置矩阵堆叠在一起,从而产生四维张量,以此作为模型的输入[25]。Shroff等[26]优化了三维CNN方法,增加了成对电子、氢键网络、溶剂可及性等信息,开发出网页版的程序Mutcomputer。由于蛋白质序列数据的获取相对容易,这使得基于蛋白质序列模型的开发和应用比较广泛,模型也更加易被理解和解释。蛋白质晶体结构包含了蛋白质的空间信息、相互作用信息等。因此,基于蛋白质结构的模型在预测蛋白质特性方面具有较高的准确性。然而,基于蛋白质序列或结构的描述符往往具有高维性,而对于特定任务,很难先验地知道哪种属性可以预测特定的任务。
1.3 数据驱动的方法
由于二代测序技术的高通量性和低成本性,蛋白质序列数据库中的数据已达上亿条,这些数据中隐藏着蛋白质氨基酸排列和进化的规律[27]。AlphaFold2是一种深度学习模型,其能以极高的准确度根据蛋白质序列预测蛋白质三级结构[28]。蛋白质序列和结构数据的扩展推动了蛋白质序列表示方法的发展和深度学习模型在蛋白质工程中的应用。
数据驱动的方法利用大量已知的蛋白质数据集,通过学习蛋白质特征与稳定性之间的关系,对未知蛋白质的稳定性进行预测。例如,UniRep模型系在一个大型未标记的蛋白质序列数据集上训练,利用循环神经网络学习提取蛋白质的基本特征,包括生物物理、结构和进化信息,从而形成一个整体的统计表示[29]。通过学习特定任务的局部蛋白质序列信息的eUniRep模型拥有能较UniRep模型更准确地预测蛋白质稳定性的能力[30]。DeepMind在Transformer架构[31]的基础上,开发了TAPE模型用于处理蛋白质序列数据[32],这个模型能够同时考虑输入序列的所有位置,而不需要像传统的循环神经网络或CNN那样依次处理序列中的每个元素。相似的MSATransformer模型通过对编码数据库中2 600万条同源蛋白质的多重序列比对来学习蛋白质序列在进化过程中的约束信息[33]。Facebook团队使用来自Uniref90数据集的0.98亿条具有进化多样性的蛋白质序列数据训练了一个具有6.5亿个参数量的Transformer架构ESM-1v模型,该模型在4个深度突变扫描数据集上进行了zero-shot零样本评估并达到了超过基线的水平[34]。类似的还有EVmutation[35]、DeepSequence[36]、ECNet[10]、SESNet[37]等模型。
最近,基于大模型的蛋白质从头设计方法也被应用于蛋白质稳定性优化。这是一项涉及计算方法和实验验证的复杂任务,它允许精确地定制蛋白质的结构和功能,以满足特定的应用需求,如药物设计、生物催化等;也能拓展已知的蛋白质结构空间,创造出在自然界中不存在的新颖蛋白质结构,从而提供新的功能。例如,Ferruz等[38]开发的ProtGPT2模型。Madani等[39]以包含2.8亿条独特的蛋白质序列数据进行训练,这些蛋白质序列与生物过程、分子功能和分类信息相关的10多个标记相关联,开发了ProGen模型。Baker团队使用trRosetta结构[40]预测神经网络,设计出一种全新的荧光素酶,后者具有高活性和高特异性[41]。此外,ESMIF1[42]、ESMFold[43]、ProteinMPNN[44]等模型也被应用于蛋白质从头设计以改善蛋白质的稳定性。
数据驱动的方法能够根据不同的数据集和任务自动调整模型参数和结构,具有较强的灵活性和适应性,通过以大规模数据集的训练、分析和学习,数据驱动的模型有可能发现隐藏在数据背后的潜在模式和规律,从而提高模型的准确性和泛化能力,最终提供更加准确的预测和决策。但此类模型往往需要经过大规模数据集的训练,模型的性能很大程度上取决于训练数据的质量和完整性,如果数据存在噪声、缺失或偏差等问题,模型的准确性和稳定性会受到很大影响,且模型在训练过程中很容易出现过度拟合,导致模型在新数据上的泛化能力较差,从而出现预测偏差的情况。
1.4 遷移学习
迁移学习旨在利用在一个任务上学到的知识来改善对新任务的学习性能。此类模型利用已有的蛋白质稳定性数据集,将已学到的知识应用到新的蛋白质稳定性预测任务中,以提高模型的泛化能力。通过迁移学习,原有数据的先验知识被整合到当前的建模任务中,进一步的训练称为微调,微调过程中原有模型的参数可保持不变,也可被进一步更新(可看作是在源模型所提取的特征之上构建了一个独立的新模型)。与使用随机初始化的参数从头开始训练的模型相比,迁移学习的训练过程能更快地收敛,且所需数据量更少[45]。例如,Chen等[46]提出了一种利用突变结构和进化背景的GVP-MSA模型,该模型通过学习不同蛋白质的适应度景观,能有效评估目标蛋白质的突变稳定性。Pandi等[47]先使用来自UniProt的约150万条多肽序列作为通用数据集对基于变分自编码器算法的机器学习模型进行预训练,然后使用约有5 000个已知抗菌肽的数据集对预训练模型进行训练,最后利用所得模型从头设计了数千种抗菌肽,筛选出排名靠前的500种抗菌肽,再结合无细胞生物合成体系进行筛选,鉴定出30种功能性多肽,并通过分子动力学模拟、抗菌活性和毒性进行了表征,最终鉴定出6种具有抗多药耐药病原体广谱活性的新型抗菌肽。Bepler等[48]使用语言模型从大量蛋白质序列数据库中提取信息,并引入一种将蛋白质结构知识编码到学习表征中的方法搭建了MTLSTM模型。该模型可根据提供的蛋白质序列,解码蛋白质的每个位置是否存在跨膜区域。Bepler等[48]还证明了能够通过迁移学习来准确地预测蛋白质序列微小变化的功能含义,提高了对蛋白质从序列到表型的预测能力。
迁移学习模型的数据效率高,尤其是在目标领域数据稀缺或难以获取的情况下表现突出,同时可以提高对目标领域的泛化能力和学习效果,使模型更好地适应新的任务或数据。相对于从零开始训练的模型,迁移学习能够大大减少训练时间和降低成本,提高模型的开发效率。但迁移学习的有效性是建立在源领域和目标领域存在相关性或相似性的假设上的,如果这两领域间的差异较大,迁移学习就可能失效。在某些情况下,迁移学习还可能导致负迁移问题,即源领域的知识对目标领域的学习效果产生负面影响,从而降低模型的性能。综合来看,迁移学习模型在数据稀缺、数据效率低的情况下具有明显优势,但也需要注意领域假设、负迁移问题和领域适应困难等挑战,应合理选择迁移学习方法并结合具体情况进行调优和改进。
2 人工智能在蛋白质稳定性工程上的应用
人工智能在蛋白质稳定性工程上的应用日益受到关注。研究发现,某些单克隆抗体药物虽然在体外试验中表现出有良好的活性,但在临床试验阶段却发现存在体内活性降低的问题[49]。因此,在药物研发的初期就要兼顾药效学问题,而抗体药物的稳定性是影响抗体药效学的关键因素之一:首先,抗体的高亲和力和高特异性都需要以稳定的结构为基础,这是其产生预期生物学功能的根本保障;其次,抗体的稳定性越高,其新生肽链在细胞内装配时产生错误折叠的概率就越低,可溶性表达量也越高[50-51]。
虽然旨在提高蛋白质药物稳定性的新技术或手段较多,但目前仍以物理和化学两种策略为主。其中,物理策略主要通过改变剂型或调整缓冲液组分来达到提高蛋白质稳定性的目的,化学策略则主要是通过对蛋白质结构进行修饰来达到蛋白质稳定的目的。最近,有研究者通过结合不同的深度学习方法来设计抗体高度可变的互补决定区的序列和结构,以增强抗体的功能或某些特性,包括溶解度、聚集倾向、稳定性和免疫原性等,这些性能对确保抗体能够制造和临床应用至关重要。例如,Villegas-Morcillo等[52]开发的DiffAb模型允许在考虑抗体溶解度和折叠稳定性等关键属性的同时,根据抗原结构条件化地设计抗体的互补决定区,从而增强抗体的稳定性。Mason等[53]基于CNN开发了一种深度学习方法,利用已获准上市的曲妥珠单抗作为对照,搜索了包含7 200万条潜在抗体DNA序列的数据库,对经过计算优化的候选抗体变体序列进行实验表征,确定了高亲和力、高表达力、高热稳定性和去免疫化的抗体变体,并分析了前10种具有最高亲和力的抗体变体的可表达性、热稳定性和免疫潜力,发现这些抗体变体的热稳定性都与曲妥珠单抗相当或更好,而稳定的抗体变体可大大降低免疫原性的风险。Hie等[54]报告了一种能够利用通用蛋白质语言模型高效演化人类抗体的方法,该方法通过提出在进化上是合理的突变来改进抗体性能,结果将4种临床相关的高度成熟抗体的结合亲和力提高了7倍,将3种未成熟抗体的结合亲和力提高了160倍,且许多设计还展现出有良好的热稳定性和活性。
人工智能模型也已应用于酶的热稳定性优化。酶是一类重要的生物催化剂,许多酶在药物合成中也有着广泛的应用。热稳定性高的酶不仅可以扩展其在医药领域的应用范围,而且还有助于提高生产效率、降低生产成本。例如,谷氨酰胺转氨酶可以催化氨基酸和α-酮酸之间的转氨反应,从而合成手性胺类化合物。谷氨酰胺转氨酶也可用于合成一系列具有生物活性的分子,包括药物候选化合物、生物标志物等。Wang等[55]开发了一种自动化脚本,结合分子动力学模拟,使谷氨酰胺转氨酶的热稳定性和催化活性得到显著提高,其中热稳定性较已报告的最高水平提高4.8倍。羰基还原酶是一类在生物体内广泛存在的酶,其可作为生物催化合成过程中的催化剂,参与对手性底物的还原反应;也能将药物结构中的酮基、羰基等官能团还原为羟基官能团,形成药物的代谢产物。Xu等[56]使用计算工具FoldX、I-Mutant 3.0和DeepDDG成功预测了羰基还原酶LsCRM4柔性位点突变引起的稳定性变化,并证实12种虚拟筛选的突变体具有热稳定性,其中11种突变体具有高热稳定性。乳酸脱氢酶可以催化酒石酸盐与烟酰胺腺嘌呤二核苷酸之间的氧化还原反应,将酒石酸盐还原为对映异构体的乳酸,这种反应是手性醇合成的关键步骤之一,在药物合成中应用广泛。Zhou等[57]使用基于蛋白质晶体结构的人工智能方法提高了乳酸脱氢酶的热稳定性。
3 结语与展望
蛋白质稳定性优化是生物药物研发中的一项关键工作,直接关系到药物的有效性、安全性和市場竞争力。近年来,人工智能辅助的蛋白质稳定性改造工程逐渐发展成为一种高效的蛋白质分子设计新策略,并在蛋白质药物设计及其优化中得到广泛应用。使用人工智能的方法,能在大规模样本中快速识别出具有高稳定性的蛋白质药物候选物,从而加速研发进程;也可更有针对性地测试最有希望的变体,降低试错成本,提高研发效率。
然而,人工智能模型的应用也存在一些缺点,如模型往往需要大量高质量的数据进行训练,迁移学习方法并不一定适用于所有小规模数据集预测模型的构建等。目前已见报告的模型一般是基于数据库中已有的数据进行训练和评估,而并未在特定的蛋白质稳定性优化任务中进一步验证现有模型的鲁棒性。另外,当前蛋白质热稳定性数据库还存在数据量有限、实验条件不统一、数据不平衡和缺少多点突变数据等问题。预期不久的将来可能会有更精确和更高效的计算方法应用于蛋白质稳定性优化及药物筛选,由此出现更准确的预测模型,且其能够基于有限的实验数据有效探寻蛋白质的适应性景观,从而准确预测全局最优突变体,推动蛋白质稳定性改造及药物研发技术的发展。
参考文献
[1] 张晓腾, 韩建军, 白燕. 蛋白类药物强制降解研究进展[J].生物技术进展, 2022, 12(2): 236-242.
[2] Magliery TJ. Protein stability: computation, sequence statistics, and new experimental methods [J]. Curr Opin Struct Biol, 2015, 33: 161-168.
[3] Socha RD, Tokuriki N. Modulating protein stability—directed evolution strategies for improved protein function [J]. FEBS J, 2013, 280(22): 5582-5595.
[4] Siedhoff NE, Schwaneberg U, Davari MD. Machine learningassisted enzyme engineering [J]. Methods Enzymol, 2020, 643: 281-315.
[5] Wang J, Cao H, Zhang JZH, et al. Computational protein design with deep learning neural networks [J]. Sci Rep, 2018, 8(1): 6349.
[6] Wu Z, Kan SBJ, Lewis RD, et al. Machine learning-assisted directed protein evolution with combinatorial libraries[J]. Proc Natl Acad Sci U S A, 2019, 116(18): 8852-8858. Erratum in: Proc Natl Acad Sci U S A, 2020, 117(1): 788-789.
[7] Singh N, Malik S, Gupta A, et al. Revolutionizing enzyme engineering through artificial intelligence and machine learning [J]. Emerg Top Life Sci, 2021, 5(1): 113-125.
[8] Thean DGL, Chu HY, Fong JHC, et al. Machine learningcoupled combinatorial mutagenesis enables resource-efficient engineering of CRISPR-Cas9 genome editor activities [J]. Nat Commun, 2022, 13(1): 2219.
[9] Yang KK, Wu Z, Arnold FH. Machine-learning-guided directed evolution for protein engineering [J]. Nat Methods, 2019, 16(8): 687-694.
[10] Luo Y, Jiang G, Yu T, et al. ECNet is an evolutionary contextintegrated deep learning framework for protein engineering[J]. Nat Commun, 2021, 12(1): 5743.
[11] Song H, Bremer BJ, Hinds EC, et al. Inferring protein sequence-function relationships with large-scale positiveunlabeled learning [J]. Cell Syst, 2021, 12(1): 92-101.e8.
[12] Kawashima S, Pokarowski P, Pokarowska M, et al. AAindex: amino acid index database, progress report 2008 [J]. Nucleic Acids Res, 2008, 36(Database issue): D202-D205.
[13] Mei H, Liao ZH, Zhou Y, et al. A new set of amino acid descriptors and its application in peptide QSARs [J]. Biopolymers, 2005, 80(6): 775-786.
[14] Sandberg M, Eriksson L, Jonsson J, et al. New chemical descriptors relevant for the design of biologically active peptides. A multivariate characterization of 87 amino acids [J]. J Med Chem, 1998, 41(14): 2481-2491.
[15] van Westen GJ, Swier RF, Wegner JK, et al. Benchmarking of protein descriptor sets in proteochemometric modeling (part 1): comparative study of 13 amino acid descriptor sets [J]. J Cheminform, 2013, 5(1): 41.
[16] Chen Z, Zhao P, Li F, et al. iLearn: an integrated platform and meta-learner for feature engineering, machine-learning analysis and modeling of DNA, RNA and protein sequence data [J]. Brief Bioinform, 2020, 21(3): 1047-1057.
[17] Chen Z, Zhao P, Li C, et al. iLearnPlus: a comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis, prediction and visualization [J]. Nucleic Acids Res, 2021, 49(10): e60.
[18] Yoo PD, Zhou BB, Zomaya AY. Machine learning techniques for protein secondary structure prediction: an overview and evaluation [J]. Curr Bioinform, 2008, 3: 74-86.
[19] White G, Seffens W. Using a neural network to backtranslate amino acid sequences [J]. Electron J Biotechnol, 1998, 1(2):17-18.
[20] Xu Y, Verma D, Sheridan RP, et al. A deep dive into machine learning models for protein engineering [J]. Chem Inf Model, 2020, 60(6): 2773-2790.
[21] Benevenuta S, Pancotti C, Fariselli P, et al. An antisymmetric neural network to predict free energy changes in protein variants [J]. J Phys D Appl Phys, 2021, 54(24): 245403.
[22] Pancotti C, Benevenuta S, Repetto V, et al. A deep-learning sequence-based method to predict protein stability changes upon genetic variations [J]. Genes (Basel), 2021, 12(6): 911.
[23] Montanucci L, Capriotti E, Frank Y, et al. DDGun: an untrained method for the prediction of protein stability changes upon single and multiple point variations [J]. BMC Bioinformatics, 2019, 20(Suppl 14): 335.
[24] Bagley SC, Altman RB. Characterizing the microenvironment surrounding protein sites [J]. Protein Sci, 1995, 4(4): 622-635.
[25] Torng W, Altman RB. 3D deep convolutional neural networks for amino acid environment similarity analysis [J]. BMC Bioinformatics, 2017, 18(1): 302.
[26] Shroff R, Cole AW, Diaz DJ, et al. Discovery of novel gainof-function mutations guided by structure-based deep learning[J]. ACS Synth Biol, 2020, 9(11): 2927-2935.
[27] UniProt Consortium. UniProt: the Universal Protein Knowledgebase in 2023 [J]. Nucleic Acids Res, 2023, 51(D1): D523-D531.
[28] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold [J]. Nature, 2021, 596(7873): 583-589.
[29] Alley EC, Khimulya G, Biswas S, et al. Unified rational protein engineering with sequence-based deep representation learning [J]. Nat Methods, 2019, 16(12): 1315-1322.
[30] Biswas S, Khimulya G, Alley EC, et al. Low-N protein engineering with data-efficient deep learning [J]. Nat Methods, 2021, 18(4): 389-396.
[31] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Adv Neural Inf Process Syst, 2017, 30: 5998-6008.
[32] Rao R, Bhattacharya N, Thomas N, et al. Evaluating protein transfer learning with TAPE [J]. Adv Neural Inf Process Syst, 2019, 32: 9689-9701.
[33] Rao R, Liu J, Verkuil R, et al. MSA transformer [EB/OL].[2024-01-27]. https://doi.org/10.1101/2021.02.12.430858.
[34] Meier J, Rao R, Verkuil R, et al. Language models enable zero-shot prediction of the effects of mutations on protein function [EB/OL]. [2024-01-27]. https://doi. org/10.1101/2021.07.09.450648.
[35] Hopf TA, Ingraham JB, Poelwijk FJ, et al. Mutation effects predicted from sequence co-variation [J]. Nat Biotechnol, 2017, 35(2): 128-135.
[36] Riesselman AJ, Ingraham JB, Marks DS. Deep generative models of genetic variation capture the effects of mutations [J]. Nat Methods, 2018, 15(10): 816-822.
[37] Li M, Kang L, Xiong Y, et al. SESNet: sequence-structure feature-integrated deep learning method for data-efficient protein engineering [J]. J Cheminform, 2023, 15(1): 12.
[38] Ferruz N, Schmidt S, H?cker B. ProtGPT2 is a deep unsupervised language model for protein design [J]. Nat Commun, 2022, 13(1): 4348.
[39] Madani A, Krause B, Greene ER, et al. Large language models generate functional protein sequences across diverse families [J]. Nat Biotechnol, 2023, 41(8): 1099-1106.
[40] Yang J, Anishchenko I, Park H, et al. Improved protein structure prediction using predicted interresidue orientations[J]. Proc Natl Acad Sci U S A, 2020, 117(3): 1496-1503.
[41] Yeh AH, Norn C, Kipnis Y, et al. De novo design of luciferases using deep learning [J]. Nature, 2023, 614(7949): 774-780.
[42] Hsu C, Verkuil R, Liu J, et al. Learning inverse folding from millions of predicted structures [EB/OL]. [2024-01-27]. https://doi.org/10.1101/2022.04.10.487779.
[43] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model [J]. Science, 2023, 379(6637): 1123-1130.
[44] Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning-based protein sequence design using ProteinMPNN[J]. Science, 2022, 378(6615): 49-56.
[45] 夏彬彬, 王軍. 基于深度学习的蛋白质建模与设计[J]. 生物工程学报, 2021, 37(11): 3863-3879.
[46] Chen L, Zhang Z, Li Z, et al. Learning protein fitness landscapes with deep mutational scanning data from multiple sources [J]. Cell Syst, 2023, 14(8): 706-721.e5.
[47] Pandi A, Adam D, Zare A, et al. Cell-free biosynthesis combined with deep learning accelerates de novodevelopment of antimicrobial peptides [J]. Nat Commun, 2023, 14(1): 7197.
[48] Bepler T, Berger B. Learning the protein language: evolution, structure, and function [J]. Cell Syst, 2021, 12(6): 654-669.e3.
[49] Grawe RW, Knotts TA 4th. The effects of tether placement on antibody stability on surfaces [J]. J Chem Phys, 2017, 146(21): 215102.
[50] Wu SJ, Luo J, ONeil KT, et al. Structure-based engineering of a monoclonal antibody for improved solubility [J]. Protein Eng Des Sel, 2010, 23(8): 643-651.
[51] 王传杰, 冯健男, 王晶. 单克隆抗体药物稳定性影响因素及优化策略[J]. 中国免疫学杂志, 2021, 37(17): 2154-2160.
[52] Villegas-Morcillo A, Weber JM, Reinders MJT. Guiding diffusion models for antibody sequence and structure codesign with developability properties [EB/OL]. [2024-01-27]. https://doi.org/10.1101/2023.11.22.568230.
[53] Mason DM, Friedensohn S, Weber CR, et al. Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning [J]. Nat Biomed Eng, 2021, 5(6): 600-612.
[54] Hie BL, Shanker VR, Xu D, et al. Efficient evolution of human antibodies from general protein language models [J/ OL]. Nat Biotechnol, 2023 Apr 24. [2024-01-27]. https://doi. org/10.1038/s41587-023-01763-2.
[55] Wang X, Du J, Zhao B, et al. Significantly improving the thermostability and catalytic efficiency of Streptomyces mobaraenesis transglutaminase through combined rational design [J]. J Agric Food Chem, 2021, 69(50): 15268-15278.
[56] Xu SY, Chu RL, Liu HT, et al. Computer-directed rational design enhanced the thermostability of carbonyl reductase LsCR for the synthesis of ticagrelor precursor [J/OL]. Biotechnol Bioeng, 2024 Jan 24. [2024-01-27]. https://doi. org/10.1002/bit.28662.
[57] Zhou Y, Sun X, Hu J, et al. Enhanced catalytic activity and stability of lactate dehydrogenase for cascade catalysis of D-PLA by rational design [J]. J Biotechnol, 2024, 382: 1-7.