AlphaFold即将解决生物学最大挑战之一
2021-02-23
人工智能巨头DeepMind公司可能已经完成了生物学领域一项最重大也最艰难的挑战——其意义之非凡可与沃森和克里克发现DNA双螺旋结构分庭抗礼,或许将为生物医学这个学科开拓出别样洞天,将新药和疫苗研发推上全新高度。
DeepMind实现了什么?“通过人工智能预测蛋白质的结构”,这项成就乍一看似乎显得不那么出挑,但要知道生物学家数十载冥思苦索依旧难在预测蛋白质三维形状方面有所突破,而且业内蛋白折叠方面的各种疑难问题正越积越多。另一方面,艰涩的蛋白折叠又无比有用,“众包游戏”用得上它,“全球竞争”中有其身影,拿诺贝尔奖的计算生物学家更是靠它构建着生命的基本模型。由此看来,DeepMind的这次大飞跃非比寻常,而其核心在于强大的AI算法,人称AlphaFold的折叠大师,利用其深度学习能力,在“蛋白质结构预测关键评估”(CASP挑战赛,每两年举办一次)中展现了神乎其技的预测妙法,获得92.4分的平均分,其中预测复杂蛋白质的能力评分高达87分,将百大竞争对手通通挑落马下——更关键的是,AlphaFold还有能力预测部分复杂细胞膜蛋白(尤其是古细菌膜蛋白)的结构。
我们正处于转折点。CASP的联合创始人、来自美国马里兰大学的约翰·莫尔特(John Moult)博士在接受《自然》(Nature)杂志采访时表示:“从某种意义上说,问题已经解决了。”
美国哥伦比亚大学的穆罕默德·阿奎莱希(Mohammed AlQuraishi)博士也参加了CASP,他毫不吝啬地向《自然》杂志表达了对AlphaFold的赞美:“这是顶级的技术突破,绝对是我这辈子见证的最重大的科学成果之一。”
DeepMind赢得漂亮。当然,AI巨头五六年前就已凭着AlphaGo对人类棋王的“吊打”而名扬天下。不过蛋白质结构预测显然比围棋斗法更具有实用意义——这也消除了很多对AI应用价值的负面评价。
不过,DeepMind不是蛋白质折叠预测比赛中的唯一竞争者。AlphaFold基于海量生物学数据的训练做准确预测。而最近,有一组实验科学家表示,他们通过改变复杂蛋白质组装体的基因,构建了一种算法,能以极高的准确性重建蛋白质。
马克斯·普朗克发育生物学研究所安德烈·卢帕斯(Andrei Lupas)博士表示:“它将改变医学,改变研究,改变生物工程,它将改变一切。”
AlphaFold厉害在哪里
生物学需要通过“结构解释功能”,例如,DNA的双螺旋结构帮助我们更清晰地解释了遗传信息复制和存储的过程。没有结构,我们就不会有基因编辑、DNA计算机或DNA数据存储设备。
蛋白质结构包含海量信息,但很难解密。它们以氨基酸为基本单位线性地组成肽链,多条肽链又通过分子间作用力折叠出复杂形状,如同一束束扭曲的绞线,或是相互缠绕的螺旋。它们当中的许多结构又进一步耦合成一个巨型复合体。只有这样,蛋白质才能在生命过程中发挥作用。
如果我们清楚蛋白质的结构,就能对其功能展开有根据的猜测。通过绘制大量蛋白质结构图,我们可以解读生命的生物学原理,并找到操作的方法。
以新冠疫苗为例。它的研发基础全在于我们绘制出了病毒表面那用于入侵人体的细胞刺突蛋白的结构图。不妨把刺突蛋白的三维结构看作是一把锁,倘若我们能描绘出锁的形状,自然便可设计出钥匙,也就是药物或疫苗,来反制病毒。
确定蛋白质结构的经典方法基于一种极其乏味且有难度的实验室技术,即晶体X射线衍射技术:研究者将蛋白质“冻结”成精致的晶体状结构,借助X射线、高精度显微镜和数学运算来确定其形状。但并非所有的蛋白质都是可以被“速冻”并分析的,生物学解码工作常常遇到难以克服的障碍。除了X射线衍射,其他方法,如核磁共振波谱法,也同样有着很高的技术门槛,且成本高昂。
蛋白质的三维折叠形状以其一维的氨基酸序列为基础。如果AI擅长发现那些复杂氨基酸序列构建立体形状的模式(人类在这方面的能力较弱),那么它就有望替代那些成本极高的实验室技术。
AlphaFold快速确定高精度结构
CASP挑战赛上的蛋白质结构预测都会通过晶体X射线衍射技术来验证,不过公众无法获得相关信息。AlphaFold并非CASP的新人。早在2018年,它的出色预测表现就令许多科学家感到惊讶。
与CASP的大多数参赛者差不多, AlphaFold的预测仰仗深度学习。请记住:氨基酸序列是蛋白质的组成部分,包含有关蛋白质最终三维形状的信息。这一点是深度学习方法行得通的最重要原因。
DeepMind比竞争对手们更进一大步。他们的团队将物理学、几何以及演化历程方面的数据都添加到了AlphaFold的任务清单中,这是一个极为庞大的学习量。AI在包含大约17万种蛋白质结构的数据库内开展训练,将那些结构转换为“3D图”,分析其中各种隐蔽的关系或模式。DeepMind表示,通过重复此类过程,AlphaFold能够“在几天之内确定高精度结构”。
这并非空话。AlphaFold在CASP挑战赛中呈现的精确度令竞争对手汗颜。它有2/3的预测与实验结果相当,其92.4分的平均分高出其他对手25分。
更多突破值得期待
从实用性角度来看,AlphaFold的成功为我们攻克诸多重大疾病提供了助力。
我们设计的几乎所有的药物都作用于蛋白质,如钥匙开锁般精确匹配,而此过程的第一步是确定哪把钥匙开哪把锁,用更专业的话说,就是寻找药物靶标,即弄清楚药物分子作用与何种蛋白结合。如果我们拥有可解码蛋白质结构的人工智能,就可快速筛选成千上万的新药物靶标。欧洲生物信息研究所的珍妮特·桑顿(Janet Thornton)对《麻省理工技术评论》杂志表示:“AlphaFold将开辟一个新的研究领域。”
除了潮水般的赞誉,还有继续进步的空间。与某些可几秒出结果的算法相比,AlphaFold的速度相对慢一些;当然,前者的准确性要差些。更为重要的是,AlphaFold在预测蛋白质复合体方面仍火候不足。蛋白质复合体是由两个以上功能相关的多肽链组合而成的复合物,在生物学领域并不罕见,例如,我们脑细胞中的大多数化学受体都依赖于这些结构。它们就像可变形的超级魔方,其三维结构会随身体状态的变化而变化。例如,一个封闭隧道状的巨型蛋白质可在探测到有化学物质停靠于其表面时打开——这是我们大脑工作方式的核心。
近期,有研究团队采用了一种独特的方法(领先于AlphaFold)分析活细胞中的蛋白质复合体。他们选择从基因下手,因为它指导氨基酸链的合成,包含着蛋白质三维折叠的相关信息。这是一个独辟蹊径的妙方。研究团队发现,他们可以借助这种方法快速筛选数千种在活细胞内指导蛋白质合成的基因的突变。此外,他们观察所得蛋白质复合体的结构,并使用AI工具绘制出关于某个突变如何影响另一突变的图谱,进而通过查看其潜在的遗传指令,揭示这些巨型结构形成的“规则”。
DeepMind团队这样表示:“AlphaFold是迄今为止我们(在蛋白质折叠研究领域取得的)最重要的突破之一。这一突破使我们进一步相信,人工智能将成为人类在扩展科学知识前沿方面最有用的工具之一,我们期待未来能有更多重大发现!”
资料来源 singularityhub.com