APP下载

挑战不可能

2023-07-18张漫子

瞭望东方周刊 2023年14期
关键词:高维维数科学家

张漫子

中国(杭州)数字. 健康小镇成果转化区,嘉宾在了解染色体人工智能诊断系统(黄宗治/ 摄)

人类社会智能化革命正以不可阻挡之势拉开序幕。

在人工智能的催化下,科技转化为生产力的速度越来越快,渗透到生产生活的方方面面。但就目前嵌入人们日常的产业落地而言,绝大多数贡献还只是“跬步”,远谈不上“颠覆”。

当肩负原始创新使命的科学突破成为新的支点,人工智能有了更为宏大的愿景——将科学发现推上新台阶。

维数灾难

自文艺复兴以来,科学发现大致是沿两条路径展开的:一种是基于第一性原理、对物理世界基本理论的探索;另一种则是以数据为驱动、面向应用基本规律的归纳。

第一条路径早已濒临瓶颈——20世纪初,量子力学建立。至此,除极端尺度的特殊情形(核物理与高能物理)外,基本原理的空白已被填满。这意味着大多数工程与自然科学问题都能在理论上找到大致的物理模型进行求解。

2021 年,在开源AlphaFold2 仅一周,98.5% 的人类蛋白质结构即被AlphaFold2 预测出来,做成数据集并全部免费开放。这一爆炸新闻引爆了科研圈。此前,全球科学家耗时数十年努力,也只给出覆盖人类蛋白质序列中17% 的氨基酸残基,而且大多是易被破解的结构。

但当科学家想用定理来解决真实场景的实际问题时,却发现力不从心。将物理模型置于复杂场景需要面对太多变量:多一个变量,计算量都会大大增加。

第二条路径也不是坦途。小规模数据只能进行粗粒度的模拟与预测,但凡有高一点的精度需求,就要依赖更大规模的数据支撑。随着数据量的增加,传统数据处理方式同样面临显著激增的计算代价和有效的数据分析方法。更何况,数据匮乏是常态。

因此,不管是模型驱动,还是数据驱动,这两种传统方法都指向一个精度与速度难以两全的共同困境:维数灾难——即当空间维度增加时,分析和组织高维空间将因体积指数增加而遇到各种更加复杂的问题场景。

“在低维情形下,一般的函数可以用分片多项式、傅利叶级数、小波这样的传统方式来表达。但在高维情形下,它们就不再是有效的工具。”中国科学院院士、北京大学国际机器学习研究中心主任鄂维南说。

维数灾难带来的一个结果是计算量的指数级增加,另一个结果则是,高维空间的数据稀疏,会使算法的偏差显著扩大——这就是为什么当人们考虑更高维空间的问题时,即使是科学家的几何直觉也会严重失效。

突破前夜

很多年来,维数灾难一直是笼罩在各国科学家头顶上的“乌云”:可以想象,1928年狄拉克盯着薛定谔方程,试图建立一个具有两种可能自旋状态的电子模型,他对第一性原理了然于胸却不得不面对数学能力瓶颈的无奈;1957年的贝尔曼写下控制论方程,为最优控制提出基本原理与方法,却因变量太多不知如何有效求解;1964年,哈特马尼与斯特恩斯在面对计算机“原则上可计算、实际上难计算”的一大类问题时,探索“计算复杂性理论”的紧迫感。

回溯近百年的科学史,一些聪慧且幸运的研究者,他们已经找到一把打开科学大门的钥匙。然而遗憾的是,锁舌已开,他们却没有“力气”推开这扇门。

这个“力气”,就是人类处理多尺度问题(多变量函数)的能力。这一局限,制约了科学发现的深度、精度和速度。

鄂维南列举了科学家在研究过程中面临的数种实际痛点:一是尽洪荒之力研究出来的基本原理,严谨、深刻却难以致用;二是实验手段以及收集、处理、分析数据的效率太低;三是搞科研还像“小农经济”,从头到尾都 “一人挑”,科研效率低下且进展缓慢;四是面对复杂的生物制药、材料研发等问题,仍然深度依赖经验与繁琐的试错。

“随着研究体系越来越复杂,研究精度要求越来越高,第一性原理方法在材料发现和物性研究方面的代价越来越昂贵,无论在空间尺度还是时间尺度,已遇到了难以克服的瓶颈。如何突破这些瓶颈,是目前计算物质科学面临的最大挑战。”中国科学院院士、复旦大学物理学系教授龚新高说。

纵观世界科学史,每一次危机的来临,都是科学突破的前夜。

看过伽利略1604年研究自由落体运动问题手稿的人们,对此也许感触更深:计算机诞生以前,科学家进行科学探索的工具是大脑、纸和笔:用头脑来做假设,用纸笔来记录、做推演。

全世界的科学家,都迫切需要一个开启黎明的新工具。

一展身手

“人工智能就是跨越维数灾难、解决高维问题的高手。”鄂维南说。

人工智能誕生以来的半个多世纪,帮助科学家把复杂的科学问题转化为算法问题,进行粗粒度建模,并在此基础上开展了大量的实验验证。

这个新工具“高”在哪里?

一方面,它能高效、高精度地求解复杂物理系统,解决大量传统科学计算方法无法解决的问题。从图灵的系统思考开始,伴随算法、算力、数据的融合前进,人工智能在计算机视觉、自然语言处理、自动驾驶等饱受维数困扰的领域大放异彩。随机控制问题、求解非线性抛物方程等多变量函数,都是人工智能的用武之地。

另一方面,人工智能还能够高效地处理海量数据。蛋白折叠问题的解决就是例证。

2021年,在开源AlphaFold2仅一周,98.5%的人类蛋白质结构即被AlphaFold2预测出来,做成数据集并全部免费开放。这一爆炸新闻引爆了科研圈。此前,全球科学家耗时数十年努力,也只给出覆盖人类蛋白质序列中17%的氨基酸残基,而且大多是易被破解的结构。

现在,我们可以重新提问:‘这个问题是否有原理、数据?哪怕只有其中一个,我们也有机会将问题推进到前人无法触及的程度。

此次,除了人类蛋白质组,数据集还包含了果蝇、小鼠、大肠杆菌等20个科研常用生物的蛋白质组数据,总计超过35万个蛋白质结构。

AlphaFold2的出现,彻底改变了蛋白折叠的技术路线,也使合成生物学在工程化和标准化等方面得到提高。

“我们需要一套新的思路来理解高维对象:高维的函数逼近、高维概率分布的处理、高维的动力系统、高维的微分方程等。从科学应用的角度,在化学、材料、工程等领域,只要涉及理论,或者在实验中涉及数据和模型,就有人工智能一展身手之处。”鄂维南说。

面对复杂的物理系统,人工智能也让科学家看到曙光。

过去,既精确又高效的分子动力学方法几乎不存在。2020年,张林峰、贾伟乐等中国科学家首次把机器学习、物理建模和高性能计算结合在一起,通过深度学习方法将第一性原理的计算精度带到更大尺度的分子模拟上来,实现了分子层面大规模、高效的模拟,从只能做1000个原子提升到了1亿个原子,提高了微观科学计算的尺度与精度。

“水的相图是异常复杂的。过去很难模拟水的相图,但采用机器学习的方法、用新的分子动力学的工具DeePMD,得到水的相图就不再是不可能完成的任务。”鄂维南说,这一思路不仅应用于分子动力学,还可应用于整个物理模型的生态链:从微观的薛定谔方程,到介观的玻尔兹曼方程,再到宏观的湍流模型……可以说,人工智能新算法将开启科学计算的新时代。

科研“再开荒”

从“刀耕火种”到“铁犁牛耕”,生产工具的革新,带来的直接改变就是生产力水平的提高。

翻开最新的国际顶刊的目录,不难发现这一不可阻挡的趋势:从人工智能驱动的蛋白质功能机理探索和理性设计,到基于人工智能的药物发现和药物优化,从酶改造与生物基化学品的生成,再到科学育种与气象预测——不论是微观世界的多尺度探索,还是宏观、微观尺度科学成果的应用,人工智能求解高维函数、解决复杂问题的优势正在持续释放。

6月25日,第五届全球人工智能产品应用博览会在苏州工业园区开幕

天津梅江会展中心,观众在“AI+办公”技术展台前观看演示视频(李然/ 摄)

2021年,国际顶刊《自然》收录了DeepMind的一项新成果。研究人员用深度生成模型取代了大气物理方程,实现了200万平方公里大气层的物理仿真。

2022年,DeepMind与瑞士洛桑联邦理工学院等离子体中心的物理学家共同完成的论文再登《自然》。一直以来,有效控制等离子体是通往核聚变的关键。数十年来,科学家不断研究托卡马克装置,约束等离子体,从而达成可控核聚变的目的。这项研究中,他们对核聚变进行物理仿真,用一个大型神经网络每秒对90种等离子体的形状和位置完成一万次训练,不断对磁场变化如何塑造等离子体进行长程预测。

2023年,就在不久前,《自然》发表了一篇由我国青年科学家参与完成的一项重磅成果:创新提出了首个mRNA序列设计算法“LinearDesign”。这一算法可将mRNA分子稳定性(mRNA分子半衰期)提升5倍以上,蛋白质表达水平提升3倍,抗体反应提升128倍,不仅有助于生物医药公司快速研发更有效的mRNA疫苗,降低研发成本,还可以应用于包括单克隆抗体、抗癌药物在内的药物研发。

从生命体的基本组成到世界工业的基本要素,人工智能不仅是解决具体问题的有力工具,更成为重新定义科学问题的系统性思路。

“以前,定义问题的方式是‘这个问题是否能进行观测并总结规律。进入计算机时代,我们定义问题的方式是‘这个问题是否能被多项式有效近似并通过计算机模拟。而现在,我们可以重新提问:‘这个问题是否有原理、数据?哪怕只有其中一个,我们也有机会将问题推进到前人无法触及的程度。”鄂维南说。

当科学家从人工智能的视角,重新审视埋藏在地下的科学问题,尤其是那些许久以来尚未解决、被称作“不可能完成的任务”,新的答案、新的可能将加速涌现。

如果能更广泛地应用这一思路,将科学这片土壤重新开垦一遍,许多贫瘠多年的领域或许也能繁花似锦。

“毋庸置疑,传统的科学领域将成为人工智能的一个主战场。同时,科学研究的范式也会发生改变:从‘小农作坊模式迈向‘安卓模式。不远的将来,我们将看到平台科研兴起。”鄂维南说。

(實习生赵宇彤参与采写)

猜你喜欢

高维维数科学家
β-变换中一致丢番图逼近问题的维数理论
一类齐次Moran集的上盒维数
假如我是科学家
一种改进的GP-CLIQUE自适应高维子空间聚类算法
基于加权自学习散列的高维数据最近邻查询算法
关于齐次Moran集的packing维数结果
涉及相变问题Julia集的Hausdorff维数
与科学家面对面
一般非齐次非线性扩散方程的等价变换和高维不变子空间
当天才遇上科学家(二)