APP下载

AI会让科学家失业吗

2023-07-25彭丹妮

飞碟探索 2023年2期
关键词:人工智能科学

彭丹妮

2023年4月8日,上海人工智能实验室联合中国科学技术大学、上海交通大学、南京信息工程大学、中国科学院大气物理研究所及上海中心气象台,发布全球中期天气预报大模型“风乌”。基于再分析数据验证表明,“风乌”比传统物理模型的10天预报误差降低了19.4%。

“风乌”取名自我国东汉时期张衡所制的“相风铜乌”,这是世界上最早的风向测定设备。上海人工智能实验室领军科学家欧阳万里表示:天气预报大模型“风乌”不仅承载了中国古人的智慧,也寓意实验室致力于在以气象为代表的AIforScience领域勇于突破、不懈探索。

全球中期天气预报以预测未来14天内的天气状态为目标。此前有研究表明,因为大气系统中物理过程的复杂性,以及求解大气模型所需资源规模巨大,全球中期天气预报的有效性每10年才提高1天。

上海人工智能实验室科学家白磊在回应记者采访时介绍,“风乌”将全球中期气象预报任务建模为一个多模态、多任务学习的问题,并以此为基础来设计AI的预报方法。基于回溯预报表明,“风乌”的性能超过了世界著名人工智能公司DeepMind最新发布的模型GraphCast,并突破性地达到了10.75天的可用预报性能。

用人工智能算法建模全球大气系统,只是AIforScience(人工智能驱动的科学研究)的应用之一。在很多领域,AI正以较以往数倍甚至数万倍的效率改变多学科的研究。受访科学家指出,现代科学日益复杂化,而AI相关技术近年来有了快速突破,使得AIforScience成为国际科研的一个前沿方向。

2023年3月末,我国科学技术部、国家自然科学基金委联合启动AIforScience专项部署工作。科技部有关负责人表示,中国在人工智能技术、科研数据和算力资源等方面有良好基础,需要进一步加强系统布局和统筹指导,以促进人工智能与科学研究深度融合,推动资源开放汇聚,提升相关创新能力。

“从蛋白质结构预测到气候系统建模,从引力波探测到理解宇宙,人工智能对科学探索的长期影响才刚刚开始。”数据科学领域的知名机构Dataconomy在2022年11月的一篇文章中写道。

过去完全无法想象的效率

处理数据的方式会改变科学研究的行为,中国科学院物理研究所研究员刘淼对此感受很深。作为一名材料科学家,十多年前他读博期间,完成三四个材料的研究就算顺利。如今,基于人工智能、超级计算等技术的进步,在几十万种可能性中筛选甚至预测不同元素组成的材料,判断其材料属性,不必再一个一个去计算、做实验,只需点几下鼠标。

刘淼说,5年前,包括他在内的一些科学家预判,随着技术的进步,材料学的下一步不应仅盯着个别材料去进行计算、验证,而是应该运用数据去帮助科学研究。他所在团队开发了一个名为Atomly的材料数据库,已经囊括30余万个无机晶体材料的数据。

他介绍,自然界几乎所有物质的属性,都是电子的某种行为。早至20世纪60年代,学界已经发现可以通过求解量子力学方程的方式,计算电子的行为,预测材料的性质。得益于超级计算机带来的算力提升,对材料性质的计算速度大大加快,这些奠定了Atomly的数据基础。此外,数据库里很多无机晶体材料的结构,是先利用人工智能模型进行预测,有了初步判断后再进入下一步的精确计算。

有了强大数据库和高通量计算,刘淼说,在任何一组元素的组合中,科学家都可以快速搜索出可能的新化合物,并预知其物理性质。在Atomly数据库,如果点击氧和钛两个元素,就会出现280种由这两个元素可能构成的化合物;如果点击其中一个,就能进一步看到这种化合物的原子空间排列结构、介电性、力学性能等具体数据。如果有学者想在这种化合物中找寻一种新材料,可以先查看这些指标、性质,再进行下一步的研究。

这对材料科学研究的效率提升之大,在他看来,如果说以前寻找理想的材料是钓鱼,如今就像是“撒了网,一下子把鱼都捞上来的那种感觉”。

2023年3月8日,来自美国罗切斯特大学的助理教授兰加·迪亚斯宣称,该团队发现了一种由氢、氮和一种名为镥的稀土元素混合制成的材料,可以在21℃和大约1吉帕(约等于1万个标准大气压)的压力下实现室温超导电性。这一成果在圈内外引起巨大轰动。

为了验证这一结果,刘淼团队在3月9日就快速开展了计算。利用前述数据库,他们用了不到一周时间就计算出1500多个相关化合物,3月21日就提交了论文,结果发现,氢、氮、镥无法形成稳定的三元化合物。也就是说,该室温超导论文的结果有待商榷。刘淼说,这是过去完全不敢想象的速度。

2022年年末,一篇发表在TheGradient杂志上的文章写道,预测蛋白质折叠,寻找新的超导体材料、疫苗或任何其他满足特定需求的材料时,它们背后的母科学都是化学。该杂志于2017年创刊,创办者为美国斯坦福大学AI实验室的一群学生和研究人员。

传统概念中,化学研究通常在配有试管、烧瓶的实验室中完成。这篇文章写道,随着当前人工智能、以数据为中心的技术进步及数据量的不断增长,我们可能正目睹一种变化:计算不仅可以用于协助实验,还可以用于指导实验。

不仅如此,AI还能成为实打实的“化学家”。比如,2020年7月,英国利物浦大学的研究人员开发了一款人工智能机器人化学家。这款机器人具有人形特征,可以在標准实验室中独立工作,像人类一样使用各种实验仪器。首次测试中,这个1.75米高的AI机器人在8天里独立完成了668个实验,并研发出了一种全新的化学催化剂。这一成果在当时以封面文章形式发表在Nature杂志上。

在药物研发领域,AI的崛起带动了一批AI制药公司的兴起。咨询公司麦肯锡估计,目前全球有近270家公司致力于AI驱动的药物研发。

2014年,3位在麻省理工学院从事量子物理学方向研究的博士后在深圳创立了一家科技公司。创始人温书豪说,AI可以在大、小分子药物发现,药物自动化合成等多个环节上提升效率。比如,AI机器人可以用算法将400台机器连接在一起,同时开展实验,每小时就能探索几千种反应条件,筛选催化剂,可以24小时无间断完成标准化的实验操作和数据收集分析。它的效率是并发式的、规模化的,对此,人类实验员难以做到。

而ChatGPT的发布,无疑是2023年科技领域最令人兴奋的成果之一,也掀起了新一拨儿AI浪潮。

在中國科学院自动化研究所所长徐波看来,AIforScience、预训练大模型等正在引发新一轮AI创新热潮。如果将AIforScience比作一个专业理科生,那么,ChatGPT类似于文字能力很强的通才式文科生。不过,ChatGPT对科学研究的开展也有很大促进作用。除了帮人们润色论文、撰写摘要等,多位受访者都谈到,ChatGPT还可以对各个学科的文献进行很好的归纳、总结,甚至给科学研究带来启发。

北京大学定量生物学中心研究员裴剑锋指出,过去我国对建立数据体系重视不足,今后,依靠ChatGPT强大的自然语言处理能力,可以加速相关知识体系和数据库的建立。虽然ChatGPT目前还达不到人类专家阅读文献的水平,但随着专业自然语言处理AI的发展,将有可能自动完成文献数据摘取和分析等工作,效率比人类高出很多。

徐波也提到,ChatGPT等大模型可以帮助领域内的科学家快速找到其感兴趣的知识、文献和一些关键的实验结果。

人工智能在科学领域的应用不胜枚举。比如,在脑科学领域,据《华尔街日报》2023年4月初的报道,美国科技巨头之一的Meta公司正在开发一个能够读取人脑想法的系统。这是MetaAI实验室一个名为BrainSignalReading(大脑信号读取)的项目。研究人员利用脑电图和脑磁图两种非入侵式技术获取大脑数据,并让自主监督学习AI工具对这些转化为声音的数据进行训练。训练数据集包含169名志愿者在听到有声读物和单句时的大脑活动信息。通过近150个小时的声音数据,算法能够像读心术一样推断出人们最有可能听到的词

目前,数据是驱动AI发展的重要材料,深度神经网络通常需要大量数据才能避免过度拟合。但许多需要应用AI的场景无法提供足够的训练数据,例如医学图像分析。因此,减少深度学习对数据的依赖,就成为AI研究人员最重要的探索方向之一。

自主监督学习(Self-supervisedLearning)的基本思路,是开发出一种能够填补当前数据空白的深度学习系统,人们只需要向其提供部分数据内容,系统就可以通过数据间的联系,自行预测数据中缺失的部分,继而恢复秩序完成学习。它使机器能够直接从世界上大量可用的信息中学习,而不仅是从专门为人工智能研究创建的训练数据中学习。这推动了人工智能最近的许多重大进展。MetaAI实验室一直将自主监督学习作为其研发的一个重点。

2022年十大自主监督学习模型中,来自中国的清华大学、北京大学和香港中文大学(深圳)均有合作项目入选。微软公司成为其中上榜最多的公司,共有3项成果。

AIforScience:为什么是现在?

徐波说,我国科学技术部“AIforScience”专项部署工作将布局前沿科技研发体系,建立一些面向重大科学问题的人工智能模型与算法,利用人工智能技术带动科学研究的知识发现。在这一过程中,将建设一些多学科可用的计算平台,用于跨尺度建模、高精度仿真、微分方程求解等。

科学研究中,AI有多火?一位理论化学背景出身的科学家介绍,现在哪怕是在纯基础的科学领域,比如理论化学、理论物理领域,“大家都觉得,AI是个超级工具,如果没有用上,对研究的理解深度和效率,可能都会造成影响”。

2022年,在中关村论坛的首届科学智能峰会“AIforScience:共创新未来”上,中国科学院院士、北京大学前沿交叉学科研究院执行院长汤超,分享了国内提出这一概念的经过。他说,几年前,中国科学院院士、北京科学智能研究院院长、北京大学国际机器学习研究中心主任鄂维南找到他,商量有没有可能在北大设立一个学科交叉项目,来探索机器学习在不同科学和工程领域的应用,他们为其取了一个名字,叫“AIforScience”。2018年8月,一场有关AIforScience的会议在北大召开。

裴剑锋是2018年参会的科学家之一。其研究方向是用计算的方法做药物设计,属于国内最早从事计算机辅助药物设计的学者之一。他说,北大这场会议之前,人工智能与科学的结合已有一段时间。

以他所在的交叉学科领域为例,裴剑锋说,2012年,国际上已经开始有一些关于AI、化学、药物设计相结合的初步摸索。2014年,他所在团队也开始做相关工作,并且在2015年发表了国内第一篇将AI用于药物设计的论文,实际上已经是AIforScience的一种实践。

从2020年开始,AIforScience进入集中爆发阶段。在国内,已有一些公司致力开发科学计算平台、科研AI模型等。

如今,AI几乎可以和深度学习画等号,AI的几大领域,包括自然语言处理和计算机视觉等,都绕不开深度学习。尽管深度学习的基础——人工神经网络在20世纪50年代已经提出,但是,直到近十多年,高性能算力的实现和互联网上大量数据的产生,才使得AI领域从业者能大量训练神经网络,不断拓展机器学习的深度。

另一边,基础科学的发展也亟待一个更强大的工具。欧阳万里谈道,地球科学领域积累了非常多的观测数据,涉及大量计算问题。然而,由于地球系统的复杂性,很多方向的机制和原理都还不够清晰。人工智能技术强大的非线性拟合能力和灵活的建模能力,为解决领域中的一些“硬骨头”问题提供了强大的新工具。比如,大气模拟、地震监测和预测就非常适合使用人工智能来解决。

以上海人工智能实验室发布的“风乌”大模型为例,欧阳万里表示,运用AI模型进行全球中期气象预报,过去受限于算力和高效并行的深度学习架构,“其难度是我们在两三年前不敢想象的”,但如今可以取得很好的效果。

AIforScience兴起背后,更重要的是它顺应了现代科学复杂化、交叉化的趋势。徐波指出,依靠科学家人脑思维可以解决的科学问题,很多已经解决了。如今,科学要面对的是生物、物理、化学等基础科学中跨尺度的复杂系统。过去以人作为认知基准的范式需要向更高维度迈进,人工智能在其中发挥着关键作用。

比如,当前在对大脑的研究中,微观上,关于每个神经元的结构、功能等具体信息已经研究得比较透彻;宏观上,大脑的分区以及不同脑区间的连接机制也已研究得比较清楚。然而,在最为复杂的、介于微观与宏观之间的尺度上,即这些神经元如何在整体上产生了人类的智能,还未得到充分的解答。

2020年3月,中央机构编制委员会办公室下发文件,批复同意自然科学基金委员会设立交叉科学部,负责统筹交叉科学领域整体资助政策、组织拟定发展战略等方面的工作。汤超指出,交叉科学部成立以来的第一个重大研究计划,就是AIforScience方向。

受访学者指出,AIforScience以前所未有的方式,将不同学科、不同背景的研究者们联系在一起,进一步弱化了科学和技术的界限。裴剑锋谈到,AI与科学的结合突出了工程技术在科学研究当中的作用,比如AlphaFold(DeepMind公司开源的人工智能系统,用于更加准确地预测蛋白质结构)能产生科学突破,工程团队在里面起了很大作用。

上海交通大学科学史与科学文化研究院院长李侠曾在采访中指出,从20世纪60年代开始,随着科学问题变得越来越复杂,以及整个科技知识生产条件的变化,科学研究越来越需要更多团队合作。“我觉得小规模、自由的科学探索依然非常重要,但是,当面临复杂和较大的科学问题时,大团队紧密的联合攻关,在AIforScience时代可能会成为更常用的方式。”裴剑锋表示。

AI能带来真正的创新吗?

凭借其日益强大的能力,AI已经深刻地影响了科学的进展。鄂维南认为,这是“一场正在发生的科技革命”。一个根本性问题是,这种数据驱动的研究方法,会成为一种新的科研范式、带来真正的创新吗?抑或它只会强化已知的理论,甚至阻碍知识边界的突破?

2009年,美国著名理论物理学家、诺贝尔奖获得者菲利普·安德森在Science杂志上发表了题为《机器离科学革命还有距离》的文章。他指出,科学实践分为两类,一类是大部分科学家大部分时间都在做的常规科学,它只是在充实、完善已有科学范式的结果;还有一类就是偶尔发生的科学革命,带来新的科学范式。安德森认为,机器也许可以对前者有贡献,但他没有看到有任何机制足以让机器来创造一场科学革命。

汤超对此并不十分认同,他认为,AI是否能发现新的科学规律、引发科学革命,是一个值得探索的问题。他说,AIforScience应该有3个层次的含义:第一个层次就是大家当下在做的事情,即将深度学习用于不同的场景、不同的学科,解决的是比较具体的问题,影响比较大,见效也比较快;第二个层次,是利用AI来发现新的科学问题,比如,用大量的行星运动数据来训练AI,AI应该很容易就能预测出行星的轨道,以及将来任何时刻行星在轨道上的位置;最后,也就是第三个层次,AIforScience还意味着去探索人工智能背后的科学原理。

在温书豪看来,AIforScience正呈加速度发展,当技术跨过一个阈值点的时候,可能所使用的科学研究方法、发现问题的方式就和现在不一样了,能为研发工作带来根本性的转变,也会带来全新的可能。

徐波认为:“ChatGPT可能会启发研究人员产生新的、意想不到的实验方案、实验步骤等,有时甚至会打破学者的思维定式。”

不过,现实是骨感的,AIforScience的科学研究目前依然存在挑战。AI推动科学研究最知名的成果,当属AlphaFold,它不仅让蛋白质结构预测研究跨入了一个新阶段,也将人们对AIforScience的关注推向高潮。

2022年7月,DeepMind公司与欧洲生物信息研究所的合作团队公布,他们利用人工智能系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知的蛋白质。在它出现之前,科学家解析的蛋白结构只覆盖了17%的人类蛋白序列;它出现后,98.5%的人类蛋白的结构已被其预测出来。

然而,以药物研发为例,裴剑锋说,这是一个远比蛋白质结构预测复杂得多的问题。在化学和药学领域,AI正在发挥重要作用,但目前还没有诞生像AlphaFold这样极具突破性的里程碑式的成果。

诸多困难使得AI制药至今仍面临低成功率的瓶颈。一位不愿具名的制药界学者表示,首先,因为生物体系太复杂,要使用AI模型对其进行模拟,去了解一款药物对人体产生的影响,就需要做很多简化,这会导致很多实验的精度和准确性丢失。很多药物研发的AI模型,在大规模的数据统计中,并没有产生具有显著统计学意义的结果。

其次,ChatGPT大模型之所以成功,一個关键原因是引入了强化学习的机制,对AI的回答进行人类打分,训练它在众多可能的回答中选择那些更加符合人类预期的答案。然而,在药物研发领域,要判断一个分子的优劣,情况要复杂得多。2023年年初,药物研发科技公司水木未来的CEO郭春龙在接受媒体采访时说过,不像ChatGPT的强化学习,给一个蛋白质的序列加上标签往往需要大量的实验,成本要高很多。

数据是更加严峻的限制。前述制药界学者指出,即使是一个大型药厂积累几十年的数据,对一个AI大数据模型来说,数据量还是不足。因为化合物种类太广了,大约是10200,即便人类能积累100亿个数据,也只是1010,相较之下简直是“九牛一毛”,严重不足的数据使得AI制药模型的泛化能力受到很大限制。

2023年的一场论坛上,创新药物研发平台百图生科的副总裁瞿佳润谈道,相比算力和算法,在AIforScience中,最重要的挑战还是数据,尤其是在生物行业。AI只是一个工具上的变化,并不能扭转一些本质问题。

刘淼也强调,就拿他所在的材料科学领域来说,现在业界开展材料数据研发的机构很多,但多数都是基于一些公有的数据集,并没有自己的核心竞争力。

就在2023年4月18日,AI制药先驱公司RelayTherapeutics披露了其在研抗肿瘤抑制剂RLY-2608的初步临床数据。从这款在研药物的初步临床数据来看,其安全性比较有优势,但疗效远未达到预期,16例受试患者中仅1例有阳性结果。

不管效率如何提升,业内达成共识的是:AI不会取代科学家。正如温书豪所说,伟大的数学家会问为什么1+1=2,然而AI不会。AI会成为超级工具,会帮助人类记住无法记住的庞杂知识、计算无法计算的复杂方程,但是,深度思考和提问,依然是人独特而不可替代的能力。

2023年2月,发表在Nature网站的《AI如何改变数学》一文中,美国圣塔菲研究所(世界知名的复杂性科学研究中心)的计算机科学家和认知科学家梅兰妮·米切尔表示,数学家暂时还不会因为AI而丢饭碗,除非AI的一个主要缺陷被攻克——目前,它们还无法从具体信息中提取抽象概念。“AI系统或许能证明定理,但你首先要提出这些定理背后有意思的抽象数学概念,这比证明定理难多了。”梅兰妮·米切尔说。

猜你喜欢

人工智能科学
我校新增“人工智能”本科专业
点击科学
点击科学
点击科学
科学大爆炸
人工智能与就业
科学拔牙
衰落的科学