智能方法作为“第五范式”:人工智能时代科研范式的“新物种”
2024-02-27颜世健喻国明
颜世健,喻国明
(北京师范大学 新闻传播学院,北京 100875)
一、AI for Science:智能技术与科学研究的耦合
科学研究的目的是对于事物本质的研究和探索,如今人工智能开始越来越多地融入科学发现中,加速了科学研究的进程,帮助科学家提出假设、设计实验、收集和解释大量数据,并获得传统科学方法难以实现的洞见。(1)Wang H, Fu T, Du Y, et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620(7972).当生成式AI正在深度嵌入社会的千行百业,当人工智能技术与科学研究相遇时,“AI For Science”的概念应运而生。AI for Science,也被称为科学智能,是指利用人工智能的技术和方法,去研究、模拟、预测和优化自然界和人类社会的各种现象和规律。智能技术与科学研究的耦合可以帮助科学家们更深入地理解自然和人类社会,推动科学发现和创新。
现代科学发展的主要困境之一在于“维数灾难”,即随着自由度的增加,计算复杂度呈指数增加。计算的复杂性源于数据的爆炸式增长,在生物学、天文学、社会科学等领域,数据的收集和存储已经超出了人类的分析和理解能力。(2)李万,邹芸.数字技术与数字经济:从无尽前沿到创新策源[J].科技智囊,2023,(09).传统的数学方法在处理高维度的复杂问题时往往费时又费力,即便是在高性能计算机的辅助下仍然难以克服维度增加所带来的计算困境。但随着AI技术在科学研究中的应用,特别是深度学习(Deep Learning)的应用,让科学研究的计算困境遇到了破局的曙光。深度学习可以通过构建人工神经网络(Artificial Neural Network)的方式自动地从大量的数据中提取特征和模式,从而实现对数据的高效处理和挖掘,使得那些复杂、高维度和多变量的问题逐渐变得可及。总体来看,人工智能在科学研究的破局点在于通过深度学习等技术分析处理多维度、多模态、多场景下的模拟和真实数据,解决复杂推演等计算问题,加快科学研究的发现、验证和应用。
“AI For Science”如今已经在科学实践领域取得了令人瞩目的成果。例如,在生物科学领域,谷歌旗下的DeepMind公司开发的AlphaFold2系统利用深度学习对蛋白质折叠结构进行预测。这是第一种在已知没有相似结构的情况下构建高分辨率预测的方法,可以在几分钟内预测由人类基因组编码和20个模式生物的几乎所有已知蛋白,并精确到原子级。(3)Callaway E. DeepMind’s AI predicts structures for a vast trove of proteins[J]. Nature, 2021,595(7869).AlphaFold2颠覆了蛋白结构解析,这种变革性方法破解了50年来困扰生物医学研究领域的困境,开启了计算生物学的新时代。这些结果充分展示了生命科学的AI基础模型在理解和生成蛋白质序列方面的强大能力和广阔的应用前景,从而加速了与之相关的药物设计、酶催化、蛋白质结合、配体设计等领域的研究。
随着AI技术的不断发展,生命科学大模型和蛋白质生成等领域的成果将会不断向其他学科开枝散叶,为整个科学界提供更多的工具和方法来解决现实世界中的复杂问题。作为新兴的科学问题解决方案,以AI支撑前沿科技发展的新模式正在改变科学研究的方式,加速科学发现的进程,引发了科学研究范式的新革命,并产生广泛的社会影响。(4)李建会,杨宁.AI for Science:科学研究范式的新革命[J].广东社会科学,2023,(06).在此判断之上,我们需要看到人工智能作为媒介在科学研究中的功能统合作用和跨学科的知识整合价值。为了更清楚地探究以技术为导向的人工智能在学术研究领域的媒介价值和革命性突破,需要将其与现有的科学生产流相结合来分析。结合AI for Science的概念和AI引导科研工作的不同层面,我们将这种AI技术对学术生产的赋能定义为智能科学范式。
二、智能科学范式的概念与基本内容
(一)智能科学范式的概念
以大语言模型为基础的智能科学范式,不仅仅是一种技术工具,更是一种全新的知识生产方式和实践规范。它将AI技术引入到科研工作流中,通过人机协同的方式,对自然和人类社会规律进行深入学习和探索。在智能科学范式中,人机协同是关键,即研究者与大语言模型相辅相成,相互促进。模型通过大规模学习和信息处理为研究者提供庞大的知识库和有价值的建议与预测,而研究者则通过人类的创造性思维和专业知识,对模型的输出进行指导和优化。这种协同方式不仅提高了科研效率,还使得科研更加精准和深入。
智能科学范式不仅仅局限于传统学科的研究,更开启了跨学科合作的新时代,使得各领域的专家能够借助大语言模型的智能分析和综合能力,快速获取和理解其他领域的前沿知识,从而推动科学研究的全面协同和创新发展。这种深度融合的模式不仅拓展了科研思路,也为解决复杂问题提供了更为全面和高效的途径,为人类在各个领域取得更为深远的突破奠定了基础。
图1 智能科学范式的基本内容
此外,通过与模型的互动和协同学习,研究者能够审视自身的研究偏好、认知偏差以及潜在的盲点。大语言模型作为研究辅助,不仅可以提供对已有知识的系统性理解,还能够帮助研究者挖掘和理解潜在的概念关联,从而拓展其认知边界。通过模型的智能分析,研究者能够获取更为全面和深入的知识结构,发现平常容易被忽视的模式和关联。这种对知识的深层理解有助于研究者超越传统思维模式,拓展自我认知的边界。
根据以上的分析,本文将智能科学范式的概念定义为:将AI技术作为增强工具介入科研工作流,以人机协同和跨学科的方式去学习、模拟、预测自然和人类社会规律的一种知识生产规范,通过提升科研效率与精准度的方式来不断深化人的自我认知。
(二)智能科学范式的基本内容
智能研究方法贯穿于科学研究工作流的全过程,具体来说可以分为功用层、研究层和思维层。
1.功用层:效率提升与理解增强
功用层的AI赋能主要体现为文献阅读和学术写作过程中的辅助性增强。首先,文献阅读环节的智能支持包括智能翻译、对话式辅助阅读和文献资源管理等,可以帮助研究者更有效率地进行知识吸收。在文献管理方面,一些基于生成式AI的工具根据用户发出的指令可以跨语言和跨数据库地检索相关文献,将最大范围内的代表性文献进行汇总和整理后呈现在用户面前。(5)Golan R, Reddy R, Muthigi A, et al. Artificial intelligence in academic writing: a paradigm-shifting technological advance[J]. Nature Reviews Urology, 2023.基于对用户的阅读习惯和兴趣点的自动学习和识别,生成式AI可以个性化推荐相关文献,帮助用户更快地找到潜在的有价值的研究资料。在文献阅读的过程中,生成式AI可以帮助用户实现精细化阅读,实现快速检索、AI文本分析、论文追踪、高亮解读以及解读数学和表格等,不仅提升了阅读文献的速度,更有助于高效地进行特定主题的结构化阅读和系统化研究。如Zotero-GPT可以帮助用户在阅读一定数量的文献后自动生成报告,报告包括文献的概述、主要观点、研究方法和结果等方面的内容,有助于用户更好地了解文献的整体情况,为后续的研究提供参考。
其次,学术写作环节的智能支持包括辅助写作、智能校对、文章润色等。目前,许多科研辅助工具如智能写作平台和语言校对软件已经广泛运用于学术领域。这些工具基于自然语言处理技术,能够自动生成文稿、修正语法和拼写错误,甚至提供逻辑一致性检测。对于科研人员来说,这些AI工具能够极大地提高论文书写的效率,降低语言错误率,从而为提升论文质量提供有力保障。以写作润色功能为例,在知识推理上,生成式AI能模拟人脑思维方式并持续优化思维能力,通过思维链(Chain-of-Thought,CoT)完成一系列复杂推理任务。用户只需提供推理的前提和目的,它就能生产出逻辑一致的文本内容,高度还原客观知识本身。在知识表达上,生成式AI能够基于推理过程连贯地表达学术观点,通过解读人类模块化撰稿的各种特征,模仿不同学者内容创作的特色进行续写,或根据不同期刊的风格对论文进行改写和润色。(6)卢宇,余京蕾,陈鹏鹤,等.生成式人工智能的教育应用与展望——以ChatGPT系统为例[J].中国远程教育,2023,43(4).
2.研究层:边界突破与能力跃升
生成式AI在研究层的赋能指人工智能在科研实践流程的介入。尽管科学实践和程序在科学研究的各个阶段有所不同,但人工智能算法的发展跨越了传统上孤立的学科,增强了科学研究的设计和执行。研究人员可以通过人工智能技术来优化参数和功能,自动化收集、可视化和处理数据的程序,探索候选假设的广阔空间以形成理论,生成假设并估计其不确定性以提出相关实验。科学界目前较为认可的AI赋能科研流程的环节包括数据收集与管理、数据表征、假设生成和实验模拟。(7)Wang H, Fu T, Du Y, et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620(7972).
(1)数据收集与管理(Data Collection and Curation)。科学发现和理论的形成基于数据的收集、转化和理解,随着实验平台收集的数据规模及复杂性不断增加,要想选择性地存储和分析高速生成的数据,必须依赖实时处理及高性能计算 (HPC)。AI在数据处理中主要的方向包括数据选择(Data selection)、数据标注(Data annotation)、数据生成(Data generation)和数据精化(Data refinements)。如在数据选择方面,以粒子碰撞实验为例,其每秒生成的数据量超过100TB,对现行数据传输和存储技术构成了巨大压力。这类实验要求实时检测并过滤掉99%以上的无关元数据。深度学习、自动编码器等先进技术方法的应用,能有效识别科研过程中的异常事件,从而显著降低数据传输和处理的负担。(8)Karagiorgi G, Kasieczka G, Kravitz S, et al. Machine learning in the search for new fundamental physics[J]. Nature Reviews Physics,2022,4(6).
(2)有意义的数据表征(Meaningful representations of scientific data)。深度学习能够在多层次上提取科学数据的有意义的表征,并优化这些表征以指导研究。高质量的表征应该尽可能地保留数据相关信息,同时保持简洁和易于访问。(9)Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press, 2016.目前满足这些要求的几种新策略包括几何先验(Geometric priors)、自监督学习(Self-supervised learning) 、神经算子(Neural Operators)及语言建模(Language modelling)。以自监督学习为例,他可以使模型能够在不依赖明确标签的情况下,了解数据集的通用特征。他可以作为一个关键的预处理步骤,在微调模型执行下游任务前,从大规模未标注数据中学习可转移特征,这样预先训练好的具有广泛科研领域理解力的模型是通用的预测器,可以适应各种任务,从而提高标签效率,超越了纯粹的监督方法。(10)Wang H, Fu T, Du Y, et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620(7972).
(3)假设生成(Generation of Hypotheses)。可验证的假设是科学发现的核心,制定有意义的假设可能是一个漫长的过程。人工智能方法在假设生成的过程中发挥重要作用。比如,人工智能系统能够从嘈杂的观测数据中识别出潜在的符号表达式,进而生成假设。再如,人工智能系统也能够学习假设的贝叶斯后验分布,并利用这一知识生成与科学数据和现有知识相兼容的假设。(11)Guimerà R, Reichardt I, Aguilar-Mogas A, et al. A Bayesian machine scientist to aid in the solution of challenging scientific problems[J]. Science advances,2020,6(5).
最近的研究表明,无监督语言人工智能模型有可能捕捉复杂的科学概念,即将文献中已有的知识以数学形式进行表达,这表明未来潜在知识的发现可能嵌入在过去的出版物中。(12)Tshitoyan V, Dagdelen J, Weston L, et al. Unsupervised word embeddings capture latent knowledge from materials science literature[J]. Nature, 2019, 571(7763).具体而言,科学文献中潜藏着隐含的知识与关联,这可以通过对文献进行深度挖掘和分析来揭示。文献不仅仅承载着已知的知识,而且还可以作为新知识及关联的发掘来源。尽管文献中的知识大多基于先前的研究成果,但其中仍存有大量未被充分挖掘或发现的信息,这些信息有可能催生新的科学发现。这种基于文献的发现(Literature-based discovery,LBD)的人工智能方法通过剖析和整合文献中的信息,探寻不同领域和概念间的联系,以揭示之前未被察觉的关联和知识。(13)How artificial intelligence can revolutionise science. (n.d.). The Economist. Retrieved December 15, 2023, from https://www.economist.com/leaders/2023/09/14/how-artificial-intelligence-can-revolutionise-science此外,LBD系统不仅能够提出新的研究假设,还能识别潜在的知识联系,推动跨学科的合作。目前,LBD系统的应用范围正在不断扩大,已经涵盖了表格、图表和数据等各种类型的文献处理,为科研人员提供更为全面的支持。
(4)实验与模拟(Experimentation and Simulation)。通过实验评估科学假设是科学发现的关键环节,以强化学习为代表的AI技术可以提供实验设计和优化工具,这些工具可以增强传统的科学方法,减少所需的实验数量并节省资源。具体而言,强化学习能够帮助研究者改进实验设计、提高实验效率,并更好地探索数据以验证或拒绝假设,并逐步搭建模型。如在实验设计的初期阶段,强化学习能够优化实验设计,协助确定关键参数和采样策略,以最大化信息获取。而作为智能代理,强化学习还能根据先前的实验结果和模型反馈,动态调整实验策略,从而更迅速地完成假设检验。对于复杂的假设检验,如因果关系分析,强化学习有助于优化模型的参数设计,增强模型与数据的适配性。同时,强化学习可以结合深度学习和因果推理方法,为进一步的假设检验和研究方向提供有力指导。具体的应用案例如机器人科学家(Robot Scientist),它指的是通过机器人和人工智能技术进行科学实验和研究的系统。机器人科学家们可以通过数据、研究论文和专利的形式获得有关特定研究领域的背景知识,然后生成假设、执行实验、评估结果,最终发现新的科学知识。
3.思维层:认知拓展与主体性觉醒
人工智能浪潮被认为是第四次工业革命,是在实现机械化、规模化、网络化的基础上,促进工业迈向智能化的新阶段。工业革命,即因核心技术创新和重大需求变动而对工业生产体系产生深刻而广泛的影响,使得工业体系在支柱产业部门、生产组织方式、价值分配模式方面发生了革命性变化。从工业革命的内涵来看,第四次工业革命的主导技术和主导产业已经开始形成。(14)李万,邹芸,钱娅妮.第四次工业革命兴起、发展与影响——从人的能力延伸以及科技进步速率波动的视角[J].中阿科技论坛(中英文),2023,(07).纵观人类历史上的三次工业革命,根据麦克卢汉“媒介是人的延伸”的视角,前三次工业革命中的技术都是对人类身体的“延伸”。如第一次工业革命中蒸汽机提供的机械动力是对双手的“延伸”,改变了人类生产创造的效率;第二次工业革命中内燃机是对双脚的“延伸”,拓展了人类的活动空间;第三次工业革命中信息技术是对感官的“延伸”,增强了人们获取信息的能力。而以人工智能为代表的第四次技术革命则是对人类大脑的“延伸”,将会拓展人类的思维能力和认知边界,提升发现问题的能力并实现进一步的心智进化。
人工智能是人脑力对象化的产物。AI的研发过程就是一部不断巩固、放大和提升人类主体性的历史,人工智能在未来的每一点进步,都是对人本质力量的再一次确证。(15)张劲松.人是机器的尺度——论人工智能与人类主体性[J].自然辩证法研究,2017,33(01).在人工智能发展的过程中,我们可以通过不断地对人工智能进行研究和改进,提高AI的智能水平和应用范围,让AI更好地为科学研究服务。同时,我们也在与AI日益深入的共存中不断拓展自身认知的边界,实现自我心智的进化。人与机器的主体间性思辨长期以来都是备受争议的哲学问题,生成式AI所带来的生存隐忧其实恰恰激活了全社会领域对于人性的观照。这样的自我反思与观照,是人类在技术革命历史上的一种必然,也是科技文明即将发生转向时人类的一种自我“赋意”和主体性觉醒。
三、科学研究的第五范式
范式(Paradigm)这一概念最初由美国著名科学哲学家托马斯·库恩1962年在《科学革命的结构》中提出来,指的是常规科学所赖以运作的理论基础和实践规范。“范式”既代表着一个特定共同体成员共有的信念、价值等构成的整体,又代表着这个整体的某种精神要素,指引着这个共同体的功能。“范式”在本质上是一种知识生产方式和知识存在方式,是科学共同体的世界观基础和方法论遵循,为科学共同体提供研究根据、实践标准和价值方向。作为知识生产方式,“范式”集中表现为科学共同体对知识本体的基本观念和共有信念,指引着知识生产主体的实践方式选择与认同;作为知识存在方式,“范式”在知识生产实践的结果上承载着知识产品的形式和内容,表现为特定的知识话语体系。
科研范式是常规科学所赖以运作的理论基础和实践规范,随着科学的发展以及外部环境的推动不断发生变化。由于科学家对科学研究范式的信奉受到时代认知的局限性,某种科学研究范式总会在科学发展到一定程度后显示出不足而无法解决一些问题,出现困难、矛盾和困惑,这种矛盾推动了科学家们的反思和进一步探索,进而逐渐形成新的科学研究范式。
计算机图灵奖得主吉姆·格雷(Jim Grey)提出了科学研究范式发展的四个阶段:实验科学范式、理论科学范式、计算科学范式和数据科学范式。
(一)科学研究范式的演进1.经验科学范式(Experimental Paradigm)
经验科学范式应用于人类最早的科学研究,主要以记录和描述自然现象为特征,是以经验主义和人的深度思考为主导的科学研究范式。从原始的钻木取火,发展到后来以伽利略为代表的文艺复兴时期的科学发展初级阶段,经验科学范式作为人类科学研究的早期范式为人类开启了现代科学之门。
在研究方法方面,经验科学范式主要采用归纳法,通常涉及较多的盲目性观测和实验。在科学发展的早期阶段,经验科学方法在生物和化学领域尤为常见。如17世纪的科学家弗朗西斯·培根提出的归纳主义科学模式,他强调科学必须是实验的、归纳的,所有真理都必须以大量确凿的事实材料为依据。(16)弗兰西斯·培根.新工具;方法论;人是机器[M].北京:中国社会出版社,1999.他还提出了一套实验科学的“三表法”,即寻找因果联系的科学归纳法。这种方法认为要把握自然,必须对自然加以分离和分解,要把事物分解为它的组成因素去加以认识。在培根看来,事物是许多简单性质的组合和结合,要把握事物的简单形式,就需要把它们从组成同一事物的其他性质中分离出来,加以考察研究。(17)张峰.论培根归纳逻辑[J].辽宁大学学报(哲学社会科学版),2008,36(2).
2.理论科学范式(Theoretical Paradigm)
理论指人类对自然、社会现象按照已有的实证知识、经验、事实、法则、认知以及经过验证的假说,经由一般化与演绎推理等方法,进行合乎逻辑的推论性总结从范式发展的角度来看,当实验条件不具备时,第一范式的研究方法可能无法满足研究的需要。因此,为了更精确地研究自然现象,新的科学研究范式应运而生。第二范式是以建模和归纳的理论学科和分析为主导的科学研究范式。与依赖观察和实验的第一范式相比,第二范式的科学理论需要更深入地理解自然界的规律,并对其背后的原理进行解释。因此,理论科学更注重理论总结和理性概括,强调具有较高普遍性的理论认识,而非直接实用意义的科学。在研究方法上,理论科学以演绎法为主,不仅局限于描述经验事实。
3.计算科学范式(Computational science Paradigm)
随着理论研究的深入,验证理论的难度和经济投入也越来越大,第二范式面临重大瓶颈和挑战,迫切需要提出新的科学研究范式,第三范式应运而生。第三范式被称为计算科学范式,是以计算和模拟为主导的科学研究范式,由1982年诺贝尔物理学奖获得者肯尼斯·威尔逊(Kenneth Wilson)提出并确立。20世纪后半叶,伴随高性能计算机和基于大规模并行计算的计算机体系结构的发展,科学家尝试在理论模型指导下,利用计算机设计数值求解算法、编写仿真程序来推演复杂理论、模拟复杂物理现象。借助计算机的巨大算力,科学家可以精确地、大规模地求解方程组,进而去探索那些无法通过实验法和理论推导法解决的复杂问题。(18)周刚,王锐,李凯文,等. 觉悟ChatGPT,科研第五范式即将来临[J]. 中国科技成果,2023,24(12).
4.数据密集型科学(Data-Intensive Paradigm)
第三范式是先提出可能的理论,再搜集数据进行仿真计算和验证,然而随着科学的发展和环境的变化,人们可能已经拥有了大量的数据,但难以直接提出可能的理论,此时第三范式的指导意义就会显得比较有限,需要开发或总结新的科学研究范式。第四范式是以数据驱动为主导,也被称为数据密集型范式,是通过数据和算力探索前沿的科学研究范式。它与第三范式的区别在于,随着数据量的高速增长,计算机不仅仅局限于按照科学家设定的程序规则开展模拟仿真,还能从海量数据中发现规律,形成基于关联关系的科学理论,其本质是通过海量数据的收集代替人类传统的经验观察过程,借助机器的高算力代替人类的归纳推理,从而实现远超经验范式的理论归纳能力。(19)周刚,王锐,李凯文,等. 觉悟ChatGPT,科研第五范式即将来临[J]. 中国科技成果,2023,24(12).第四范式强调借助并行计算、数据挖掘、机器学习等技术去发现隐藏在数据中的关系与联系。从方法论的角度来看,第四种范式的基本思想是将数据视为数字空间中真实世界事物、现象和行为的映射,并相信数据自然意味着真实世界的操作法则。此外,通过数据驱动和数据分析方法,数据被用作揭示物理世界中现象所包含的科学规律的媒介。(20)Xueqi C, Hong M E I, Wei Z, et al. Data science and computing intelligence: concept, paradigm, and opportunities[J]. Bulletin of Chinese Academy of Sciences (Chinese Version), 2020, 35(12).通过数据密集型科学,我们可以利用大数据集中的信息来揭示之前无法察觉的模式和关联,这种方法可以帮助我们深入了解复杂的现象。
第四种范式将数据科学与前三种科学研究范式分开,并在科学发现和思维方面带来革命性的变化。海量数据让我们可以直接分析数据,发现新模式、新知识,甚至是过去的科学研究方法在不依赖模型和假设的情况下无法发现的新规律。虽然第四范式可以发现数据中的大量相关性,为科学发现提供了新的视野,然而仅依靠第四范式的数据驱动方法来进行杂乱无章的相关性分析不仅消耗了大量的计算资源也无法真正预测未来的趋势和变化。因此,从方法论角度来看,第四范式在揭示事物本质规律方面存在固有局限性,数据科学需要在方法论上突破第四范式。(21)Xueqi C, Hong M E I, Wei Z, et al. Data science and computing intelligence: concept, paradigm, and opportunities[J]. Bulletin of Chinese Academy of Sciences (Chinese Version),2020,35(12).
(二)大语言模型与“第五科学范式”的诞生
在常规科学时期,科学共同体的主要任务是在范式的指导下从事释疑活动,通过释疑活动推动科学的发展,“常规科学即解难题(Puzzle)”。(22)托马斯·库恩.科学革命的结构.第2版[M].北京:北京大学出版社,2012.在释疑活动过程中,一些新问题和新事物逐渐产生,并动摇了原有的范式,建立新范式的科学革命随之产生。
科学研究从经验范式发展到了数据科学范式,可以实现从海量数据中挖掘出人类智能难以发现的科学规律。但经过多年的科学实践可以发现,不论是计算科学还是数据科学范式,在面对社会、经济、人脑智能等复杂巨系统科研对象时,都存在数理模型难以构建、数据学习效率低下、内在机理不明等局限性。(23)周刚,王锐,李凯文,等. 觉悟ChatGPT,科研第五范式即将来临[J]. 中国科技成果,2023,24(12).基于这样的现实,吉姆·格雷提出了跨学科的解决方案,即鼓励不同领域的科学家、工程师和计算机科学家共同研究,共享数据、工具和知识,以促进科学研究的进步。但实际上这样深度的跨学科合作是不现实的,因为各种领域知识的专家互相之间并不了解,也不能准确判断对方说的是否正确,因此在对跨学科领域建模的时候人类的智能是无法实现的。然而,以ChatGPT为代表的生成式AI在近年来取得的瞩目成果展现了人机融合的巨大潜力,为科学研究长期的困境带来了新的曙光。
智能科学范式作为人类科学革命历史中的“第五范式”可以理解为一种以AI技术为核心,以融入人的价值和知识为手段,以人机共融为特征的跨领域科学研究规范。与先前的范式相比,第五范式更侧重于人类、机器和数据之间的交互,强调人类决策机制和数据分析的整合,它体现了数据和智能的有机结合。目前,人工智能作为一种强大的科学研究范式已经在信息科学、数学、医学、材料科学、地球科学、生命科学、物理和化学等八个主要的科学研究领域产生强大的效用。(24)Xu Y, Liu X, Cao X, et al. Artificial intelligence: A powerful paradigm for scientific research[J]. The Innovation, 2021, 2(4).
(三)智能科学范式作为“第五范式”的意义与价值
1.价值连接:跨学科的细粒化、全要素协同
以生成式AI为主导的智能研究方法,其核心要义在于通过AI对人类已有知识成果强大的学习和整合能力实现全领域、细粒度的价值连接。具体而言,这种连接是全要素、全系统的一种基于细粒度社会的价值匹配,凸显了智能技术在学术研究领域中通过中介性、匹配性所实现的倍加效应。智能研究方法能够使科学研究在这种连接中实现更高的效率,更深远的探测,更细粒度的把握。第五范式旨在推断各种认知计算应用的共同点,并指导开发互补解决方案,以应对未来的挑战。(25)Malitsky N, Castain R, Cowan M. Spark-mpi: Approaching the fifth paradigm of cognitive applications[J]. arXiv preprint arXiv:1806.01110, 2018.
价值连接主要作用于科学研究中研究对象(Subject)的问题。AI对人类知识成果的整合力可以实现语言模型跨学科、跨系统的知识融合,使吉姆·格雷提出的跨学科解决路径成为可能。这使得当前诸多因“学科壁垒”而无法探测的巨型复杂系统逐渐被纳入系统化研究的议程,如社会系统、经济系统、人脑智能等。换言之,第五范式的出现使诸多常规科学无法深入研究的问题变得可及,将科学研究的对象拓展至更复杂、更深层的领域,同时也打开了人类更加广阔的研究视野。智能研究方法作为科学研究的“第五范式”目前尚处于起步阶段,且需要一个极其漫长的过程,需要建立在开源知识系统、算力平台系统和算法模型和软件系统等多种智能系统之上。
图2 智能科学范式作为“第五范式”的意义与价值
总体而言,第五范式最重要的价值即在于通过AI对人类已有知识成果强大的学习和整合能力实现全领域、细粒度的价值连接。它是一个连接型的价值,而不是某一个专门的工具,我们需要从价值连接的角度来理解第五范式。AI模型甚至可能成为一种新的知识形式,与人类能够理解的知识并驾齐驱,共同组成科学知识,(26)李建会,杨宁.AI for Science:科学研究范式的新革命[J].广东社会科学,2023,(06).它为跨学科的复杂系统研究和人类的科学视野提供了无可估量的价值。
2.路径革命:范式突破与方法统合
在科学发展的某一时期,总有一种主导范式,当这种主导范式不能解释的“异常”积累到一定程度时,就无法再使用旧有的范式去做解释,科学共同体将寻求更具备包容性的新范式。(27)托马斯·库恩.科学革命的结构.第2版[M].北京:北京大学出版社,2012.常规科学的前四种范式都有各自的特长,但它们通常不能解决其他范式的问题,而且在面对复杂的问题时,它们之间更不能进行有效的协同、匹配和交叉。
第五研究范式能够实现“范式突破”的原因在于可以利用自身强大的数据归纳和分析能力去学习科学规律和原理。具体而言,以深度学习在科学研究的应用为例,深度学习中用于训练神经网络的数据来自科学基本方程的数值解,而非经验观察,从而延展出一种新的知识创造的思路,即通过“机器猜想”的方式实现科学智能的应用。(28)刘志毅.第五范式的出现:科学智能+机器猜想 | 数字之道[N].经济观察报,2022-11-25.以深度学习为代表的AI技术兼顾了效率与准确性,通过“机器猜想”的方式应用于科学智能,通过不同“算法思维”和“应用场景”的对撞,得到不同领域的专业知识,将未知的结论推导出来,从而反向推动该领域的发展,得到在经验领域具有的前瞻性的结果。
智能研究方法主导了科学发展困境期的一场路径革命,通过“科学智能+机器猜想”的方式打破了常规科学范式之间的边界,并且在方法论和思维模式上形成对前四种研究范式的统合,为科学研究提供了前所未有的路径。比如,当前自然科学研究中普遍面临的“维数灾难”问题,目前的算力无法处理非常高维的数学问题,而通过神经网络的方法则可以有效地表示或者是逼近高维空间的函数。例如,分子动力学中对原子间相互作用的势能函数的描述,即便是通过量子力学模型,也要每一步在线地把原子和原子间的相互作用力算出来,且只能处理最多1000个原子。利用深度学习的方法,科学家们将分子动力学极限从基线提升到了1亿原子的惊人数量,同时仍保证了从头算的高精度,效率是之前人类基线水平的1000倍。
总体而言,第五研究范式是一种全新的思维模式和方法论,通过对常规科学范式的突破和对研究方法的整合,以更加高效和准确的路径推动科学进展。
3.主体强化:“人在回路”模式的深度人机协作
从范式演进的角度来看,以数据密集为特征的第四范式可以发现数据中的大量相关性,为科学发现提供了新的视野。但在具有主观、非线性、不规则结构特征的研究对象上,仅靠数据驱动方法进行漫无边际的相关性分析,不仅消耗了大量的计算资源,而且无法真正预测未来的趋势和变化。(29)Xueqi C, Hong M E I, Wei Z, et al. Data science and computing intelligence: concept, paradigm, and opportunities[J]. Bulletin of Chinese Academy of Sciences (Chinese Version), 2020, 35(12).面对第四研究范式的这些困境,采用“人在回路”学习模式的人机协作方法开始展现其强大的潜力。
人在回路(Human in the loop,HITL)指人类参与算法建构的训练和测试阶段,以连续的方式训练和验证模型,是将机器和人类智能相结合以获得长期最佳结果的过程,简言之即:由人主导的迭代。人在回路是监督机器学习和主动学习的结合,这种将人类和机器智能结合起来的方法创造了一个持续的反馈循环,使算法每次都能产生更好的结果。在常规的科学研究中,研究者往往是以观察者的身份介入到研究中的,如第一范式中人类观察总结,第二范式中人类归纳推导,第三范式中人类建模分析,第四范式中人类设计框架等。不论是经验范式、理论范式、计算范式还是数据范式,人类总是在观察、归纳物理世界的客观现象,用数理逻辑、理论概念、公式和模型等作为可靠的“抓手”来处理问题。但当这些可靠的“抓手”在面对复杂问题失效时,当机器通过学习掌握了人类创造的知识之后,人的定位应该从幕后走向台前。通过到将人的直觉性经验或专家性经验融合到数据模型或者计算模型当中,以人类专家经验引导改进“机器”的低效探索,发挥“机器”的计算能力优势和人类的直觉性优势,以人机融合、人在回路的形式进行科学实践,以弥补“机器”无法感知或推理某些难以量化的科学规律上的局限性。
总体来看,“人在回路”的深度人机协作模式为擅长逻辑推理的机器赋予人类特有的非线性抽象思维,以机器积累量变,以人脑触发质变,以螺旋升级的方式共同促进科学技术的进步和发展。
四、结语
智能科学范式是一个充满潜力和挑战的领域,它将为科学研究开辟新的视野和路径,也将对科学家的角色和能力提出新的要求。同时,它也带来了一些挑战和风险,需要科学家和AI研究者共同面对和解决。例如,AI生成结果的可解释性(Explainability)问题,即AI如何做出决策和推理的过程往往是不透明的,难以被人类理解和验证。这就需要开发新的方法和工具,揭示AI的内部机制和逻辑,从而提高AI的可信度和可靠性。
可以预见的是,传统科学和传统产业在未来将成为人工智能的重要实践场,随着人工智能与社会各个领域的深度融合,将会改变社会千行百业的生长逻辑和内部结构,并推动社会全实践领域实现更加智能化、高效化和可持续化的生产和发展。放眼未来,AI的前景或许不再仅仅是一种高性能工具,AI模型甚至可能成为一种新的知识形式,与人类能够理解的知识并驾齐驱,共同组成科学知识。(30)李建会,杨宁.AI for Science:科学研究范式的新革命[J].广东社会科学,2023,(06).AI所引发的智能产业变革,也将极大提升人类的认知能力,使得知识的学习和传播能力极大跃升,进而促进知识的创造和应用。(31)李万,邹芸,钱娅妮.第四次工业革命兴起、发展与影响——从人的能力延伸以及科技进步速率波动的视角[J].中阿科技论坛(中英文),2023,(07).
科学研究的历史是一个“问题—答案—新问题”的循环往复,在过去的半个世纪里,那些深奥且充满挑战的科学难题曾吸引无数研究者深思与投入,但在其解决过程中又展现出难以逾越的复杂性。当我们回首过去可以发现,这些问题仅仅是人类科学演进和认知拓展过程中的冰山一角,并暗示着一个更广阔、更深层的问题域。随着AI For Science的崛起以及多学科交叉融合的独特研究方法,我们得以窥见一种创新的研究范式。这种范式无疑为那些长期困扰科学界的难题,以及人类在科学前沿的勇敢探索,注入了前所未有的学术活力与可能性。通过这些先进的智能研究途径,我们能够更系统、更深入地挖掘科学知识的宝藏,进一步拓展人类对自然界的认知边界。而从历史的角度来看,科学研究范式的演进绝不会停留在第五次,人类对于未知的不懈求索、对于方法的革新,将同人类文明的演进一样生生不息。