人工智能驱动科研范式变革的机制与路径研究
——以生物学为例
2024-04-24李亚玲包芊颖黄成凤
李亚玲,包芊颖,黄成凤
1.之江实验室发展战略与合作中心,浙江 杭州 3111212;2.之江实验室智能社会治理实验室 (浙江省哲学社会科学试点实验室),浙江 杭州 311121)
1 研究背景
1.1 科研范式的概念和变革历程
科研范式是科技创新的基本理论和方法,是特定历史时期科学共同体进行科学研究的方式,与科技创新的内在规律要求相适应[1]。传统科研范式经历了以下四个阶段的演化发展历程[2]:第一阶段为经验范式,主要通过实验描述自然现象;第二阶段为理论范式,主要通过模型或归纳法进行科学研究;第三阶段为计算范式,是指使用计算机进行仿真模拟来解决各个学科中的问题;第四阶段为数据范式,也称为数据密集型科学,是指通过大数据分析研究事物内在的因果关系和相关关系,从而得到结论。在科学发展的特定时期,通常由一种范式主导。随着主导范式被广泛接受和长期应用,往往会出现当前范式难以解释的科学发现。当主导范式难以解决的问题逐渐积累到引发质变时,新的科研范式呼之欲出,并逐渐取代旧范式[3]。科研范式发生变革时新旧范式更迭,从而推动科学理论实现跨越式发展。科研范式的转换往往伴随着科学革命,即科学技术的核心理论发生全局性、根本性、颠覆性变革。新的概念、理论取代原有的概念和理论,用来指导科学实践,进而引发社会生活领域的革命性改变。
1.2 人工智能驱动科研范式变革的基础
随着人工智能技术和现代科学的发展,人工智能技术在科学研究中的应用逐渐进入爆发期。背后推动契机既包括原有科研范式发展瓶颈积累的需求,也得益于人工智能在数据、算法和算力基础设施上的全面突破。
其一,需求基础。原有科研范式难以解决数据爆炸背景下的科学问题求解,随着数据量的增长,数据不确定性、数据复杂性、数据维度爆炸、数据尺度边界等问题日益突出。上述困境亟需智能技术的引入,将人的决策与机器智能相融合,从而有效结合数据科学和计算智能,形成广泛的人机协同决策机制。
其二,数据基础。随着科研管理的数字化转型,科研数据的积累初具规模,在部分领域形成了可供智能技术分析和应用的科研大数据集。以生物学为例,开源蛋白结构数据库 (Protein Data Bank,PDB)中包含20.3万个蛋白结构和106.8万个计算模型;病毒基因数据库GISAID中已包含超过1660万个病毒基因组序列 (截至2024年3月12日);ZINC化合物数据库包含14亿个分子。
其三,算法基础。人工智能技术在以ChatGPT为代表的大型自然语言处理模型领域的技术爆发,给科研工作提供了新的辅助工具。例如,目前已出现基于ChatGPT的论文自动阅读和重点提炼工具、科技论文润色、实验流程设计等辅助工具。
其四,算力基础。随着集成电路产业的迅速发展,芯片先进制造技术在不断突破,过去数十年来,CPU的性能按照摩尔定律逐渐逼近物理极限。GPU、TPU等新型计算芯片层出不穷,高性能GPU成为构建大规模生成式预训练模型的重要基础设施,为人工智能技术的进一步应用提供了基础条件。
1.3 研究综述:人工智能驱动科研范式变革的研究进展
数字时代开启以来,以深度学习为代表的智能技术为科学研究带来了新的方法和通用工具,正驱动科研范式发生新的变革。例如,AlphaFold 2模型成功预测了98.5%的人类蛋白质结构,具有原子级准确度,与复杂结构生物学实验的结果相媲美;DeePMD-kit模型结合机器学习、高性能计算和物理建模,在保持高精度的同时将分子动力学推向10亿个原子的极限;FourCastNet模型基于新型算子学习的神经网络结构,将天气预报提速了45000倍。上述实践表明,人工智能技术能够显著加速科学发现和科技创新的过程,但其具体作用机制仍不清晰。为了阐明智能技术驱动科研范式变革的具体机制和路径,国内外学者展开了一些研究。孙蒙鸽等[4]提出科学研究的 “第五范式”,将人的决策与数据分析相融合,从而结合数据科学和计算智能。胡志刚等[5]提出将商业智能技术引入科研管理,以赋能科技政策的制定和科研事务管理。张兰等[6]提出智能科研助手的概念,用于科技信息深度挖掘、学科知识拓展发现、科研假设辅助生成、科研实验智能控制、研究成果智能整合,以提高科研效能。Berens等[7]提出人工智能技术对科研范式的变革潜力源于其跨学科的通用性,通过融合智能技术和领域专业知识实现人机协作。Van Dis 等[8]探讨了ChatGPT对科学研究的赋能方式,并提出确保ChatGPT被负责任地使用的若干举措。Berdejo-Espinola等[9]指出,人工智能技术提供了高质量、易触达的科研工具,如英语编辑工具,从而有助于促进科学公平。总体而言,现有研究多集中于科研数字化层次,聚焦科研流程的特定环节,或局限于特定学科技术层面的综述研究,人工智能技术驱动科研范式变革的具体机制和路径仍有待阐明和提出。
2 人工智能驱动科研范式变革的具体路径
人工智能技术驱动科研范式变革的具体路径主要有三个层面,一是通过重塑知识生产过程,加速知识产生的速度;二是通过再造科学研究的工作流程,提高科研流程的效率;三是通过加速交叉融合创新,激发创新活力。
2.1 人工智能重塑知识生产过程
随着机器学习、深度学习、知识图谱等一系列关于知识工程的技术或算法的出现,智能技术逐渐被用于知识发现和生产过程。智能算法从大量数据集中学习形成知识或是由机器感知外部环境获取数据来发现知识,逐渐颠覆了人类传统知识创造依靠经验、认知乃至直觉的方式。在数据与技术的双重推动下,知识生产主体和知识生产方式都发生了巨大变化。
在知识生产主体层面,知识生产主体不再限于人类,呈现人、智能机器和人机协同三者共生的形态。智能机器延展了知识生产的视野,使得知识生产主体不再局限于科学界精英所组成的科学共同体,甚至不限于人类,而是扩展到机器。人类不再是唯一的知识生产和拥有者,智能机器也具有同样的能力。例如,麻省理工学院的研究团队完全依靠深度学习网络,从超过 1.07 亿种分子中识别出强大的新型抗生素分子halicin,可对抗多种细菌[10]。DeepMind团队的最新研究成果表明,人工智能可以用于协助数学家发现数学研究前沿的定理和猜想[11],甚至能够通过强化学习从头开始发现增强的排序算法[12]。
在知识生产方式层面,从依靠推理和感知获取知识转变为智能技术支撑下的大数据知识发现与生产方式。传统的知识生产方式一般有以下三种:一是演绎法,由人脑的演绎和综合推理获得理性知识;二是归纳法,由感知经验归纳和总结形成知识;三是演绎法和归纳法结合,将感知经验作为认知基础,结合演绎、归纳和类比形成知识。随着数字时代的发展,人类社会已有的知识乃至人类社会化行为都可以被智能技术数字化、符号化为数据表达,并能被智能算法学习和灵活应用。例如,AlphaGO在机器学习算法支持下从预置的大量人类棋手棋局模板中学习围棋知识,实现了人机较量; “微软小冰”通过学习人类已经广泛流传的诗歌、音乐和美术等作品实现艺术创作,甚至举办了画展、出版了个人绘画作品集。数据成为新的知识生产原料,打破了传统以主观经验为主导的知识生产局限,走向以客观数据为主导的规律探索与知识发现方式。智能技术参与知识生产,加速了群智协同的分布式知识创造进程。人工智能的介入使得知识生产得以自动化,知识 “生成”的速度和效率均获得极大提升。
2.2 人工智能再造科研工作流程
新时代的科学研究离不开人工智能的辅助,人工智能将成为继计算机之后的新生产工具,带来效率的显著提升。人工智能伴随科研的全流程,从假设、实验到归纳总结,有效提高了科研工作效率,大大缩短了科研流程 (见表1)。
表1 人工智能赋能科研工作流程的三大环节
一是实验设计环节。在文献查找环节,人工智能可用于文献自动查找和摘要抽取,从而大幅节省文献阅读时间。通过对文献主题分布、学者合作网络的深度分析,可以进一步把握特定领域的研究热点,以辅助科研工作者确定研究方向。以ChatGPT为例,通过与ChatGPT的对话,科学家可以得到关于实验设计的新颖想法及潜在问题的预测,甚至可以在设计过程中发现之前未考虑的因素,这将有助于科学家更好地提出科学假设,规划实验并提高实验的效率和准确性。此外,在实验方案设计环节,人工智能可用于辅助设计实验方案,确定实验参数和实验变量。
二是数据分析环节。科学研究往往涉及大量的数据收集和分析,随着分析测试工具的进步,科研数据的规模已达到人力分析难以企及的体量。例如,目前全球新冠病毒基因数据库GISAID已积累了超过1660万个新冠病毒基因组序列,而单个新冠病毒基因组又包含约3万个核苷酸序列。人工智能可以作为一种数据分析工具,辅助科学家处理庞大、复杂的科学数据,对数据进行标注、去噪等精加工处理,发现数据内在的隐藏趋势和规律,从中获得新的发现和见解。此外,在部分数据稀缺的领域,人工智能还可用于生成训练数据,以弥补训练数据的不足。人工智能还可用于自动生成数据分析代码,提供数据分析的方法和技巧,间接作用于数据分析过程。
三是成果形成环节。人工智能可用于辅助论文写作、论文润色修改、科研绘图等领域。有研究表明,人工智能技术为非英语母语的科研工作者提供了高质量、易触达的英语编辑工具,从而有助于促进科学公平[9]。人工智能技术还可用于科研成果的分发和精准推送,从而帮助科研工作者及时接受领域学术热点,促进学术交流和成果传播。在学术出版领域,人工智能能够重构学术出版流程,实现选题策划便捷化、编辑出版自动化、生产印刷按需化、营销发行精准化,进而加速整个学术传播过程[13]。
2.3 人工智能加速交叉融合创新
当今,受自然、技术和人类社会等相关联的系统跨时间、跨空间尺度上相互作用的影响,科学问题变得愈加复杂和充满挑战。人类面临的诸多重大问题,如生命健康、能源缺乏、环境污染等,往往涉及多个学科的交叉融合。亟需开发新的工具和方法,以分析、揭示和解决上述复杂系统的重要命题。人工智能技术由于具有跨学科的广泛适用性,是推动跨领域研究的绝佳工具。通过汇集人工智能和其他领域的专业知识,将机器知识和领域知识相结合,进而实现交叉学科的技术进步和创新突破。以深度学习为代表的人工智能技术在生物、物理、气象等领域已展示出巨大的应用潜力,驱动科研范式发生新的变革。随着以ChatGPT为代表的认知智能技术突破,未来人工智能技术对其他研究领域的赋能作用将进一步扩大。人工智能技术对其他研究领域的赋能,同时也是不同学科间交叉融合的过程。人工智能技术的应用有望消除学科间的壁垒,激发学科交叉领域这一创新 “策源地”。
3 人工智能引发生物学的范式革命
人工智能技术作为分析高维数据的通用技术,其在不同学科领域的应用和渗透速度与领域内高质量数据的积累程度息息相关。在传统实验技术和现代先进测序技术的共同作用下,生物学率先在DNA和RNA序列、蛋白质结构、小分子结构等领域形成规模可观的数据集,这些数据是人工智能技术尤其是深度学习技术得以应用的最重要基础。药物发现,蛋白质结构预测以及传染病的预测、演变和控制这三个领域已初步积累了大量、高质量的数据集,如ZINC化合物数据库、开源蛋白结构数据库 (PDB)、病毒基因数据库GISAID等,因而成为人工智能技术率先应用的演练场。
3.1 药物发现
药物发现通常是个缓慢且昂贵的过程,制造一种小分子药物平均需要大约15年时间和20亿美元。在药物发现早期,如果能找到更为快速、便捷的方法,以改善靶点预测、先导化合物优化等环节,是缩短药物开发时间和降低开发成本的重要途径。随着结构生物学的发展、化合物筛选库的快速增长和新兴计算方法的突破,人工智能技术用于药物发现过程逐渐成为现实。近年来的最新案例表明,人工智能技术的应用能够大大加速和改进药物发现过程。例如,Exscientia公司开发了一种用于治疗强迫症的候选药物 DSP-1181,该药物使用 AI 方法在构思后不到 12 个月就进入 1 期临床试验;Benevolent AI 公司借助生物医学知识网络图谱分析与识别,确定了一种可能的药物巴瑞替尼 (Baricitinib),可以抑制COVID-19感染并减少炎症损伤。
药物发现中常用的人工智能算法有多层感知机 (MLP)、卷积神经网络 (CNN)、循环神经网络 (RNN)、变分自动编码器 (VAEs)、生成对抗网络 (GANs)、图神经网络 (GNNs)、Transformer、强化学习等。通过结合化学信息、生物信息中的大量数据,上述算法在药物靶标预测、化合物高通量筛选、化合物性质预测、药物从头设计、药物性质预测等多个重要环节发挥作用,改变药物研发进程,提升药物研发效率。
靶点识别是药物发现的基础,传统的靶点识别过程主要依靠湿实验,根据亲和力、基因修饰筛选和比较分析来筛选可能的靶点,整个过程耗时、昂贵且充满风险。识别正确的药物靶点对于药物开发至关重要,人工智能方法可以显著提高药物靶点识别的准确率,从而提高药物开发效率。例如,Yang等[14]引入深度学习方法用于小分子靶点的预测,新靶点有望指导扩张性心肌病的新疗法开发。
化合物筛选是从大量候选化合物中选择对特定靶点具有较高化合物的过程,传统实验手段涉及大量的人力物力。人工智能方法通过整合已有化合物数据库的信息,预测化合物和靶点结合的有效性,可以提高命中率,降低研发成本。Singh等[15]提出一种用于药物-靶标相互作用预测的机器学习方法ConPLex,该方法基于预训练的蛋白质语言模型的信息表示和对比学习思想,实现了对潜在候选药物的快速筛选。ConPLex的实验验证产生了 63% 的命中率 (12/19),证明了 ConPLex 作为一种准确、高度可扩展的计算机筛选工具的价值。Liu等[16]将神经网络用于新窄谱抗生素的发现,以7500个在体外抑制鲍曼不动杆菌 (Acinetobacter baumannii)生长的分子图结构数据集训练神经网络,预测了一种有可能的先导化合物。进一步实验结果表明,该先导化合物具有针对鲍曼不动杆菌的靶向活性。Tebon等[17]将生物打印、高速活细胞干涉测量法 (HSLCI)和卷积神经网络相结合,实现了在单类器官分辨率下的药物筛选。
人工智能方法还可用于预测药物性质。例如,Bannigan等[18]对比了11种不同机器学习算法预测长效注射剂药物释放曲线的准确性,结果表明,基于研究中采用的数据集,光梯度增强机 (LGBM0)模型的预测准确性最好,该模型有望用于指导新型长效注射剂的设计,以减少药物开发相关的时间与成本。已有研究将人工智能方法用于构建药物发现的全流程服务平台,Huang等[19]推出一个开放访问平台 (TDC),平台为药物开发的全流程各阶段提供了数据管理、算法设计及性能评估等集合功能。截至目前,平台已包含66个数据集,任务涵盖靶点识别、互补位和表位预测、分子生成、药物反应和协同预测等。除此之外,人工智能方法也已用于指导药物合成和生产。例如,ANGELLO等[20]设计了一个机器学习辅助通用性工作流程,用于指导有机小分子的自动化合成,利用数据引导矩阵向下选择、不确定性最小化机器学习和机器人实验来改善反应条件,在实际应用中取得了产量翻倍的效果。
总之,人工智能在药物发现中最具价值的应用可能在于对传统湿实验环节的部分替代和优化,从而大幅降低药物研发的成本和时间,为市场价值较小的药物如 “孤儿药”研发提供更多方案。
3.2 蛋白质结构预测
蛋白质由20种天然氨基酸组成,并通过原子间相互作用形成稳定的三维构象。蛋白质结构复杂,同时执行着精密的功能。根据蛋白质的氨基酸序列来准确测定蛋白质的三维结构,对理解其功能非常重要。由于蛋白质折叠方式的可能性过多,以及细胞内微环境复杂,蛋白质三维结构的预测一直是生物学领域长期存在的挑战。传统的结构预测方法如晶体衍射、核磁共振、冷冻电镜等存在耗时长、计算复杂、成功率低等缺点。早在20世纪70年代,科学家就开始尝试建立计算机模型以预测给定的蛋白质如何折叠,但只能局限于较小的蛋白质分子或部分短片段。人工智能技术可以从同家族蛋白的演化关系中学习并预测残基间的相互作用关系,对于蛋白质结构预测领域起到非常关键的作用。随着人工智能技术的应用,蛋白质结构预测的效率和准确率得以大幅提升。
近年来,蛋白质结构预测的重大突破源于谷歌旗下DeepMind的AlphaFold系列模型[21-22]。2018年,AlphaFold被首次提出,并在CASP13中排名第一,其准确度比上一年度的最佳水平提升了50%。2020年,改进版本AlphaFold2以巨大优势赢得CASP14,其预测精确度达到原子级别,中值误差小于1埃,与实验方法相当。随后,DeepMind与欧洲分子生物学实验室合作推出了AlphaFold DB数据库,将蛋白质结构预测数据量扩展到超过2亿个,涉及约100万个物种,几乎涵盖了地球上所有已知蛋白质,这一突破将为生物医学领域的基础科学带来全新革命。从技术上看,AlphaFold本质上是一个几何深度学习模型,其核心思想是对氨基酸与氨基酸在空间上的几何联系进行建模,进而预测蛋白质在空间上的三维结构。该模型将原子半径、化学键角度等因素纳入考虑,并放弃了传统算法的线性接近性原则,更加注重氨基酸的三维关系。此外,该模型在计算过程中能够不断调整以避免早期错误的积累,从而逐步完善结构预测结果。研究人员采用14万PDB序列以及35万个序列/结构对,作为训练数据对模型进行了训练,以提高其预测准确度。尽管AlphaFold模型的预测精度已达到较高水平,但仍存在一些局限性。例如,它提供的是蛋白质分子的静态图片,无法对蛋白质结构的动态变化情况进行建模,或是模拟蛋白质与其他分子间的相互作用。此外,从头开始设计全新的蛋白质来完成特定的任务仍充满挑战。
除了DeepMind团队在蛋白质结构预测方面的进展外,华盛顿大学David Baker研究团队一直深耕蛋白质结构预测和生成研究。Baker团队最早采取的是能量方程路线,基于蛋白质的生物物理特性,将序列设计视为能量优化问题,寻找对于给定输入结构具有最低能量的氨基酸特性和构象的组合。随着氨基酸数量和种类增加,计算复杂程度会显著上升,因而局限性明显。2021年7月,Baker团队开发出一种 “三轨”神经网络RoseTTAFold[23],能在十几分钟内解析给定蛋白质序列的三维结构。这种架构采用三轨注意力机制,同时考虑了一维氨基酸序列、二维氨基酸残基—残基距离和方向以及三维原子坐标信息,三个维度间的信息能够互相交流,使得神经网络能够综合所有信息,推理出蛋白质的化学部分与其折叠结构之间的关系。尽管RoseTTAFold模型在CASP14中的表现略逊色于AlphaFold2,但仍是迄今为止最准确的蛋白质结构预测算法之一 。RoseTTAFold有力推动了蛋白结构预测模型的免费和全开源,并探索了蛋白结构预测在辅助实验蛋白结构测定、致病突变位点和功能位点预测、蛋白-蛋白复合物结构预测等领域的拓展应用。
除了蛋白结构预测外,Baker团队在蛋白质的从头设计领域也做了一系列探索。2022年9月,Baker 团队将深度学习引入蛋白质设计,发布了深度学习算法 ProteinMPNN,可根据给出的蛋白质三维结构在几秒钟内快速 “逆推”出可能的氨基酸序列[24]。已有研究表明,在天然蛋白质骨架上,ProteinMPNN 的序列恢复率达到52.4% (Rosetta为32.9%)。除了大幅提高的准确率外,相比以前的工具,ProteinMPNN只需要用户输入少量信息,速度提升了 200 多倍。在最新的研究中,Baker 研究团队又将强化学习引入蛋白质复合体的从头设计中。通过开发一种 “自上而下”的基于强化学习的蛋白质复合体设计策略[25],从最终蛋白质复合体的结构和功能入手,反向推出构成复合体的亚基应该具有什么样的结构特征,再根据这些特征去设计蛋白亚基,为疫苗设计和药物开发带来了新的突破。
总之,以AlphaFold2为代表的人工智能方法在蛋白结构预测领域的突破对生物医学及相关领域产生了巨大影响。通过应用人工智能方法,研究人员可以重新设计具备特定功能的蛋白质,对药物设计、基因治疗、疫苗开发、酶工程等应用领域影响深远。
3.3 传染病的预测、演变和控制
2019年末新冠病毒疫情暴发以来,已在全球造成数亿人感染和数百万人死亡。人工智能技术在疫情预测、演变和控制中发挥着不可替代的作用,主要包括以下四个方面。
一是识别和预测病毒新谱系,为疫苗设计和药物开发提供参考。SARS-CoV-2大流行以具有更高适应度的病毒新谱系出现驱动疫情反复暴发为特点,因此,快速识别新谱系并准确预测其动态,对于制定疫情应对策略至关重要。通过引入人工智能算法,可以预测出未来可能会占据主导地位的变异毒株,以及可能会发生变异的病毒基因位点。Fritz Obermeyer等[26]开发了一种贝叶斯分层回归模型PyR0,可以推断一定地理区域内所有病毒谱系的相对流行率,检测流行率增加的谱系,并识别与适应性相关的突变。研究表明,PyR0模型能提供早期预警,并帮助识别值得关注的变异株 (VoC),从而为公共卫生政策的制定和疫苗开发提供参考。
二是疫情局部暴发风险监测。随着测序成本的降低、准确性的提高以及测序仪器变得更加便携,实时病毒监测和分子流行病学将成为应对传染病的重要工具。Ward等[27]采用空间集成长短期记忆算法 (SI-LSTM),为决策者提供COVID-19在部分地区局部暴发的早期指标监测框架,并在小空间尺度上预测SARS-CoV-2病毒传播和临床风险,以指导疫情应对和流行病管理。该方法结合一系列高分辨空间数据,如Google Trends术语相对搜索量、谷歌移动数据、电信移动数据、国家卫生服务119呼叫数据和网站测试数据,能够在评估的时间段内准确识别一个月或更长时间的热点位置,准确度超过99%。
三是辅助疾病快速诊断和临床风险评估。在新冠疫情防控期间,医疗资源不足的情况在国内外均有发生。因而,疾病的快速诊断对于实施分级诊疗、优化医疗资源分配尤为重要。人工智能技术主要用于CT、X光、病理组织等医学图像识别领域,用于辅助疾病快速诊断。Jin等[28]提出一种基于胸部CT图像快速检测COVID-19的深度卷积神经网络算法,在包含COVID-19在内的五种疾病的多分类诊断任务中AUC达到97.81%,在CC-CCII和MosMedData两个公开数据集上的AUC更是高达92.99%和93.25%。预测住院人数或者住院率对于国家或区域层面的医疗资源分配具有指导意义。在临床风险预测方面,Gao等[29]引入统计力学中用于估计晶格位点自旋构型的Ising动力学,提出一种深度学习时空预测模型HOIST,用来准确预测COVID-19大流行期间的住院人数。由于模型结合了美国各地保险索赔信息、人口普查信息、医疗资源使用信息等数据,因而具有更好的可解释性。模型预测结果表明,将疫苗接种率提高10%可以使当前全域住院病例数平均减少15%;加强农村地区的疫苗接种推广工作有利于显著减轻政府的医疗财政负担。
四是指导疫情防控措施的制定。预先了解哪些人群需要重点关注,对于针对性地制定恰当的防控措施、降低疫情传播风险非常重要。例如,Monod等[30]的研究表明,2020年美国COVID-19疫情卷土重来与20—49岁年龄段人口的流动息息相关。由此建议在新型、高传播性SARS-CoV-2谱系尚未建立的地区,对20—49岁的人口进行额外干预,以减少疫情传播风险。疫情措施的制定还需要考虑到防控措施对经济社会的影响,与防疫效果之间的平衡。因此,需要考察不同防控措施的有效性,进而寻找对经济社会影响较小同时防控效果较好的防控措施组合。Haug等[31]将人工智能技术用于量化评估79个国家或地区实施的非药物干预措施 (NPI)对降低SARS-CoV-2病毒传播风险的影响,以预测其有效性。研究结果表明,适当的非药物干预措施组合可以有效遏制病毒传播,减轻对医疗卫生系统的压力。最有效的非药物干预措施包括宵禁、封锁、限制聚集等,风险沟通策略、对弱势群体的援助和支持计划等侵入性较小、成本较高的干预措施也同样有效。这些研究结果可为政府选择非药物干预措施的种类和时机提供参考。
4 人工智能驱动生物学科研范式变革的机制
通过对人工智能技术在生物学中的三个典型领域,即药物发现,蛋白质结构预测以及传染病的预测、演变和控制的应用梳理,可以进一步总结得到人工智能技术驱动生物学科研范式变革的机制。从总体路线来说,传统方法采取的是自下而上的解决思路。当变量较少、科学问题复杂度较低时,这种思路便于根据第一性原理构建求解方程,计算量可控,可以较为顺利地解决问题。然而,生物领域的科学问题往往是涉及众多层次和维度的复杂问题,求解复杂度随着数据维度出现指数式上升,传统实验和计算方法求解对资源的需求量已远超现实可及范围。在数据驱动的人工智能方法下,解决问题的思路通常是自上而下的,可以将高维空间的问题通过降维、近似后实现求解,能够寻找到与现实问题直接相关的影响因素,从而形成解决科学问题的新范式 (见图1)。从具体机制而言,可以总结为以下三个方面。
图1 传统方法与人工智能方法解决科学问题的路线对比
一是辅助验证科学假设,节省迭代成本。传统的科学假设往往依靠研究者通过提出猜想、生成假设、设计实验、实验验证或推翻假设的过程来不断迭代,直到形成符合实验结果和科学规律的初步发现。这一过程往往涉及大量的湿实验环节,需要耗费大量的时间和精力。经过模拟训练的人工智能算法对于分析和预测分子结构、蛋白结构以及基因序列非常高效,能够大大简化假设验证过程,使其更具成本效益和时间效益。例如,AlphaFold系列算法对蛋白质结构的高效、准确预测,可大大节省蛋白质相关领域的研究进度,使研究者得以关注更多有待解决的难题。
二是融合多维度数据,提出科学新发现、新观点。传统的科学研究往往仅涉及同类数据的分析和处理,但科学发现和科学规律往往隐藏在不同维度的数据或数据关联中。例如,在预测疫情传播趋势时,需要结合不同来源的数据进行分析,从而实现对多空间尺度疫情暴发风险指标的预测。人工智能技术可以通过将不同来源的数据转化为向量表示,进而学习数据内在的关联,形成有意义的数据表示。相对而言,机器学习算法更适用于处理特征明确、规律简单的数据,而深度学习算法却可以用于处理规模庞大、内在规律未知的数据。2006年深度学习算法的突破,以及2017年Transformer架构的提出,使得人工智能技术取得了长足发展,并得以在不同领域实现应用上的突破。
三是作为辅助科研工具,提高科研全流程效率。除了在实验设计和数据分析环节的应用外,人工智能技术作为通用的办公工具,可以赋能文献检索、文献管理、文献追踪、论文写作、论文润色、科研绘图等诸多领域,从而实现科研全流程的效率提升。
5 人工智能驱动生物学科研范式变革的挑战分析
尽管人工智能在药物发现、蛋白结构预测、传染病防控等领域获得了多个重大突破,正引发生物学领域研究手段和研究方式的变革。但在具体应用过程中,仍存在高质量数据集缺乏、隐私泄露、模型可解释性差等风险,阻碍了人工智能技术在生物学领域的进一步渗透和应用。
5.1 高质量数据集较为缺乏
目前,在生物种类、空间和时间维度上对生物系统进行综合测量的高质量共享数据集较为缺乏。尽管已有部分细分领域建立起了开放、共享的数据集,但仍有相当多的细分领域可用的高质量数据集非常缺乏。例如,蛋白质相互作用的可靠数据较难获得,这种结果往往给科学研究带来以下挑战。一方面,可用数据量较少时会对研究手段和方法产生限制。当只有少量数据 (数百或数千个示例)可用时,研究者往往只能被迫采用更为传统的机器学习方法,以产生可靠的预测。当可用数据的数量较多时,研究者可以考虑更高参数化的模型,如深度神经网络。另一方面,数据质量不一、注释信息缺失导致数据可用性较差,有必要形成数据收集和治理的统一标准和框架以提高数据的可用性。总之,大型、高质量、可用于对生物学中的人工智能应用进行基准测试的高质量参考数据集至关重要。通过透明的数据共享,有利于形成共创共享的研究生态,不同国家和地区的研究者可利用共享数据用于建立假设、验证理论和技术分享。
5.2 隐私泄露风险
在生物学研究中采用的数据多涉及个体的基本信息、生物医学特征等敏感信息。例如,人类基因组数据和商业敏感的药物数据均包含个人隐私信息。自欧盟 《通用数据保护条例》出台以来,生物医学数据中的隐私保护问题愈加凸显。在数据挖掘和分析过程中的隐私泄露问题将会给生物学发展带来风险和隐患,并对科学研究的社会公信产生冲击。目前,已有一些技术手段可在确保数据安全的前提下开展数据共享和机器学习模型的分布式训练,如联邦学习算法等,也可以通过创建真实的合成数据集的方式来规避隐私问题。该合成数据集包含原始数据集的复杂性特征,如分布、非线性关系和噪声,但剔除了患者信息,从而避免识别个人身份。
5.3 模型的可解释性差
模型的可解释性是指模型结果推理过程能够被人类理解的程度。科学研究中采用的人工智能算法多为数据驱动的算法,主要采用深度神经网络技术,算法核心部分是通过对数据进行自动学习而自动生成,难以人为干预,具备很强的黑箱属性。在大多数情况下,研究中采用的深度学习模型无法解释其生物学意义,其模型预测结果很难让传统的实验科学家信服。相比于精确建模而言,生物学家往往对模型的具体输出机制和影响因素更加感兴趣。例如,模型具体响应输入数据的哪些特征、如何响应,以及为什么模型在某些情况下有效,但在另一些情况下无效。由于模型中往往存在大量输入特征和参数,对其具体机制进行解释显得十分困难。此外,缺乏可解释性也使得模型在测试数据上表现不佳时难以进行故障排除。为了解决上述问题,可以在构建模型时采用事后解释技术。此外,基于图的神经网络也可以提高深度学习模型的可解释性。
6 人工智能驱动的智能生物学发展方向
展望未来,人工智能技术有望在生物学领域的应用将持续不断深入,驱动智能生物学不断发展。具体而言,有以下两个发展方向。一是人工智能驱动的生物知识挖掘。目前研究者主要通过文献搜索、筛选和数据搜集来确定研究方向和关注领域。随着已发表文献和数据量的持续增长,这种以人工为主导的过程变得越来越难以持续。未来,人工智能技术驱动的数据生成和分析模式将有望改善这个问题,赋予生物学领域专家知识的定制版ChatGPT将成为能够挖掘已知和预测生物学知识的下一代搜索引擎。二是多模态生成式预训练大模型在药物发现、蛋白预测等领域的深度应用。生物学领域的数据往往是多模态、异构性的,多种数据模式有望提供互补视角,使得模型预测结果更加可靠。未来,如何将多样化、异构的生物数据和多模态生成式预训练大模型相结合,将是智能生物学的一个重点发展方向。