增强产业界和学术界协同创新能力
2024-10-24颜蒙王超贤
近年来,AlphaGo、ChatGPT、Sora等人工智能颠覆性创新主要由产业界推出,这一现象反映的客观趋势是产业界日益成为人工智能基础研究和颠覆性产品主要策源地。这场全球范围内的创新范式变革对人工智能发展模式和政策逻辑影响深远,对培育未来产业极具借鉴价值。须顺应变革规律,加快核心资源向产业集聚,以孕育更多颠覆性产品为目标打造人工智能创新生态2.0版,进一步增强产业界和学术界协同创新能力。
产业界主导人工智能
颠覆性创新的全球趋势
直到21世纪初期,学术界和产业界在人工智能研究上还是平分秋色。但过去10年中,产业界逐渐成为人工智能基础研究和颠覆性创新产品的主要策源地。
从数量上看,产业界在人工智能最大和最重要模型的开发上处于主导地位。在发展早期,专家系统等人工智能标志性模型主要由学术界开发。随着人工智能模型数据量和参数规模的爆炸式增长,产业界在标志性领先模型的开发上走在了学术界的前面。例如,ChatGPT使用的核心技术变换器模型(Transformer),正是谷歌在2017年提出的一种采用注意力机制的深度学习模型,在精度和性能上都要优于之前流行的模型,大幅提升了模型训练的效果(虽然推出ChatGPT和Sora的公司OpenAI成立之初定位于非营利性组织,但2019年已转成营利组织,成为产业界的一员)。斯坦福大学最新发布的《2024年人工智能指数报告》显示,2014年之前,全球最重要的人工智能模型都是由学术界发布,到2023年,产业界发布51个重要机器学习模型,学术界仅有15个。
从质量上看,产业界在人工智能模型开发评测中处于领先地位。全球人工智能模型评测网站数据显示,在图像识别、情感分析、语言建模和机器翻译等20个子领域中,2017年之前,具有领先优势的模型中40%左右由产业界(部分与学术界联合)开发,2017年至今,这一比例已上升至80%左右。其中,情感分析子领域的转变最大。2017年之前,该领域领先模型中77%由学术界开发,2020年以后则几乎全部由产业界(部分与学术界联合)开发。产业界是最近10年人工智能模型性能快速提升的主要动力。
从基础上看,产业界在人工智能论文发表中的地位稳步上升。学术论文的数量、质量、来源等是一个领域基础研究情况的重要表征。早期的人工智能研究论文主要由学术界发表,但近年来产业界的比例在逐步提升。麻省理工学院的研究表明,在人工智能前十大顶级会议上发表的学术论文中,至少有一位产业界合著者的研究论文数量占比已经从2000年22%增长到2020年以来的40%左右。即使按照更加严格计算方法,以作者身份的比例计算(一篇论文N个作者,其中X个作者隶属产业界,则属于产业界的论文数量为X/N),产业界发表的论文比例从2010年的不到10%增加到2020年以来的20%左右,翻了一倍多,这一比例目前还在不断提升。
产业界主导人工智能
颠覆性创新的深层动因
一是技术发展阶段决定。人工智能技术产业化路径日渐清晰,特别是以大模型为代表的技术加速突破迈向规模化应用阶段。从技术演进史看,任何一项新技术在导入期进步通常比较缓慢甚至出现中断,进入加速期后开始全面渗透、实现规模化应用,这一时期创新资源逐渐向产业界集聚,新技术的颠覆性创新产品逐渐由产业界主导。如汽车、飞机等领域在规模化后的技术创新产品几乎全部由产业界大企业推动。人工智能也不例外。随着新一轮科技革命和产业变革加速演进,以ChatGPT为代表的大模型在智能制造、无人驾驶等各行各业落子不断,人工智能加速进入规模化应用阶段。产业界作为人工智能技术进入加速期后创新活动的最大载体,人工智能密切依赖的算力、数据、资金等创新资源都离不开产业界支持。在算力方面,2010年,产业界从与学术界算力水平相当,到2023年,产业界算力水平已经超过学术界算力水平10倍,算力鸿沟持续扩大。在数据方面,作为人工智能发展的基础和动力,大型科技公司通过智能设备、APP、数字平台等掌握了规模庞大、质量好、价值密度高的用户数据,如谷歌每天处理超过35亿次搜索,腾讯每日数据连接总数达35万亿条,学术界则难以拥有相匹配的优势海量数据资源。
二是创新范式变革决定。人工智能基础研究变得极度依赖应用场景,理论转化周期明显缩短必然要求产业界发挥主导作用。当前,新技术领域基础研究和应用研究边界逐渐模糊,打破了从基础研究到应用研究再到产业化的传统线性创新范式。人工智能成为新的创新范式下演变最激烈,也是最直观的领域。一方面,进入复杂科学时代,基础研究与实际应用的结合更加紧密,贴近应用、解决用户需求成为人工智能基础研究最大支撑力量。近年来,人工智能在垂直领域得到大规模应用,这些实际应用进一步带动人工智能技术实现突破。例如,生物化学领域借助人工智能预测了几乎所有已知的蛋白质结构,同时,研究人员通过开发人工智能新算法生成特定的蛋白质,为制造更加有效生物疫苗和可持续生物材料提供可能。另一方面,有研究显示基础研究的商业见效周期已经从20世纪七八十年代的7年缩短到目前的3至5年,基础研究转化周期明显缩短。人工智能商业化见效周期更加迅速。例如,人工智能核心技术变换器模型作为人工智能基础研究向前迈出的重要一步,几乎是立即应用于商业化。
三是组织模式转变决定。人工智能愈发依赖跨学科、工程化的创新方式,依托产业集聚顶级科学家和多学科人才成为关键。随着传统线性创新范式被打破,科学研究范式新变革正在重塑科研组织模式,人工智能等新技术颠覆式创新愈发依赖跨学科、跨领域、跨组织的研究模式。以Sora为例,研究团队中除来自科技巨头(如Meta、亚马逊等)和顶尖高校(如加州大学伯克利分校、麻省理工学院等)的研究人员外,更是拥有一群艺术与科技复合背景的研究人员,这种跨界组织研发模式为Sora在人工智能视频生成领域取得突破性成果提供强大支撑。数据显示,产业界正成为顶级科学家和高级人才的主要集聚地。美国管理学会数据显示,过去10年全球人工智能领域最顶尖的100名科学家中,有超过一半的科学家在产业界从事研究工作,其中,有28名是从学术界转向产业界的。其他高级人才向产业集聚的态势更加明显。人工智能专业博士毕业生开始全面进入产业界。美国国家科学基金会的数据显示,2004年人工智能博士毕业生仅有21%进入产业界,但近年来,这一比例跃升至70%。
相比于学术界,产业界掌握了更多数据、算力等关键资源,并据此开发出最先进的人工智能模型,走在了基础研究和颠覆式产品开发的最前沿。更好的模型和产品又使得产业界能获得更多市场回报。如此循环累积,产业界与学术界在人工智能发展上的鸿沟日益拉大。这一范式转变要求企业家、政策制定者重新思考人工智能的发展模式、政策逻辑,更是对培育未来产业发展带来深远影响。
产业界主导人工智能
颠覆性创新对我国政策启示
产业界主导人工智能基础研究和颠覆性产品的变革规律对我国人工智能缩小与美差距,实现追赶具有双重影响。一方面这有利于加速追赶。我国数据量预计将在2025年超过美国,并与美国同属全球算力领跑者;同时拥有世界排名前列的大型科技公司和快速涌现的人工智能创业企业,人工智能应用场景世界第一。另一方面这也会拖累追赶。我国领军科技企业基础研究意愿与能力较低,部分关键资源差距大且未向产业界集中。人工智能领域全球前100名顶尖科学家中我国仅有个位数,且几乎都在学术界,而美国微软、脸书、谷歌和苹果4家公司就雇佣了近40人;美国人工智能私人投资额和新资助企业数量均是我国3.5倍左右。亟须顺应人工智能发展范式变革规律,调整优化产业政策,尽快追赶上美国,在新一轮全球人工智能竞争中抢夺领先地位。
首先,加快推动数据和算力等关键资源向产业集聚。充足的资源是孕育颠覆性产品的基础和必要条件。一是加快高质量数据资源向产业汇聚。鼓励开展数据所有权、使用权、收益权等分离的创新探索,为产业界汇聚更多数据打下产权制度基础;加快产业数据空间建设,构建数据互通互操作生态,推动产业数据贯通融合。二是弥补高质量算力资源短板。实施好关键核心技术攻关工程,加大投资力度,加速高端芯片制造落地,为产业提供有竞争力的优质算力资源。
其次,以孕育更多颠覆性产品为目标打造人工智能创新生态2.0版。我国人工智能创新生态已初步建立,在培育渐进式产品创新上运转良好,但面向前沿突破、存在不确定性的颠覆性创新孵化上仍存在不足。一是引导科技巨头提升基础研究和发现颠覆式创新的定力、能力。通过激励性监管引导大型企业向科技创新前沿进发,鼓励大型科技企业参与国家基础研究、产业链供应链韧性和安全提升等重大工程和项目,提升基础研究积极性。二是支持培育更多具有使命感的初创企业。强化创业引导,加大对取得重大创新、颠覆性创新创业者的宣传和奖励,激发创业者承担重大使命、破解大难题的创业精神。
增强产业界和学术界协同创新能力。一是优化学术界访问产业界人工智能系统的体制机制,稳步推动产业界资源实现有序向高校和科研院所开源开放。二是加快建设公共数据集和公共智算中心,为学术界开发出具有类似实力的竞争模型提供关键资源。三是完善顶级科学家在产业和高校科研院所的双向流动机制,打造有利于培育顶级科学家的制度环境。