嗅觉灵敏的“AI猎人”

2023-12-25王秦怡

环球人物 2023年24期

王秦怡

2023年7月，世界人工智能大会上大模型应用火爆，观众拍摄展区AI生成的绘画作品。

从1979年到2023年，44年的进程中，我国的AI事业从发展理论到实践、从科技到产业、从前沿到热门。《环球人物》记者寻访了2023年活跃于AI领域的各种从业者，包括头部企业的核心研发人员、“双一流”高校人工智能专业的青年学子、因AI而生的新兴岗位员工，并向他们提出同一个问题：为什么进入AI行业？

回答很多，但绕不过那么一条路径：被震撼、被吸引，自动入局。他们相信：AI将以不可思议的速度，重塑我们的生活，比如，今年AI领域最前沿的成果——大模型。

三四秒内输出极为生动的AI画作，自主生成可以运行的标准代码，模仿鲁迅语气写成一篇小说……大模型让他们发现，AI不仅可以辅助人，还可以像人一样。科大讯飞副总裁、研究院院长刘聪是星火认知大模型诞生的关键人物，他告诉《环球人物》记者：“大模型在AI技术和应用上的历史意义，或许不亚于互联网和个人电脑的诞生。”

如果要形容这些AI从业者，那就是：他们像一群嗅觉高度灵敏的“AI猎人”，闻到一丝未来的气息，便孜孜不倦紧追猎物的踪迹。他们生机勃勃，充满野心，不愿错过“智力时代”的快车。

研究院院长：大模型的“智能涌现”

在科大讯飞研究院，从院长刘聪、副院长刘权，到研究院首席科学家魏思，都愿意把2023年这场研究风暴的起点向前延伸几个星期，放到2022年的12月7日。

那一天，在合肥高新区望江西路666号科大讯飞A4楼5层北侧的会议室里，投影上播放着刘权花了一周时间调研写的分析报告，PPT整整有100页，提出一个郑重的建议：借鉴国际上的思路，在重要认知智能任务中开始研究，并研制一个中等大规模预训练模型。

刘聪支持这个结论。这场会议结束了研究院内部此前的激辩：大模型究竟意味着什么？科大讯飞要不要跟进？

当然要跟进。此前人们已经熟悉的AI，都是把算法内嵌在音箱、新闻推荐、翻譯客户端等各种已有的产品和功能里；大模型则第一次把大数据、大算力和大算法成功地结合起来，从而实现了在人与AI的互动中，AI能够“跨界”执行各种任务，即使那是专业领域的任务。

究其背后的逻辑，刘聪称之为大模型的“智能涌现”。对此，猎豹移动董事长傅盛有一个特别形象的说法，在他看来，AI的语义理解有两种技术路线：一种是学外语模式，“教你什么是主谓宾、定状从等，给它输入知识图谱，把整个世界的认知整理成各种枝节告诉计算机”。一种是学母语模式，“一个小孩子，不用教他语法规则，只要跟他说话就行，说着说着他就开口了”。大模型就是后者。当研发者使用更大的模型（参数规模从上亿提升到上百亿甚至上千亿）、给到更多的数据时，“它的逻辑能力一下就上来了”，傅盛说，这就像接龙一样，输入一些字，就能蹦出接下来的词。

“大模型的‘智能涌现实际上推动了通用人工智能的技术阶跃，让大家看到了当前由弱人工智能迈向通用人工智能最有希望的路径。”刘聪向《环球人物》记者解释道，“我们已经经历了计算机生态系统、移动互联生态系统和搜索生态系统，推动了从硬件到软件、应用的一体化发展。大模型也将为海量应用赋能，反过来又促进自身的迭代，即将建立全新的产业生态。”

刘聪得出结论：“这一轮的新浪潮已来。”

刘聪是一个务实的人。乍看上去，他的经历如他所说，“很像一场说走就走的旅行”。2001年他进入中国科学技术大学学习，专业是电子信息工程。很多人记住了这个戴着眼镜、脸方方正正的青年，他不爱上课，也不爱上自习，但是很会考试，他的作业也一直是供全班同学参考的版本之一。2004年他进入中国科学技术大学的语音与语言信息处理国家工程实验室，后来有一天，他被叫到科大讯飞研究院面试实习生岗位，“结果稀里糊涂地闯入了AI的世界”。

刘聪很快发现，自己还是对做应用于实际的系统更感兴趣。由刘聪主导完成的业界首个中文语音识别系统，发展到如今，其系列产品已成为律师、记者等的必备工具。每当科研人员提出一个新构思时，刘聪喜欢给他们加个框，“你做出来我才说你牛”。

这种务实也延续到这次大模型的攻关研发中。2022年12月15日，在那场会议后一周，科大讯飞正式启动了“1+N”的大模型攻关。

“1就是通用认知智能大模型，N就是大模型在教育、办公、汽车、人机交互等各个领域的落地。研发通用大模型需要的投入很大，随着时间的拉长，投入还会更大，甚至投入了也不一定立刻变现。但对于科大讯飞来说，我们必须抓住那个1，从第一天开始，就是对标通用人工智能去做的。”刘聪形容2023年是把科大讯飞的资源“压上去”，因为“慢一步，错过的就是整个浪潮”。

对这场攻关的前景，刘聪有信心：“普通人会觉得，大模型是在2022年横空出世的，但其实，它背后是深度学习和自然语言理解技术的长期积淀。”

刘聪主导的中文语音识别系统是在2011年上线的，当时就是走深度学习的技术路线。同年，科大讯飞研究院开启了语义理解相关研究。“目前，我们在核心算法、行业数据、算力支撑方面都有深厚的基础。”刘聪告诉《环球人物》记者，以核心算法为例，变压器网络（Transformer）这种基于自注意力机制的深度学习算法，奠定了大模型预训练算法架构的基础，已经在科大讯飞的语音识别、机器翻译等任务中有了深入的应用。

不只是科大讯飞，中国AI技术和产业的迅速发展，离不开国家的大力支持和前瞻布局。早在2017年7月，国务院印发《新一代人工智能发展规划》，是首部国家层面的AI发展规划。同年11月，《新一代人工智能发展规划》暨重大科技项目在京启动，公布了首批国家新一代人工智能开放创新平台名单：依托百度公司、阿里云公司、腾讯公司和科大讯飞公司，分别建设自动驾驶、城市大脑、医疗影像、智能语音国家新一代人工智能开放创新平台。由此，这四家平台被称为“中国AI发展的四小龙”。

大学生：追着潮头跑

也是在2017年，21岁的梅朗在中国人民大学（以下简称人大）计算机科学与技术系读研。时代的风吹来，他能明显地感受到湖面的波动。“起初，深度学习算法的效果还比不上传统的机器学习，但到了2017年左右，它逐渐在很多传统任务上完成了追赶和超越，在搜索引擎、推荐系统、分类预测、文本挖掘等小模型的落地上做得很好、很新，特别多新的创意一直在冒出来。”

这种“新”带给梅朗巨大的兴奋，他至今怀念那段时光。同宿舍4名男生一聊起AI的发展，都是天马行空、滔滔不绝。“我们有一个共识，不管是工业界还是学术界，AI可供探索的方向、机会太多了。我们当时讨论了特别多问题，像什么样的AI发展模式是合理的，AI跟哪些行业结合更重要，什么模型类别更好用，等等。越讨论，越对这个方向感兴趣。”

机会来了。2019年3月，人工智能专业被列入新增审批本科专业名单，共有35所中国高校获得首批建设资格。翌年3月，获批高校增加180家，人大即在此名单里。

硕士毕业后，梅朗没有犹豫，选择在人大高瓴人工智能学院读博，研究方向是预训练语言模型与信息检索——其中，预训练语言模型成为主流方向不超过5年，却已经成为大模型开发的关键，其作用相当于给一座房子打地基。“基座大模型就像一个刚出生的孩子一样，已经被喂了一大堆语料库，但还需要复杂指令的引导、判别和奖励等机制，才能生成正确的、尽可能优质的内容。难点是让它理解语义层面的关联性，就像你要完成一个‘完形填空，你问它《三国演义》中有什么样的斗智斗勇的情节，它可以给出‘数不胜数，而不是‘不慌不忙。这说明它的计算能力比较强了。”梅朗用尽可能通俗的语言解释道。

梅朗的室友们也都选择了读AI方向的博士，“有研究数据库系统的，有研究AI与多智能体博弈论的，还有研究AI与计算生物大模型的”。当年在宿舍里畅谈的年轻人，已经成为未来中国AI发展的后备军。

就读后，“开放”成了人工智能专业带给梅朗最深刻的感受。

2023年10月，刘聪在第二十五届中国科协年会上发言。（受访者供图）

2023年12月，梅朗接受本刊记者采访。（本刊记者侯欣颖 / 摄）

人工智能专业注重理论，但也强调实践，而这意味着巨额的成本投入。“硬件投入是大头，而电费、购买数据、人工标注的费用也都不能小觑。”梅朗给《环球人物》记者确认了一组数据，以训练210亿参数规模的模型为例，约需450G的显卡存量，1张80G的A100显卡是10万多元，加上内存、计算机处理器等的花费，那硬件就要100万元。A100顯卡的额定功率近500瓦，一个月的电费至少是5000元。业界甚至有一个真实的段子，搞AI的从不回家加班，因为家里的设备干不了“高级活”。

因此，在深度学习算法刚开始深入推进时，“大家想的是能不能先做一些有效的专用任务小模型”。梅朗说，随着越来越多不同行业有效的小模型的运行、高性能计算软件生态的建设、硬件设备算力的升级、预训练效果在下游任务的证实，到2019年，大模型就闯入国内一些前瞻人士的关注视野，像华商AI、智谱AI等。

也因此，国内高校人工智能专业基本上采用的是“校企合作”“产学结合”的模式。“我们得利用企业财大气粗的计算资源。”梅朗开玩笑道。他所在学院的人工智能联合实验室就是和中国联通合作成立的，未来媒体智能联合实验室则是和快手一起成立的，还有很多研究课题在腾讯、阿里、京东、字节等企业落地应用。

很少能在哪个行业看到，学界和业界的联系如此紧密。以往，理工科发表论文，最主要的渠道是投稿给学术期刊。“线上跟审稿人打交道，等发出来，半年、一年就过去了。”对于紧跟前沿技术、瞬息万变的AI学科来说，这简直无法想象。怎么办？梅朗指了指学院的会议室，半个月前，这里刚刚联合小米举办了“大模型：前沿技术与未来应用”学术论坛。“学术网站和院校，每年都会集中学界、业界现场开会，坐下来谈。很开放，会议不光分享研究类论文，还有工业类论文。”

在一些顶级会议的审稿机制上，组委会开放了整个评审过程。《环球人物》记者打开梅朗发来的网页链接，那是一个充满了专业术语的页面，一个接一个的陌生词——循环码、卷积网络、贝叶斯误差、神经云……普通人看不懂这些术语，但能看到页面里汇聚了各种意见，评审团的征询、作者的回复、其他人的评论，讨论具体到每一个数据的来源、每一道工序的合理性，很少有修饰词。梅朗也常常登录这个网页，看一看领域内的最新研究。

这种感觉就像是大家都在追着潮头跑，都担心落在了后面。“甚至很多最新成果不是发表在学术会议上。毕竟学术会议有时也会经过三四个月的审稿，我们好多老师是直接把数据、技术代码往业内的公开社区一丢，大家也会引用。有的组嘛，跟前沿跟得很快，会吐槽说：怎么今天这个方向全球又释放了十几篇文章？！”梅朗说。

计算机视觉、语音技术等AI技术已经在人们的日常生活中广泛应用。图为2023年杭州亚残运会上，通过3D虚拟人技术、计算机视觉、机器翻译、语音技术打造的智能AI手语翻译官“小莫”。

对本科生而言，人工智能专业的开放性还体现在不同学科间的深度交叉上。因为涵盖多个学科的知识和技术，四川大学（以下简称川大）人工智能专业学生史笑涵要学习三大类课程：微积分、高数、概率统计、矩阵优化等数学类课程；操作系统、计算机组成原理、数据库、编程语言等传统的计算机类课程；以及神经网络、深度学习等与人工智能相关的课程。

川大是国内首批新增人工智能专业的高校之一，专业被设置在计算机学院下。史笑涵是第二批2020级新生。

根据史笑涵的观察，川大人工智能专业对高考的数学和英语成绩要求较高，“以我们省生源为例，数学至少得168分（满分200分）且英语至少是108分（满分120分），我的数学和英语成绩分别是170分和109分”。同时，学生还得通过学院的选拔考试。史笑涵听说，第一届招收40名学生，有100多人报名。但因为AI交叉学科的特点，学习难度高，到了她们这届，报名人数少了一大半。之后，AI在业界越来越热，报名人数才又多了起来。

作为早早踏入人工智能专业的本科生，有时，史笑涵也忍不住吐槽：“本科有些基础课程很像。像手写数字识别的实验，我在3门课上都做过。”但更多时候，她有机会结合自己对医学的兴趣，接触到AI在医療领域最前沿的应用。她就参加了和医学院同学合作的学术项目，利用AI识别病灶、辅助诊疗。“医学图像处理在实验室里做得比较好，落实到医院里，还是有很多小问题，比如数据格式不匹配，导致模型识别准确率低甚至无法使用。”

梅朗也说，AI将赋能到各行各业，人工智能专业作为交叉学科，这种交叉性还远远没有体现出来。它未来可以和各种科学问题结合，“比如，全球气象灾难预测模型，芯片电路的设计模型，可以让AI决定怎么布线，怎么节省能源”，这些更需要既懂人工智能，又有相关领域背景知识的新生代人才。

AIGC产品经理：岗位喷发

人们都觉得AI行业迎来了春天，但《环球人物》记者采访到的业内人士则说，这个行业正在寻找春天。

北歌（化名）2020年硕士毕业，学的是建筑专业。在校时，她就做过考研培训类的相关创业，经历了本专业的培训咨询从暴涨到无人问津的尴尬。这对她的冲击很大，“个人的努力还要跟得上时代的变化，变化已经来了，就要找一个杠杆，撬进去”。毕业后，她先是在一家服务于政府部门的公司做智慧城市的产品，比其他人更早意识到AI的发展趋势，后来转型为计算机视觉产品经理，推动AI视觉技术的产品化。

今年，随着各家企业纷纷入局，招聘网站上开始出现专注于人工智能生成内容（AIGC）的产品经理、提示词工程师、AIGC算法工程师等新兴岗位。“之前都是笼统地叫AI产品经理，这些岗位的出现不会早于4月。”北歌观望了一阵，从6月开始，就尝试着向这些新兴AI岗位投放简历。

新兴AI岗位招聘缺口大，简历投出去都有声响，但面试完就没有回音了。有一位面试官和她聊了快一个小时，最后建议她：不要把之前的经历写得那么好，即使你已经做出了不错的产品，也不要把重点篇幅放在这上面，你要用他们想了解的、跟招聘相关的东西来聊。北歌一下子被点醒了，“我感觉到，我说的小模型和他们讲的不是一个东西”。回家后，她认真学习了大模型的开发框架、开发原理等内容。

两个月间，北歌面试了十几家公司。除了对她过往产品经历的考察外，面试官基本上都重点问了她对于AIGC的认知和场景的洞察，还有对于大模型能力的技术理解与认知。“问我AIGC的创业方向，有哪些落地场景和应用，落地过程中，产品经理的核心职责是什么，等等。”北歌有一种强烈的感受：“不光是我在学习，面试官也在学习，我们是互相学习的一个状态。”

北歌最终得到3个入职机会，她在8月入职了一家专注于大模型技术研发的公司。公司属于行业内的一级梯队，北歌充满了干劲。“每家招聘的AIGC产品经理工作内容都不一样，有纯做大模型迭代的，也有专做垂类应用的。我主要是对接甲方需求，把需求转化为功能点，给不同行业赋能。”北歌解释道，“经过了预训练的基座大模型，就像一个孩子已经上完学，从大学毕业了，毕业后，他要去哪个行业，具体做什么，怎么适应行业需求，还要再微调。”

和甲方谈下来，北歌常常遇到两种极端情况。“一种情况是，约了客户提需求，对方想了半天，一个需求也提不出来。另一种是把大模型当许愿池，以为它什么都能做，但其实，它是有能力边界的，这个边界在哪儿，现在还是黑盒状态。客户说了，我们再去尝试看能不能做，包括其他家能不能做、怎么做的，我们也都不知道。不是技术有隔阂，而是认知有隔阂。”

这跟她当计算机视觉产品经理时完全不一样，她将那个时期称为“AI1.0时代”，尽管计算机视觉产品经理岗位也不过出现于2019年左右。“在AI1.0时代，是一个模型解决一个事儿，用无数个小模型解决行业问题，已经形成了一套通用标准。比如，为餐饮行业赋能，标准是‘明厨亮灶，AI检测桌子整不整洁，有没有老鼠，人穿没穿工服，垃圾桶盖没盖。”

大模型到底怎么落地？做到现在，似乎也没有标准答案。北歌经常做的场景有三类：一类是搭建行业的知识手册，把对方的数据源和应用程序编程接口交互，就能回答专业问题；一类是助力内容创作。用户输入需求要点，大模型就可以自动生成发言稿、汇报材料等；还有一类是虚拟助手。“大家期待它最终进化为AI代理人（AI agent）的形态，给它一个目标，它就能完成剩下的全部工作。让AI点外卖，它不只是跟你推荐这个、推荐那个，未来就是它理解了你的需求，锁定了你的喜好，自动调出外卖平台下单，如果这家店关门了，它还会搜索类似的店重新点”。

这就是商业世界，当所有人看到不确定性时，往往也意味着巨大的可能。北歌的同事大多和她有着类似的经历，一群“90后”“95后”，有人甚至没有做过AI产品，来自传统的计算机行业，平薪或是降薪，甚至换了工作的城市，来到大模型行业。“大家都很有热情。”北歌说。一些印证是，采访那天是一个周末，她正和几位朋友约了吃火锅，大家都刚转到这个行业，席间的话题全围绕着工作内容。平日里上下班途中，她也会抓紧时间，把行业动态和个人心得及时更新到社交平台上。

在AI的新浪潮面前，何止北歌这一桌人，谁也不敢放松。刘聪就说过：因为错一个东西，3个月就过去了。2023年10月24日，科大讯飞发布了星火认知大模型V3.0版本。“搭载星火认知大模型，科大讯飞在不同领域都进行了产品升级和发布新的应用，此次发布了讯飞晓医、星火科研助手、AI心理伙伴等。”刘聪说。V3.0版本发布那一天，在场的观众们看到，刘聪上传了和女儿的日常聊天记录后，请AI给女儿写一封道歉信，很快，对话框中就弹出了信的内容，用的是刘聪的口吻——这或许是大模型的下一个方向：让AI更有个性和人设。

除了科大讯飞，今年4月以来，小米、商汤、360、毫末智行、昆仑万维等，几乎每周都有一场科技公司的发布会，宣告大模型的出世或预告大模型的出世。北歌觉得，这就像星星之火，大家都在期待着这把火可以燎原，那将是人类迈向通用人工智能的未来。