具身智能:通用人工智能发展的必经之路
2023-04-17刘宏建
■文/刘宏建
2023 年5 月17 日,英伟达公司创始人兼首席执行官黄仁勋在2023 年世界半导体大会上表示,人工智能的下一个浪潮是具身智能。这个观点在极短的时间里引起了整个社会的关注。
人工智能新浪潮
什么是具身智能?用黄仁勋的话来讲,具身智能即能理解、推理以及与物理世界互动的智能系统。美国斯坦福大学教授李飞飞说,具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。具身智能又叫具象智能,英文是Embodied AI,与之相对应的非具身智能,英文叫作Internet AI 或者Disembodied AI。
无独有偶,在2023 年5 月召开的特斯拉公司的股东大会上,首席执行官马斯克表示,“人形机器人将是今后特斯拉主要的长期价值来源。”结果,很多人把具身智能误解为人形机器人。其实,具身智能不并等于人形机器人,因为具身并不一定是人形,也有可能是非人形的智能系统,如智能汽车。当然,具身机器也不等于传统的机器人,因为传统机器人尽管具备一定的智能化,但缺少理解、推理以及与物理世界互动的能力。具身智能更不等于生成式人工智能(AIGC)或者多模态,因为具身智能的前提是要有一个身体。
具身智能是第一人称智能,而非具身智能是第三人称智能。不妨举一个例子,传统机器人在面对一个盒子的时候,我们必须告诉它这是一个盒子,这个盒子有大有小,是可以打开的。确切地说,我们必须告诉它一大堆的标签才行。但是,具身智能不是这样的,它自己可以主动地感知这个盒子,自己去尝试打开盒子,这称为第一人称。这颇有点像人类教育,如果我们在教育孩子的过程中不断告诉孩子应该这样做,应该那样做,不应该这样做,不应该那样做,甚至经常在孩子面前说“你看别人家的孩子如何优秀……”慢慢地,孩子就变成了活在别人世界里的人,也就是第三人称的人。纵观人类发展史,创造性越强的人,往往自觉性、能动性就会越强,这就是第一人称的人。
具身智能在人类社会进化中的意义
具身智能确实与机器人领域有着较强的相关性。但是,仅仅这样理解的话,就过于低估了具身智能的意义。2006 年,在工业互联网领域有一个概念“CPS 系统”,中文名字叫赛博物理系统,这是一个包含计算、网络和物理实体的复杂系统。到了2011 年,出现了一个大家更为熟悉的概念“数字孪生”,即充分利用物理模型等仿真过程,在虚拟空间中反映相对应的实体装备的全生命周期过程。2021 年,又出现了一个概念“元宇宙”,在网络上迅速蹿红,这是一个与现实世界映射与交互的虚拟世界。从以上概念我们可以清晰地感受到,自互联网诞生后,人类社会其实已经逐渐分成两个世界:一个虚拟世界,一个现实世界。以前的世界我们可以称为人类社会闭环进化的1.0版本,也称网络智能阶段。在这个阶段,现实世界与虚拟世界通过互联网连接起来,满足人类的需求。举个简单的例子,我们如果要订外卖,就会在虚拟世界中(如美团)下订单、付款,然后现实世界中会有一个外卖小哥把外卖送货上门,打出租车(如滴滴出行)同样如此。
但是,1.0 版本存在一个严重的问题,虚拟世界进化的速度非常快,人工智能可以用几天甚至几个小时的时间完成人类社会几千年的进化。然而,在现实世界中,人类在几千年中似乎没有太多的进化,我们并不见得比古人更有智慧。用一句话来描述这种矛盾,就是“洞中方一日,世上已千年”。因此,现实世界智能体缺失,使人工智能停留在虚拟世界,整个智能社会无法高效运转。具身智能的出现为我们解决这个矛盾提供了强有力的手段,这也意味着人类的社会闭环进化开始向2.0 版本进化。在2.0 版本中,我们同样在虚拟世界中订外卖,现实世界中可能会是一个机器人或机器车将外卖送到我们手中,这远比用人送外卖要高效得多。因此,我认为,具身智能是打通人类虚实世界并实现人类进化的重要关口,这或许才是具身智能的真正意义所在。
具身智能的发展现状及前景展望
目前,具身智能的发展还在初期阶段,在人工智能大模型发展的影响下正在快速推进。2022年,谷歌Everyday Robot 实现将机器人与大模型结合,让机器人充当大语言模型的手和眼,将一个任务拆解成16 个动作。2023 年2 月,微软公司使用ChatGPT 控制一架小型无人机,让无人机在房间里找到健康饮料、一罐可乐,以及一面供无人机自拍的镜子。同年4 月,阿里巴巴展示了阿里通义千问大模型接入工业机器人的应用场景。工程师通过钉钉对话框向机器人发出“我渴了,找点东西喝吧”的指令后,通义千问大模型在后台自动编写了一组代码发给机器人,机器人开始识别周边环境,从附近的桌上找到一瓶水,并自动完成移动、抓取、配送等一系列动作,递送给工程师。这些都是具身智能领域的一些很有意义的探索,但总的来讲,具身智能的研发还处在比较初级的阶段。
2023 年5 月21 日,北京市人民政府印发《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023—2025 年)》明确提出,围绕具身智能等方向开展研究布局,意在形成具有国际影响力的人工智能原创理论体系。2023 年10月20 日,工业和信息化部印发《人形机器人创新发展指导意见》指出,人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将深刻变革人类生产生活方式,重塑全球产业发展格局。2023 年11 月2 日,北京人形机器人创新中心有限公司在经开区机器人创新产业园正式注册,标志着国内首家省级人形机器人创新中心成立。从国家政策的角度可以看出,具身智能的研发正在如火如荼地展开。
然而,具身智能仍然存在着很多重要的挑战。首先,尽管AI 大模型对具身智能的发展起到了推动作用,但这种推动仍停留在任务级,距离对象级、运作级还有不小的距离。其次,通用智能本体的研究仍在探索之中,目前在识别物体的时候仍然需要大量标签训练,使得在真实世界中处理大量未知物体变得不现实。再次,基于多模态大模型的具身智能是未来的趋势,仍面临诸多难题需要解决。最后,具身智能学习的能力至关重要。具身智能通过虚拟世界和真实世界的交互,以及持续学习和进化来达到自我完善的能力,而不仅仅是通过人类喂养数据的方式来获得对世界的认知。这是具身智能演进的重要技术途径,但目前的技术尚有不小的差距。
总的来讲,具身智能处于技术快速推进、政策大力支持、产业开始探索的阶段。具身智能前景非常广阔,是打通人类虚实世界并实现人类进化的重要关口,是构建终极元宇宙世界不可缺少的版图之一,也是通用人工智能时代未来发展的必经之路。