空间智能
2024-08-24王治钧律原

我们对“计算机视觉”一词并不陌生,它指的是让计算机通过相关设备模拟生物视觉来处理采集到的图片或视频,以实现对相应场景的多维理解。那么,我们是否能够更进一步?本期TED大会邀请人工智能领域先锋李飞飞,分享她的科研成果。
“看见”
——理解世界的重要一步
生命诞生初期,世界对它们来说是一片“虚无”,此时的生物还未进化出视觉,也没有“看”这一概念存在。慢慢地,生物感光系统开始出现,经历了数千万年的进化,世界上终于诞生了第一只眼睛。生命发现这世上除了自己还有别的存在,海洋从此有了样貌。
视觉的产生极大地推动了生物进化的进程,使生物拥有了更加敏捷、强大的身体和更加复杂的神经系统。看见变成理解,理解带来行动,而这一切都促进了智能的发展。
现在,在好奇心的驱使下,人类正在为计算机视觉赋予更多智能。十几年前,人们因大型神经网络能够在1500万张图片中识别目标对象而备受鼓舞,现在,生成式人工智能已经可以将人们输入的句子转换为图片和视频,计算机视觉的智能时代已经到来了。
但是,现有的计算机视觉系统依然只能“看见”,它可以让系统生成一只在水中玩耍的猫,却不能合理地让猫的皮毛变湿,计算机视觉需要新的突破。
让计算机不只是“看见”
现实生活中,当我们身处三维空间,我们会进行观察、学习、判断和预测。例如,当看到猫推杯子的影像时,我们的大脑会观察杯子的形状和位置,判断杯子与周围物体的关系,产生它即将被打碎的推断,并情不自禁地想要伸出手扶它。

采取行动是拥有空间意识的生物与生俱来的冲动,它能够将感知与行动联系起来,我将这一概念称作“空间智能”。生物用数百万年进化出了空间智能,将眼睛捕捉到的二维图像投射进大脑,转化为三维的认知。现在,我将这种视觉与行动的良性循环引入了人工智能领域。

研究人员正在开发各种各样的新算法——让机器将一组照片转换成三维空间、将单个图像转换为三维形式、将词句所描述的三维空间布局转换为真实的房间图像、根据单个图像生成无限延伸的空间……这是一个可能性的萌芽,这种进步正在加速机器的学习,空间智能会成为所有需要理解并与这个世界互动的人工智能系统的关键组成部分。
迎接人工智能领域的“寒武纪”
如今,我和团队正在训练人工智能机器人,为它开发基于三维空间模型的仿真环境系统,让它更好地执行任务。空间智能能够让机器真正与人类、与真实或虚拟的三维空间交互,这势必会对世界产生深远的影响。以医疗保健领域为例,训练后的人工智能传感器能够更好地监测医生和病人的情况,不仅成为“眼睛”,还能成为“手”,给予大家更多互动式的帮助。
我相信,人工智能领域的“寒武纪大爆发”(发生在寒武纪早期的海洋后生动物爆发性辐射事件)一定会到来,这是一个激动的时刻,想要实现这个未来却并不容易。每迈出一步,我们都要深思熟虑,始终开发以人为本的技术,不仅驱动人工智能机器人成为实用的工具,还要让它们成为真正值得信赖的合作伙伴,提高我们的生产力的同时,也不损害我们每个人的尊严。
未来,人工智能系统会拥有更强的理解能力、洞察力和空间感知能力,它将和我们一起追求更好的生活方式,创造更美好的世界。

(责任编辑 / 牛一名" 美术编辑 / 周游)