横空出世,Sora“生成”了一个怎样的新世界
2024-04-03
AI,再一次刷屏。人工智能新锐OpenAI发布的文生视频大模型Sora,为大家贡献了一场“热辣滚烫”的视觉盛宴:喜迎龙年春节,追逐舞龙队伍的男女老幼喜气洋洋;雨后东京街头,一位时髦女士穿梭在霓虹闪耀的街道上……只要输入相应的提示文字,Sora就可以“一秒”生成长达一分钟的相关视频,既能实现多角度镜头的自然切换,还能创造复杂的场景和生动的角色表情。
面对Sora的横空出世,人们不禁感慨“太惊艳了”“太炸裂了”“这怎么可能”;同时,视频模糊了虚拟和现实世界的界限,让人心生“眼见未必为实”的担忧。
从文生文、文生图到文生视频,从ChatGPT、Dall-E到Sora,生成式AI跨越壁垒、一路狂飙,向人们展示了人工智能时代超越边界的想象力和爆发力。
有人说,新世界的图景正在慢慢浮现。这会是一个怎样的新世界?
“凡我不能创造的,证明我没有理解。”
Sora的横空出世让业界一时沸腾。特斯拉CEO埃隆·马斯克感叹,Sora让“人类愿赌服输”。360创始人周鸿祎则认为,Sora的诞生意味着AGI(通用人工智能)的实现可能从十年缩短至一两年。
AI从未停止给人类带来惊喜。1997年,超级计算机“深蓝”战胜了当时世界排名第一的国际象棋大师卡斯帕罗夫,全球轰动。2016年,“阿尔法狗”(Alpha Go)在与韩国棋手李世石的对弈中获胜,这场“人机大战”成为人工智能史上一座新的里程碑。
AI从未停止进化。从2022年大热的文生文模型ChatGPT到文生视频模型Sora,生成式AI已经成为人工智能领域的新趋势。什么是生成式AI?简单来说,生成式AI是一种可以自主产生文字、图像、音乐、视频等多种形式的人工智能,它可以模仿甚至超越人类的创造力和想象力。
“凡我不能创造的,证明我没有理解。”物理学家理查德·费曼曾这样说。而对生成式人工智能而言,则是因为理解,所以创造。比如,ChatGPT是通过人类的语言来理解世界,首先基于自然语言处理技术和神经网络模型来学习和理解人类语言的语法和语义,然后再生成具有连贯性和逻辑性的自然语言文本。Sora则是通过视频、图片等多模态数据来理解和重新建构世界。
Sora是目前生成式AI的集大成者。如果将当前的生成式AI比作一棵树,那么,大语言模型就是树的主干,文生图模型是主干延伸出的枝叶和花朵,而文生视频模型则是汲取了各个部位(不同类型数据)的养分后,结出的最复杂的果实。
可以说,Sora的出现,预示着一个全新的视觉叙事时代的到来,它可以将人们的想象力转化为生动的动态画面,将文字转化为视觉盛宴。
从“读万卷书”到“行万里路”
Sora的惊艳之处不仅是生成视频的能力,更在于对真实物理世界的理解和重新建构。OpenAI认为,Sora是理解和模拟物理世界的模型基础。
简单来说,ChatGPT这类语言模型是从语言大数据中学习,实际上就是模拟一个充满人类思维和认知映射的虚拟世界,是虚拟思维世界的“模拟器”;而Sora则是在真实地理解、反映物理世界,是现实物理世界的“模拟器”。
有人调侃说,Sora似乎是懂一些“物理”的。以Sora生成的“海盗船在咖啡杯中缠斗”视频为例。为了让生成效果更加逼真,Sora需要理解和模拟液体动力学效果,包括波浪和船只移动时液体的流动;还需要精确模拟光线,包括咖啡的反光、船只的阴影,以及可能的透光效果。只有精准地理解和模拟现实世界的光影关系、物理遮挡和碰撞关系,生成的画面才能真实、生动。
“一直以来,我认为GPT是一个困在数字世界的‘囚徒,它不能真实地感受、理解和反映物理世界。但是,从ChatGPT到Sora,反映了大模型真实理解、反映和模拟物理世界的巨大能力。”北京智源人工智能研究院副院长兼总工程师林咏华认为,Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能迈出的重要一步。
从ChatGPT到Sora,从虚拟思维世界的“模拟器”到现实物理世界的“模拟器”,有人将这个跨越形象地比喻为“从读万卷书到行万里路”。Sora跨出的这“一小步”,实际上是人工智能发展的“一大步”。
Sora打开的新世界
善用工具,一直以来都是人类的天性,也是人类不断进化的标志。从火种到石器,从蒸汽机到电力技术,再到人工智能,新技术打开的世界赋予我们无限可能。
改变影视行业的创作方式。原先动画影视公司为让动物的数百万根毛发、皮肤纹理、衣物等细节更加真实,需要投入不菲的成本和时间。而如今,Sora只需要一行描述、几次提示便能自动完成。Sora将极大降低视频制作的门槛和成本,“人人都是导演”的时代即将来临,这将对影视、广告、游戏、教育等诸多行业产生深远影响。
提升新闻传播的时效性。在新闻传播领域,Sora的实时视频生成能力将使新闻报道更加迅速、直观,还可以生成视频深度报道、评论、摘要等产品,助力传媒业降本增效,提高新闻传播的效率和质量。
构建可视化科学实验模型。Sora是根据现实物理规则建立的模型,也就是说能在一定程度上模拟现实物理现象。比如,在物理学、化学、生物学等领域,科研人员可以利用Sora创建复杂的动态模拟,呈现难以在實验室条件下实现或观察的过程,让科学实验虚拟化、可视化。
近几年,随着生成式人工智能赋能多业态应用的加速落地,整个AI行业的热潮,已经逐渐从文生文、文生图,转向了文生视频领域。国内字节跳动、阿里、百度等科技大厂均已“跑步入场”,字节跳动推出了文生视频模型PixelDance,阿里上线了Animate Anyone模型,百度文心大模型的类似功能也在内测中。
作为一种全新的内容生成工具,Sora将在游戏、营销广告和教育等行业大显身手,涌现新模式,打开新世界。
如何应对“AI焦虑”
自人工智能大模型展现出超预期的强大智能,外界对AI战胜人脑、挑战人类的担心就一发不可收拾。此次Sora发布后,有评论认为“碳基生物将见证一个崭新的硅基物种的诞生”。还有不少人调侃,自己患上了“AI恐惧症”。
“以前不相信是真的,现在不相信是假的。”眼见未必为实,Sora生成的视频产品真假难辨,可能让伪造和欺骗变得更简单。比如,一些美国公众就接到过“深度伪造”的美国总统拜登的电话。
“AI什么都会,还要人类干什么?”Sora不仅是出色的摄影师,还是出色的视频剪辑师。因此,不少人担心Sora将可能对摄影行业和剪辑行业造成冲击,引起部分行业的失业潮。与此同时,人工智能生成作品的著作权问题也面临新的争论。
生成式人工智能还将带来一系列伦理挑战,比如算法偏见与公平性。生成式人工智能的输出可能受到算法设计者和训练数据的影响,导致生成的内容存在偏见或不公平。
“AI焦虑”,如何应对?就像马车夫无法阻止汽车的普及,打字员也永远无法阻止个人电脑的普及。技术的进步不以人的意志为转移,善用技术的人才能在竞争中脱颖而出。
人工智能的时代浪潮奔涌向前,Sora的未来还有无限可能。我们既要热情拥抱新技术,也要审慎看待警惕新风险。平衡之中,方显理性之光,面对突飞猛进的AI技术,这才是人类应有的智慧。
(摘自《青岛宣传》王伟、毕龙翔)