Sora与世界模型
2024-03-28费斌杰
费斌杰
2月15日,OpenAI发布了Sora模型,能够根据提示词生成长达一分钟的视频,效果以假乱真。
Sora究竟是怎么做到的呢?
微软研究院在近期发布了一篇论文,对Sora背后的技术框架给出了猜测,还是有较高的可信度的。
我先给大家講一下重点。
关键技术一:DiT。Sora模型与此前同类模型相比,最大的区别在于使用DiT作为模型的主网架构。
DiT全称为Diffusion Transformer,其本质是DDPM与Transformer的结合。DDPM即去噪扩散概率模型,是一种传统的扩散模型。
Sora和Runway、Pika都用了Diffusion扩散模型。不同之处在于,Sora把主网架构从U-Net换成了Transformer。
值得一提的事,DiT并不是一个新模型,是去年3月份发布的,两个作者分别是Peebles和谢赛宁。
Peeble在不久之后进入了OpenAI,成为Sora模型的核心主力,而谢赛宁教授则在纽约大学任教。
有趣的是,当时他俩的这篇跨时代的论文,被CVPR拒稿了,因为创新不足(limited novelty)。
关键技术二:视频压缩网络与时空区块。视频数据包含的信息量巨大,如果不进行压缩处理就开始训练,会消耗大量带宽和存储资源。
因此,Sora通过“视频压缩网络”技术,将输入的图片或视频压缩成一个更低维度的表示形式。
根据推测,这里的视频压缩网络,大概率使用了VAE,即变分自编码器。接下来,Sora将这些压缩后的数据进一步分解为“时空区块”(Spacetime Latent Patches),统一了图像、视频在“时间”与“空间”这两个维度上的数据表达。
这就是Sora能够不限分辨率、视频时长、视频尺寸进行训练的原因。
理论上看,只要算力足够,Sora生成的视频长度可以无限长,图像效果可以无限逼近真实。
我们知道,涌现能力(Emergent Abilities)是本轮AI的第一性原理。
如果说ChatGPT是涌现能力在文本生成方面的体现,那么Sora模型就是涌现能力在视频生成领域的体现。
关于Sora是否存在涌现,一直存在争议。我认为这个结论是相当明确的。
因为,“真实感”本身就是一种涌现。
这次Sora生成的视频,很多朋友看到的第一感受,就是“真实”。
其实,要让我们人类感觉到真实,是一件看起来简单,实则非常困难的事情。
因为真实感的背后,是无数细节的堆叠。
以Sora生成的猫猫走路视频为例。这个视频看起来很真实,是因为:
潮湿地面的光影反射,符合基本光学原理。猫猫走路是四肢协调,符合基本的曲柄连杆机械原理,以及自由度限制。猫咪毛茸茸且飘逸的毛发,符合基本的流体力学原理,等等。
只要其中有哪怕一处细节与常识严重不符,就会打破“真实感”。所以,真实感,其实也是一种涌现。需要无数个细节的拟真,才会涌现出真实感。
Sora告诉我们,通过训练大型视频生成模型,有望构建真正意义上的物理世界模型,从而增进我们对世界的理解。
相信Sora只是开始,还有更多的精彩在路上。