输入文字指令就可以生成视频人工智能Sora 让好莱坞紧张了

2024-05-17《环球时报》

上海工运 2024年2期

据媒体报道，美国人工智能公司OpenAI 最新发布的生成式人工智能模型Sora，近日在业内外引发极高关注度，其可以按照文字指令生成长达1 分钟视频的强大能力，令IT 界、艺术界和普通爱好者兴奋不已，同时也让包括好莱坞在内的娱乐产业感到担心，电影《我，机器人》中AI 和机器人取代人类工种的预言和相关风险再次成为热门话题。

视频质量和逼真度更高

“自从上周OpenAI 发布文本生成视频模型Sora以来，人们对于这种AI 功能的预测越来越‘惶恐’，毕竟与之前的同类工具相比，OpenAI 似乎带来巨大的飞跃”。有媒体评论称，单纯从目前的视频输出样本来看，Sora 是迄今为止最令人印象深刻的视频生成模型，其“现实主义效果”将有望在高端娱乐中发挥作用，只是因为某些方面的限制，目前还无法胜任好莱坞电影这样的制作规模。人工智能公司Metaphysics 的首席执行官汤姆·格拉汉姆认为：“如今创意工作者要求对表演、场景进行全面把控，Sora 这样的模型要想生成好莱坞电影，还有很长的路要走”。

事实上，在Sora 横空出世之前，业内已经存在Runway 和Pika 等功能相似的AI 视频生成、视频编辑模型。这些模型可以基于文本提示、2D 图片生成短视频，由静态图像衍生出动画，修复、替换或插入新的视觉元素，以及将镜头扩展到原始帧之外，填充上下文相关内容的“画外画”，这些都丰富了人们所需的视频内容。

《财富》报道称，目前已有好莱坞公司将Runway技术应用在项目之中，并获得奥斯卡奖。相比之下，Sora 又取得一些明显的升级和突破，譬如视频的质量和逼真度更高，更像真实世界，视频长度也达到1分钟，能够呈现文本需要的相关信息。要知道，Sora的竞争对手Runway 去年8 月推出的第二代模型，每次还只能生成最高18 秒的视频。此外，Sora 还实现了“时空一致性”，也就是即便对视频进行扩展，它也能够赋予模型“前瞻性”，确保视频主题在画幅外也能保持不变。 Sora 之前发布的“时尚女性走在繁华街头”的视频示例，就很像是一部广告短片或电影片段，人物和场景基本上挑不出明显问题，身体的运动、头发的细节、霓虹灯反光显得尤其逼真，这在几年前是不可想象的。

画面缺陷仍无法避免

业内人士认为，拥有强大功能的Sora 已然具备了通过AI 创建电影的可能性，这些输出的视频可以作为“镜头”缝合成一部电影，但关键还要保持角色和场景的连续性。不过这种使用文本提示和条件参数生成的视频，只有保持角色在下一场戏中连续一致，才能创造更长时间的“人工智能故事”。

目前看来，Sora 在好莱坞的大规模应用还面临不少阻碍，除了连续性不足，这款模型还会“误解”现实世界里的造型和行为，在图像和视频输出中出现肉眼可见的“物理性失败”。近日网络上也在热传一个Sora 模型的“失败案例”，镜头中的椅子仿佛有了生命般走动，完全超出真实世界的物理可能，画面中还有人甚至“凭空消失”，此类“失误”除了让人哑然失笑，也说明Sora 想要创作出电影还有很多问题要解决。

由于Sora 的视频输出是基于渲染，而非物理性建模，因此暂时无法提供足够可控性，目前好莱坞的电影创作者也无法掌握并控制。短期来看，如果想要在创作中引入这种AI 模型，反而会遭遇更多问题，这还需要OpenAI 的开发人员添加更多的软件控制参数，根据这些暴露出来的缺陷进行改进，呈现出的视频才能与人类拍摄的镜头相媲美。

此外，版权等法律方面问题也是好莱坞目前无法直接使用Sora 的一大原因，将AI 生成的素材输出到银幕有可能引发版权纠纷，哪怕AI 只是用相关素材进行训练，也有潜在的侵权风险。