输入文字指令就可以生成视频 人工智能Sora 让好莱坞紧张了
2024-05-17《环球时报》
据媒体报道,美国人工智能公司OpenAI 最新发布的生成式人工智能模型Sora, 近日在业内外引发极高关注度, 其可以按照文字指令生成长达1 分钟视频的强大能力,令IT 界、艺术界和普通爱好者兴奋不已, 同时也让包括好莱坞在内的娱乐产业感到担心,电影《我,机器人》中AI 和机器人取代人类工种的预言和相关风险再次成为热门话题。
视频质量和逼真度更高
“自从上周OpenAI 发布文本生成视频模型Sora以来,人们对于这种AI 功能的预测越来越‘惶恐’,毕竟与之前的同类工具相比,OpenAI 似乎带来巨大的飞跃”。 有媒体评论称,单纯从目前的视频输出样本来看,Sora 是迄今为止最令人印象深刻的视频生成模型,其“现实主义效果”将有望在高端娱乐中发挥作用,只是因为某些方面的限制,目前还无法胜任好莱坞电影这样的制作规模。 人工智能公司Metaphysics 的首席执行官汤姆·格拉汉姆认为:“如今创意工作者要求对表演、场景进行全面把控,Sora 这样的模型要想生成好莱坞电影,还有很长的路要走”。
事实上, 在Sora 横空出世之前, 业内已经存在Runway 和Pika 等功能相似的AI 视频生成、视频编辑模型。 这些模型可以基于文本提示、2D 图片生成短视频,由静态图像衍生出动画,修复、替换或插入新的视觉元素,以及将镜头扩展到原始帧之外,填充上下文相关内容的“画外画”,这些都丰富了人们所需的视频内容。
《财富》报道称,目前已有好莱坞公司将Runway技术应用在项目之中,并获得奥斯卡奖。 相比之下,Sora 又取得一些明显的升级和突破, 譬如视频的质量和逼真度更高,更像真实世界,视频长度也达到1分钟, 能够呈现文本需要的相关信息。 要知道,Sora的竞争对手Runway 去年8 月推出的第二代模型,每次还只能生成最高18 秒的视频。 此外,Sora 还实现了“时空一致性”,也就是即便对视频进行扩展,它也能够赋予模型“前瞻性”,确保视频主题在画幅外也能保持不变。 Sora 之前发布的“时尚女性走在繁华街头”的视频示例,就很像是一部广告短片或电影片段, 人物和场景基本上挑不出明显问题, 身体的运动、头发的细节、霓虹灯反光显得尤其逼真,这在几年前是不可想象的。
画面缺陷仍无法避免
业内人士认为, 拥有强大功能的Sora 已然具备了通过AI 创建电影的可能性,这些输出的视频可以作为“镜头”缝合成一部电影,但关键还要保持角色和场景的连续性。 不过这种使用文本提示和条件参数生成的视频, 只有保持角色在下一场戏中连续一致,才能创造更长时间的“人工智能故事”。
目前看来,Sora 在好莱坞的大规模应用还面临不少阻碍,除了连续性不足,这款模型还会“误解”现实世界里的造型和行为,在图像和视频输出中出现肉眼可见的“物理性失败”。近日网络上也在热传一个Sora 模型的“失败案例”,镜头中的椅子仿佛有了生命般走动, 完全超出真实世界的物理可能,画面中还有人甚至“凭空消失”,此类“失误”除了让人哑然失笑,也说明Sora 想要创作出电影还有很多问题要解决。
由于Sora 的视频输出是基于渲染, 而非物理性建模,因此暂时无法提供足够可控性,目前好莱坞的电影创作者也无法掌握并控制。短期来看,如果想要在创作中引入这种AI 模型, 反而会遭遇更多问题,这还需要OpenAI 的开发人员添加更多的软件控制参数,根据这些暴露出来的缺陷进行改进,呈现出的视频才能与人类拍摄的镜头相媲美。
此外,版权等法律方面问题也是好莱坞目前无法直接使用Sora 的一大原因,将AI 生成的素材输出到银幕有可能引发版权纠纷,哪怕AI 只是用相关素材进行训练,也有潜在的侵权风险。