Sora与未来叙事：AI如何颠覆内容创作

2024-05-21陈光

传媒评论 2024年3期

文_陈光

2024 年2 月16 日，OpenAI 发布了其首个文生视频模型Sora。这一突破性模型的发布在行业内引起了轰动，重新定义了当前AI 文生视频技术的极限，彻底颠覆了生成式AI 在视频领域的全球市场格局。Sora不仅仅是一个技术突破，更是对人类叙事方式的一次深刻挑战，预示着内容生产领域未来的无限可能，也让我们对通用人工智能（AGI）的进步更加期待。

在此之前，尽管AI在图像和音频生成方面取得了令人瞩目的成果，但高质量、长时间的视频生成仍是一个难以攀越的峰顶。Sora的出现，一次性将视频生成时长提升了15倍，达到60秒，远超行业水平。不但如此，Sora还能生成复杂的多机位视频，场景连贯，角色丰满，细节精致，几乎可以与现实中的场景媲美，这在以往的技术中是难以想象的。这种能力不仅极大提高了视频内容的创作效率，也为内容创作者提供了前所未有的自由度。想象一下，只需输入一段描述，Sora 就能为你呈现出一个完整、生动的故事场景，这无疑将极大地激发创作者的想象力和创造力。

还原世界并超出想象的模型

用文字自动生成视频，其技术难点主要体现在如何处理并理解视觉信息的高维特性和动态变化。视频不仅包含了静态图像的空间信息，还包含时间序列上的动态信息，因此对计算资源和模型处理能力的要求极高。实现这一技术需要借助深度学习中的生成模型，如扩散模型(Diffusion Model)，以及强大的时空变换架构，例如Transformer。Sora能惊艳亮相，其背后得益于以下方面取得的技术突破：首先，Sora 采用了将视频和图像数据转换为统一表示形式的方法，使得模型能在大规模数据集上进行训练；其次，模型能处理不同持续时间、分辨率和宽高比的视觉数据；再次，Sora 利用了扩散Transformer（Diffusion Transformer）结构，成功将扩散模型与Transformer结合起来，以有效处理视频数据；最后，Sora在语言理解方面也有所突破，通过DALL·E 3 中采用的视频再描述（re-captioning）技术获得大量配有描述文本的训练视频数据，进而提高了文本到视频生成系统的质量。这些技术能力的结合，使得Sora能根据文本提示生成高保真度的视频内容。

除了在长度和质量上的量级飞跃，我们还可以从Sora 生成的视频中，看到它对真实世界物理规律、运动规律的部分掌握和遵循，也就是所谓的“世界模型”能力。比如，Sora 生成的视频中，走路的人会带起尘土，画家的笔画会留在画布上，这表明Sora 已经初步具备通过学习对现实世界进行有限的模拟。它不再是简单地拼凑现成的视频数据，而是试图预测物体运动对环境的影响，这为构建能像人一样感知并交互的通用智能奠定了基础。

OpenAI 在Sora 官方技术报告中提出“用视频生成模型作为世界模拟器”，其核心思想在于利用Sora强大的视频生成能力，创造一个虚拟世界。这个世界可以高度还原甚至超越现实，为人工智能提供一个无限宽广、可控制且安全的实验和学习空间。在这个模拟环境中，人工智能可以接受各种任务和挑战，通过与虚拟世界的互动学习，不仅能理解物理规律和世界运行法则，还能进行决策训练、策略优化和行为预测。Sora的文本到视频映射能力，使这个世界模拟器可以通过自然语言来控制和指导，大幅降低了模拟器的使用门槛，扩大了其应用范围。此外，Sora 生成的高保真视频，使得模拟世界可以非常真实地反映出复杂的环境动态，这对于自动驾驶、虚拟现实、机器人学习等领域的研究与发展具有重大意义。因此，Sora不仅仅是视频生成的工具，更拥有成为下一代人工智能研究和开发平台的巨大潜力。

世界模拟器是实现AGI的一个潜在工具。AGI需要能理解和操作物理世界，世界模拟器提供了一个虚拟环境，AGI可以在其中学习物理规律、社交规则和其他复杂的系统动态，进而无风险地探索和理解现实世界的复杂性。

世界模拟器虽然是实现AGI 的一种强有力的手段，但是不是通向AGI 的必由之路还有待商榷。AGI的发展可能需要多种技术和方法的结合，包括知识表示、推理、规划、学习、感知和操控等多个方面的进展。世界模拟器可能是这个广泛技术组合中的一部分，但未必是唯一或者必要的路径。然而，世界模拟器无疑为AGI 提供了一个重要的实验平台，有助于推动AI朝着更通用、更高层次的智能发展。

Sora推动了内容生产行业的变革

Sora 的问世，不仅提供了颠覆性的视频生成工具，也为各行各业带来了前所未有的创新潜力和变革机遇。

在创意视频行业，Sora能极大减轻视频制作的工作量和技术门槛。传统的视频制作需要编剧、导演、摄影师、演员等多方合作完成，耗费时间长、成本高。Sora可以通过理解简单的文本描述，自动生成视频内容。这让小型创意工作室甚至个人创作者也能以较低的成本制作高质量的视频作品，极大地激发了创意产业的活力。

在教育领域，Sora 可以根据教学内容需求，创造出生动的教学视频，使抽象的知识点变得形象易懂，增强学习的趣味性和有效性。学生们可以通过观看由AI 生成的教育视频，获得更加直观的学习体验，这对于提高教学效果、激发学生兴趣将起到积极作用。

在医疗领域，Sora的应用同样具有重要价值。例如，它能生成手术过程的仿真视频，帮助医学生和专业医生在无风险的环境中进行学习和培训，可以提高手术技能的学习效率，降低实际操作中的风险。

对于电影和游戏产业，Sora的视频生成能力将开辟全新的创作可能性。它可以快速生成复杂的特效场景或者角色动画，减少人工制作的需求，使得电影和游戏的生产成本大幅度降低，同时还能加快产品从构思到市场的过程。

此外，在新闻报道、旅游、房地产等行业，Sora 都能提供强大的支持。例如，新闻记者可以利用Sora快速生成再现事件现场的视频，增强新闻报道的可视化和临场感；旅游公司可以通过Sora 制作虚拟旅游视频，吸引潜在游客；而房地产商则可以利用Sora 生成房屋内外的虚拟漫游视频，提升客户的参观体验。

Sora开启了AI赋能视觉内容创作的新时代，也将推动更多视觉领域任务实现自动化，并激发人类更丰富的创造力。然而，Sora也对现有工作模式带来的冲击，尤其是那些重复性、模式化的创意工作。随着Sora的发展和应用，我们可能需要重新思考人类与AI在创意工作中的分工与合作方式。

Sora的视频生成能力表明，AI可以承担更多的创意执行任务，能在短时间内尝试和生成大量不同的创意变体。这不仅能大幅提高工作效率，减少人力成本，还能推动创意界限的拓展。在这种情况下，人类创作者的角色可能会从执行者转变为策划者和指导者，他们需要指导AI 完成具体创意工作，确保生成的内容符合创意目标和主旨精神。

其次，Sora的语言理解和视频生成能力还意味着AI可以参与到更初级的创意决策过程，为人类提供灵感和可能性。这种能力使得人类与AI 的合作更加紧密，人类创作者需要学会如何与AI 沟通，怎样有效地利用AI的能力来促进创意过程。

再者，随着AI技术在创意工作中的应用变得越来越普遍，行业内的工作流程和职业角色也可能发生变化。例如，在电影制作中，剧本创作、场景设计、特效生成等环节可能会越来越多地依赖于Sora 这样的AI工具，从而改变这些工作的传统方式。这不仅影响了从业者需要的技能集，也可能带来新的工作机会，比如AI创意协调员或AI创意分析师等职位。

最后，随着AI在创意领域的能力不断增强，人类与AI的合作模式也需要不断创新。我们可能会看到更多的协作平台和工具的出现，以支持人类与AI之间的互动和合作。同时，也必然会带来知识产权、创意归属和伦理等一系列新的问题，需要社会各界共同探讨和解决。

Sora可能带来全新的叙事形式

当然，Sora并非完美无缺。它在生成视频的连贯性方面并不总是完美，有时会出现物体无缘无故出现或消失的情况。此外，Sora在模拟复杂场景中的因果关系和物理交互方面还存在局限，不一定能准确模拟复杂的物理运动，比如玻璃破碎、液体倾倒等精细物理交互的准确模拟，这些都需要模型对现实世界的物理法则有更深入的理解。这些局限性提醒我们，尽管Sora代表了AI技术的巨大进步，但距离构建真正的世界模型、实现AGI还有很长的路要走。

Sora的技术细节目前几乎没有公开，其工作原理还不甚清楚。我们无法判断它是否遵循了安全的开发方针。如果训练数据存在问题，输出也可能呈现出偏见或不当内容。我们不能因为几个视频demo就断定它已经完美解决了视频生成问题。此外，Sora生成的视频长度和质量还无法与专业电影制作相提并论。它的应用受到长度、算力成本等限制，离全面替代人类创作还有一定距离。我们也应该清醒地认识到，Sora 仍然处于发展的初级阶段，它所面临的挑战和局限性需要我们持续的关注和研究。

Sora的出现，无疑为内容生产领域带来了新的活力和可能性，开启了一个崭新的内容创作工具时代。它不仅提高了内容创作的效率，也为AI在更广泛领域的应用提供了新思路，使通用智能的远景更加清晰可见。在未来，随着技术的不断进步，我们有理由相信，Sora及其后继者将能够在内容生产领域发挥更加重要的作用，甚至可能改变我们对叙事方式的根本理解。

Sora这样的AI工具能通过学习海量数据，掌握丰富的叙事元素和风格。在未来，这些工具可以自动生成有吸引力的故事情节、复杂的人物关系和丰富的情感表达，能根据不同文化背景和观众喜好，调整故事内容和叙事风格，使叙事更加个性化和多元化。随着Sora后继者能力的增强，它们可以实时根据观众的反馈调整故事的走向。这种双向互动的叙事方式将使内容生产更加动态化，参与感更强，观众将从被动接收故事变为参与创作故事的主体，这将彻底改变我们对叙事主体性的理解。Sora 后继者在内容生产中的应用，将促进新叙事形式的诞生。例如，基于AI 的交互式叙事、多线程叙事和非线性叙事等新型叙事结构，这些叙事形式能提供更加丰富和立体的故事体验，允许观众从不同角度和路径探索故事，从而颠覆传统的线性叙事模式。

此外，人工智能还将能发掘和创造新的叙事主题和题材，它们可以从大数据中挖掘潜在的叙事元素，甚至可以预测和引领内容生产的趋势。这将使得内容生产更加丰富和前瞻，不断推动叙事艺术的发展。

结语

Sora 作为一种工具，其核心价值在于服务于人类，帮助人们更高效地解决问题、产出创意和处理复杂信息。然而，我们也必须认识到，尽管Sora 等人工智能技术极具潜力，它们终究是工具，是由人类设计和控制的系统。它们的目标和功能，取决于人类的设定和指引。因此，我们应该保持一种积极理性的态度，既要充分利用AI 带来的便利和创新，又要深入思考如何正确引导AI的发展，确保这些技术能够符合伦理标准、服务于人类的长远利益。

在探索通向通用智能的路途上，Sora仅仅是一个开始。未来的研究应当致力于让AI 系统拥有更好的自适应能力、更广泛的应用范围和更深层次的理解力，最终达到与人类智能相媲美的通用智能。这一过程需要跨学科的合作，涉及计算机科学、认知科学、伦理学等多个领域，共同探索AI的最佳设计原则和应用方案。在人类与机器的合作中，我们应该视AI为伙伴而非对手。未来，人机合作的模式将不断深化，人类将能够更加专注于创造性思考、战略规划和情感交流等AI 难以替代的领域，而AI 则在数据分析、模式识别和繁琐任务的自动化等方面发挥作用。这种互补式的合作关系必将极大地提升人类社会的整体生产力和创新能力，开创更加美好的未来。