从Sora到“世界模拟”:视频大模型的技术原理、应用场景与未来进路
2024-07-09任天知沈浩
任天知 沈浩
【摘要】Sora引领的视频生成模型以其提出的“世界模拟器”理念展示出人工智能进展的重大突破,模型甫一问世便被视为迈向通用人工智能的标志。以Sora的诞生为契机,系统探讨该模型如何从知识理解、跨模态信息处理及因果推理等技术维度渐进实现“世界模拟”的构想。结合Sora展现的功能特性,展望其在影视制作与游戏开发、教育培训及科学研究等领域中的潜在应用价值。鉴于通用人工智能的宏大愿景,文中指出Sora代表的视频大模型仍需在认知突围、自主进化、机器自省等方面持续攻关,为未来智能技术的全面发展奠定坚实基础。
【关键词】Sora;文生视频模型;视频大模型;通用人工智能;世界模拟器
一、Sora的诞生:人工智能向视频生成领域的跨越
2024年2月,美国人工智能研究公司OpenAI再度颠覆了人工智能研究领域的既定格局,推出名为Sora的文生视频模型。模型甫一问世,即被视为迈向通用人工智能(Artificial General Intelligence,AGI)的里程碑,彰显出人工智能技术演进过程中的重要跃迁。
相较于同类视频生成模型,Sora在视频时长、分辨率的精细化程度以及场景真实感再现方面均达到了全新高度。尤为突出的是,Sora在模拟物理世界现象的精确性和多样性方面实现了突破,它超越了仅能创造虚拟表现形式的局限,展现出重现现实世界丰富细节场景的强大能力,激发了对现实与虚拟边界日益模糊的深刻探讨。Sora能够自主建构高度拟真的虚拟现实环境,昭示着人工智能内部逻辑架构与外部客观世界之间的关系日趋紧密。Sora的研发历程,揭示了人工智能技术在模拟与理解现实复杂世界过程中所取得的深层进步。
在此背景下,OpenAI在技术报告中提出了“世界模拟器”(World Simulator)这一前瞻性框架,将Sora视为实践这一理念的视频生成载体,将Sora作为“构筑物理世界通用模拟器的一条可行之路”[1]。“世界模拟器”的概念承载着宏大的科技创新愿景,旨在利用前沿的人工智能技术手段,尤其是借助视频生成模型技术,建立能够精细化模拟现实世界中物理规则、社会动态及环境相互作用的复杂计算仿真生态系统。该概念的重要性不仅体现在其在视觉逼真表现层面上的生成与应用,也在于其整合了自然语言理解与执行能力,可以响应指令模拟复杂情境并实时输出适应性行为。此外,它还预示着在对未来多种可能性进行高级模拟分析方面的深层次功能拓展。
Sora是否能够真正意义上“模拟世界”?Sora是否构成实质性的“世界模拟器”等问题还有待深入探究和验证。在赋予此类模型“世界模拟器”的称谓之前,我们有必要对其如何精细捕获和有效模拟物理情境背后的技术原理、应用场景以及未来发展进路进行更为详尽的研究。Sora的进步是对“世界模拟”这一理想的实质性迈进,但通往全面理解和构建真实世界模拟器的道路才刚刚开始。
二、Sora的技术原理:视频模型模拟世界的可能性
(一)知识处理:海量数据归纳与规律模拟
作为视频生成模型,Sora的知识基础根植于对庞大多元的视觉、语言数据集的深度学习过程。通过对亿级以上的图像、视频素材以及相应的文本标注和预训练,Sora汲取了广泛的视觉语义内涵和世界常识图谱。相较于简单的数据存储与再现,Sora所代表的文生视频模型注重从海量数据中挖掘、仿真出所谓世界运作的深层法则与动态规律,进而生成逼真且流畅的视频内容。
Sora采用无监督学习策略对视觉世界的基础要素进行探索与建模,涵盖物体实体、环境场景、事件行为等各种构成单元,以及各单元在时空维度上的联系和互动效应。这种结构化、模块化的场景表征方式,赋予Sora构建多层次知识组织架构的能力,使之能将复杂视觉现象拆解成基本组成单位,通过灵活重组创作出相对符合规律及常识推理框架的画面表现。多模态学习技术的应用使Sora建立了视觉表征与语义标签间的对应关系,通过对齐视觉—语言表征空间,使得文本描述能够精确定位并关联至相关视觉单元。这一特性使Sora能够在理解语言指令的基础上,将其转化成为直观和准确的视觉表达形式。此外,Sora对处理的大量视频数据进行高效的时间序列建模,以掌握各类事件演进的固有模式以及场景间因果关系的内在逻辑。由此,Sora能够依据前后情境线索,对未来画面做出合理预测,进而生成具有连续性、故事性特征的视频片段,初步显现出其在因果推理与规划生成方面的能力。
“我们正在教人工智能理解和模拟运动中的物理世界,目的是训练模型,帮助人们解决需要现实世界交互的问题。”[2]Sora借助对数据资源的有效学习,构建起一套相对全面、立体的视觉世界理论模型,该模型囊括了从物体形态直至规律原理等多个认知层次的知识内容。这种从数据中萃取知识精华、构筑逻辑联系的能力,确定了Sora相较于传统视觉生成模型的优势所在:其不仅是一款视频创作工具,也正有意发展为具备初级常识推理能力的智能体,体现了人工智能由单纯的“感知层面”朝向高阶“认知层面”迈进的伟愿。
在人类的认知发展过程中,“幼年时期即体现出对直观物理学原理的初步掌握,如对物体存在的持久性(即便不在视线范围内物体仍持续存在)、坚固性(物体间不会穿透)和凝聚性(物体作为一个统一的整体一同移动)等基本属性持固有期待”[3]。这种对物理世界及其规则的理解,源于人类大脑内建的一个类似“直觉物理引擎”(Intuitive Physical Engine, IPE)的机制,它凭借类比物理定律的方式进行运作,以统计学的概率预测方式推断物体随时间的动态演变[4]。相较而言,Sora作为一种端到端的深度神经网络结构,并未直接融入传统物理引擎的计算方法,而是在大规模数据集的基础上挖掘和学习隐藏的物理规律表达。
如果说“世界模型”是通过压缩感知输入和预测未来状态,提供环境的内部表征,那么Sora的工作方法是通过视频压缩网络将原始视频映射至特定空间,并通过扩散变换器(Diffusion Transformer)在此空间中对时空片段进行精细化建模,从而捕捉到场景中的动态交互机制。[4]当前,Sora的主要训练目标聚焦于生成高质量的视频内容,而非直接构建用于模拟体验的物理环境。尽管Sora展现出的场景连贯性提示其在模拟物理规律方面存在发展潜力,但其未来能否进化成为真正的“世界模拟器”仍有待考证。
(二)跨模态理解:打通视觉、语言等认知通道
作为“世界模拟器”的Sora,能够整合语言、视觉等认知模态,实现跨模态的理解和生成,其能力主要体现在以下几方面。
一是Sora与大语言模型的无缝结合。作为在ChatGPT等先进语言模型基础上拓展出的迭代成果,Sora展现出自然语言与视觉场景理解和生成之间的无缝对接能力。通过汲取ChatGPT的语义解析优势,Sora可以提升对文本描述精准语义的捕获效率。相较于大语言模型,Sora拓展了对时间和空间维度的处理能力,能够驾驭具有时空属性的视频内容生成任务。因此,Sora不局限于再现静态图像世界的特性,能够在模拟动态演变世界时发挥效用。当接收到文本指令时,Sora能够解码其中的意义,据此生成贴合文本语境的视频内容,涵盖了时空连续性和复杂场景建构等多个维度。通过集成、优化与大语言模型的协作关系,Sora在视觉感知与语义理解间架设起通信桥梁,为构建多模态理解提供支撑。此外,Sora不仅能够模拟再现客观物理世界,也能创造性地构建符合主观意念的虚构场景,这种双重特性赋予其成为“世界模拟器”的潜在能力,拓宽了在现实与想象世界互动探索的应用前景。
二是Sora展示出交互式多视角的生成能力。在视频生成流程中,Sora能够模拟摄像机视点的动态转换,确保场景中物体在三维空间中的运动表现保持连续且一致,这一特点揭示了其在结构化模型层面超越二维帧序列拼接的机制。Sora采用三维几何原理及透视变换等核心知识构建场景模型,这是实现物理世界仿真不可或缺的基础。同时,Sora在时间维度的精细化建模方面表现出色,其生成的一分钟视频内,物体运动始终保持一致性和连贯性,表明Sora初步具备时间逻辑推理和因果关系建模的功能,这对于精确模拟真实物理过程至关重要。由此,Sora可以赋予用户切换视角的自由度,可以使用户从不同角度观测所生成的世界,这反映了Sora内部构建了可以整合多视角信息的全景式多模态框架,从而实现对虚拟场景全方位、灵活的视角控制与展现。
三是Sora体现出对物理世界构成规则的基础理解。其在空间与时间维度上的建模性能,实质上来源于对诸如运动规律、力学规律等基础物理法则的学习和初步应用。不同于传统的物理引擎模拟器,Sora通过大规模数据训练习得对物理世界的内在认知能力,这也是其作为潜在世界模拟器的价值所在。Sora底层学习并融合了对物理世界的基本理解,将视觉等多模态信息嵌入内部表征之中。然而,现阶段Sora对于物理规律的理解与模拟仍存在局限性,比如在处理物体的临界状态表达和因果性运动等方面仍存在不足,这些问题可能源于训练数据的局限性或者模型架构与计算资源约束所致。未来,通过增加训练数据的丰富度和多样性、改进模型结构设计以及增强算力投入,Sora有望进一步提高其对物理世界的理解与模拟精度,可能朝向真正意义上AGI级别的世界模拟器演进。
(三)因果推理:构建事件逻辑,内容贴近真实
若要实现视频内容与真实世界的高度契合,模型须具备深入的因果推理能力来识别和学习各实体事物之间的因果关联。Sora通过一系列关键技术模拟了事件逻辑,从而提高了生成内容的真实性。
Sora采用视频压缩网络(Video Compression Network),通过视觉编码器将原始视频压缩至低维潜在空间,将复杂的视频信息简化为时空补丁,这些补丁类似语句中的词汇,承载着组建视频的关键时空特征与动态变化信息。[5]进而,Sora预测这些补丁如何有效拼接,以生成连贯且视觉吸引力强的视频内容。通过视频压缩,Sora能够在简化后的潜在空间内专注高质量视频内容的生成,为后续扩散变换模型提供了视觉信息。
Sora所搭载的扩散变换模型(Diffusion Transformer)借鉴了马尔可夫链理念,采用递归去噪的方式逐步生成视频帧序列。该模型在生成过程中体现明确的因果依赖关系,即将每一帧的生成严格建立在前序帧信息扩散和演变的基础上,有力推动了视频内容中事件逻辑链条的有效构建与延续。
为更准确地响应用户意图并在模拟过程中遵循合理的因果逻辑,Sora通过整合大型语言模型的指令跟随能力,有效增强了模型对文本输入的理解。它首先训练视频字幕生成器产生高质量的视频、描述性字幕作为训练数据,然后使用大语言模型将简短的用户提示扩展为与训练数据格式一致的详细描述,确保在推理时的输入与训练保持一致[6]。通过这种方式,Sora能够从简短提示推导丰富语义,生成契合用户意图、合乎逻辑的高质量视频内容。
在提示工程方面,Sora的视频/图像提示能力极大增强了内容与现实世界的视觉相似性和内在一致性。除文本输入外,它能够接受视频片段或图像作为生成线索,引导生成过程沿着特定的艺术风格或主题脉络演进,在模拟层面更加接近真实世界的多元表现形态。
以上核心技术,共同支撑Sora实现具有因果逻辑的世界模拟。尽管当前Sora等“视频模型在正确模拟物理交互方面仍存在一些限制,包括对基本物理定律的模拟存在疏忽、难以一致展现物体的物理状态变化等问题”[7],但其已在因果推理、构建事件逻辑以及提升生成内容真实感方面取得了重要突破。赋予模型深入的因果推理能力和学习物理定律、常识知识的能力,使其能够推测事物运动变化背后的成因及其相互作用效应,是迈向高度逼真世界模拟的必经之路。Sora代表的新一代文生视频模型正积极向此目标迈进。
三、Sora的应用图景:想象与现实交汇
(一)赋能内容生产:影视创作、游戏开发等领域
Sora可能重塑影视制作与游戏开发等创意产业的生产和表达范式,不同于传统视频生成技术带来的艺术完整性方面的折损,Sora采用了保留原始画面比例的训练机制,确保其输出的视频内容无论在何种设备支持下,均可传达主题并展现出卓越的视觉美学。Sora可适应目标屏幕尺寸生成相应分辨率及纵横比的高质量视频内容,语言理解能力使其准确提取文字脚本,诠释生成为惊艳的视觉叙事。
Sora“可能改变电影制作和动画的预制作过程,让故事讲述者推介和完善他们的表达”[8]。在影视预制作阶段,Sora正重新定义编剧和导演的工作流程。过去,将抽象的创意概念转化为具象视觉,通常需要美术团队投入大量的时间精力进行草图创作与概念设计。而今,利用Sora,创作团队可直接将剧本文本转化为视频演示沟通,甚至可以快速制作预告片与动画预览。Sora引领的文本驱动与视频生成技术,不仅优化了影视前期工作流程,还可以引入动态评估和交互式剧本的开发手段,有助于提升创意的探索效率。
在游戏开发维度上,Sora同样扮演着“破局者”角色。文本到视频的转化能力可以应用于游戏场景构建,助力游戏设计师快速生成基础素材,有效缓解繁复的手工建模压力。游戏行业越发注重剧情叙事,Sora可依据游戏脚本生成对应的视频片段,以提升场景过渡效果、深化游戏内部故事叙述的感染力,进而增进玩家的沉浸式体验。在游戏互动层面,Sora进一步延伸玩家参与内容创作的权力边界。通过简单的文本输入,玩家得以定制个性化的游戏场景,这一参与式创作模式有望开辟游戏互动娱乐的新维度。
当前,游戏行业不断追求打破真实感和沉浸感界限的方式与方法,传统游戏开发常受困于预先设定的环境和预编程的限制。而“通过集成如Sora扩散模型实现实时、高保真度视频内容以及拟真音效的生成,有望突破现存局限,赋能开发者构建随玩家行为和游戏事件动态变化的游戏环境”[9]。如模拟真实的气候现象、地形动态变化,甚至是创造性地布局新场景,从而营造更加真实、响应灵活的游戏世界。
(二)更新教育方式:定制化学习体验,均等化教育资源
长久以来,教育内容一直以静态资源为主。传统教学资源面临着制作成本高、动态变化需求响应能力不足等困境。Sora可以“将描述性文本或课程大纲转化为特定风格的、为个人学习者兴趣量身定制动态视频内容”[10],构筑个性化且富有吸引力的学习体验。
在个性化教学视频的生成方面,Sora允许教育工作者根据学生个体的认知特征和需求,指导模型生成贴合具体教学内容的定制视频教材。尤其在实验教学场景中,Sora表现出强大的应用前景。在要求立体化认知的空间结构教学中,其不仅能将诸如“溶解过程”等抽象概念以直观视频形式表现,还可以揭示微观层面的分子运动与作用机制,通过生成多角度视图进行场景展示,拓展学生对复杂系统知识的理解深度。对于因安全、成本等因素限制而难以在现实环境中实施的实验,如解剖学实验中的实物标本操作,或是汽车碰撞实验中的破坏性场景,Sora可模拟生成虚拟实验视频,在克服资源限制与潜在风险的同时,增强课堂教学互动探索性。
Sora还展现出多元化的教育领域应用潜能。在语言文化教学上,Sora可根据教学需要创造出地域情境,使学生体验异域文化习俗和实践特定语言交际,这一特性超越了传统课本教学的局限,使学习者通过仿效真实对话情景习得语言技能并领悟文化内核。在历史课程教学中,Sora能够生动再现关键历史场景,将遥远的时空瞬间拉至学生身边,将历史教学从被动回顾转向主动沉浸式体验。
Sora的虚拟化属性有助于提升教育的普及性和可及性。其技术应用一定程度上降低了传统教学方式对人力物力的过度依赖,即便是资源匮乏的边远地区学校,也能以较低成本获得丰富的视频教学资源,进而填补优质师资力量的空白,Sora可能充当“AI助教”角色解答疑难问题,一定程度上弥合了地区间教育资源鸿沟。Sora一旦普及为普遍民主化的教学工具,则有望在促进教育公平性方面发挥效用。
(三)助力科学研究:模拟实验环境,共享科学知识
科学研究的本质在于探寻现象背后的运行机理,其过程包含从概念提炼、理论建构至实验验证、学术传播等多个环节。Sora有望将复杂理论模型和实验过程以直观形象的方式传达给学术同行和社会公众,在模拟实验环境和科学知识共享方面发挥关键作用。
在理论模型的可视化表达方面,诸多科研领域借助计算机模拟复杂系统的行为,大量原始数据难以直接转译为易于解读的可视化形式。专业模拟软件具备建模与仿真功能,但其专业化程度高、学习曲线陡峭,学科外的非专业人士难以驾驭。Sora的介入,可以使科研工作者短时间内将深奥的模型计算结果转化为易懂的视觉材料,将抽象概念变得直观可感,从而增强理论传播的有效性。
在实验环境模拟方面,对于涉及危险操作或受限于特殊环境的实验项目,Sora可根据文本说明构建虚拟实验流程并生成模拟视频。一方面可以帮助科研团队在执行前评估潜在风险,另一方面通过反复模拟优化实验设计并节约实验成本。在探索科学前沿的过程中,对于未经实证的理论设想或假设性的物理现象,研究者可通过Sora将其转化为可观的视频形态,直观显现可能的表现状态。
在科学知识共享与普及方面,Sora的高效视频生成技术有望促进跨学科合作与交流。其产出的科学概念视频可以突破专业知识屏障,让不同领域的专家得以通过视觉语言信息展开无障碍沟通,有助于加快科学发现。同时,Sora可能消除传统科普视频制作耗时长、成本高的障碍,快速生成科普视频可以吸引公众深入理解科学原理,提升科普教育的吸引力与影响力。
四、Sora的未来进路:迈向AGI的下一站
(一)认知突围:挑战感知、推理、决策等更高阶能力
作为文生视频模型,Sora在技术应用层面取得了显著成就,但在攀登通用人工智能高峰的道路上,依然受制于其认知能力的局限,尤其在跨模态感知、深度推理和智能决策等高阶认知维度,Sora仍有待拓展。
首先,在感知能力方面,尽管Sora实现了基于文本指导的视觉内容再现,但在跨模态感知整合方面尚欠完备。理想的AGI应能融合多种感官输入,以实现对环境的全方位、多维度认知,并具有自主探索与学习的主动性,目前Sora并不具备这样的特性。其次,在推理能力方面,虽然Sora在视频生成任务中表现出色,但对于复杂情境下的因果逻辑推理和状态预测能力却较为有限,其无法生成基于深层因果关系分析的行为策略和决策预案。AGI的构建要求具备强大的推理框架,能结合底层物理规律与高层语义知识,构建起对复杂世界的微观因果模型,进而准确预测未来状态演变,以实现智慧型决策而非简单的响应式输出。最后,在高层次认知能力方面,Sora不能应对需要动态规划、复杂策略制定的现实问题,更未显示出诸如创造力、探索欲望、自我意识等人类级别的高级认知属性。而AGI应具备与人类相似的创造性思维、好奇心驱动力、自我意识以及终身学习和适应环境变化的能力。
Sora或许是AGI发展历程中的重要节点,而要实现对现有认知边界的实质性突破,须在以下方面进行改革:一是开发端到端学习和融合不同模态信息的新型神经网络架构,利用注意力机制动态调节各模态权重,建立对现实世界的统一表征;二是强化模型对物理规则的理解与运用,构建基于物理驱动的因果推理引擎,深度融合基础理论与数据驱动模型,精确模拟底层物理过程;三是设计仿照人脑的多层次认知结构,建立由感知、注意力分配、工作记忆、长期存储及执行控制系统构成的类脑架构,进一步开发用于规划、决策、创新思维等模块,赋予系统创新思考与长期学习潜能。未来的AGI有望接近甚至达到与人脑相同的认知广度与深度,能够进行精准的分析决策,实现对世界的高保真模拟与灵活操控。
(二)自主进化:摆脱指令,自主学习
尽管Sora在视频生成任务上成绩斐然,其核心技术框架仍受限于对人类指令的高度依赖。从Sora迈向真正AGI的关键转型在于实现AI系统的自主学习与演化,使之脱离对外部指令的刚性需求。
Sora依托大规模监督学习训练而成,其视频生成活动依赖预定义的文本指令输入,而此类指令集的构建耗时耗力、难以覆盖未来潜在的新任务场景。理想的AGI系统应具备自发探索环境、独立发现规律并自我更新迭代的能力,而非仅仅是对既定指令的被动响应。Sora在开放式学习方面的欠缺,表现为训练后的静态知识状态,其无法在实际应用中进行自我扩展与升级。其知识体系源于有限且固定的训练数据,无法随着现实世界的开放性与动态变化而自适应与学习。而真正的AGI系统应当具备开放式持续学习能力,能够在各种新情境、规则和任务需求面前实时适应,持续吸收新知识并优化内部世界模型。此外,当前的人工智能系统缺乏内在驱动力和自我意识,其发展主要受外在需求引导而非源自内在求知欲。成熟的AGI应模拟人类的内在学习动机,主动追求新知识,以此为基础推进系统自主、持续的进步与发展。
在迈向AGI自主进化的道路上,需在现有被动学习框架基础上进行革新,摆脱对静态训练数据的过度依赖,转向自主学习与进化的能力,同时嵌入持续学习的开放机制和内在激励机制。为此,首先,可采用在线连续学习技术使得模型能在与环境互动的过程中实时学习、整合新知识并动态调整自身参数,这要求开发新的在线神经网络参数调整算法,并解决相关稳定性问题。其次,须构建内在奖励机制,模拟生物学中类似好奇心、自我实现等高级心理驱动因素,为系统注入主动探索的动力,并通过正向反馈激发其持久的“求知冲动”。最后,为了应对现实世界层出不穷的新情况,AGI系统应具备强大的元学习和迁移学习能力,迅速消化新知识并将已掌握的知识有效应用于新情境,提升其在应对全新挑战时的自适应速度和效能。
(三)机器自省:具备元认知,确保可信度
透明度与可解释性对于确保人工智能系统的可信度至关重要,目前包括Sora在内的大模型普遍遭遇“黑盒效应”,其内部运算过程难以透视,决策机制呈现低透明度与低可解释性特征。因此,在通向AGI的道路上,亟待新一代AI发展出元认知能力,通过自我反思其认知过程来增强透明度与可解释性。
针对透明度缺失引发的可解释性问题,Sora模型从文本指令到视频生成的具体转化机制尚不清晰,这导致用户难以预测其输出行为,更无法进行精准的调整优化。至于自我监督与自我调节机制,当前Sora等模型不具备深度的自省能力,其内部的认知活动犹如黑盒,外界难以对其实施有效的监督与控制。若发生计算偏误或不合理操作,系统自身无法及时察觉并自我修复。现阶段的Sora等系统在自我评估与自我约束方面存有局限,易于遭受误用和操控风险。相比之下,理想的AGI系统则应构建起透明化架构和可追溯的决策流程,具有自我监督及自我调节功能,能够积极阐明决策逻辑,还能真诚地评价自身存在的风险与局限,明确表述认知边界的所在,进而提升系统的可靠性和信任度。
未来的AGI系统要在架构设计上实现机器自省,需具备三个核心机制:一是配备元认知监测机制,嵌入系统结构中以实时监控各个认知模块的表现,通过对异常模式识别、决策路径的剖析以及计算偏差的发现与校正,实现全面的自我监管与调整;二是建立多视角融合机制,确保认知理解的稳健性,这意味着模型需要有能力协调并综合来自不同视角的理解,力求形成统一而全面的世界观;三是主动设定认知边界,确保世界模型的可靠性,系统应能精确评估自身认知能力的局限,并通过与人类用户的主动交流,诚实地反映认知局限性及潜在风险,接纳人类反馈以指导改进,形成“人机协同解释”机制,规避超越能力边界所带来的额外风险。
Sora代表的视频生成模型,跃升至精确模拟动态复杂世界的“世界模型器”仍需时日。拥抱Sora等智能技术创新,意味着人类正在积极擘画智能时代的蓝图。随着技术持续精进,从单一视觉模拟向多元感官模拟扩展,再到全方位世界建模的演化,人工智能将在深刻理解现实的基础上,推动人类社会在诸多领域实现前所未有的变革。
[本文为国家社科基金重大项目“我国新闻传播业人工智能应用现状与发展趋向研究”(项目编号:19ZDA327)的研究成果;本文由中国传媒大学中央高校基本科研业务费专项资助(CUC23GY011)]
参考文献:
[1]Brooks T,Peebles B,Homes C,et al.Video generation models as world simulators. [J/OL].(2024-02-15) [2024-02-15].https://openai.com/research/video-generation-models-as-world-simulators/.
[2]Creating video from text:Sora is an AI model that can create realistic and imaginative scenes from text instructions. [EB/OL]. [2024-02-15]. https://openai.com/sora/.
[3]Margoni, F., Surian, L., Baillargeon, R. The violation-of-expectation paradigm: A conceptual overview[J/OL]. Psychological Review, 2023.
[4]Raphal Millière. Are Video Generation Models World Simulators? [EB/OL]. [2024-03-01]. https://artificialcognition.net/posts/video-generation-world-simulators/.
[5]Bilal Mansouri. Sora AI: The Future of AI Video Generation. [EB/OL] [2024-02-19]. https://gptpluginz.com/sora/#Transforming_Visual_Data_into_Manageable_Patches/.
[6]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv: 2402.17177.
[7]Cho, J., Puspitasari, F.D., Zheng, S., Zheng, J., Lee, L.H., Kim, T.H., Hong, C.S., Zhang, C. Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [J/OL]. [2024-03-08]. ArXiv: 2403.05131.
[8]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv: 2402.17177.
[9]Hu, L., Gao, X., Zhang, P., Sun, K., Zhang, B., Bo, L. Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [J/OL]. [2023-12-07]. ArXiv: 2311.17117.
[10]Xing, J., Xia, M., Liu, Y., Zhang, Y., Zhang, Y., He, Y., Liu, H., Chen, H., Cun, X., Wang, X., Shan, Y., Wong, T.T. Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance [J/OL]. [2023-06-01]. ArXiv: 2306.00943.
作者简介:任天知,中国传媒大学媒体融合与传播国家重点实验室博士后,中国传媒大学国家舆情实验室研究人员(北京 100024);沈浩,中国传媒大学教授,中国传媒大学媒体融合与传播国家重点实验室大数据首席科学家(北京 100024)。
编校:王志昭