文生视频模型Sora的时间性结构分析

2024-07-11邓志文

编辑之友 2024年6期

基金项目：2023年教育部人文社会科学规划基金项目“技术现象学视角下的城市空间感官生态变迁研究”（23YJAZH023）；湖北科技学院科研创新团队项目“元宇宙与传媒发展研究”（2022T06）

作者信息：邓志文（1972— ），男，湖北麻城人，博士，湖北科技学院人文与传媒学院教授，主要研究方向：美学、技术哲学。

【摘要】近日，OpenAI推出了代表了目前文生视频最高水平的模型Sora，成为生成式人工智能发展史上的里程碑。然而，Sora还是存在着一些技术上的缺陷和不足。从时间现象学角度看，Sora外在时间结构“阵容”残缺，只有客观时间，没有主观时间和内在时间意识，导致其无法描述人类的心理时间，不能解释事件的因果关系和建构复杂有意义的事件及情节。此外，滞留和前摄的缺席，导致其无法连接动作和结果；缺少内在时间性动态生成结构的介入，Sora亦难以展现随着时间推移而发生的事件。因此，从技术层面增加数据模型的意向性实践和提升意向性设计的算量、算法，完善内外两个时间性结构，成为提升Sora现实表现的关键。

【关键词】文生视频 Sora 时间性结构生成式人工智能现象学滞留与前摄

【中图分类号】G206 【文献标识码】Ａ【文章编号】1003-6687（2024）6-046-07

【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.6.006

从虚拟现实到元宇宙，从ChatGPT到文生视频，生成式人工智能以摧枯拉朽的技术伟力不断创造着一个又一个科学神话和热门话题，并以其惊艳的表现“俘虏”了世人的目光，其迭代速度可谓日新月异。目前，文生视频正被广泛地应用于企业宣传、数字化人、科普创作、线上社交等领域。[1]2024年伊始，OpenAI又隆重推出了新一代文生视频大模型Sora。作为生成视频领域的“王炸”，Sora再一次刷新了人们对人工智能技术的认知，该消息迅速登上热搜并成为各大新闻网站的头条。Sora突破了之前Runway、Pika、Meta等公司的AI文生视频最多只能持续十几秒且单镜头单生成的“天花板”，能根据用户的文本指令生成长达1分钟的高质量视频。逼真的视觉效果令Sora在一夜之间“爆红”，其精湛的技术表现亦让人们叹为观止，就连马斯克也惊叹地表示“人类愿赌服输”。Sora强大的视频生成能力，使其在社交、创意产业、视觉艺术、新媒体、影视制作、教育培训、虚拟现实和增强现实、娱乐等领域有广阔的用武之地。它标志着人工智能在理解现实世界并与之互动方面发生了质的飞跃，这似乎昭示着通用人工智能“一统天下”的时代已经近在眼前了。

就在人们对Sora顶礼膜拜和赞不绝口的浪潮中，一些理性的声音也开始浮出水面。其实，在此之前，已有学者对生成式人工智能的潜在风险表达了关切，如伦理风险、信息失序风险、科技安全风险、价值导向风险，还包括系统性偏见、价值观对抗、观点霸权、刻板印象、虚假信息等问题。Sora作为热点话题也自然进入了人们讨论的视野。《环球日报》记者曾以Sora为话题采访了刘伟、吴甘沙、杨静等多名人工智能领域专家和企业界人士。在喜忧参半中，他们都对Sora这个新生事物持较为辩证、客观和理性的态度。任何技术产品都不是完美无缺的，我们应该对Sora的现实表现与应用前景秉持理性和谨慎的态度。一些人还对Sora可能带来的各种风险忧心忡忡。他们认为，Sora强大的拟真能力使得人工经验和真实经验的边界更加模糊，并对人们日常经验产生负面影响，从而影响人们的实在观。在人工经验与真实经验的双重介入下，人们要形成对客观世界的准确认知恐怕是比较难了。[2]“当生成式人工智能信息来源的真实性无法保障时，将严重影响用户知情权和决策权的行使，从而演变为人机对抗的不利局面，使得科技发展可能脱离人类可控范围。”[3]尤其对以真实性为生命的新闻业来说，在Sora的使用上更要慎之又慎。

尽管Sora的走红有OpenAI公司营销和众多媒体背后推波助澜的因素，但应当承认，作为生成式人工智能的一种，即通过大规模数据库/集的学习和分析，进而生成与训练数据相似的、具有一定逻辑性和连贯性的语言文本、音频、图像、视频等内容，Sora也和ChatGPT一样，是迈向通用人工智能时代的重要里程碑。截至目前，对文生视频以及模型Sora的关注不在少数，但多见于网络新闻、发帖评论和对专业人士的采访，以及《解放日报》《证券日报》《上海证券报》《联合时报》《北京商报》《电脑报》《环球日报》上的12篇介绍性文章，①内容多是介绍和普及文生视频和Sora的技术特点、应用价值和应用领域，包括对相关专家的采访，不具有严格意义上的学术性，真正关于文生视频（遑论刚刚问世的Sora）的学术研究严重滞后。②笔者在这里要提出的问题是：Sora作为代表迄今最高水平的文生视频模型，其现实表现有何不足之处？原因何在？

一、“能”与“不能”：文生视频模型Sora的技术可供性与现实表现

只有从现象学的视角出发，人们才能获得正确的术语以谈论作为事物表现语境的世界。这里要用到的第一个现象学术语叫意向相关项。在现象学理论中，意向相关项意指事物被体验的方式或被赋予的意义。意向相关项类似于詹姆斯·吉布森提出的可供性，后者用于解释有机体在环境的支持或限制下展开行动的可能性。[4]在技术哲学领域，可供性指的是技术为人们所能提供的服务资源及其限度。Sora是人工智能技术对现实世界的一种体验方式，后者赋予它在现实中的表现和意义。如果人工智能技术能让Sora的某种行动或表现成为可能，那么它就向Sora提供了一种可供性。智能技术的可供性决定了Sora实际上感知、理解世界和建构视频的方式和能力，也决定了Sora的可供性和现实表现。Sora的技术可供性主要体现为其技术上的进步及其价值和意义，这并不纯粹源于它的客观属性，还依赖于技术主体的属性，正是人类这个意识主体的认知资源即技术水平决定了Sora达到的高度。生成式人工智能的技术可供性为Sora的未来发展既提供了无限的可能，又在某种程度上限制它的现实表现。那么，生成式人工智能技术为Sora提供了哪些方面的可供性即意向相关项？Sora的现实表现又如何呢？

如果说以前的生成式人工智能如ChatGPT实现了从文字到文字、文字到图片的静态信息转换和表达，文生视频则实现了在连续的时间序列中保持场景的一致性，能描述物体的动态关系和光影变化，从而需要更强的时空建模能力和更高的算法技术。新一代文生视频模型Sora则在此基础上向前迈出了一大步，它不仅能将文字、图片和视频等数据转换成高质量的视频，还突破了此前文生视频受时长限制的瓶颈。Sora“按照预定的要求和规则，将用户输入的数据生成为特定的场景”，[5]通过复杂的深度学习模型，如生成对抗网络和变分自编码器，来捕捉动态变化和细节。无论是飘动的衣物还是水面倒影，Sora都能以接近真实物理世界的方式将其呈现出来。作为一款基于数据的物理模拟引擎，通过大规模的数据模型训练和数据驱动，Sora体现出对真实世界中的人、动物和环境的不俗的模拟能力。总之，它能生成多个角色、特定类型的运动、背景复杂细腻的场景、综合多样的镜头运动、逼真的人物和生动的角色表情等。借助世界模型，Sora理解真实世界的能力得到质的提升，它可以描述简单运动的物理规律，理解物体在物理世界中的存在方式，如演示视频中真实的光影反射、运动方式、镜头移动等，世界模型是其重要标签。Sora对语言有深入的理解，可以在单个生成的视频中创建多个镜头，精准地保留角色和视觉风格。无论是视频的长度、真实性、稳定性、连贯性、一致性、分辨率，还是对文本的理解，Sora均代表了目前文生视频的最高水平。“Sora具有三维空间的连贯性、模拟数字世界、长期连续性和物体持久性、与世界互动的技术特点，是文生视频领域取得的重大进步和突破。”[6]

虽然OpenAI公司尚未发布Sora的公开使用版本，但人们可以通过其官方网站发布的48个演示视频一睹Sora的技术魅力。其中有一个是根据文字“一位时尚女性自信且随意地走在充满温暖霓虹灯和动画城市标牌的东京街道上”生成的长达60秒稳定输出的多镜头高清视频（见图1、图2）。举凡细腻的人物表情、复杂的场景、完美的服装搭配、炫目的灯光效果，抑或清晰可见的积水街道上的建筑和人物的倒影、晃动的耳环、飘动的裙摆、人物脸上的雀斑、街道两边的广告招牌和商铺、各色路人等，无一不更新着人们对生成式人工智能——文生视频创作能力的认知。让虚拟和现实融为一体的概念，真的不再是纸上谈兵了。

尽管强大的智能技术让Sora在理解人类语言和文字方面实现了质的飞跃，并提供了理解、重建和模拟这个世界的可能性。但现象学的本质还原告诉我们，技术不能摆脱其发展水平的限制，也无法等同于人的智力，Sora的可供性因此是有限的。艾伦·图灵提出的具身智能指出，只有具备和人一样的身体并与世界交互，才能完全理解物理世界的基本法则。意识一开始就是主体间性的，意向性来自人们互动的意向性实践。通过与他人的实际互动而形成的意向性具有物理和社会的双重属性，恰如海德格尔所言，意向性意味着我们“在世界中存在”。人类生活在丰富多彩、变化万千的生活世界中，那里是非科学的世界，充满了偶然性、多变性和不可预测性。当Sora以理论的方式对待事物时，这种重要的或原始的在世界中存在的方式就被错失了。建立在数据模型基础上的Sora主要同理想化和精确的对象打交道，没有与生活世界发生交集，意向性无法形成，生成的是刻板的、模式化的虚拟世界或数字世界，其视频也只是生活世界的摹本或副本，与丰富而深刻的真实世界差之千里，其意向相关项（意义等）相当有限。例如，由于视频包含了静态图像的空间信息和时间维度，要求文生视频模型能够理解和预测随时间变化的动态场景和事件，但目前的智能技术尚不具备这个可供性。

笔者也从该演示视频中发现了不少技术空洞的痕迹，如图2中的时尚女性表情（即便有微笑）单一僵硬且无变化，嘴巴（口型）、眼睛（眨眼等）等具有丰富微表情表达能力的部位也始终未发生哪怕是极为细小的变化；图1中街道上行人的步态及频率节奏基本一致，无速度和肢体动作上的区别，显示出虚拟数字人的同质化痕迹。从整体上看，画面上人物及其动作还留有较深的动漫印记。总的看来，正如开发Sora模型的OpenAI公司所言，Sora难以准确模拟复杂场景的物理原理（如玻璃破碎），无法完成对事件因果关系的呈现和解释，混淆了空间细节，不能精确描述随着时间推移发生的事件等。那么，Sora现实表现的不足和缺陷背后的原因是什么？现象学的时间性理论或许能从哲学层面上指点迷津。

二、外在时间性结构残缺：Sora无法描述复杂事件和完成情节叙事

现象学研究的所有事物，包括意向对象或意向活动，都渗透着时间。正是在时间性领域，现象学达到了被它考察的事物的第一原理的高度。时间性结构也适用于所有的主观和客观的事物。现象学认为，时间性包括世界时间（客观时间）、内时间（主观时间）和内在时间意识三个结构层次。然而，生成式人工智能都是以数据为基础，“数据是智能成长的‘营养或技术推进的‘燃料”。[7]Sora也不例外，其技术原理是，先将大量的视频数据集压缩到一个低维潜在空间，然后将其分解为时空嵌入，从而将视频转化为一系列的编码块（视觉块嵌入代码），相当于小方块的形式，最后，Sora再根据客户提供的文字描述提取包含时间和空间信息的小方块生成新的视频。Sora内容生产所依赖的技术主要是算量、算法和算力，在规则和技术理性中将现实世界简化为模型，将抽象的问题变成可以量化、计算的对象。如此一来，作为没有意识和意向性（依靠人类将意向性设计在模型中）的技术载体，Sora只具有客观时间，而不能自主地运用主观时间和内在时间意识来呈现事件和组织事件。外在时间性结构的残缺，导致Sora在呈现事件和事件关系以及构建情节方面无能为力。

（1）没有主观时间的参与，Sora难以呈现复杂的事件。主观时间“属于心灵活动和经验即意识生活事件的绵延和序列”，[8]主体的意向和感觉按照时间顺序被安排的方式都发生在主观时间中，它围绕着知觉、感觉经验、回忆、想象等活动展开。作为一种现象，客观时间依赖于主观时间，事件或事物之所以能用钟表来度量从而成为一个持续性的存在，是因为我们主观经验到一连串心理活动。正是因为主体拥有主观的内时间，客观时间的流动才得以对世界呈现。对于世界时间的显现而言，我们意识经验的时间之流是显现得以进行的前提。

其一，由于主观时间的缺席，Sora无法模仿人类感觉经验生成回忆、梦境、心理活动、幻想、想象等内容，难以完成对复杂而有意义的事件的叙述。如果Sora既不预期也不回忆，也就不可能把事件组织成时间性模式。事件的真相、结果、意义或发展趋势依赖于主观时间上的记忆、心理活动、想象等协同完成，以形成丰富的意义极。叙事不仅是对过去的回顾，还在前瞻的意向中形成，包含着对未来可能发生也可能不发生的一些行动的叙事。[9]即便这些事件可能发生在过去，抑或发生在将来，甚至从未发生过，它们都处于与叙事者的时间关系中。这正是Sora不能解释事件因果关系和描述复杂物理事件的原因，演示视频中也只能展现人物简单的动作（漫步）。其二，Sora不能描述人物的心理体验，人物形象塑造的方式单一。Sora对时间的体验只有物理时间而没有心理时间。作为心灵的体验，心理时间依赖于主观时间（正是Sora不具备的）的存在。在日常生活中，我们有时候埋怨时间漫长，有时候却责怪时光倏忽，这不过是主观时间带给我们的一种心理感受而已。Sora无法像影视制作的编导们那样，将事件实际发生的时间延长数倍表现剧中人物的煎熬或无聊，或将实际时间进行压缩表现时光易逝和某些人类用肉眼不易觉察的动作或细节，或省略掉无叙事价值的时间等。因此，不能处理主观时间数据模型的Sora无法通过生成相关场景和事件来描述或呈现人物的心理时间。演示视频中的女性的自信和惬意可以从步态和轻松愉悦的表情中看出，但Sora却无法通过主观时间营造具体场景或镜头来展示她的内心世界和情感。

（2）内在时间意识的缺席导致Sora无法解释事件之间的关系，难以完成复杂叙事并建构有意义的情节。内在时间意识是对主观时间的内在时间性的觉察或意识，是主观时间显现的条件，其建构意识生活中所发生的各种行为的时间性，并使得这些内在对象的显现按照时间来排序。换言之，主观时间事件需要内在时间意识来组织和安排，后者被赋予一种形而上的优先性，极具思辨色彩。只有时间性的三个层次同时在场并形成一个闭环，才能形成主体的意向性并完成对复杂事件的完整叙述。叙事要求具有一种元认知能力，即与自身感觉体验拉开一种反思的距离的能力。在拉开反思距离后，Sora要想塑造有意义的情节，完成自身叙事，不单是机械地在保存有大量视频数据的模型库寻找和提取某些生活事件并简单地拼接在一起，而是需要反思性、选择性地提炼事件的意义，并决定如何将它们按照自身的意图有序地组织在一起。事件的意义依赖于Sora用以展示这些事件之间关系的叙事结构，从好的叙事结构中还可以获得超越事件本身的意义。世界本身是以有序的时间方式被建构的，但我们体验这种秩序的方式却取决于Sora的体验建构方式，而这需要Sora运用内在时间意识才能完成。

Sora内在时间意识的缺失，导致其在将事件组织成一个有意义的顺序（情节）方面束手无策，这就是它无法解释事件的前因后果和来龙去脉的原因。在理想状态下，Sora可以像影视片制作人一样，先呈现某事件的当前状态，然后通过一个闪回去描述它过去的状态，从而解释事件发展的原因和经过，让受众收获若有所思或恍然大悟的情绪体验。影视剧情节的张弛有致、波澜起伏、悬念迭起，依靠的就是非线性的叙事结构，这是Sora目前无法做到的。影视工作者大可不必自危，创意性的剪辑工作不是目前阶段的智能技术所能取代的。“从原创意义上说，人工智能具有从属的性质，是基于人的创造而形成和发展的。‘器属于工具或手段的层面，而人工智能并未超出这一性质。”[10]如果将上面演示视频的文本输入变为“一位时尚的女性因为要和情人约会自信而欢快地走在大街上，昨天与同事吵架的不愉快也随之烟消云散”，情况就大不一样了。对于单独呈现“时尚女性走在大街上”“和情人约会”“与同事吵架”这三个事件来说，Sora可能没有太大的困难，但要根据该女性目前的情绪表现来组织和安排三件事的时间顺序的话，Sora就会捉襟见肘、穷于应付了，难以生成符合逻辑、能解释事件原委的视频。再加上生成视频时长的限制，圆满地完成这项工作还必须借助人工剪辑。因此，遵循智能叙事的Sora既无法形成对复杂时间性事件的完整叙述和情节建构，又无法达成对世界的实际把握和深度认知。

Sora时间性结构“阵容”的残缺导致其时间排序能力有限，只能描述客观时间性事件，完成一个内在于叙事本身的时间框架，即一个按照时间发生的事件的系列次序。这注定Sora只能停留在线性叙事的层面上，如描述具体的场景、人物、物体及其运动，生成简单和具有连续性动作的画面。在前述长达1分钟的演示视频里，尽管场景和细节逼真细腻，但也仅仅展示了时尚女性和行人漫步街头的画面，没有生成任何有意义的事件。但在真正的叙事中，尤其是虚构性叙事（影视、小说）中，为了营造各种戏剧性效果，人们往往在时间排序上采用多种手段，如文学中的倒叙、插叙、分叙，影视中的蒙太奇等主观内在意识手法。在这种外在叙事的时间框架中，Sora无法将一系列具有确定的客观次序的事件无序地呈现出来，尽管这种无序呈现经常以多种方式和原因被人们使用。

三、内在时间性结构残缺：Sora难以呈现因果应答和动态生成的事件

知觉必须伴随最近的记忆行为和预期行为，关于过去和未来的原始感觉必须从一开始就被给予。我们直接的时间经验包含一个内在的时间性结构，它不只是拥有被给予的当下的画面，还拥有直接被给予的关于过去和未来的感觉，既延伸到过去，也指向未来。现象学用一个专门的术语“活的当下”意指我们在任何时刻拥有的对于时间性的充实体验，它由原印象、滞留和前摄三个要素组成。因此，“活的当下”包含着对在先的、后继的、当下的参照和容纳，孤立地谈论滞留、原印象、前摄中的任意一个要素，都会陷入一种抽象。例如，任何原印象都包含滞留和前摄的结果，三者相辅相成，共同构成“活的当下”。但Sora模型设计的内在时间性结构不完整，即滞留和前摄两个部分是缺席的，以至于它在表达内在时间性方面心余力绌。

首先，仅具有原印象的Sora由于内在时间性结构残缺，无法呈现因果应答。滞留指向过去的时间背景，提供了一种对持存对象刚刚消失阶段的意识；前摄则指向将来的时间背景，它以一种不确定的方式预期了某个或某些将被体验的东西；至于原印象，胡塞尔认为，它具有“现在”一词所指的内容，[11]“现在”是“通过持留‘先前、预期‘后来看到运动本身”。[12]Sora将运动视为只局限于孤立的原印象的物理事件，因果关系问题便产生了。在Sora生成的视频中，身体运动和行动没有与生俱来的或内在的时间性。亨利·希德在对身体图式的定义中指出，身体图式以这样一种方式动态地组织感觉运动反馈，从而使得对位置的最终感觉“与之前发生的事情建立起了一种关联”。[13]梅洛-庞蒂也认为，运动是一种将过去的时刻和现在的时刻进行整合的活动，“在运动的每个连续瞬间，都不能忽略前续的瞬间。就好像前续的瞬间融入了现在的瞬间”。[14]动作的发出和实现的结果在现象学上是融合在一起的。然而，在依靠视频数据驱动的Sora的时间结构中，只保留了原印象，失去了过去和将来的参与。这种当前的、残缺的原印象既无对过去动作与事件的保留，也失去了刺激如何发挥作用的生成预期，导致视频先前的画面与后面将要生成的画面失去了关联。演示视频中的事件与事件、动作与结果之间失去了逻辑联系，这也是Sora无法呈现因果应答的原因，即只有前因没有后果。

因此，在Sora生成的演示视频中，不合逻辑的现象比比皆是：一位寿星吹生日蛋糕上点燃的蜡烛，烛焰纹丝不动；车辆高速驶过积水很深的街道，却没有任何水花溅起；被大咬一口的苹果竟然完好无损……在这里，主体所预期的东西没有被他当前正在执行的动作所实现（动作没有产生结果或反应），观众自然无法在画面看到行动产生的结果或后果。一方面是滞留的缺席：先前的动作在消逝中没有滞留而是被Sora的“意识”拥有，“每一个现时最直接的滞留不仅是对正好过去着的——过去之物的一同当下具有，而且也是对蕴含在其中的刚才——过去之物的滞留”，[15]从而导致Sora无法将过去的经验融入当下，吹、行驶、咬等动作的指向性中断，与蜡烛、积水和苹果失去了关联，烛焰、积水和苹果也就没有任何变化；还有的演示视频中出现了奔跑的狼群数量随着时间推移无缘无故地减少了的前后不一致的现象。另一方面是前摄的缺席：如果Sora拥有前摄功能，它不仅会帮助我们有意识地预期后续部分，还会预期我们对即将发生的事件的体验。在丧失了前摄功能后，Sora不能作出预期判断和发出指令，烛焰、积水和苹果也自然无法产生程序上的呼应，故自岿然不动或毫发无损。演示视频中还出现另一种不连贯的现象，即当那位时尚女性回首或侧首看向别的地方时，镜头并没有跟着其观看方向进行转动，画面上也就没有出现目光所及的相应区域（见下页图3、图4）。这种不连续性也是Sora没有解决技术上前摄的缺席所造成的，因而，Sora不能让身体系统以时间的方式去组织其信息处理过程和行为，预期能力的丧失也使得它对即将发生的事情失去了实践的定位能力。按常理，就在那位时尚女性看向左边或右边时，技术成熟的生成式人工智能应该给出预判，指示镜头转向目光覆盖的方向。正如我们弯腰去捡地面上的东西时，身体会预料到自身重心和角度即将发生变化，因而会适时作出调整，避免失去平衡。这就是具身行动与智能人的技术具身行动的区别所在。滞留和前摄同时缺席导致Sora分不清方位，混淆空间位置。遗憾的是，代表目前生成式人工智能最高水平的Sora还未能攻克这一技术难题。

其次，原印象、滞留和前摄的组合不是简单的叠加，而是处在一种发生的关系中，其构成模式也是一个动态的过程，三者处于一个不断生成的结构中。换言之，原印象、滞留和前摄对彼此都有一种构造自身的影响。就如同人类理解他人不是通过采取一种观察者的立场，也不是试图根据其心理状态对其行为作出解释的方式，而是在与之工作、嬉戏或互动交流的共享情境中理解他人的。所以，在非人工智能生成的视频中，能看到人物丰富而复杂的情感表现、多变的言行举止等。影视剧中人物喜怒哀乐的情感变化，丰富的肢体语言和潜台词的运用，都是随着情节进展、情境变化，原印象、前摄和滞留互动生成的结果。演员的价值就体现在这个生成的过程中，其必须根据剧情的推进不断表演出相应的面部表情、做出合适的动作和说出应景的台词。

然而，从人生成内容到人工智能生成内容，文生视频重构了内容生产的底层逻辑。如前所述，Sora是通过视频、图片等多模态数据来理解世界的。它根据文本指令，通过算法把由视频转换而来的编码块进行组合，这种僵硬机械地生成视频的组合方式，不是生成性地与世界打交道。Sora创建的原印象是自给自足的，而不是在与滞留和前摄的动态关联中发生的，没有三者共同构成与被体验世界进行一种更广泛的生成互动的可能性，它呈现的只是一个接一个的原印象，“这种单个感知所给予的范例性的个别之物是一种实象的现在的当下之物”，[16]没有实际上的可供性。它的输出可能是公式化的，可能会单调乏味、缺乏想象力。感知从来不是单纯的瞬间拥有，而是过渡中或时间视域中的当下具有。没有视频数据动态生成的技术支撑，Sora自然无法精确描述随着时间推移发生的事件，只有低级的重复，而没有新的事件产生以及随着事件进展而发生的表情和肢体动作变化。在前述1分钟的演示视频中，街道上的行人自始至终以同样的速度、节奏和步态行走；因为没有对即将发生的事件的预期体验，时尚女性的表情单一，没有任何情绪上的变化，智能人的真实面目原形毕露。在时间的流逝中，除了人物在漫无目的地行走外，没有发生任何其他有意义的事件（情节）。换在由原印象、滞留和前摄动态生成的环境中，情况则完全不同，里面的人物会随着时间推移、周围环境的变化，或者是新事件的发生，发生面部表情、步态、肢体动作乃至情绪等方面的变化，如表情可能经历微笑—严肃—惊讶—愤怒，步速由急趋缓，由缓到停，或是相反。在人工拍摄制作的影视剧中，具身演员在情感波动比较剧烈或情感张力比较大的戏份中表现出来的情感，是Sora模型塑造的数字人/智能人无法比拟和完成的。生成式人工智能模型Sora“并不能共享所有人类的艺术灵感或创作意图，也无法复制人类的生活体验”。[17]且观众对具身演员也有一定的情感投射，这种潜在的情感互动是数字人所不具备的。相反，观众会和Sora生成的表情刻板而缺少变化的虚拟人物保持一定的心理和审美距离，从而大大影响他们的情感投入和审美经验。文生视频模型Sora很难呈现复杂和动态的情感表达，遑论引起观众共情了。尽管Sora能对提供的文字图片进行理解，并根据相应的物理原理在时空上向过去或未来推演，但这种推演还是基于对视频数据模型的刻板应用。“长期来看，需要用心制作的作品，依旧很难用芯完成。”[18]

四、思考与讨论

以上主要从现象学角度分析了文生视频模型Sora的现实表现，重点是从时间性角度对Sora存在的缺陷与不足进行了哲学思考。由于外在时间性结构和内在时间性结构的残缺，Sora无法解释和呈现因果关系的事件，不能用场景描述人类的心理时间，也难以精确地描述随时间推移发生的事件。目前看来，Sora生成的视频在长度、人物情感表达、事件解释和呈现以及情节构建方面与人工制作的视频差距巨大。尽管生成式人工智能标榜将创造安全的通用人工智能使全人类受益，[19]但受限于数据库的代表性偏差问题，解决文生视频技术上的一系列问题尚需假以时日。由于现象学时间性涉及意识和意向性，不能仅仅依靠扩大视频数据库模型的数量（视觉块嵌入代码），还需要从技术上解决Sora数据模型的意向性实践和意向性设计问题，进而完善其时间性结构。相信随着人工智能技术的发展，该问题有望逐步解决。所幸的是，OpenAI公司也非常注意评估Sora应用中的危害和风险，如社会责任和伦理问题，并开始通过向特定的用户群体提供服务，以获得反馈对模型进行持续改进，这也是普通大众的殷殷期盼。

参考文献：

[1] 肖伟. 文生视频技术日趋成熟短剧创作或将受益[N]. 证券日报，2023-11-20（A3）.

[2] 黄锫坚，曾国屏，孙喜杰，等. 赛博空间的哲学探索[M]. 北京：清华大学出版社，2002：61.

[3] 孙那，鲍一鸣. 生成式人工智能的科技安全风险与防范[J]. 陕西师范大学学报（哲学社会科学版），2024（1）：108-121.

[4] 孙凝翔，韩松. “可供性”：译名之辩与范式 / 概念之变 [J]. 国际新闻界，2020（9）：122-141.

[5] 何文英. 文生视频软件Pika火出圈，或推动AIGC加速融入多种业态[N]. 证券日报，2023-12-04（B3）.

[6] 罗茂林. Sora出世人工智能将引领新一轮行业变革[N]. 上海证券报，2024-02-19（6）.

[7] 彭兰. 从ChatGPT透视智能传播与人机关系的全景及前景[J]. 新闻大学，2023（4）： 1-16，119.

[8] 罗伯特·索科拉夫斯基. 现象学导论[M]. 张建华，高秉江，译. 上海：上海文化出版社，2021：145.

[9] 肖恩·加拉格尔. 现象学导论[M]. 张浩军，译. 北京：中国人民大学出版社，2021：155.

[10] 杨国荣. “生成式人工智能”（AIGC）及其哲学意蕴[J]. 上海师范大学学报（哲学社会科学版），2024（1）：110-115.

[11] Husserl E. On the Phenomenology of the Consciousness of Internal Time（1893—1917）[M]. Dordrecht： Kluwer Academic Publishers， 1991： 67.

[12] 马丁·海德格尔. 现象学之基本问题[M]. 丁耘，译. 北京：商务印书馆，2022：319.

[13] Head H. Studies in Nuerology[M]. London：Oxford University Press， 1920： 606.

[14] Merleau-Ponty M. Phenomenology of Percetion[M]. London： Routledge and Kegan Paul， 1962： 140.

[15] 克劳斯·黑尔德. 活的当下[M]. 鲍克伟，肖德生，译. 北京：商务印书馆，2020：35.

[16] 埃德蒙德·胡塞尔. 现象学的观念[M]. 倪梁康，译. 北京：商务印书馆，2017：80.

[17] 高永杰，吕欣. 生成式AI技术进化与图像艺术生产范式革新[J]. 现代传播，2023（9）：159-168.

[18] 樊巍，刘扬，刘彩玉. “眼见为实”或成过去，AI“文生视频”如何改变未来[N]. 环球时报，2024-02-18（4）.

[19] 何祎金. 生成式人工智能技术治理的三重困境与应对[J]. 北京工业大学学报（社会科学版），2024（2）：124-134.

The Temporal Structure of Text-to-Video Model Sora： A Phenomenological Reflection on Generative Artificial Intelligence

DENG Zhi-wen（School of Humanities and Media， Hubei University of Science and Technology， Xianning 437100， China）

Abstract： Recently， OpenAI launched Sora， a model that represents the current pinnacle of text-to-video technology， marking a milestone in the evolution of generative artificial intelligence. However， Sora still has some technical flaws and shortcomings. From a phenomenological perspective， Sora's external temporal structure is incomplete， featuring only objective time， lacking subjective time and inner time consciousness， which prevents it from depicting human psychological time， explaining causal relationships， and constructing complex， meaningful events and plots. Moreover， the absence of retention and fore-shoot hinders its ability to link actions with outcomes. Without the intervention of the internal temporal dynamic generation structure， Sora is also difficult to show the events that occur over time. Therefore， from a technical standpoint， addressing the model's intentional design issues and enhancing both the internal and external temporal structures become the key to improving Sora's performance in reality.

Key words： text-to-video; Sora; temporal structure; generative artificial intelligence; phenomenology; retention and fore-shoot