“生成电影”
2024-06-13马瑶
马瑶
在人人都有机会成为内容生产者与发布者的自媒体时代,制作视频作品的门槛不断降低,剪映、美册、小影、西瓜短视频助手等各种主要应用于移动端的短视频制作工具层出不穷。随着科技的不断发展,人工智能技术在各个领域都取得了较为显著的成果,其中由人工智能生成的视频作品逐渐成为人们关注的焦点。从最初的简单动画到现在配图、文字、配音等各要素齐全,让人观看到“真伪莫辨”的高质量短片,人工智能生成的视频作品已经越来越接近人类的创作水平。
人工智能创作下的人工智能生成视频是基于Transformer算法模型、数学模型和统计学模型的一种文本生成技术。它能够快速地生成新的电影剧本,满足不同的需求,但仍然需要人类编剧的参与来保证电影质量。人工智能生成视频以数学、统计学模型为叙事方式,改变了真正电影叙事的方式以及叙事本身。这种人工智能生成视频让语言文字变成数据,即创作“电影”的叙事媒介发生了改变。目前,人工智能创作下的智能生成视频工具正在被各种类型的自媒体创作者广泛接受和使用,而对于其原理、特性及性质的研究也应当尽快提上日程。
一、从生成短视频到生成电影的必经之路
在人工智能创作背景下,人工智能生成视频成为一种全新的创作形式。在2023年中国主办的世界人工智能大会(WAIC)主论坛科学前沿全体会议上,中国导演郭帆与中国工程院院士、人工智能研究者张亚勤就人工智能在电影中的应用前景展开对话。郭帆提到,电影经历从发明到胶片时代、再到数字时代的迭代,在当下,人工通用智能AGI将引领整个电影工业化迈向新的“3.0”时代。郭帆认为,随着人工智能技术的不断进步,电影工业正在逐步迈入3.0时代。他渴望深入理解人工智能在上述各领域的应用,以便为电影工业3.0时代的到来奠定基础。尽管目前人工智能在电影制作领域尚未达到成熟的电影级别,但郭帆对未来充满期待,希望技术的进步能够更好地辅助电影创作者规划整个拍摄流程。[1]在新的技术时代,包括构思、拍摄、宣传乃至影院放映形式等电影创作与上映的全过程,都需要被重新审视和认识。在电影《流浪地球2》(郭帆,2023)中,导演本人对人工智能工具的调用就可以看出这一点:特效部门通过人工智能技术演算还原出演员的增龄和减龄即面容与动作上年轻和变老的过程,尽管最终效果足以“以假乱真”,观众与制作团队成员对成片中特效也颇为满意,但这一效果是特效团队通过人工智能运算经过几百代的迭代才最终生成;此外,男主演李雪健声音的修复在通过人工智能方式实现的过程中也消耗了大量的人力与算力。可以说,生产力对生产关系的决定性作用在电影制作团队中得到了体现,但这需要庞大的技术团队与管理系统来支撑。在人工智能技术最终彻底拥抱电影行业之前,它必将经历一个在“低门槛”行业中的试用期。
人工智能生成视频作品的技术进步在短视频行业中较为明显。在过去,计算机生成的图像和视频往往质量较低,难以与人类创作者的作品相媲美。然而,随着深度学习、神经网络等技术的发展,人工智能已经能够生成出越来越高质量的视频作品,尽管人工智能缺乏真正的创造力。虽然它们可以模仿人类创作者的风格和技巧,但很难产生具有独特创意和内涵的作品;但对于短视频制作这样不需要过多创意与深度思路,且市场需求量较大、更新速度也较快的领域中,人工智能生成作品的整体效果依然令人满意。
在等待《流浪地球》系列电影新作的过程中,一名该系列电影的“数字生命卡兹克”便率先使用人工智能工具Midjourney与Gen2制作了《流浪地球3》的“伪预告”。据“数字生命卡兹克”在社交账号上公布的消息,这部画面完全由人工智能生成的电影预告以用Midjourney生成的693张图片与用Gen2生成的185个镜头为基本素材,最终由他本人在其中最终选择出60个镜头剪辑而成。[2]这部时长仅有1分12秒的“伪预告片”以经典科幻片中的地球远景开头,接着将画面推进到圆形的太空电梯中,一名穿着科幻废土风长袍的女性带着机器人大军出现在画面中;接下来电影镜头在即将出征的末世军队、机械感十足的飞船、神秘的外星基地爆炸产生的星云、白色机甲战士等人物和场景之间快速切换,展示了一幅宏大的未来图景,不仅具有科幻电影的宏大感,画面也十分精致,配合逐渐激昂的交响乐足以“以假乱真”。很快,这部基于文字描述自动生成的作品便在社交媒体上引发热议,甚至受到郭帆本人的关注。[3]目前,部分人工智能生成的视频作品在画面质量、色彩搭配、动作流畅度等方面都达到相当高的水平,甚至在某些方面超过了人类创作者。这无疑是人工智能技术的一大突破。人工智能环境下的视频创作者可以更加便捷地利用这一技术快速生成多样化的叙事方案,这不仅丰富了电影创作的手段,使得创作者能够更加灵活和高效地完成作品;还为观众提供了更多元、个性化的观影体验。无论对于创作者还是观众而言,人工智能生成视频技术都是一次革命性的突破,它预示着电影创作和观影体验的未来将更加多元、丰富和个性化。
与电影剧组使用的特效工具不同,人工智能生成视频方式基于词向量数据,通过计算机对语言文字进行解读,以实现电影叙事生成的任务,不需要专业技术团队作为支撑。“词向量是一种将词语表示为实数向量的技术,其中每个向量都包含了词语在语义和语法上的信息。通过将词语转化为向量形式,人工智能可以理解和处理自然语言文本,进而进行电影叙事生成。”[4]在生成视频的过程中,人工智能发挥着至关重要的作用。它首先会对词向量数据进行深入地解读,这些词向量数据是构成文本故事的基础元素。人工智能通过对其中的语义、语境以及上下文进行精准分析,进而理解每个词汇所承载的含义和其在整体文本结构中的位置。随后,人工智能会根据空间和位置的表示,结合已解读的词向量数据,运用复杂的算法计算下一个概率最大的词。这一过程不仅涉及对词汇本身的考量,还需对整体故事的连贯性、逻辑性以及情感走向进行精准把握。通过这种方式,计算机能够逐步生成完整的叙事文本。这些文本内容丰富、情节紧凑,为电影创作提供了丰富的故事情节和细致的描述。无论是描述细腻的情感纠葛,还是构建复杂的科幻世界,人工智能都能凭借其强大的计算能力和对语言的深刻理解,生成出令人叹为观止的叙事文本。更重要的是,人工智能生成视频实现了对电影叙事的高度自定义和自动化生成。这意味着电影创作者可以根据自己的需求,利用人工智能生成视频技术,快速生成多种不同的叙事方案。这些方案既可以是基于现有故事情节的延伸和拓展,也可以是全新的、充满创意的叙事构想。以《流浪地球》IP为例可以看到,人工智能在视频创作中的应用实例。在这个科幻题材的电影中,人工智能不仅能够生成描述地球流浪的宏大场景和复杂情节的叙事文本,还能根据不同观众的喜好和审美需求,生成个性化的观影体验。观众可以根据自己的喜好选择不同的故事线索、角色设定和情节发展,从而获得更加独特和深入的观影感受。
二、计算机与人工智能生成影像的历史考察
从20世纪开始,运动影像的数字化转化就逐渐成为影像文化的主要内容。这一时期的艺术家尝试将互联网设备及图像性从其功能中分离,数据库电影、ASCII转码电影都是其中的形式之一。在程序自动生成的过程中,最终的影像作品将具有无限种可能性,而每个作品都是独一无二的。在此,人们可以看到人工智能生成视频作品的潜力。美国先锋影像创作者武克·柯西克曾以信息互换标准代码(即计算机行业通用的ASCII代码)制作电影,他与美国演员卢克·弗雷里赫和沃尔特·凡·德·克鲁伊森合作,将感官电影《喉咙深处》(丹尼尔·萨克海姆,1972)转换成ASCII码电影《ASCII码深处》(武克·柯西克,1993),并将其发布在世界上第一台计算机游戏机“傍”上。“傍”是世界上第一款游戏计算机,它的商业成功推动了整个游戏行业的发展,但游戏仍没有被视为艺术意义上的创作实践。《ASCII码深处》中绿色的字符在黑色背景上滚动,像素化的黑客美学让人联想到游戏界面。“卢卡斯(即《星球大战》系列电影的导演)意在隐藏,而科西克则致力于揭示。他的ASCII电影将媒体的新状态‘表现为数字化数据。他将一幅图像经过数字化处理之后得到的ASCII代码,显示在银幕上。”[5]这些影像中纯粹的数字化数据替代了演员的身体面孔或风景构成影像的基础,有效地呈现出计算机运动影像作为计算机代码身份的特点。ASCII艺术团队为移动ASCII图像创建了一个播放器,该播放器使用Java Script和Java编程语言编写。《喉咙深处》和“傍”都于1972年6月发布,柯西克将“傍”的游戏硬件与《ASCII码深处》的软件结合起来,旨在强调1972年6月一个新的文明的诞生。他们的最终目标是开发一个RealPlayer G2插件,以支持这种新的文件格式并确保其广泛传播。
与ASCII艺术组合使用移动影像作为构图框架不同,“联合石油数据库”JODI(Joint Organisations Data Initiative)有着将源代码转换为图像的创作思路。JODI组合的网页作品asdfg.jodi.org(1998)使用了一连串URL文件名作为随机生成的“ASCII码故障”动画来源。人们首先看到的是闪烁的、不断变化的窗口,使人无法集中视线的代码碎片,以及由于文件名超出浏览器上地址栏的长度限制而形成的长长破折号。类似于脚本和指令的目录结构数据是作品asdfg.jodi.org的后台,里面有某种被压抑和约束的asdfg.jodi.org核心思想,在一个更内化和局限的领域里被纪念。计算机生成的视频作品是科技进步的产物,具有很大的发展潜力和传播优势。
武克·柯西克这一实践尽管并未涉及高级人工智能下对应着自然语言语法的计算机算法,却成功做到将计算机创作下的智能生成视频与数字代码相互转化,以及由此叙事所描绘出的世界都可以最终化解为每个数据,再通过数学模型与统计学模型来运行,是一种逻辑构造上对形象和事件的表达。1998年,柯西克、弗雷里赫和克鲁伊森组成了一个名为ASCII艺术组合的团队。他们使用字符来表示移动图像,将电影中的运动图像转换为基于网络的运动ASCI,先后将《金刚》(彼得·杰克逊,2005)、《星际迷航》(J·J·艾布拉姆斯,2009)和《放大》(米开朗基罗·安东尼奥尼,1966)等经典影片片段通过计算机的数字计算转译为由ASCII码构成的运动影像。①这些数字和字母混合了多种语言——自然的、人为的、正式的和文化的。文本、音乐、图像和移动影像在数字化的过程中融合在一起。这种“参与其中”并非传统意义上的观众可以直接干预或影响电影的叙事走向,而是指观众可以为叙事提供文字素材,这些文字素材可以被转换成词向量数据,进而成为人工智能生成电影叙事的重要组成部分。通过这种方式,观众不再是被动的接受者,而是成为叙事创作的积极参与者。以文字为素材进行的参与式创作不仅丰富了叙事内涵,也增加了叙事的多样性和灵活性;并打破了传统电影制作中创作者与观众之间的界限,使得电影创作更加开放和民主。这一角度为人们理解人工智能在电影叙事中的应用提供了新视角。他强调数据库形式的聚类体以及观众的参与式创作,不仅拓展了电影叙事的可能性,也为人们探索未来电影艺术的发展方向提供了宝贵启示。
这些实践对应着俄国数字唯物主义与合成美学领域的杰出研究者列夫·曼诺维奇曾尝试了一种他称之为“数据库电影制作”的实践,他也称之为“软电影”。曼诺维奇并未将叙事的线性与非线性、叙事要素的组合与聚合等相关概念简单对应起来。他深入探索了数据库形式作为一种独特聚类体的内涵,并提出这一聚类体与线性逻辑链有着显著差异。①数据库形式不仅仅是一种数据存储和管理的工具,更是一种能够展现数值化呈现、模块化、自动化、多变性、影像多义性和跨码性等非常规外延特征的媒介。人工智能的参与并非仅仅是向用户提供一个预先设定好的叙事世界,而是一个用户可以参与其中并与之互动的叙事或语言的想象空间。这类“电影”的主要特性在于其多屏幕展示、自动选择参数以及融合动画、电影、图形等不同性质媒体的多变组合,它也对应着即将来临的后工业社会:“多变性法则佐证了媒体技术的发展与社会变革之间的历史关联。如果说旧媒体的逻辑对应的是工业化大众社会的逻辑,新媒体的逻辑则适应了后工业社会——将个性看得比共性更重要。”[6]现在,这些浏览器已经发展成为一种更便捷的转换器,能够在互联网上实时将可视化的影像转换为相应的ASCII字符。ASCII的艺术组合为移动ASCII图像开发了以Java Script以及Java程序语言编写的播放器,其最终目的是开发一种RealPlayer G2插件,支持上述新文件格式并保障其广泛传播。如果将当下人工智能使用的计算模型视为词向量与数学、统计学模型的结合,那么“代码电影”其实已经找到一种用数学和统计方法来描述和分析现实世界的工具,并通过将编程和形式化分析与ASCII图像叙事相结合实现后者的运用创造了一种独特的艺术形式。这种设定的方式使得人工智能生成视频所使用的语言和语法成为对世界的命题,这些逻辑命题以及由此构建的世界之间存在着一种逻辑本质。
三、词向量算法下生成影像的未来发展
如前文所述,“代码电影”未能毕其功于一役的关键在于,20世纪的计算机工程师们未能找到一种用于描述世界的数字语言和语法规则。而在当下人工智能的快速发展中,计算机自然语言处理算法工程师找到了词向量这一将词语转化为向量的技术,以词向量捕捉到词语之间的语义关系。虽然目前人工智能生成的视频作品还无法完全替代人类创作者,但它们在新闻报道、广告制作等领域展现出了巨大的潜力。尤其是在新兴的短视频行业中,人工智能可以根据大量的数据和算法快速生成高质量的视频内容,而这些视频不仅是独一无二的,还可以根据用户需求和喜好生成个性化的视频作品来满足不同群体的需求,从而大大提高了作品生成工作效率与对受众的适应度。通过将词向量数据技术应用于自然语言处理领域,计算机和自然语言处理算法工程师可以设定一套语言和语法规则用于捕捉和描述世界。[7]例如,粉丝自制《流浪地球3》预告片中,一切外星景观和动物都是人工智能根据既有科幻片中人类对宇宙景观的想象“复制”,既符合科学的逻辑又充满惊奇的元素;YouTube的生成式人工智能功能“Dream Track”生成的音乐短片,也以著名艺人的音乐与影像风格自动创作出30秒长度的音乐片段。
在人工智能生成视频中,虽然数学模型和统计学模型为算法的构建提供了基础,但这些模型并不是叙事的核心。相反,它们只是作为一种工具,帮助人工智能理解和生成文本。归根到底,人工智能生成视频的核心仍然是人类的创意和想象力。Synthesys、剪映、美册、小影、西瓜短视频助手等视频算法工具可以帮助用户在短时间内提升视频内容质量。通过人工智能视频技术,这些APP可以让创作者和公司在不需要相机或摄制组的情况下生成高质量的视频。例如,如果人工智能被用于制作虚假新闻或者恶搞他人形象的视频,可能会对社会和个人造成不良影响。归根结底,尽管人工智能工具的代码与算法都由人类发明,但其生成故事及叙事的方式对于人类来说并不容易理解和认知;未知来源的内容也不利于该叙事方式以及叙事结构本身的发展和演变。
此外,人工智能生成的故事与真正的电影叙事并不存在于同一个语言共同体中。就如同巴特所述的“作品”与“文本”一样,“‘作品习惯上被看作一个具体存在的实体,结构上自成逻辑,基因特定,有机地附属于其他作品,拥有一个确定的意思,并适用于‘阅读”;而“文本”(the“text”)则泛性地包括该领域内的一系列关系,“在结构上逻辑杂乱、基因混杂、意义无法确定,与其他文本的关联是任意的,与其将文本作为‘阅读对象,不如用作对‘写作的挑衅或写作的场合更为恰当。”[8]真正的电影叙事是一种具有开放性和外部化特点的呈现方式。它不仅仅是一个简单的故事叙述,更是一个可以被他人解读、理解和共鸣的艺术形式。在电影中,叙事文字、叙事方式和叙事本身都是构成叙事的重要元素。观众可以通过对这些元素进行深入地分析和运用,不断推动叙事方式和叙事本身的发展、演变和创新。相比之下,人工智能在生成视频作品时,用户的参与程度受到了一定限制。用户通常只能通过特定的平台与程序进行对话,他们可以根据自己的需求向人工智能提供数据,并试图对生成的内容进行修正。然而,人工智能背后的参数和代码模型对于用户来说是封闭的,他们无法从根本上查看和修改这些核心部分。这在一定程度上限制了用户对于生成内容的控制和创新能力。因此,在发展人工智能生成视频作品的未来过程中,人们需要关注相关问题,并致力于实现整体算法的开源性。开源性意味着算法的透明度和可访问性,它将使得更多的研究者、开发者和用户能够了解并参与到算法的改进和创新中。通过开源可以确保科技成果被合理、合法、道德地使用,避免潜在的风险和滥用。开源性也将促进人工智能生成视频作品技术的进一步发展和完善。更多的参与者能够贡献自己的智慧和力量,共同推动这一领域的进步。期待在不久的将来,人们能够看到更加多样化、创新性和人性化的视频作品,它们将为人类带来更加丰富和深刻的视觉体验。
结语
人工智能自动生成视频是近年来随着技术进步而兴起的一种新型视频创作方式。这种方式依赖于人工智能算法和大量数据的学习,使得计算机能够模拟人类的创作过程,自动生成具有连贯性和吸引力的视频内容。在人工智能时代,包括电影在内的多种媒介能够持续存在的关键是要接受数字算法的“重新定位”,其中的技术原理在于数字统计学与词向量算法的结合,而由计算机演算得出而非人脑创意产物的作品是否可以被称为“艺术”,研究界还需全方位承担新浪潮降临的责任,让电影在面对一系列挑战时保持话语与思想上的防御能力。人们必须“先人一步”看到人工智能生成视频作品的局限性,这是因为人工智能的创作过程是基于大量数据的学习和训练而非真正的灵感迸发;同时,人工智能生成的视频作品可能存在一定的道德和伦理问题。
人工智能生成视频得以被广为接受,相关技术也不断更新迭代的重要背景在于现代社会本身是一个机械、单一的多轮对话式世界,不同职业、身份、场景中的对话具有重复性和标准性。因此,人工智能得以通过不断机械式地学习和搭建通用算法模型以及运算这些模型来运作,在相似的场景之下生成规范性的内容。这也明显地表明,这套语言的本质就是这个世界的本质,命题与事实、语言与现实之间存在着紧密的联系。
参考文献:
[1]张亚勤,郭帆.跨界共话人工智能GC赋能影视创新[EB/OL].(2023-07-09)[2023-11-15].https:/r.tsinghua.edu.cn/info/1007/2065.htm.
[2]赵斌.电影再媒介化:概念考古与理论展望[ J ].文艺研究,2022(08):109-120.
[3]泽泷.网友自制 人工智能版《流浪地球 3》预告片:郭帆导演点名表扬,登上CCTV6-IT之家[EB/OL].(2023-8-13)[2023-11-15].https://www.ithome.com/0/712/100.htm.
[4][7]陈颢鹏,李子菡.ChatGPT进阶:提示工程入门[M].北京:北京大学出版社,2023:16,40.
[5][6][俄]列夫·马诺维奇.新媒体的语言[M].车琳,译.贵阳:贵州人民出版社,2020:71,107.
[8][美]海登·怀特.叙事的虚构性[M].马丽莉,马云,孙晶姝,译.南京:南京大学出版社,2019:21.