APP下载

浅谈基于语义的图像生成技术在影视气氛图生成中的应用

2022-09-28李子譞顾晓娟

现代电影技术 2022年9期
关键词:影视文本图像

李子譞 顾晓娟

北京电影学院中国电影高新技术研究院,北京 100088

1 引言

影视制作前期准备和创意阶段需要大量的脑力工作和灵感碰撞,其中的场景气氛图绘制部分要求艺术家在深度了解主创人员的创作意图后,制作画面的视觉氛围预览,对后期拍摄风格有着指导作用。在场景气氛图绘制之前,美术从业者需要在浩如烟海的网络数据中搜索相关素材,这个不可忽略的步骤能够帮助艺术家产出真实可信且不失艺术感的环境,然而网络素材的精准度无法控制,并且这个过程充满了高重复性工作,占用了大量的时间,导致工作效率下降。此时文本生成图像技术越来越趋向成熟,使得生成复杂高精度图像任务变成轻而易举的工作,该技术借助庞大的数据集能够很好地为影视行业的美术从业者前期寻找画面参考时在构图、光影、画面内容上提供取之不尽用之不竭的灵感,艺术家通过有效利用科学工具,能更好地专注于创作本身和故事的叙述。

基于语义的图像生成技术采用自然语言与图像集特征的映射方式,根据自然语言描述生成相对应图像,利用语言属性通用、灵活、智能地实现视觉图像的目的性表达,如图1所示,输入描述词为“秋天里古老的法国运河”。以生成对抗网络、扩散模型等具有代表性的基于卷积神经网络的深度学习技术是当前文本到图像生成的主流方法,该技术有着目标视觉属性描述的文本高度区分度和高泛化特点,使得生成图像无论在精准度、分辨率、多样化还是可观性上都有非常优异的视觉表现。

图1 描述词为 “秋天里古老的法国运河”生成的图像

2 传统影视流程中的场景气氛图绘制概述

场景气氛图是由美术设计师钻研剧本后,根据主创人员的创作需求、内容题材、拍摄类型、场景风格等来绘制影视场景中主要镜头拍摄画面的设计图。气氛图虽然不能完全忠于现实,但是需要考虑实际未来场景的搭建呈现的可能性,并且在进行艺术创作和加工的前提下,更多关注色彩基调、光影构成、空间形态造型、镜头画面比例结构、前后景关系等因素在当前主要场景中所营造烘托的氛围感,渲染描绘出场景的时代氛围、地域特色、生活气息、情绪基调,从而展现符合影片调性的主题风格。简而言之,作为美术设计师想象力和情感联结的产物,场景气氛图是影视拍摄前期阶段导演创作意图预落地的视觉化表达,能够事先为影视制作各个部门展示出未来影片最直观的环境画面形象,对后期拍摄具有指导意义。

绘制影视场景氛围图的方式多样,可以用任意绘制工具表现,在计算机技术尚未普及的年代,水粉、水彩、钢笔,甚至水墨都是常见的绘制方法,而在目前的影视工业流程上的场景气氛图绘制,绝大多数影视行业美术从业者采用手绘板绘制、Photoshop素材拼贴、三维软件建模渲染等单一方式或混合方式来进行艺术创作。

3 场景气氛图生成的研究现状

在计算机视觉和自然语言处理领域,随着卷积神经网络的深度学习技术在图像生成领域的不断发展,促使许多深度网络模型不断被提出用于基于语义的图像生成。虽然作为后起之秀的文本到图像技术 (Text-to-Image)研究发展时间并不算长,但是其成果显著,不断掀起在该领域下新的研究热潮。早在2014年,生成对抗网络 (Generative Adversarial Networks,GAN)由Goodfellow等人首次提出,作为在卷积神经网络基础上拓展的一种深度学习模型,通过生成模型和判别模型两个基础模型实现正向传播和反向判别的方式互相对抗博弈,输出最逼近于真实的运算结果,该模型有着泛化性强、数据区分度高等特点,作为主流模型广泛运用于文本到图像技术,而后在GAN的基础上,衍生出针对性更强的GAN模型,其中大致可以分为四类:提高生成的图像在语义相关性的语义增强GAN,如DC-GAN、MC-GAN;确保生成高质量图像的分辨率增强GAN,如Stack GAN、AttnGAN;保证输出图像视觉外观和类型多样化的多样性增强GAN,如AC-GAN、Text-SeGAN;增加时间维度生成连续图像动作的运动增强GAN,如Story GAN。在2021年之前,文本到图像生成领域基本上基于生成对抗网络GAN来实现,而2021年以后,更多独立于GAN逻辑体系的深度学习模型逐渐被提出,并取得不错的反响,他们的效果不亚于GAN,甚至有着更出色的表现。Open AI提出基于Transformer的语言模型DALL-E,该模型能够达到保证与文本内容一致的前提下,从头开始创造全新图像且能够重新生成现有图像的任何矩形区域。Jing Yu Koh等人提出TReCS框架,该框架修改了文本与图像内容的映射方式以及增加了数据标注内容控制图像元素位置的功能,极大提高了图像生成的效率和质量。Jonathan Ho等人提出Diffusion模型,该模型逻辑基于物理学中的布朗运动,能够捕获更多的图像多样性,分布覆盖固定训练目标,有着更广泛的扩展性,并且解决了GAN模型中缩放和训练困难的问题。由清华大学和阿里巴巴达摩院共同研究开发的Cog View模型,解决大规模的文本到图像生成预训练中的不稳定问题,实现复杂场景中文本生成图像的任务。

4 场景气氛图生成工具——Disco Diffusion

Disco Diffusion的开发者是澳大利亚数字艺术家兼程序员Somnai,在2021年10月推出的AI图像生成程序V1版本,目前于2022年3月迭代至V5版本。它基于最新的扩散模型 (Diffusion Model)和基于自然语言监督信号的迁移视觉模型(Contrastive Language-Image Pre-Training,CLIP)语义生成机器学习框架,可以根据使用者描述场景的关键词渲染出高质量、引人入胜的AI气氛图图像。由于Disco Diffusion可以直接依托于谷歌的Colaboratory,方便使用者可以直接在浏览器中编写和运行Disco Diffusion的代码,避免了本地部署对电脑配置的硬性要求。只要使用者输入画面的关键词,Disco Diffusion就会按照使用者的想法精准还原场景描述生成气氛图,美术从业者不需要明白其中的计算机编译语言,也能通过这款AI程序寻找灵感,提高生产力。

通过简单的操作步骤,就可以生成符合用户描述的大量各异的氛围图内容,如图2所示,输入描述语为 “UE4中的宁静大草原”。几乎零成本产出各种天马行空的气氛图,它的不确定性让创作者看到了更多的可能性,尤其是帮助处于瓶颈期的创作者获得更多的灵感和创意。

图2 描述词为 “UE4中的宁静大草原”生成的图像

4.1 Disco Diffusion的模型框架

下面将介绍通过基于扩散模型 (Diffusion Model)和基于自然语言监督信号的迁移视觉模型(CLIP)的Disco Diffusion来详细描述机器学习下的文本到气氛图生成方法的应用。

4.1.1 扩散模型

顾名思义,扩散模型 (Diffusion Model)的基本逻辑源于非平衡统计物理学中的布朗运动,它描述的是噪声从无序到有序之间转换的过程,通过使用变分推理训练的参数化马尔可夫链将参数逐渐映射到多维正态分布的高斯噪声上,以在有限时间内生成与数据匹配的样本,迭代正向扩散过程达到破坏数据分布结构的目的,然后从中学习这条链的转换来逆转一个扩散过程,逐渐向与采样相反方向的数据添加噪声,直到信号被破坏,产生一个高度灵活和易于处理的数据生成模型,从而允许我们快速学习、采样和评估深度生成模型的概率,计算学习模型下的条件概率和后验概率以及恢复数据中的结构。虽然扩散模型可能看起来是一类受限的潜变量模型,但它们在实现过程中允许大量的自由度。简而言之,就是从认识扩散过程到运用扩散过程的逆过程,从噪声分布中获取目标点的分布,如图3所示。扩散模型定义简单,训练效率高,能够生成高质量的样本,有时比其他类型的生成模型上发表的结果更好,该模型在音频建模、语音生成、时间序列预测、点云重建、图像生成等模型生成领域都有着很大的优势和应用。

图3 Diffusion Model逻辑流程[7]

4.1.2 迁移视觉模型

基于自然语言监督信号的迁移视觉模型(CLIP)发布于2021年,该模型主要用于匹配文本和图像,降低大量格式化数据标注构建的成本,极大地提高模型的泛化能力和迁移能力。CLIP模型的核心思想是从自然语言中包含的监督学习感知,通过学习图像中的各种视觉概念,计算图像文本对的余弦相似度将目标图像关联的视觉概念与文本联系起来。该模型结构如图4所示,例如,在一个充满了鸟和昆虫图像的数据集里,一般标准的图像模型是通过训练图像特征提取器和线性分类器来预测图像标签,会将该数据集中的鸟和昆虫图像分类;而CLIP通过同时训练图像编码器和文本编码器,来预测数据集里文本和图像的匹配,达成训练实例的文本图像匹配对,会预测图像更匹配文字描述是“一张鸟的照片”还是 “一张昆虫的照片”。

图4 CLIP模型结构[11]

4.2 Disco Diffusion实验与结果

本文的实验过程中,Disco Diffusion将作为去除图像噪声的数学模型Diffusion和用于标记图像的CLIP结合使用,CLIP使用其图像识别技术迭代地引导Diffusion去噪过程朝向与文本提示紧密匹配的图像。本章将测试不同参数对最终输出结果的影响,并在保证能够输出有效结果的前提下提出规范提示语建议。

使用Disco Diffusion的方法是选择参数,设置提示语,然后运行程序创建图像。根据使用的设置和可用的处理器,Disco Diffusion渲染单个图像可能需要5分钟到1个小时或更长时间。在整个操作过程中,首先需要打开Somnai在Colaboratory中写好的程序,并保存在自己的Google Drive中。然后对Diffusion和CLIP模型框架部分进行相应设置来控制模型生成图像速度和质量,在图像部分设置batch_name(图像名字)、steps(图像迭代次数)、width_height(图像尺寸)、tv_scale(输出平滑度)、range_scale(图像量化深度)、cutn_batches(CLIP模型累计梯度)等设置来控制最终图像输出质量。之后关键的一步是需要在Prompts(关键词)中写下对画面的文字描述内容,可以是几个单词比如视觉能够辨认的物体、意象、艺术家风格、画面构图、辅助的情绪形容词,也可以是一段长句子或者几段句子来表达从而获取想要的输出效果。最后在Diffuse部分执行Do The Run即可渲染生成气氛图,如图5所示,输入描述词为 “梵高梦中星空下的农村”。

图5 描述词为 “梵高梦中星空下的农村”生成的图像

4.2.1 核心参数

Disco Diffusion通过参数化设置来控制CLIP模型和扩散曲线的各个方面,参数是控制Disco Diffusion图像特征和质量的核心,各种不同的参数相互影响,使Disco Diffusion成为了一个丰富而复杂的工具。除了易于理解的参数比如图像名字、画面宽高等,下面将对影响气氛图输出质量的参数进行介绍。

(1)steps

Diffusion是一个不断迭代的过程,当每一次进行迭代时,CLIP都会根据提示评估现有的图像,并为扩散过程提供 “方向”。扩散将对现有的图像进行去噪声处理,而Disco Diffusion将显示其对最终图像外观的当前估计,在程序迭代初期,图像只是一团模糊无序的混乱噪声,但随着Disco Diffusion在迭代步长中慢慢推进,图像的细节将会以粗略到精细的过程出现,随着扩散去噪过程被CLIP引导到所需的图像,在迭代的范围内逐渐变得清晰。

(2)clip_guidance_scale

该参数告诉Disco Diffusion CLIP在每个时间步向提示移动的强度。通常越高越好,但如果该参数过大,则会超出目标并扭曲图像。如图6所示,在其他参数恒定时,数值越大,生成图像效果越好,但是代价是消耗更多的运行时间。同时,经过反复测试,发现该参数会随着图像尺寸缩放,换句话说如果将总尺寸增加50%,为获得相同的效果,该参数也需要增加50%。

图6 当其他参数恒定时,clip_guidance_scale和steps变化对输出的影响①

(3)tv_scale

总方差去噪,即控制最终输出的 “平滑度”。如果使用,tv_scale将尝试平滑最终图像以减少整体噪声。当增大该参数时,输出图像能够在保留边缘的前提下,同时消除平坦区域的噪声。

(4)sat_scale

饱和度,该参数将有助于减轻过饱和。如果图像太饱和,可以增加sat_scale以降低饱和度,如图7所示。

图7 当其他参数恒定时,tv_scale和sat_scale变化对输出的影响①

4.2.2 描述语使用建议

图像的内容通常由关键词、句子、短语或一系列描述性词语中使用的文本来控制,这些词语告诉CLIP用户想看到什么。为AI艺术创建一个好的文本提示是一项细致入微、具有挑战性的任务,需要大量的反复试验和实践。

本文在经过大量试验后,给出如下建议:

(1)任何没有提及的内容可能会带来意想不到的结果。用户可以明确描述或者含糊描述,但任何遗漏的信息都会随机出现,所以尽量不要省略任何重要的背景或细节。含糊其辞虽然可能得不到最初想要的东西,但会让画面呈现多样化,是一个为影视流程中的美术从业者提供灵感的好方法。

(2)使用视觉上易于辨认的事物,比如城市、荒原、房子、寺庙、海洋、高山、汽车等网络上存在很多照片的具象事物。带有强烈情绪色彩或迷幻主观的抽象内容往往会让生成的氛围图变得抽象,比如令人敬畏、时间的诞生、自我观念、无限、知识的渴望等。对于气氛图的生成,应少用概念推断的描述,而更多是具体外观的描述。

(3)使用艺术家的关键词可以获取独特的画风。在提示语后加上艺术家的完整名字,能够得到该艺术家风格的氛围图,如图8所示。

图8 不同艺术家描述词生成的结果②

(4)使用特定构图。当想要得到特定的景别构图时,可以使用如广角、特写、微距、长焦、全景、近景、鸟瞰等词汇。

(5)使用肯定句,避免使用否定句。程序对否定词汇比如 “not”“but”“except”“without”等词表现不佳,甚至在运行过程中会忽略否定词汇。

(6)使用单数名词或具体数字,由于含糊的附属词会增加不确定性,所以尽量避免直接使用复数名词。

(7)关键词或字符串结尾可以包含一个 “:num”值来指示该提示词相对于其他提示词的权重,同时权重可以为负数,负权重可以帮助抑制与不需要的提示匹配特征,例如 ["rocky beach:2","sky:-1"]将图像推向岩石海滩,同时减弱天空细节。

5 总结和展望

本文研究介绍了基于机器学习的文本到图像生成技术,提出使用该技术来辅助影视行业内的美术从业者进行前期场景氛围图的艺术创作,AI作为一个 “画得好看”但没有主观表达的画师,它的出现并不是为了替代美术从业者工作,而是作为一个工具,依靠它优秀的学习能力和庞大的数据储备,能够为影视行业的美术从业者在绘制画面的构图、色彩、光影、内容方面提供源源不断的灵感和借鉴,美术从业者有效利用科学技术,在艺术创作工程中取其精华,去其糟粕,把更多的时间专注在创造和思考上,能够有效提高产出场景氛围图的质量和效率。虽然目前对T2I技术的研究已经有了重大的突破,越来越多独立于生成对抗网络的深度学习模型在该领域无论是精度还是效率上都不断刷新之前所取得的成绩,但是技术研究仍存在巨大的进步潜力,在分辨率、文本图像一致性、精确性、产出创新性等方面都有很大的发展空间。笔者认为文本到图像生成与影视制作结合上还存在着以下亟需攻克的难点:

(1)不确定性。基于语义生成图像的技术极度依赖准确的语义描述表达,错误的描述、不正确的语法结构或者不同关键词的先后顺序都会导致令人失望的结果,这样的不确定性,既可以是基于语义生成图像技术的优点,也同样是缺点,它能不费吹灰之力地大量产出天马行空的画面、规则之外的构图,为创作者提供灵感,但也同时不能特别听话地完成使用者的指令,生成的结果可能与使用者的想法有着巨大的偏差。

(2)具体内容表现不佳。当美术从业者想要得到非常具体的结果时,程序可能会不尽人意,比如描述关于人和人体的话语,由于程序并没有完全能够生成比较好的 “人类”,虽然有不少非常成功的案例,但是生成结果通常会有不适感;反之,如果想要生成写意或者注重光影的抽象场景,往往会得到让人意想不到的优秀作品。

(3)生成图像的版权归属风险。虽然大部分文本到图像程序是完全免费开源的工具,并且遵守MIT开源协议,但由于该程序并不是对已有的画作内容进行裁切拼贴重组,而是通过机器学习的观察提炼规律来绘制产出,所以当程序训练量不够,描述词涉及到风格鲜明的艺术家或者某部商业作品时,会存在部分认定抄袭的风险,这也是导致版权纠纷等法律风险需要时刻警惕的地方。

机器学习有着超越了传统手工设计的能力,甚至在某些数据集上的表现已经超越人类,代替人类进行重复性强劳动密集型的工作,影视制作前中后期都存在着大量可以依靠机器学习来优化赋能的地方,当前人工智能技术的出现加快了影视工业数字化建设的进程,譬如人工智能剧本创作、人工智能预调色、基于机器学习的数字合成技术、深度学习视频插帧技术、自动化影片修复技术、智慧影院系统等众多突破,这些成功的人工智能与影视领域合作的案例和经验,提高了中国影视制作的效率,提高了视效制作水平,改变了影视行业的生态生产格局。未来影视流程工业化的发展更离不开人工智能技术的不断更新迭代,笔者相信在接下来的发展中,机器学习将应用到影视工业数字化流程上的各个领域,促进深度学习在影视制作领域发挥更多的可能性,交互流程对行业创作者更加友好,减少人工重复性操作成本,优化影视制作流程,提高影视制作效率,服务于影视制作全流程的方方面面。

①图片来源:https://discord.com/channels/944025072648216 586/944025072648216589。

②图片来源:https://weirdwonderfulai.art/resources/discodiffusion-70-plus-artist-studies/?continueFlag=3f57cb4501800e372f 9e1a422a68354a。

猜你喜欢

影视文本图像
影视展
改进的LapSRN遥感图像超分辨重建
文学转化影视,你需要了解这几件事
有趣的图像诗
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
影视风起
影视
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
如何快速走进文本