APP下载

“文生图”里的机器逻辑:AIGC时代的摄影教育探索

2024-06-24杨莉莉

中国摄影家 2024年6期
关键词:噪声摄影人工智能

一、AIGC时代下摄影教育的最大“误区”

随着以ChatGPT(自然语言对话)、Midjourney(文本生成图像/文生图)、Sora(文本生成视频)为代表的通用大模型人工智能(AGI)的到来,很多人对于摄影发展的理解持“技术替代”论。摄影术从1839年诞生以来,它的进化方向一直是“简易化、移动化和计算化”:从早期的银版法、火棉胶,到手持相机、柯达胶卷,再到数码相机、数字后期处理,现在则是以手机为载体的移动计算摄影,都遵循这一路线。但是,摄影的核心教育并没有变,依然是学习“如何用光影塑造现实之事物”,令人惊愕的是,在人工智能时代,这一点也正在被怀疑,“光影塑造现实之事物”,也可以变成“人工智能下的摄影图像的机器生成”。很多大学居然将摄影教育视为一种“落后的教育”“该淘汰的教育”,以及“不必要的教育”,甚至有大规模取消摄影课的趋势。

当然,也有维护摄影的说法,这类观点强调摄影的客观性基础,这里的“客观性”不是文化狡辩意义上的客观性。苏珊·桑塔格经常反对摄影的客观性,她讲述的其实是“拍摄者主观意识中的偏见”[1]。摄影的拍摄对象的确是现实存物,即使这是由拍摄者用自己的意图去“非客观”地表现出来,但它的确是一个实在的东西。然而,在AIGC(生成式人工智能)时代,以Midjourney、Stable Diffusion为代表的工具是“生成的”,这是一种“子虚乌有的创造”。所以,摄影唯一能阻挡AIGC的是它的“新闻纪实性”。如果用不到纪实,都是可以被AIGC取代的。言下之意,如果不是单纯培养摄影记者或者纪实摄影师,摄影没有必要存在。

上述观点不仅低估了摄影之于反映人类真实生存状态和文明生存境地的重要性,而且还高度误解了AIGC的操作原理—以“提示词驱动”(Prompt Engineering)为界面所必需的“操作素养”。该观点似乎将这种“操作素养”当作是无源之水、无本之木。

以“文生图”中最热的人工智能Midjourney为例,用它来生成“类摄影图像”(Midjourney可以生成更广泛性的图像,比如漫画、油画等),需要用一个提示词(Prompt)格式—“/imagine”。没有“操作素养”的人可以随意填写一些简单的词语,比如“一个亚洲中年妇女”,Midjourney会理解输入的自然语言,生成与该描述匹配的图像。用户描述得越笼统,它就越会根据机器学习到的“亚洲中年女性”的“最大公约数”来生成图像。

Midjourney已经给出了“提示词”的指引,它的基本结构如下:

(1)主体描述

清晰地描述生成图像的主题或主体,如“一个亚洲妇女”,对其人体结构、面部细节也要做出准确、细致的描述。

(2)艺术风格

指定所需的艺术流派,比如“快照式黑白照片”。

(3)视角/构图

注明希望的视角、角度以及构图方式,如“正侧取景”“对称构图”等。

(4)光影细节

描述期望的光线方向、质感、阴影投射等,这就需要掌握相应的专业术语和描述方式。

(5)色彩关系

包括色调、饱和度、对比关系等方面,运用色彩关系能够生成理想中图像的色彩效果。

(6)主题修饰

为主题增加细节和修饰性描述,如“被雨水打湿的玫瑰花瓣”等。

(7)场景陈设、细节堆积

一张优秀的摄影作品往往富有细节,要对场景细节描述有好的堆叠和渲染能力。

(8)质感描述

对画面中物体的材质和质感做出描述,如“绢缎般光滑的花瓣”。

(9)情绪氛围渲染

为画面渲染一种情绪基调,如“北野武电影”式的青春残酷。

毫无疑问,撰写出优质的提示词,就是AIGC时代商业摄影教育新增的重要内容,但这与传统摄影教育并不冲突。笔者所著的《商业摄影实训教程》 [2]就是扎根于“传统”商业摄影教育的高校教材。该书自2010年初版以来,在不断的修订中,融入商业摄影业界的革新技术和观念,正在修订的第4版将增加AI图像生成的提示词教学,并展现AIGC教学实践成果。

撰写出准确、细致的提示词,是AIGC时代的关键能力,这些关键能力可以通过摄影课程的学习来获得。只不过,它不是一个“怎么拍”的教学,而是“想着怎么拍”的摄影意识和摄影想象力的养成。从这个意义上说,扎实全面的摄影课程,能够培养学生理解和把握摄影技术、视觉美学以及艺术风格的能力,最终能让他们具有撰写令人赏心悦目的提示词的能力,从而让Midjourney这样的工具不是根据“最大公约数”概率来生成图像,而是根据提示词的指引,精准地刻画出理想中的摄影画面。

二、准确理解AIGC的“生成原理”

撰写出优质的提示词可以视为商业摄影教育在AIGC时代重要的教学目标之一,但并非唯一目标。因为AIGC并不仅仅是“生成”,还蕴含着其他更重要的技术理解问题。这些问题,也应当通过摄影教育予以讲解,让学生们知道AIGC的来龙去脉以及AIGC的可为与不可为。

首先,AIGC“文生图”(Text-to-image model)的技术,并不是于Midjourney、DALL-E和Stable Diffusion在2022年“横空出世”之后才有的,早在2015年,加拿大多伦多大学的研究人员就提出了“文生图”的第一个模型:alignDRAW。alignDRAW模型是一种机器学习的“注意力机制”,通过关注图像的特点来学习图像(集中注意力于图像的特定区域),然后与“输入的文字”进行匹配,所以它生成的图像经常是“图像拼贴”,这尚且是一种非常幼稚的方法。

2016年,生成对抗网络(Generative Adversarial Network,简称GAN)在“文生图”上开始流行。GAN的核心思想是训练两个互相竞争的神经网络:生成器(Generator)和判别器(Discriminator)[3]。生成器的任务是生成与训练数据相似的新数据样本。判别器的任务是对生成器生成的数据进行分类,区分生成的数据与真实的训练数据。判别器接收生成器生成的样本以及真实的训练数据,并尝试将其分类为真实数据和虚假数据。判别器的目标是准确识别生成的数据,使其与真实数据区分开。生成器的目标是尽可能地“欺骗”判别器,使其无法区分生成的数据和真实的训练数据。经过足够多次训练,生成器就能够生成以假乱真的高质量图像。GAN的进步之处在于,它并非通过简单复制、拼接已有图像元素,而是学习底层数据分布,“创造”出新图像。[4]

2022年是“文生图”发生革命性变化的一年,出现了扩散模型(Diffusion Model)。“扩散模型”让Midjourney这类人工智能的“文生图”的能力呈指数级提高。想象这里有一幅完整的图像,我们往上面不断喷洒“颜料雾”,使整个图像变得越来越模糊,直到它完全变成一片噪声。这就是所谓的“前向过程”(forward process)。然后,我们训练一个模型,它的目标是从这片噪声中还原出原始的清晰图像,学会“反向”执行前面那个喷洒“图像噪声”的过程,一步步地将“噪声”去除,还原图像细节,这叫作“逆向过程”(reverse process)。训练时,我们给模型大量的“图像—噪声”对比作为示例,让它学习如何从噪声中识别出原始图像的结构和特征。经过足量的训练,模型就能掌握数据集中图像的内在分布和规律了。一旦模型学会了“去噪”这个技能后,我们就可以执行采样过程(sampling procedure)—我们给模型一个完全随机的噪声图像,它会自动地将噪声去除,最终“生成”出一幅全新的、有意义的图像。扩散模型的魔力在于,尽管我们给它的只是随机噪声,但它能利用学到的知识,重建出逼真并有意义的新图像。扩散模型的“添加噪声—逆向去噪”过程在Midjourney“文生图”任务中扮演着核心角色。[5]

三、“文生图”里的机器逻辑引发摄影教育变革

了解“文生图”的原理,并不意味着我们要将摄影课变成人工智能课,而是要清楚地知道AIGC能够给摄影课堂带来何种改变。

第一,提示词不能是否定性的表述,否则就会出现理解偏差。这是因为生成对抗网络(GAN)与扩散模型(Diffusion Model)是一个“对抗”和“去噪”的过程,它本身就是一个“否定性”的生成过程。因此,摄影课老师在讲解“如何撰写出优质提示词”的时候,一定要讲清楚背后的原理,否则“文生图”会生成出大量的机器图像幻觉。

第二,提示词中细节越多,生成的图像质量通常会越高,但过于细节化也可能引导模型产生一些意料之外的元素,故而需要平衡细节和开放性[6]。从上述“文生图”的原理中看到,AI图像生成的创造性受到其训练数据和算法的限制,大而化之的提示词让它们倾向于生成与训练数据中的常见模式相似的图像,而缺乏创新和想象力。

第三,“文生图”提示词训练本质上是一种新形式的视觉编码研究,它将传统摄影、人工智能和视觉传播学融合在一起。在传统摄影中,摄影师通过构图、光线、色彩等手段来编码视觉信息,这种视觉编码过程需要摄影师具备专业的视觉造诣和审美能力,而在“文生图”中,提示词就相当于一种新型的视觉编码方式。从这个角度来看,“文生图”提示词训练正在拓展视觉编码研究的全新维度,也将极大拓展人类进行视觉表达和艺术创作的能力。

第四,在摄影教学实践中,我们要在摄影课程中融入对AIGC工具和技术的学习,同时加强对人文素养、创新思维、审美能力的培养。我们要用实践教学和项目驱动来重构摄影作业体系,要求学生结合传统技艺和AIGC工具完成作业。例如,笔者最近主讲的本科生《广告摄影》课程,除了从产品、时尚、建筑等类别的商业摄影教学中让学生掌握最基本的摄影语言和视觉传播策略外,还引导学生使用 Midjourney进行摄影风格的主题性创作,为三甲医院的“艺术疗愈”项目生成摄影风格的作品—《AI的疗愈》[7]。艺术疗愈是通过艺术创作和艺术欣赏等活动,帮助人们提升心理健康、调节情绪、缓解压力及焦虑的一种疗愈方法。它包括视觉艺术疗法、音乐治疗、舞蹈治疗、戏剧治疗等形式,通过创作、表达、观赏和体验艺术,帮助人们解决心理健康问题、康复心灵创伤。在《AI的疗愈》中,学生们用想象力驱动Midjourney生成具有情感治愈力量的“摄影图像”,淬炼出宁静、祥和、希望的气息,以期观者能够“被疗愈”。

另外,我们也必须讲授AIGC所带来的版权和知识产权等法律层面的挑战。深度伪造是目前AIGC最令人担忧的全球性问题,在摄影教育中,一定要注意培养学生的职业道德操守,规范使用 AIGC,尊重原创。AIGC时代的摄影教育不仅仅是一种与时俱进的技术教育,也是一种坚守初心的道德教育。

(杨莉莉,深圳大学传播学院副教授)

注释:

*本文为国家社科基金项目“‘他塑视角下中国故事的图像叙事机制和策略研究”(20BXW064)阶段性成果。

[1][美]苏珊·桑塔格:《论摄影》,黄灿然译,上海译文出版社2021年版,第13-17页。

[2]杨莉莉:《商业摄影实训教程(第3版)》,中国人民大学出版社2021年版。

[3]关于“生成对抗网络”的原理描述,可见:https://proceedings.neurips.cc/paper_files/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf

[4]关于“生成对抗网络”如何用于“文生图”的机器学习机制,可见:https://proceedings.mlr.press/v48/reed16.pdf

[5]关于扩散模型(Diffusion Model)如何用于“文生图”的机器学习机制,可见Jay Alammar的教学演示:https://jalammar.github.io/illustratedstable-diffusion/

[6]哈佛大学网站有关于“文生图”的通俗课程讲解,可见:https://scholar.harvard.edu/files/binxuw/files/stable_diffusion_a_tutorial.pdf

[7]《AI的疗愈》为“深圳大学全国教材建设奖优秀教材培育项目”的阶段性成果。

实习编辑/邢树宜

猜你喜欢

噪声摄影人工智能
噪声可退化且依赖于状态和分布的平均场博弈
2019:人工智能
人工智能与就业
控制噪声有妙法
数读人工智能
下一幕,人工智能!
一种基于白噪声响应的随机载荷谱识别方法
WZW—bewell摄影月赛
最美的摄影
车内噪声传递率建模及计算