APP下载

图像生成技术的教与学:稳态扩散模型的深入解析与教学应用

2024-10-01林荣辉

中学理科园地 2024年5期

摘 要:在自动图像字幕技术掀起的AI绘图浪潮中,以Stable Diffusion为代表的图像生成新机制既给世间审美派送了杏花疏影,又为智能伦理引进了烦乱纷扰。既然《义务教育信息科技课程标准》与《普通高中信息技术课程标准》皆有“了解人工智能的新进展、新应用”的相关要求,那么此项机器学习领域的最近应用理应成为中学信息技术(科技)教学领域的新入口,而基教阶段人工智能的施教者也应该迎接它所携带的新挑战。因此,对人工智能绘图机制的进化脉络,对Stable Diffusion数理模型的分析解构,对AI图像生成的教学适配便成了必要的研究内容。

关键词:稳态扩散模型;AI绘图;人工智能教学;信息科技;信息技术

计算机视觉是基教阶段人工智能教学的关键组成,其“观感”特性天然可与审美传达产生关联,因此计算机视觉的教学理应融合与之相配的美学属性。然而,高教阶段计算机教学与美学界域的交集寥寥,同时基教阶段实施教育美育融合的门槛较高,导致众多信息技术(科技)从教者虽理得清算法脉络,敲得出数理逻辑,辨得明计算思维,却描不下九州露霜,涂不出故乡月光,绘不尽红尘过往。

可喜的是,自2015年掀起的计算机视觉创新浪潮,特别是自动图像字幕技术加持下的机器学习,实现了对图像领域内元素对象的文本标记。而当研究人员拓展思维过程,将文本描述翻转输出为新图像时,现实世界难以自然融合的画境图景便呈现在世人面前了。稳态扩散(Stable Diffusion,下同)模型便是此次创新浪潮中的典型技术代表。考虑到该技术在互联网上的开源传播广度与技术共享深度,普通的技术学科教师也可借助文本描述词或短语组合,在智能教学中开展图像生成与审美融合的探索。

1 图像生成模型的历史脉络

机器学习技术应用于图像生成的历史并不短暂,在稳态扩散模型令人惊异地面世之前,2018年,一副由人工智能生成的画作在嘈杂的争议中以43.5万美元在艺术品拍卖会上被售出。该幅《埃德蒙德·贝拉米肖像(Portrait of Edmond Belamy)》的画作生成,依靠的是名为生成式对抗网络(Generative Adversarial Network,GAN)的深度学习模型(图1)。此模型首先经由非监督学习机制训练符合要求的特定数据集(原件),随后创建网络副本,接着依托生成模型(generative model,GM)和鉴别模型(discriminative model,DM)令两者同步受训并博弈判断原件和样本之间的差异,最后反馈结果。以对抗生成网络为代表的有条件图像生成方法具有较强的属性表达辨别力和泛化力,但需要特定领域的知识信息支撑,从而导致属性获取过程较为复杂[ 1 ]。

相对而言,另一类属性描述手段—通过自然语言赋予空间视觉元素的策略则创建了一条更加普适与轻巧的生成途径,即依附生活化的文本表达,串联映射图像特征数据集,以此生成能与文本描述词协调共鸣的,甚至具有丰富画面细节的像素组件并使之拼装呈现。

2021年1月,一家名为OpenAI的人工智能研究公司首先发布了图像生成引擎DALL-E,该引擎为用户构建了可以根据文字描述创建更逼真、更准确图像的能力[ 2 ],同时支持无缝编辑。同年6月,Midjourney平台也宣布收费支持文本生成图像。2022年8月,Stable Diffusion公司将其同名图像生成模型(即稳态扩散模型)在Github网站公开发布。因其开源属性,该模型的昭布脱离了盈利模式的约束,任何技术人员通过短期训练,便可在硬件条件满足(主要是显示芯片与显存大小门槛)后自由搭建“扩散型”图像生成平台。至此,“扩散型”图像生成模型在世界范围飞速传播。

2 “扩散型”图像生成模型机制

要使图像生成器能快速响应文本描述,“扩散型”生成模型需要一个庞大且多样化的训练数据集。一般来说,为改善图文的可访问性和可搜索性,互联网图源在发布对象时,大多会为图像同步搭配与之毗连的替代文本。因此以上训练数据集通过网络“抓取”的公众图源大概率一并包含图片与文字描述。但与搜索引擎的机理不同,如图2所示,用户提交文本提示时,“扩散型”生成模型的运作并非依照查询结果,定位训练数据集中的相关图像,然后复制像素信息完成组合,而是借助深度学习模型的“潜在空间”(Latent Space)以高维方式标记文本并生成图像。

以常见物体香蕉的识别为例,以图3为例,若以单一色深程度(即黄色程度)作为识别物体的线性指标,模型虽可有效分辨香蕉(黄色)与气球(红色)的特征差别,但面对同色气球(黄色)样本时,一维指标显得力不从心。此时,若补充以圆形程度为基准的新指标,“扩散型”模型对物体的识别指标便由一维线性扩展为二维平面样式。之后,随着指标排他性性状的不断确认,伴随判定指标体系的延展增维,高维识别模型可大幅强化对指标空间的状态扩展,进而构建指标众多、属性各异的分类标签。

此即“扩散”模型中深度学习算法在遍历数据集时的运行机理。在具体实现上,算法在遍历流程时侧重指向提升模型效率的变量,构建了与变量等量且高维的数学空间。虽然在一般情况下,人类无法理解多维空间的高阶架构,但稳态扩散模型可提供至多500个维度的潜在空间支持。这所谓的潜在空间代表了现有人类都无法识别或命名的变量集合,其间的任何一点都可视为由文本提示出发,指标体系导航而最终可达的图像答案。由于导航过程中的一些随机属性干预,模型无法为固定文本输入返回同样固定的结果,因为数据集、训练模型的源生差异,会导致潜在空间定位的迥然不同。

3 稳态扩散模型的数理逻辑

在文本导航与图像生成之前,“扩散型”模型还需要将潜在空间中的一个点转换为实际图像,该过程即“扩散(diffusion)”机制。“扩散”流程从图像噪声输入开始,经历一系列的随机值辅助推导,最终将像素排列为对人类有意义的构图。

可见,稳态扩散模型以图像去噪为初始目标,此类机制与早期图像生成方法,例如以对生成式对抗网络为代表的直接图像法或以概率统计分布为代表的变分自编码(Variational Autoencoders,VAEs)器件近似,生成过程皆起源于输入的随机噪声Z,通过神经网络层叠加持,由机器学习手段将其转化为样本数据X。早期生成式模型受制于从噪声到清晰图像的单步转换,具体为输入的噪声仅借助单一模型生成数据样本,生成的图像往往质量欠佳。纵然单步生成的模型在现代算力支持下也能改善效果,但需要庞大的模型与海量的时间作为代价。

为改善运行效率,稳态扩散模型使用去噪扩散概率模式 (Denoising Diffusion Probabilistic Model,DDPM),利用逐次细分的加噪/去噪声周期,规避单一模式的低效陷阱。如图4所示,去噪扩散模式一般由清晰的图像启动,而后图像在细分周期中逐渐融合噪声。随着数据与状态的递推传递,图像噪声的比重同步增大。至XT位置时整个图像完全转化为噪声Z。反之同理,逆向处理流程从输入噪声开始,图像按细分步骤逐渐去噪,最终重构回清晰样态。

3.1 加噪过程分析

由xt到xt-1的递推公式

xt=atxt-1+βtεt,εt~N(0.1)

可得:

xt表示图像递加噪进程第t步的状态,该状态首先由上一阶段xt-1乘上权重at,加上随机噪声εt与权重βt的乘积实现,其中εt满足0~1之间的正态分布。其次,累加过程中的两个权重at和βt满足固定平方和公式:

at2+βt2=1

即权重at和βt满足一个恒定状态,此固定关系为后续的状态推导提供稳定支撑。在正向加噪流程中,权重βt与时间关联,随着噪声比重的提高同步增大。若合并以上递推过程和关系状态,可得完整的加噪通项:

3.2 去噪过程分析

通常,去噪过程只需将加噪过程反向推导即可。例如,在加噪过程中,xt的状态已知,at和βt也由恒定状态绑定,余下的变量和阶段依靠代换顺序导入迭代就好。但此想法忽略了一个不可控对象—在加噪过程添加的随机噪声εt。此归属于正向流程的随机值换位至去噪过程时,系统无法通过反推得出其原本取值。为解决这个问题,模型需要添加新的神经网络以供“学习”出εt。此过程满足公式:

由加噪环节可知,βt随着时间的增大而不断增大,因此,由该值构成的损失函数也随时间增长而同步增大,同理居于分母位置at2的同步减小。εt关联新创建的神经网络而t为噪声强度。整体训练过程在输入噪声后开启,逐步进行随机噪声的机器学习模拟,而后反复迭代直到对象重新变为清晰的图像。

3.3 稳态扩散模型生成图像的要点

稳态扩散模型凭借编解码模型和创新性地文本控制,大大降低了传统机器学习的时间复杂度,也解放了非专业人群体验AI绘图的桎梏。

(1)时间复杂度大幅改善

如图5所示,稳态扩散模型预先训练了编码与解码模型,令其对输入图片进行降维编码,而后于潜空间上处理去噪扩散概率模型。此流程将输入的图像规格,由512×512编码为64×64,而后进行去噪扩散,获得重构结果后再通过解码最终还原成512×512的真实图像。经过这个编码与解码的组合过程,图像生成的整体耗时有了质的飞跃。

(2)桥接文本控制条件

同图5,稳态扩散模型在获取输入噪声的同期引入文本描述作为新条件,用噪声和文本各得到一个对应输出。然后由两个输入的加权平均得到真实噪声,最后以权重调整文本对输出结果的影响力。

4 图像生成效果影响要素

生成式绘图通过“扩散式”模型,从数据中提取图像的细分要素,于此模型操作者仅需理解文本提示规则,便可复制艺术家或工作室的风格而无需拷贝他们的真实图像。图像生成的效果,除受基础模型成熟程度的影响,还受文本描述词与图片尺寸/形态的制约。

4.1 文本描述词

初尝智能绘图的用户,其挫败感多源自文本描述内容难以驾驭或画面美感与预期设想的不匹配。这里文本描述词的使用门槛主要是用户对关键词输入结构和修饰词语的不熟悉造成的。

如表1,案例一为纯英文描述词指向“张大千”风格的山水画,案例二为中英混合导向“吉卜力”风格的动漫画,案例三则趋向纯中文描述的中式虚幻画。不同语种的案例组合分别对应中外主流智能绘图平台。从描述词结构可见,各平台文本描述虽有差异,但总体都包含对主题内容的期望、对画面主题的进一步修饰、对专业艺术家或工作室风格的参考以及其他细节方面的修饰四个部分。

4.2 图片尺寸与形态

除文本描述词,尺寸与形态也对绘图的呈现效果产生重要的影响,例如画面的横纵比例,场景的横竖形态等,都对画面效果有作用:

(1)人像类画作类型的构筑建议选择1:1方图,如若选取了竖图或者横图,可能会出现两个或者多个人脸叠加现象的,即常被社群用户戏称为的“买一送一”。

(2)构建风景、想象、山水等崇尚空间结构的画作类型时,优先推荐竖图或者横图。特别是计划输出山水画、风景画与大场景的情况。

以上标准并非绝对,一名优秀的智能艺术创作者可以通过多种手段驾驭尺寸的边界,而且生成模型普遍具有意识随机性,创作中时常需要经多次迭代才能输出令人满意的作品。

5 人工智能图像生成与教学适配

基础教育阶段人工智能课程体系并没有具体的国家标准,教材选用也没有规范指标,因此教学内容的选择和目标的确定往往取决于实施教师,所需资源也更偏向于教师自身从互联网上搜索到的可用数字化材料[ 3 ]。生成式智能绘图技术的高度话题性和充足的趣味性,为基教阶段的人工智能教学带了新情境和新入口,伴随其发展历程的版权争议性与艺术性讨论也为初高人工智能教学提供了辽阔的思辨空间。

5.1 智能绘图引入教学的属性增益

教育部《普通高中信息技术课程标准(2017年版2020年修订)》对人工智能的学业要求中指出:“(学生能)了解人工智能的新进展、新应用,并能适当运用在学习和生活中”[ 4 ];《义务教育阶段信息科技课程标准(2022年版)》在第四学段(7-9年级)人工智能与智慧社会部分的教学提示中也提到:“通过对人工智能应用的分类和分析,引导学生发现其中存在的不同实现方式,认识各种实现方式的计算过程,了解其适用的场景”[ 5 ]。依表2,基础教育阶段初高信息技术(科技)课程标准皆鼓励在人工智能教学中引入新应用与新接口。同时,作为最具活力的信息科技前沿领域,人工智能技术的快速迭代本就具有即时性与颠覆性的特征。响应时下尖端技术,符合教学对象对新生事物的渴求;智能绘图新接口的教学导入,即以文本描述词对教学情境的改善或师生实践手段的改进,也与生成图像的随机规则一道,为算法比重颇高的人工智能技术原理教学增添了趣味性,还为受矩阵排布和卷积计算困扰的基教师生弥补了因审美传递受高校专业领域限制而难以实施的缺憾。

5.2 智能绘图技术的争议性与教学实施的挑战

生成式智能绘画技术,本源上是依仗海量人类艺术家的公开著作,连同基于现代互联网“抓取”的开源画作,萃取佳作集群的构图、色彩、风格等物料进行的“再创造”。该过程的知识产权归属,依所属平台规则的差异大相径庭。不仅如此,“扩散型”图像生成过程中潜在空间形成的“黑盒”机制、于互联网“抓取”元素对象的道德/法律规避案例,连同各闭源/开源平台非公开数据集的“暗部”内容等等,都令未成年学习者可能面对的绘画作品充满了不确定性。再者,以网络技术为核心的网络空间成为意识形态领域最难以预测的变量[ 6 ],结合互联网偏向英语信息、偏向西方概念的特性,绘画学习来源是否代表人群均衡权重,是否代表宏观人类文化形态也始终存疑。以上内容极大地扩充了基教阶段人工智能教学中的伦理讨论区间,也对人工智能施教者自身“技术式叙事”与“中国化叙事”的能力提出了更高也更灵活的要求。

软件如此,硬件亦然。以稳态扩散模型的开源搭建为例,其显示芯片的高标准与最低8G的显存需求让现有基于“因材施教”与“依财适配”的校园信息化建设决策者变得局促不安。从教师与学校的视角来看,目前学校开展人工智能教学的基础应用和基础支撑,都依赖于高等教育阶段形成的成熟的计算机科学研究体系。而这一体系的认知本源考察手段,对基础教育阶段的人工智能教学提出了过高的要求,直接将其应用于基础教育阶段,不仅加剧了现有信息技术与信息科技教师学科专业知识和培养体系的不完善之间的矛盾,也导致了高等教育阶段培养的智能人才与基础教育阶段需要的智能人才之间的错位越来越严重。

总之,一味逃避上游人工智能的前沿成果,无视当下媒体对前沿科技的恐慌解读,回避智能教学的新情境与新领域并非长远之计。以一灯传诸灯,终至万灯皆明。智能绘图技术的公平妙趣,使得教师在个人发展与智能教学之间有了细化的选择,也令众人皆能以文本统御机器,化解意愿与图像之间的障碍,消弭视画和虚拟之间的隔阂,最终引导人类文化合作方式的革新。

参考文献:

[1] 王宇昊,何彧,王铸.基于深度学习的文本到图像生成方法综述[J].计算机工程与应用,2022,58(10):50-67.

[2] 云熙.风口上的AI绘画:艺术,还是生意?[EB/OL].https://www.ithome.com/0/650/662.htm.2022-11-02.

[3] 林昉.学习科学视域下的中小学人工智能教学资源应用策略[J].中国信息技术教育,2022(12):35-37.

[4] 中华人民共和国教育部.普通高中信息技术课程标准(2017年版2020年修订)[S].北京.2020:人民教育出版社.2020:28-29.

[5] 中华人民共和国教育部.义务教育课程方案和课程标准(2022年版)[S].北京.北京师范大学出版社,2022:41-42.

[6] 方旭.论新时代意识形态领域重大风险的防范与化解[J].理论视野,2021(9):53-59.