APP下载

基于生成对抗网络(Pix2pix)的家具设计草图渲染

2023-12-01朱文霜王禹钧郑文俊

家具与室内装饰 2023年10期
关键词:沙发材质图像

■朱文霜,王禹钧,郑文俊

(桂林理工大学艺术学院,广西桂林 541006)

家具设计过程中,“灵感”这一“领悟式”的思维方式通常可遇不可求,具有特殊性、短暂性、激越性特征[1]。设计师都在试图寻求“灵感”,《思考的艺术》一书中指出,抓住“灵感”最便利的方法是通过手稿的方式记录与呈现。然而在从草图到实际作品的制作过程中,一闪即逝的灵感往往在不经意间丢失了许多细节[2],迫切需要技术手段快速实现由草图到效果图的转换。

随着人工智能技术的进步,通过人工智能辅助设计(Artificial Intelligence Aided Design,AIAD)这一设想成为可能[3-4]。Goodfellow等人创造性地应用博弈论的思想,提出了生成式对抗网络(Generative Adversarial Networks,GAN)[5],极大影响了深度学习领域的生态圈,此后基于GAN的各种算法变种开始涌现。Isola P等人基于GAN思想提出了Pix2pix[6]模型,这是一种典型的由图像到图像(image to image)的AI演算模式。此外,Isola P还提出了多种具有前瞻性与实用性的应用实例,其中关于线稿转实物图像的应用对于需要找寻“灵感”的设计师而言,提供了一种区别以往工作模式的全新思路。

在传统的工作模式中,设计师在“找灵感—找参考”的步骤中需要不断地进行自我判断,之后又要耗费大量时间来制作美观且易于阅读的效果图像提供给客户进行再判断,而用于审核的效果图通常无法充当最终效果图,即使不返修,定稿后仍需要重新制作并丰富细节,大量耗时且效率低下,存在较大的改进空间[7]。

因此,采用产品设计与计算机深度学习相结合的跨学科交叉研究方式,展开一项将生成对抗网络用于家具设计的应用性实验,希望通过生成对抗网络模型(Pix2pix),实现对手稿灵感的快速抓取,并迅速的生成效果图像,实现设计师与设计灵感的快速链接。既能便利高效助力创意生成,提升家具设计的工作效率,也能通过交互界面设计规避用户实际使用过程中需用到计算机语言的问题。

1 GAN用于设计图像转译的相关研究

图像识别与生成(Image Recogniton and Generation)是当前人工智能领域的研究前沿与热点,深度神经网络(Deep Neural Network, DNN)由于其优秀的图像表达能力,被广泛应用于各类图像任务。在产品设计领域,深度学习模型虽处于初步发展阶段,但已发展出了诸如物体分类、语义分割、目标检测、物体跟踪等众多功能[8]。

基于DNN的飞速发展,生成对抗网络(GAN)这一技术路径被提出。它的工作是围绕着G(Generator)和D(Discriminator)两种网络模型展开的,G网络的作用是基于输入的随机编码Z(random code)输出由神经网络自动生成的“假”图片(G)Z。再由D网络对其真假进行判断,如判定图片真输出为1,假输出则为0(图1)。GAN的出现链接了基于计算机视觉的图像识别技术和基于数据训练集的图像生成技术,也使研究者不再满足于类似Kim等[9]研究中提出的使用DNN对各类家具进行颜色、材质进行提取的单一功能。

但GAN也存在一定局限性,首先是输出的图片缺乏用户控制能力,即对应性与关联性弱。其次,生成图像分辨率与质量都较低。为了改善GAN的种种局限性,拓宽其应用范围,GAN演化出种类繁多的亚种:Pix2pix、Pix2pixHD[10]或CycleGAN[11]等学习模型都是基于生成对抗网络GAN技术路径下的深度学习模型变体。其中,Pix2pix网络着重优化的正是传统GAN的图像关联性问题(图1),为了限制GAN的学习,通过输入给定的图像,建立输入与输出图像的对应关系并以此替代随机噪声输入,极大改善了图像关联性问题,为相关应用的孵化提供了架构支撑[12]。

基于GAN网络及其变种,已有很多研究与实践案例,如王晓红等[13]运用卷积神经网络识别与构建了(CCGD-2019)数据集,并基于数据集提出了一种结合变分自编码器与生成对抗网络的书法字体图像生成模型。杨雅钧[14]等同样运用生成对抗网络建立符合条件的建筑室内布局数据集,进而对Pix2pix模型进行训练,通过峰值信噪比(Peak Signal to Noise Ratio, PSNR)和结构相似性(Structural Similarity Index, SSIM)评分论证了计算机生成的布局方案的合理性。此外还有类似Tirtawan等[15]运用CGAN模型生成蜡染服装。冉建国等[16]通过CGAN模型生成军用迷彩图案等应用性实践。

■图1 GAN与Pix2pix的结构对比图

■图2 原始图像集与筛选标准示意图

■图3 线稿图像集与边缘检测示意图

■图4 沙发图像生成效果及阈值分析图

■图5 沙发材质还原对比分析图

通过分析上述研究实例发现,生成对抗网络的应用流程较为固定,通常经历建立训练集,训练模型、生成效果、效果检验等步骤。此外,生成对抗网络技术和Pix2pix模型宽泛的应用领域与良好的应用表现,显示出其模型架构的发展性、实现路径的便利性及深入孵化的可能性。

2 试验阐述

2.1 数据集的整理与制作

根据Pix2pix网络的训练模式及文章对后期功能的规划,通过互联网收集并整理制作了主题为“现代沙发”的模型训练数据集。为便于在Anaconda及PyCharm程序中运行,将其命名为(Sofa-256)。

基于数据集(Sofa-256)的使用需求,在满足Pix2pix学习条件基础上,兼顾现代沙发设计常识与审美趣味,对数据集原始爬取网站(以Instagram、Pinterest为主)及数据本身均进行了严格的限定与筛选。初步收集共3500张沙发正面图像,对存在主体被遮挡、结构过于复杂、摄影角度过高、装饰语言过于怪诞等问题的图片进行删除(图2右);同时邀请8位从事相关研究的高校教师和企业家具设计师从家具设计美学角度对剩余图像进行筛选,最后选出符合要求的数据图像共2000张组成原始图像集(Sofa256-A)。

完成数据集的初步收集及筛选工作后,根据线稿转译图像任务的训练要求,通过Canny边缘检测算法,制作了一一对应的线稿图像集。具体内容是分辨率为256pix×256pix的PNG格式图像,合计2000张(Sofa256-B)(图3)。

2.2 训练过程算法原理及训练方法概述

Pix2pix网络模型主要由生成器G、鉴别器D及损失函数三部分组成。根据Pix2pix深度学习模型与CGAN(Conditional GAN)[17]原理相同的特点,修改了原始GAN的输入模式,有条件的使用用户输入,并使用成对的数据进行训练。

2.2.1 生成器

Pix2pix使用U-Net生成器结构,U-Net作为一种全卷积结构最大的特点在于跨越连接(Skip-Connection),能有效保留不同分辨率下的细节像素信息。基于线稿转译任务的实际需求,实际输入与输出虽然外观存在差异,但结构始终保持对齐状态。使用U-Net向下采样直到瓶颈层,再将过程反转,这使得信息流实现了各层的完全通过(包括瓶颈层)。既保证了线稿转译任务中输入和输出之间的低级信息共享,又保证了生成器的实际图像生成效果。

2.2.2 判别器

Pix2pix使用PatchGAN作为判别器,运用重建处理图像低频成分,GAN处理图像高频成分,使用过程中配合传统的L1 loss(损失函数)使所生成图片尽可能与训练集图片相似,再使用GAN来构建图像高频细节,最后通过PatchGAN来判别生成器所生成图像质量。

PatchGAN的核心逻辑为,由于GAN仅参与构建高频信息,故无须将完整图像输入判别器,通过将一张图片切割成若干n×n(像素)大小且相互独立的Patch(判定区域),通过判别器对每一个Patch进行真假判别,再取平均值作为判别器的输出。

实际试验过程采用3×3输入的全卷积网络,计算最后一层每个像素过sigmoid函数输出为真的概率,再通过BCEloss函数计算得到最终损失函数。其优点在于可降低输入维度,减少输入参数量,提升运算速度。

2.2.3 损失函数

损失函数是一种非负的实值函数,用于描述生成图像与真实图像的不一致程度,亦可称为优化函数,损失函数的值越小,则表明模型的拟合程度越优秀。

原始的GAN模型运算时判别器会同时判断输入的真图像与假图像。式1中第一项处理的是假图像G(z),此时期望为评分尽量降低,即将生成的图像判断为假;第二项处理的是真图像,此时的评分期望为高,即最大程度上与真图像相契合。整个模型目的在于不断强化生成器G使生成器输出的图像实现“欺骗”判别器(G取min)的效果,同时也不断强化判断器,使其更准确的判断图像的真伪(D取max)。

为解决用户控制问题,Pix2pix对基于GAN损失函数进行了优化(式2),事实上优化方案十分简单,即将x(输入图像)既作为原始输入导入生成器,同时与生成器生成的假图片G (x)一起输入判别器,这样就使生成图像与原始输入产生了对应关系,实现了对应学习的期望目标。

■图6 沙发线稿转译小程序界面设计图

■图7 应用实践流程图及效果图

3 试验结果评价及实践应用

3.1 输出图像评价

完成使用Pix2pix开源模型对数据集(Sofa-256)进行学习之后,使用Pix2pix生成多组图像,并对图像进行评价以检查其学习情况。图像边缘识别的准确性、物品形体塑造的真实性及图像材质的还原性为评价的三个重要指标,但由于图像处理中的真实性、多样性与输入条件一致性都较为主观难以限制,图像质量评价一直是图像合成领域较有挑战性的难题[17-18],故采用人工评价为主阈值分析为辅的方法。

3.1.1 边缘识别能力

对比6组转换前后的线稿与效果图(图4),用于展示本模型的边缘识别能力。总体而言,Pix2pix模型较轻松的完成了对现代沙发的学习,通过2000对图像进行100次训练即可达到较为理想的效果。Pix2pix模型能够较为准确的判断沙发的结构、靠垫、抱枕的轮廓线,对于沙发脚撑、扭钉也具有一定的识别能力。但以更高的标准来看,部分图像仍然存在轻微的图像溢出现象,这是由于数据集输入条件不完全一致导致的;同时,在输入质量过低或视角、比例、透视过于夸张的线稿图像时,往往难以呈现较好的效果。

3.1.2 形体塑造能力

“图像阈值图”是一种基于图像像素的亮度临界点的可视化图像,原理为将彩色图像的所有像素的亮度映射到的人为划分的0~255这256种亮度层次区域中,0为黑色(RGB三色光全无为黑),255为白色(RGB三色光充分叠加为白色)。通过对阈值图像本身及亮度信息分布图的观察便能清晰感知图像中各物体的明暗层次变化,从而判断Pix2pix模型输出图像对物体的造型能力。

如图4阈值分布图所示,1至6号图像的阈值分布呈现出两段式特点,右侧高耸的柱状数据为图像中的白色像素(即背景),均呈现垂直角度大,图像宽度小的特点,表明图像与背景的分离程度较好。其余像素信息分布在左侧,除2号图呈现两处峰值外均呈现单峰值均匀分布,通过观察对应的2号图像也可发现图像中沙发中部的结构塑造效果不佳,但总体而言,模型的形体塑造能力较为理想,部分偏差也可通过对线稿进行修正而改善。

3.1.3 材质还原能力

材质还原能力也是图像转译结果评价中常见的一项能力评价,通过同时输入多幅线稿进行转译,再将转译图像与原始图像进行人工对比,从而分析其材质学习情况与实际还原表现,为控制变量,输入内容均来源于数据库内。

根据提取的5组图像(图5)分析,材质还原度都较高,整体效果与原图十分接近,对于木质脚撑、哑光黑色脚撑部分的还原度较高,对绒面、皮面的渲染效果也较好;在3号图、5号图中,即使是数据集中已存在的数据,模型在图像生成过程中依旧对沙发颜色与材质进行了改变,展现了Pix2pix独特的创造力。

然而,也有部分材质受限于像素大小导致卷积核对其运算存在偏差,如1号图的金属支撑部分材质还原度较低,且与沙发重合部分存在材质丢失。2号图与4号图则因为对比度较低而导致模型前期学习时未能注意其中的细节(Canny边缘检测未能较好的识别结构)导致了输出材质细节的模糊。但总体看来,学习模型的材质还原能力较强,同时也通过数量较少的训练集实现了对沙发材质的理解与还原。

3.2 实用化设计

时下,各类深度学习模型项目普遍以源代码状态呈现,虽便于进行开发者之间进行分享与协作,但对于普通用户而言学习成本极高且难以使用,极高的门槛导致深度学习相关应用务须通过易于理解的交互方式才能被用户使用。基于人工智能辅助设计的实用化需求与人工智能辅助设计工作流探索的需要[19],通过PyCharm设计制作了基于Windows系统的简易GUI人机交互界面(图6)。图中1~5为用户界面的各功能键位,分别对应输入图像来源路径选择、输入图像查看(检查)、输出图像保存路径选择、风格迁移启动器、风格迁移查看器(检查)的基础功能[20]。

通过设计用户界面实现便利的人机交互,意在探寻计算机深度学习与设计工作的合作模式,在通过满足设计师便利的使用Pix2pix网络模型对家具线稿进行深化的基本使用需求的同时,为开展设计实践测试提供软件基础[21]。

3.3 设计实践

基于实用化应用成果开展设计实践,选择效果良好的设计方案进行深化设计并收集受测者使用评价,从而判断基于Pix2pix的GUI交互程序是否实现了有效帮助设计者快速呈现创意灵感的目标。

实践对象分为两组,第一组为从事室内设计工作的专业设计师,第二组为本地某小学的小学生。通过简单讲解使用方法后开展设计实践,设计者先使用传统手绘的方式对沙发进行设计,分别得到图7中草图,再将草图进行规范化处理(尺寸、线宽等)并通过GUI界面运行Pix2pix网络模型对草图进行处理,最终得到输出成图1与输出成图2。通过观察发现,基于(Sofa-256)数据集的Pix2pix网络模型成功的实现了对两组沙发草图的即时深化与渲染,赋予了其材质、色彩、光源等诸多图像信息(图7)。

通过咨询访谈方式收集相关评价得知,大多数家具设计者对最终呈现的渲染效果较为满意,认为转译模型生成的草图效果符合心理预期。此外,人工智能辅助设计技术也展示出另一条独特的设计路径,即通过高技术低操作的方式辅助更多未经专业学习的普通人,甚至是儿童进行创意生成,使其摆脱手绘技能的限制,更好的沉浸在创意与灵感的发掘过程之中[22]。

4 结语

人工智能的飞速发展正在对社会生产结构进行着根本性改变,对于产品设计领域而言,人工智能辅助设计是未来设计发展的必然趋势,在提高设计效率、优化设计流程、释放设计师灵感等方面有着得天独厚优势。通过人工智能深度学习与家具设计相结合,将Pix2pix应用于家具设计并建立相关图像数据集,再基于交互界面开展设计实践,初步论证了Pix2pix与实际设计工作相结合的可行性。当然,实验还存在许多不足,如生成的图像清晰度较低、用户缺乏对AI的控制力(材质、色彩、一致性等)、图像输入及输出角度存在局限。但是,通过建立语义标签、分辨率修复、多种采样模式结合等方式已经可以很大程度上优化上述问题。通过对Pix2pix进行专用化改造的实验,证明了其多元化应用的巨大潜力。未来,AI辅助设计不仅将更深入地参与设计师的实际工作,也将对设计领域的工作模式进行革命性的重塑。

猜你喜欢

沙发材质图像
改进的LapSRN遥感图像超分辨重建
有趣的图像诗
VIP 2-1HT(Home Theater)沙发
衣服材质大揭秘
沙发赛
外套之材质对比战
针织衫之材质对比战
10KV配变绕组材质鉴别初探
减肥记
遥感图像几何纠正中GCP选取