APP下载

基于pix2pix 的类平面图生成及评价方法研究

2023-09-25

住宅科技 2023年9期
关键词:平面图矩形学习效果

■ 崔 哲

郭 昱

李 华

0 引言

信息技术的快速发展推动着数字经济的发展,继而推动生产、生活方式和治理方式深刻变革。《“十四五”数字经济发展规划》[1]指出了我国未来经济的发展方向,提出:大力推动数字技术与实体经济融合,数据赋能推进数字产业化与产业数字化发展;推动形成数据资产目录,健全完善数字经济治理体系;统筹新型智慧城市和数字乡村建设,推动数字城乡融合发展;加快既有住宅和社区设施数字化改造,鼓励新建小区同步规划建设智能系统,打造智慧共享的新型数字生活;等等。

在建筑学领域,数字建成环境作为产业数字化的典型代表,其实质是基于建筑学理论设计构建的虚拟环境(图1),承载着虚拟角色在虚拟环境中的行为。随着数字建成环境在各行各业(主要是教育、商业、办公、游戏和影视等)中的建造需求不断增大,以及现实环境中实体建筑与数字技术的加速融合,建筑的数字化、智能化程度的不断加深,依赖人工搭建的传统工作模式难以满足未来高效率、高创新性的建造要求。因此,如何利用计算机技术,快速、大量、优质地自动生成建筑平面图,是当下建筑学需要解决的重要问题。

图1 数字建成环境[2]

1 建筑平面图自动生成

平面图是建筑空间最重要的信息承载体,平面图的自动生成是数字建成环境自动生成的基础,一般包括基于规则和基于图像学习技术两种技术路线。

1.1 基于规则的建筑平面图自动生成

基于规则的建筑平面图自动生成方法由F.Hayes-Rotht 等[3]于1983年提出,又称为“建筑专家系统”,是建筑平面图自动生成的起点。有关这方面的研究较多,比较具有代表性的如:U.Flemming 等[4]采用穷举法配合修剪搜索树的方法建立了平面生成程序,可在一个给定的矩形房间内合理布置家具;P.Charman 等[5]提出“半几何弧形一致性”概念,实现了同一个户型内多个房间的家具布置设计;B.Medjdoub 等[6]又在此基础上加入空间的拓扑关系,来优化生成效果;E.Grabska 等[7]基于拓扑学建立了一套支持多层建筑设计的可视化设计系统;华好[8]实现了在非正交轮廓内布置建筑平面的算法。该技术路线的局限性在于难以构建一个可以覆盖多种风格及类型平面图的生成算法,生成效果依赖用户输入、符号构造和调参经验[9]。

1.2 基于图像学习技术的建筑平面图自动生成

基于图像学习技术的建筑平面图自动生成方法以神经网络作为工具,首先将大量标注过的平面图输入神经网络,通过训练使神经网络学习平面图中空间分布的潜在规则,再利用训练好的神经网络自动生成平面图。2014 年,Goodfellow 等[10]提 出 生成对抗网络(generative adversarial networks,GAN),提高了该技术路线的训练效率。GAN 作为一种深度学习模型,在算法结构上作出重大创新,生成器(generator)与判别器(discriminator)的博弈式学习方法极大地促进了计算机视觉的发展。该领域的重要研究包括:设计草图生成[11]、3D 建筑图片生成[12]、限定范围内的建筑平面图生成[13-16]、多专业图纸生成[17]等。

此类平面图的生成又可细分为人机协同和直接生成两种技术路线(表1),其生成过程中需要设计范围作为限制条件。通常,将表示设计范围的图称为条件图,将生成模型计算并输出的图称为生成图。

表1 图像学习在建筑平面生成中的应用

(1)人机协同的工作模式一般分为两步,即先由用户基于条件图产生代表设计意象的分析图,再由生成模型根据分析图输出代表设计结果的生成图。例如:吴文明等[13]以“房间定位点图”作为分析图来训练生成模型,其采用的样本库来源于自建的真实户型图数据集RPLAN;胡瑞珍等[14]基于RPLAN 数据集,制作“功能气泡图”作为分析图,以此训练生成模型;曾伟等[15]基于RPLAN 数据集制作“活动热力图”,并将其作为分析图训练生成模型。虽然分析图交互步骤可以增加用户体验感,但其与设计结果之间的对应关系通常比较模糊,训练难度较高,即便采用了几万个训练样本,生成图还会出现空间边界不清晰的情况(表1)。

(2)直接生成是将条件图输入至训练好的生成模型中,直接生成设计结果。在以往的研究中,此类生成图普遍存在色彩界限模糊等问题。例如:陈梦凡等[18]通过一个训练好的堆叠GAN 模型,按照“场地图—分区路网图—建筑点位图—总平面图”的生成步骤,生成职业技术学院的校园总平面图,但其每一步的生成图都出现了色彩区域界限模糊或色彩过度的情况,需要人工调整后才能作为下一步的条件图;黄蔚欣等[19]基于pix2pixHD 算法,对户型图进行空间色彩语义图与渲染平面图的互相转换,但生成图同样存在设计元素边界模糊的情况;Chaillou[16]建立了一个直接生成户型图的堆叠GAN,其部分生成步骤“建筑轮廓—带有空间色彩语义的平面图—带有家具的平面图”出现了色彩融合过度、线稿不清晰的情况;刘德利等[20]尝试基于pix2pix算法的建筑形态及其组合生成设计,训练神经网络根据地块生成内部建筑布局;崔哲等[21]曾尝试对养老设施建筑平面图的训练,但由于标注工作量的限制,导致生成图像中的各个空间边界模糊。上述研究皆采用真实存在的平面图作为训练样本,且样本量均小于1 000 个。然而,现实中多变的设计条件与设计策略使得每一个样本都具有自身的特殊性,难以保证样本潜在规则的同一性,故笔者团队认为,建立相同规则的建筑平面图样本库,是此类研究的首要条件。

平面图生成模型的训练需要有大量的训练样本,且样本图在规则上要有同一性;而吴文明等[22]建立的RPLAN 数据集虽然样本量超过80 000,但均来自实际建筑,其项目环境、体量、设计要求、建筑师及设计风格各不相同,不具备统一规则。因此,本研究拟构建一套基于统一规则的大型数据集作为训练的基本材料,探讨不同样本量及模型架构下pix2pix 算法的学习效果差异;同时,建立衡量学习效果的评价体系,找到学习效果最优的生成模型。

2 实验设计

2.1 类平面图定义

将平面图转换为可以被GAN 网络识别的图,需要进行大量的注释工作,包括统一世界坐标、图像分辨率、比例尺、图纸底色、各房间着色等。巨大的时间成本导致研究人员难以获取足够的训练样本[23]。为了解决上述问题,本研究定义了“类平面图”概念,即:将建筑平面图抽象为由多个矩形组成,其每个矩形代表聚集的同类型空间及附属空间。如图2所示的“类平面图”抽象过程中,c、d 即为“类平面图”。

图2 类平面图抽象示意图

2.2 类平面图样本生成规则设置

作为人居生活的最小空间单元,住宅是最基本、最重要且数量最多的建筑类型。也正是由于数量庞大,很多开源的建筑平面图数据集均为住 宅, 如RPLAN[22]、LIFUHOME[24]等。实际上,许多建筑师如帕拉迪奥、安藤忠雄等都将住宅看作是建筑的原点,因此,本研究在制定类平面图生成规则时,参考了住宅的一般规律。如图3 所示,A0为初始矩形,随机选择1 个顶点作为基点,向外生成矩形A1,组成一个新的平面;并在此平面外轮廓上再随机选择1 个顶点生成矩形A2,以此类推。经过n次循环后,可形成由n+1 个矩形组成的类平面图。每个新矩形的生成规则如图4所示。

图3 类平面图的生成步骤

图4 新矩形生成规则

为了标记空间的位置、朝向、面积属性,对类平面图中的矩形进行颜色标注。结合GAN 的采样原理,将色彩分为RGB3 通道(0~255 之间的整数),其中:R值标记朝向,G值标记位置,B值标记面积。图5 是由10 个矩形组成的类平面图,其注释(着色)步骤包括:①制作类平面图边界框,即完全包含类平面图的最小矩形框;②在其中制作色彩矩阵,矩阵左下单元格的色彩R、G值为0,且矩阵中所有单元格的色彩B值为0;③取各个矩形的几何中心点,其在色彩矩阵中对应的R、G值即为该矩形颜色的R、G值;④将所有矩形的面积等比例缩放至[0,255]区间内作为颜色的B值,其中最大面积矩形的B值为255,最小面积矩形的B值为0;⑤去掉矩阵及中心点,得到有色彩信息的类平面图。

图5 平面注释(着色)步骤

2.3 任务设置及数据集建立

2.3.1 任务设置

首先,采用GH-python 软件,将矩形总数分别设置为6、7、8、9、10 个,共得到4 556 个可用的类平面图;设置每个类平面图的标识ID。通过调整每个类平面图的显示设置,可以得到3 类图纸(图6):①黑图,即表示设计范围的条件图,其外轮廓内部全部涂黑;②线框图,即表示空间分割信息的条件图或结果图,其内部填充灰色以区分设计范围和非设计范围;③色彩语义图,即代表设计范围内空间分割及各个空间位置、朝向、面积等属性的结果图。

图6 图纸样式及图像转译任务设置

其次,基于pix2pix 算法,探索根据黑图直接生成色彩语义图的生成模型在不同训练参数下的学习效果。设置单一GAN 和堆叠GAN 两种构架,其中:单一GAN 仅包含1 个执行空间分割及着色的生成器G1;堆叠GAN 包含2 个生成器,分别是执行空间分割的G2和执行色彩标记的G3,运行时先启动G2,并将G2的生成图作为G3的条件图,再启动G3进行生成。G1~G3分别对应图像转译任务1~3(图6)。

2.3.2 建立数据集

根据pix2pix 算法特性,用于训练的样本要求是512×256 分辨率的合成图片,其中:条件图占据右边的256×256 像素,生成图占据左边的256×256 像素;同时,在条件图与生成图中,学习目标的像素坐标必须一一对应。因此,本研究在进行样本的批量生成时,对相机和显示模式进行固定,并在生成图像后,根据图像ID 进行配对。基于此,分别建立3 个图像转译任务的图库,且每个图库中包含4 556 个512×256 分辨率的合成图片样本。

为了探索不同训练样本量的学习效果,按样本量从小到大依次设置6 个训练集,分别为:100、500、1 000、2 000、3 000、4 000 样本训练集。对4 556 个类平面图的ID 按留出法进行抽样,先随机抽取25 个图片ID 作为测试集,再在剩余的ID中抽取训练集。3 个转译任务共抽样得到18 个训练数据集。

2.4 最高训练回合

采用充分学习法,即每个回合(epoch)学习的样本包括全部的训练样本。设batch_size=1,则每个回合学习的迭代次数就是样本量。采用任务1 的100 样本训练集进行预训练,共设置250 个回合,查看生成器G 与鉴别器D 的损失函数变化(图7)。可以看出:鉴别器损失函数在学习80 回合左右到达最低值,随后不断波动;生成器损失函数在学习230 回合左右到达最低值,随后也不断波动。在实际训练时,需要给学习回合数留出余量,故仍设置最大回合数为250 个。训练过程中,每10 个回合保存1 个生成模型。

图7 任务1“100 样本”训练集损失函数图

2.5 实验流程

本次实验共训练得到450 个生成模型,具体实验流程如图8 所示:

图8 实验流程示意图

① 自定规则生成建筑类平面图图库;②制定3 个图像转译任务,并制作各自的样本库;③先在样本库中抽取测试集,再在剩余样本中进行多种训练样本体量的简单随机抽样;④用一个任务的最小样本进行预训练,根据损失函数的收敛情况,确定训练的最大回合;⑤开始训练,训练过程中每隔一定回合保存生成模型;⑥将得到的生成模型在测试集上进行测试;⑦分析测试结果,得到结论。

3 实验结果与分析

对训练得到的450 个生成模型进行保存,同时记录训练参数。用预先抽取的25 个类平面图的测试集对每个生成模型进行测试,并将各测试用类平面图与生成模型交叉匹配,最终得到11 250 个生成图。

3.1 单一GAN 模型检验

3.1.1 检验方法

一般情况下,可通过对比生成图与真实图的一致性来检验生成图是否符合规则。以4 000-240(样本-训练回合)模型在1 号测试图上的生成图为例(图9):①空间划分方面,生成图中的矩形A0及矩形A5~A9与真实图一致,矩形A1~A4虽不一致,但其排布符合图3 和图4 所示规则;②色彩方面较为复杂,矩形A5及A5~A9号可参考真实图,矩形A1~A4的R、G值参考色彩矩阵,B值参考其他矩形。由于生成图中存在一定的色彩过渡现象,需先对矩形内部的色彩进行平均化处理。将生成图的线框复制到色彩矩阵中,提取矩形A1~A4中心点的R、G值;将生成图与真实图的色彩参数用散点图表示(图9b),发现各点围绕在y=x参考线附近,因此生成图的色彩语义符合设定的色彩规则。

图9 生成图合规检验

上述方法可以较准确地评价生成模型的学习效果,但存在效率低、难以准确量化对比等问题。为了更加高效、准确地评价生成模型的学习效果,可引入客观的像素匹配算法(pixelmatch)来检验生成图与真实图的相似度。

3.1.2 像素相似度检验

Pixelmatch 算法的原理是将两张图进行逐个像素扫描,对比相同像素坐标下RGB值之差,得到有差异的像素数量总和,记为P′。将图像像素总数记为P,根据公式(1)定义像素相似度Psim。

将源自同一个生成模型的所有生成图的分数平均值记为该生成模型的像素相似度,对所有生成图与真实图进行像素相似度检验,检验范围为类平面图的边界框内。图10 为任务1所有生成模型的像素相似度散点图,可以看出,像素相似度总体随样本量和训练回合数的增加而增加。

图10 任务1 生成模型像素相似度散点图

像素相似度高虽然在一定程度上代表了生成图与真实图的相似度,但仍有一些高像素相似度的生成图存在断线、色彩过渡等现象(表2)。因此,生成图的评价还需要主观检验作为辅助。

表2 存在断线、色彩过渡现象的高像素相似度生成图举例

3.1.3 主观检验

从是否有色彩过渡、是否存在不清晰的分割线两个方面,对每张生成图进行评分:无色彩过渡、分割线清晰皆记1 分,否则记0 分。将两项标准的分数之和记为图片的主观评分(表3);源自同一个生成模型的所有生成图的分数总和记为该生成模型的主观评分。图11 为任务1 所有生成模型的主观评分,从其趋势线可以看出,主观评分同样随样本量和训练回合数的增加而增加。

表3 主观评分标准

图11 任务1 生成模型主观评价分值散点图

3.1.4 单一GAN 模型生成效果

从图10~11 可以看出,无论是像素检验还是主观评价,任务1 模型的生成效果都与样本量和学习回合呈正相关,说明由黑图向色彩语义图的转换模式有较好的可控性。综合像素检验与主观评价,在当前参数范围内,4 000-240 模型主观评价为22 分,生成图与真实图的像素相似度平均值和最高值分别为75.96%和89.15%,具有最优生成效果。

结合表4 的单一GAN 生成模型测试结果举例,按图9 方法观察:①3 号生成图与真实图基本相同;②1、4、5 号生成图与真实图虽略有不同,但基本符合矩形的生成规则;③2 号图虽然空间分割符合规则,但色彩与原图差别较大;④6 号生成图空间分割不够清晰,色彩基本符合设定规则。

表4 单一GAN 生成模型测试结果举例

3.2 堆叠GAN 模型检验

3.2.1 生成器选择

构建堆叠GAN,需要从任务2和任务3 中分别选出生成效果得分前3 的生成模型进行交叉匹配,再通过测试选出最优堆叠GAN。选择标准依然是综合考虑像素相似度主观评分,其像素相似度与4.1 节中相同;主观评分时,任务2 只考虑分割的清晰度,任务3 则只考虑有无色彩过渡现象。

(1)任务2 生成模型评价结果如图12 所示。像素相似度方面,除2 个用“100 样本”训练的模型略低于80%,其他模型均超过了80%,且基本聚集在85%附近;相比之下,主观评分的得分差异较大,侧面证明了主观评价的必要性。综合两个标准,选择表现最佳的3 个模型即2 000-60、1 000-190、1 000-140模型作为G2生成器(图12 中用红圈标出)。

图12 任务2 生成模型评价结果

(2)任务3 生成模型评价结果如图13 所示。像素相似度散点图(图13a)中,各点比较分散;主观评价分值散点图(图13b)中,各点则分聚在上下两侧,且集中在下侧的点代表出现过拟合等问题的模型。由于模型筛选主要考虑色彩的准确性,故采用像素相似度检验法准确度较高。选取3 个像素相似度最高且未出现过拟合的模型即4 000-110、4 000-190、500-60 模 型 作 为G3生 成 器(图13 中用红圈标出)。

图13 任务3 生成模型的像素相似度和主观评价散点图

3.2.2 最优堆叠GAN 选择及生成效果

选出的模型生成效果如表5 所示。 任 务2 中,2 000-60 模 型 与1 000-190 模型的生成图像素相似度相差仅为0.13%,但断线情况差别明显;任务3 中,3 个模型的生成图的像素相似度很相近,都没有色彩过渡现象。

表5 最优模型的生成效果(以1 号测试图为例)

对G2、G3生成器进行交叉匹配,得到9 个堆叠GAN,再分别在测试集上进行测试,得到225 张生成图。综合9 个堆叠GAN 的像素相似度与主观评价(表6),D8 堆叠GAN 为最优生成模型,由任务2 中最优的生成模型和任务3 中最优的生成模型组成。最优堆叠GAN 的生成图与真实图像素相似度平均值为73.11%,最高值达91.20%;主观评分为23 分。结合表7 的堆叠GAN 生成模型测试结果举例,按图9 方法观察可知:1、3、7 号生成图符合设定规则;5 号生成图空间分割不够清晰,但色彩基本符合设定规则;2、4、6 号生成图出现L 形空间,不符合空间划分规则。

表6 堆叠GAN 生成效果评价表

表7 堆叠GAN 生成模型测试结果举例

3.3 单一GAN 与堆叠GAN 对比

对比表4 和表7 中单一GAN 与堆叠GAN 的测试结果可知:①单一GAN 在多数测试图上的结果优于堆叠GAN,尤其是如5、6 号边界凹凸较少的一类图;②堆叠GAN 在部分测试图上的结果优于单一GAN,如1、2 号测试图。总体来说,单一GAN 训练的稳定性更强,有更大的像素相似度平均值,对空间划分规则的学习效果比堆叠GAN 更好;也有个别测试图中,堆叠GAN 的生成效果更好,但训练的稳定性较差,难以捕捉到好的生成器(表8)。

表8 两种模型构架生成效果比对

4 结论与展望

综上所述,本研究提出用类平面图代替真实平面图的方法,将图像学习中训练样本量扩充至4 000 个以上,解决了标注难、评价难的问题;通过构建主客观相结合的评价方法,可以较好地量化生成模型的学习效果。通过建立单一GAN 和堆叠GAN两种构架,并对比两种构架最优生成模型的学习效果,得到以下结论:① 单一GAN 模型的学习效果随样本量和学习回合的增加而稳步提升,而堆叠GAN 模型的学习效果与训练参数的相关性较弱;②从像素相似度平均值来看,单一GAN 模型优于堆叠GAN 模型;③从像素相似度最高值和主观评分来看,堆叠GAN 模型优于单一GAN 模型;④单一GAN 模型生成的平面图空间分割更清晰,对规则的学习效果也优于堆叠GAN 模型。研究结论基本确定了简单建筑平面图的训练方法和评价方法,为后续复杂建筑的训练、生成图中的断线优化、损失函数梯度的降低提供了研究思路,也为大规模生成建筑平面图提供了技术和理论基础。

图像学习法生成建筑平面图很高效,但目前尚未达到其边界。本研究的最终目的是将生成模型应用于数字建成环境或真实建筑中,那么生成图的空间分割必须清晰,这样才能得到可用的矢量图。目前,生成模型还不能生成空间划分非常清晰的平面图,因此找到能够精确划分空间的训练方法将是后续研究的重点。此外,训练方法在真实建筑中的可复制性也很重要。如果将类平面图的训练方法应用在由真实户型图组成的数据集RPLAN 上,是否能达到同样的训练效果?此类问题尚有待研究。如果未来能够找到通用的、优质的训练方法,那么大量地、快速地生成具有创新性的户型图,甚至是更复杂的住区平面图就有了可能。

(参加本课题研究的还有:同济大学建筑与城市规划学院博士研究生苏杭,同济大学建筑与城市规划学院硕士研究生森敏惠)

猜你喜欢

平面图矩形学习效果
疫情期间线上学习效果评价分析
“百词斩”对于大学英语四级词汇学习效果的实证研究
基于学习性评价原则提高研究性学习效果的研究
两矩形上的全偏差
《别墅平面图》
《别墅平面图》
《景观平面图》
莲心宝宝有话说
化归矩形证直角
从矩形内一点说起