画出心中的林妹妹——基于深度学习的人脸画板
2021-04-16陈姝宇
陈姝宇
绘画创作是人类自古以来的天性,从原始丛林中饱经风霜的洞穴岩画,到法国卢浮宫中梦幻神秘的蒙娜丽莎,人类笔下的每一幅画作都体现了无穷的想象力和非凡的创造力。与技艺精湛的艺术家一样,我们每一个普通人的心中都有着独特的审美情趣与个性化的艺术体验,但是,我们却常常难以将之充分地表达出来。为了让非职业画家的普通人也能轻松地绘制出人类肖像,中国科学院计算所与香港城市大学合作研发了智能人脸画板软件DeepFaceDrawing[1]。基于该软件,用户不需要拥有专业的绘画技巧,就能用粗糙甚至不完整的草图合成逼真的人脸肖 像。
计算机草图交互的发展
草图是指通过黑白线条,描绘物体的轮廓和结构的一种绘画形式。草图绘制成本较低却包含丰富的语义信息,其很早便被用于人机交互:1963年,Ivan Sutherland便开发了革命性的人机交互系统——SketchPad[2],并因此获得图灵奖。该系统使用交互设备“光笔”,通过手绘草图完成计算机的图形设计与交互。后来几十年,随着数位板等硬件设备的发展,草图已经成为专业计算机设计人员所必需的交互方式,提高了计算机相关行业的生产效率,促进了工业、设计业、动画影视业等相关产业的发展。近几年,以智能手机、平板电脑为代表的触摸设备迅速发展,触屏交互进一步深入大众的日常生活,草图拥有了更多的使用场景与更高的实用价 值。
正因为草图具有易于绘制、语义丰富和应用广泛等特点,许多计算机软件尝试根据草图合成真实图像。一些早期的技术主要将草图作为标记,使用图像检索和组合技术,将不同图像的不同部分生硬地拼接到一起。这些软件无法通过草图精确控制合成的图像,拼接的结果常常不够自然。近几年,人工智能技术飞速发展,通过草图合成真实图像也有了许多新的技术。这些方法将草图作为输入,使用深度神经网络,合成真实的图像。但是,目前的大多数方法对于草图的依赖性极高,因此对用户绘制的草图有很严格的要求,往往只有专业的美术工作者才能驾 驭。
普通人可以通过手绘的草图轻松合成逼真的人脸肖像吗?怎样使用人工智能技术,用随手绘制的粗糙、甚至不完整的草图合成真实图片呢?
人脸画板交互系统
为了让普通人也能通过随手绘制的草图合成真实人脸肖像,中国科学院计算技术研究所高林团队与香港城市大学傅红波团队合作研发了一款智能人脸画板软件。该软件在草图绘制界面,提供了基于数据驱动的背景阴影作为参考。背景阴影实时更新,根据用户绘制的草图,匹配出最接近“真实人脸”的草图,引导用户的绘制。交互界面的顶端提供了一系列功能按钮,可以控制画笔、橡皮的大小,保存生成的结果等。
该软件可以调整生成结果的面部细节。右上角提供了针对脸部5个部分的5个参数(左眼、右眼、鼻子、嘴巴、其他)的控制滑条。每个滑条的值代表了原始绘制的草图与系统优化的混合权重,滑条对应的值越高,生成的结果与输入的草图越接近。该软件的交互界面友好美观,用户可以轻松绘制想象中的真实人脸。
基于深度学习的人类合成系统
该人脸画板系统基于最前沿的人工智能技术,使用了生成式对抗网络(GAN)[3]的技术。通过这种技术,神经网络可以合成高真实感的图像,足以以假乱真。生成式对抗网络的原理也非常简单,包括了两个网络:图像生成网络与图像判别网络。图像生成网络负责生成真实的图像,图像判别网络则负责判断生成的图像是真实图像还是生成的图像。两个网络相互学习博弈,最终生成高真实感的图像。
该智能人脸画板系统同时使用了结构化的合成思路,对人脸的关键区域(双眼、鼻、嘴和其他区域)单独处理,再融合生成真实人脸。系统主要由三部分组成:特征提取模块、特征映射模塊、图像合成模块。系统对用户绘制的草图进行优化,生成与绘制草图相对应的真实人脸。
特征提取模块采用自编码器结构。自编码器也是一种常用的人工神经网络,可以对输入的图像进行编码,得到高效的低维特征描述,并能从该描述中恢复输入图像。特征提取模块将人脸分为五个部分(左眼、右眼、鼻、嘴和其他区域),对每一部分的草图分别进行编码,获取五个特征描述符。进一步,该模块将人脸的局部草图投影至局部线性的流形空间,每个部位的流形空间由数据库中大量样本编码的特征向量构成。输入的手绘草图样本的特征描述符作为点样本投影至该空间寻找最近邻,通过线性组合重构来优化手绘草图。
特征映射模块与图像合成模块一起构成合成真实图像的深度神经网络。特征映射模块将优化后的局部草图特征描述映射成32通道的特征图(真实图像常常为3个通道,对应红色、绿色、蓝色)。进一步,系统对每个局部生成的特征图,在背景特征图的固定位置按照嘴、鼻子、双眼的顺序进行拼接。最后,图像合成模块根据拼接后的特征图,融合生成高真实感的人脸。该方法由于采用了多个通道,改进了信息流,能生成更高质量的合成结果。
目前,基于人工智能技术的系统,需要大量的数据进行训练,该人脸画板系统也不例外。开发团队基于CelebAMask-HQ[4]人脸图像数据库,筛选无遮挡的面部图像,再利用PhotoShop加草图简化的方法提取草图,构建了人脸图像与对应草图的数据集。系统的训练分为两个阶段:先训练局部嵌入模块,获取局部特征映射,再固定局部嵌入模块的参数,整体训练特征映射模块与图像合成模块。
人脸画板的更多应用
人脸画板采用从局部到全局的方法,对局部进行了编码解析。因此,人脸画板可以对来自不同人不同部位的图像提取草图编码,再将其整合看作一张脸送入网络生成人脸图像,实现人脸拼接。同时,由于人脸画板将人脸的各部位编码为特征表示,并在流形空间上进行投影,因此可以将不同人脸的特征进行线性插值,再将插值后的特征输入网络,合成中间人脸结果,实现人脸变换。
智能人脸画板系统有很高的实用价值与现实意义。通过人脸画板系统,刑侦人员可以定位嫌疑分子,方便案件的侦查,保护人民财产安全;普通用户可以自由绘制真实人脸,体验科技与艺术的完美融合,激发想象力与创造力;专业艺术家可以任意设计精美模特,创作独特而精妙的艺术品,带来独具匠心的艺术体验。在后续的研究中,研究团队将继续扩展人脸画板的功能,进一步提升用户体验,便利艺术创作。
参考文献
[1] CHEN S Y, SU WC, GAO L, et al. DeepFace-Drawing: Deep Generation of Face Images from Sketches. ACM SIGGRAPH\TOG. 2020,39(4),72:1–72:16.
[2] SUTHERLAND I E. Sketchpad a man-machine graphical communication system[J]. Simulation, 1964, 2(5): R-3-R-20.
[3] IAN J G, ABADIE J P, MIRZA M, et al. Generative adversarial networks, arXiv preprint arXiv, 2014(2661):1406.
[4] LEE C H, LIU Z W, WUL Y, ea al. MaskGAN: Towards Diverse and Interactive Facial Image Manipulation, CVPR 2020.