交互式人脸编辑框架：只需说出指令就能美颜

2021-01-19

海外星云 2021年21期

在日常生活中，我们会经常用到图像编辑软件，让照片有更好的效果和呈现。近日一项关于交互式人脸编辑框架的研究更新了人们的认知，让操作者不需要更多的操作，只需对着软件说出想要的编辑效果，那么想要的效果图片就会自动生成出来了。

人脸编辑是视觉和图形领域的一项重要任务，有着广泛的应用。然而，现有的成果无法提供与操作者自然交互的连续、精细的编辑模式，例如将一张略带微笑的脸编辑成一张大笑的脸。

在这项研究工作中，科研人员提出了Talk to Edit，一个交互式面部编辑框架，通过操作者与机器之间的对话就能进行非常精细的操作和编辑。

研究的关键是在潜在空间中建立一个连续的“语义场”模型。1、与以往将编辑视为穿越潜在空间中的直线的工作不同，这里的细粒度编辑实际上是一条细粒度属性的曲线轨迹。2、每个步骤里面的曲率是基于位置因素的，并且由图像和用户的语言请求决定。3、研究体系的系统会根据用户请求和语义场状态来生成反馈，这样有助于用户体验操作的对话。

科研人员还提供了Celeb ADialog，一个可视化语言面部编辑数据集，以促进大规模研究。具体来说，每个图像都有手动注释的细粒度属性注释以及自然语言中基于模板的文本描述。大量的定量和定性实验证明了此项研究的框架在以下方面的优越性：1、细粒度编辑的平滑性;2、身份/属性保留;3、视觉真实感和对话流畅性。值得注意的是，用户研究验证了整个系统始终受到大约80%参与者的青睐。

面部编辑的目标是使用户能够以自己想要的方式操作面部图像。由于GANs等深层生成模型的进步，近年来面部编辑得到了快速发展，尤其在图像的保真度上面。

虽然有人幾次尝试过提高面部编辑质量，但通常缺乏与用户的交互，或者要求用户需要按一些固定的控制模式进行操作。例如，图像到图像的转换模型只在几个离散和固定状态之间转换人脸图像，用户无法对系统进行任何主观控制。

其他人脸编辑方法为用户提供一些控制，例如，表示图像布局的语义图，显示目标样式的参考图像，以及描述所需效果的句子。然而，用户必须遵循固定模式，这对大多数用户来说要求太高且不灵活。此外，系统提供的唯一反馈是编辑后的图像本身。

为了学习语意和编辑对话框，研究人员提供了叫做CelebA-dialog的可视化语言的数据集。与以前不同的是，研究采用细粒度的属性标签对图像进行注释。

这项研究的主要贡献是：1、研究建议通过对话执行细粒度的面部编辑，这是一种更方便用户交互的方式。2、实现更连续和细粒度的面部编辑，研究建议对特定于位置的语义场进行建模。3、与其他对等部分相比，研究实现了更好的身份保留和更平滑的更改。4、研究提供了一个大规模可视化语言数据集CelebA对话框，其中包含细粒度的属性标签和文本描述。

此项研究提出了一个基于对话的细粒度人脸编辑系统Talk-to-Edit。用户的语言请求驱动所需的人脸编辑，该系统能够向用户提供反馈，使人脸编辑更具可行性。研究提出的方法能够提供更连续和细粒度的编辑结果。

研究还提供了一个名为CelebA Dialog的大规模视觉语言人脸属性数据集，科研人员相信这将有助于细粒度和语言驱动的人脸编辑任务。在未来的工作中，通过结合反转方法和更强的身份保持正则化，可以进一步提高真实人脸图像编辑的性能。研究人员还希望通过利用高级预训练语言模型来处理更复杂的文本请求。