深度伪造生成和检测技术综述

2022-03-23张煜之王锐芳赵坤园刘梦琪

信息安全研究 2022年3期

张煜之王锐芳朱亮赵坤园刘梦琪

(郑州轻工业大学计算机与通信工程学院郑州 450001) (2301747676@qq.com)

深度伪造作为近年来兴起的一种能够高度逼真地模拟和伪造音视频内容的人工智能技术，对人们的生活产生了巨大影响.该技术以自动编码和生成对抗网络模型为基础，通过学习海量数据来模拟伪造语音、笔迹以及影视图像等，并能够起到以假乱真的效果.由于深度伪造的广泛适用性和模型框架的开源性，越来越多的应用被开发出来，如Faceswap和ZAO等，为人们的生活带来很多有趣的体验；深度伪造技术也被用于影视行业，如还原历史场景、渲染科幻镜头等.此外，还被用于医疗领域中的合成医学影像、辅助医疗诊断等.

然而，并非所有用户都会将其应用于积极正面的方向.恶意用户利用深度伪造制造和传播虚假信息，攻击个人、报复社会，甚至引发政治争端，这给网络安全领域带来了严峻挑战.针对这些恶意深度伪造应用行为，必须给出相应的处理和对策.如果每种出现或者即将可能出现的深度伪造生成方法都能够被检测出来，那么就可以及时给出应对措施，以减少恶意深度伪造应用所造成的损失.本文对现有深度伪造的生成和检测技术进行归纳和总结，并对未来研究方向进行预测，以实现对恶意深度伪造攻击的检测和防御.

1 深度伪造概述

1.1 深度伪造的概念

深度伪造是利用深度学习算法实现音视频的模拟和伪造，包括将目标图片或视频合并叠加到源图片或视频上，将个人声音、面部表情及身体动作拼接合成为虚假内容的人工智能技术.

1.2 深度伪造的分类

目前对于深度伪造的分类方法有多种，比较权威的有3种.Mirsky等人[1]将s和t作为源身份和目标身份，用xs和xt表示这些身份的图像，用xg表示由s和t生成的深度伪造.利用s,t,xs,xt和xg的关系把深度伪造分为以下3类：一是再现.指用xs来驱动xt的表情、嘴巴、眼神、姿态或身体.二是替换.指将xt的内容替换为xs的内容，并保留s的身份.三是编辑和合成.编辑是指xt的片段被添加、修改或移除，包括改变xt的衣服、面部毛发、年龄、体重、相貌和种族；合成是指在没有xt的情况下创建xg，包括人脸和身体的合成技术.

Xu等人[2]把深度伪造大致分为4类：一是整张脸合成，在网络中输入随机向量，输出高质量的伪造人脸图像，即生成不存在的人脸图像；二是属性操纵，也被称为面部编辑，不仅可以修改简单的面部属性，如头发颜色、是否光头、是否微笑，还可以修改复杂的属性，如性别、年龄等；三是身份互换，即将目标图像中的人脸替换为源图像中的人脸；四是表情互换，也被称为面部再现，即将目标图像中的面部表情替换为源图像中的面部表情.

Masood等人[3]把深度伪造分为视频深度伪造和音频深度伪造2大类.视频深度伪造包括换脸、对嘴型、木偶大师、人脸合成和属性操纵；音频深度伪造包括文本-语音合成和语音转换.

本文在对以上3种分类方法进行了仔细分析和比较后，认为Masood等人的分类方法更为全面和合理.因此，本文参照Masood等人的分类方法对深度伪造技术进行详细介绍.

1.3 深度伪造的特点

1) 算法自动生成，制作成本和门槛较低.

深度伪造技术的核心是深度学习算法，具有自动生成目标图形图像的特性.深度伪造产品主要是由代码组成的软件，算法突破后本身的制作成本非常低，且一旦做出来就可以几乎以零成本扩散.例如，网上出现的可供下载的Faceswap等换脸软件，只需要按照软件提示输入图片或视频就可以快速实现人脸替换.

2) 产品逼真多元，识别难度大.

深度伪造产品包括人脸替换、人脸合成、表情互换等，种类繁多且生成内容逼真难以甄别.起初，深度伪造产品可以通过五官或眨眼频率等特征分辨出来，随着深度伪造生成算法的不断改进和优化，产品的逼真程度得到极大提升，识别难度越来越大.

3) 与社交媒体结合，传播速度快.

近年来，随着互联网的应用和普及，QQ、微信、微博、推特等社交媒体应运而生.利用深度伪造技术生成的音视频内容很容易与这些社交媒体结合，以发消息、音视频电话、朋友圈的方式迅速传播，从而吸引越来越多的访问者，增加了浏览量，引发涟漪效应进行了更大规模的扩散.

1.4 深度伪造的应用

1) 正向应用

在教育领域，利用深度伪造技术合成的虚拟教师可以让课堂变得更加具有互动性和趣味性，合成的历史人物讲解视频能够让人有身临其境的代入感.在娱乐领域，深度伪造技术可以增强电影的视觉效果，做出令人难以置信而又真实华丽的特效.此外还有在艺术、社交、医疗等领域的正向应用.

2) 风险应用

对于个人而言，不法分子利用深度伪造技术生成受害者熟悉的音视频内容，实施报复或诈骗等违法行为，并引发人与人之间的信任危机.对于社会而言，别有用心的人借助深度伪造技术散布虚假信息，激化社会矛盾，进而引发社会危机.对于国家而言，有些人利用深度伪造技术让他人发表不正当言论、做出不正当行为，煽动民众进行暴力或恐怖行为，危害国家政治安全；有些人利用深度伪造技术干扰或入侵竞争和敌对国家的情报机构，威胁国家网络安全.

2 深度伪造生成技术

2.1 深度伪造生成工具

当前,深度伪造常用工具主要有生成对抗网络(generative adversarial network, GAN)，卷积神经网络(convolutional neural network, CNN)，循环神经网络(recurrent neural network, RNN)和编码器-解码器(Encoder-Decoder).

GAN是一种通过生成模型和判别模型互相博弈的方法来学习数据分布的生成式网络.生成模型是给定某种隐含信息来随机产生观测数据.例如，给定一系列猫的图片，生成一张新的猫咪(不在数据集里).判别模型需要输入变量，通过某种模型来预测变量真伪.例如，给定一张动物图片，判断这张图里的动物是猫还是狗.生成模型和判别模型通过对抗式训练提升各自能力,最理想的状态是生成模型能够生成足以以假乱真的数据样本,判别模型对其真伪难以判别,即判断正确的概率只有50%.

CNN是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一.CNN具有表征学习能力，能够按照自身结构对输入信息进行平移不变分类，因此也被称为平移不变人工神经网络.CNN仿造生物的视知觉机制构建，可以进行监督学习和非监督学习.

RNN是一类以序列数据为输入、在序列的演进方向进行递归，且所有节点(循环单元)按链式进行连接的递归神经网络.RNN由输入层、隐藏层和输出层组成，具有记忆性和参数共享的特点，因此对序列的非线性特征进行学习时具备一定优势.双向循环神经网络和长短期记忆网络是常见的RNN.

编码器(Encoder)是将信号(如比特流)或数据编制、转换为可用以通信、传输和存储的信号形式的设备；解码器(Decoder)是一种能将数字视音频数据流解码还原成模拟视音频信号的硬件/软件设备.

2.2 视频深度伪造

本文参考文献[3]将现有的视频深度伪造分为5类：换脸、对嘴型、木偶大师、人脸合成和属性操纵.对应的生成技术如图1所示.

2.2.1 换脸

换脸也被称为人脸替换，是指将某个人(源对象)的脸部图像利用GAN或者CNN等算法“嫁接”到另外一个人(目标对象)的脸上，从而覆盖目标对象的面部.由于视频是由连续的图片组成，因此只需要把每张图片中的人脸替换就能得到变脸的新视频.具体而言，首先将目标对象的视频逐帧转化成大量图片，然后逐个图片将目标对象面部替换成源对象面部，最后将替换完成的图片重新合成为假视频.深度学习技术可以使这一过程实现自动化.

人脸替换深度伪造的经典方法介绍如下：

图1 视频深度伪造生成技术

1) 基于Encoder-Decoder的技术.方法如Faceswap[4]，该方法通常使用2对编码器-解码器.首先，用一个编码器从源图像提取面部特征，用一个解码器重建其面部表情；然后，用另一个编码器从目标图像提取面部特征，用另一个解码器重建其面部表情；最后，交换源图像和目标图像的解码器，利用源图像的编码器所提取的面部特征和目标图像的解码器所重建的面部表情重新生成带有源图像面部特征的目标图像.新生成的目标图像是源图像的脸，同时保持目标图像的面部表情.该方法的局限性表现在：第一，因是有损压缩，导致结果模糊；第二，缺乏姿势、面部表情、眼神凝视方向、发型和灯光；第三，需要大量的非目标图像.

2) 基于GAN的技术.方法如Faceswap-GAN[5]，FSNet[6]，RSGAN[7]和FaceShifter[8].Faceswap-GAN的原理为：在训练阶段，对A(源图像)编码，再通过对A解码还原.对B(目标图像)编码，再通过对B解码还原.由于编码是提取脸部的共性特征，解码是还原脸部的个性特征，因此A和B使用同一个编码器，使用不同的解码器.在测试阶段，B通过编码后，由A的解码器还原，结果就是B看起来像A，实现了换脸操作.FSNet是一种基于图像的人脸替换深度生成模型.用一个由深度神经网络分配的潜在变量来表示人脸区域，用人脸区域的潜在变量和非人脸区域的其他图像合成人脸交换图像.RSGAN是一种区域分离生成对抗网络，该网络在潜在空间独立处理人脸特征，通过替换潜在空间的人脸特征实现人脸交换，即用所替换的人脸特征重建整个人脸图像.FaceShifter是一种两阶段人脸交换算法，用于高保真度和遮挡感知的人脸交换.现有的人脸交换算法在合成交换人脸时只利用目标图像中的有限信息，FaceShifter则通过彻底地、自适应地利用和集成目标属性来生成高保真度的交换人脸.

3) 基于CNN的技术.方法如Fast Face-swap[9]，该方法使用经过训练的卷积神经网络从目标身份的非结构化照片集合中捕捉其外观,在保持输入身份姿势、面部表情和光照的同时，将输入身份脸部转换为目标身份脸部.Fast Face-swap能够产生高度逼真的结果，并能够通过将神经网络与简单的预处理和后处理步骤相结合，在不需要用户输入的情况下实现人脸交换的实时工作.

2.2.2 对嘴型

对嘴型也被称为嘴唇同步，即合成一个目标身份的视频，使视频中的嘴型与任意音频输入一致.在对嘴型的深度伪造中，人工智能算法提取一个人讲话的视频,并更改视频中的唇部运动以匹配新音频的语音,其中新音频可能是对这个人断章取义的旧语音、模拟者的说话或合成语音.为了更有效、自然地传达信息，在传达表情的同时产生适当的唇部运动也是很重要的.例如，在电影或游戏中制作音频驱动的逼真数字角色、语音机器人.此外，通过对嘴型唇读使用真实音频创建的视频还可以帮助听力受损者理解场景.

嘴唇同步深度伪造的经典方法如LipGAN[10].该方法基于GAN的技术，能够自动将一个人用A语言说话的视频转换成目标语言B，并实现嘴唇的同步.首先，将现有的语音和大脑中用于语言理解和产生的语言模块(一个假想区域)整合在一起，构建一个有效的语音到语音翻译系统.然后，通过整合一个视觉模块LipGAN来实现“面对面翻译”，该模块用于从翻译后的音频中生成真实的谈话面孔.该方法可以显著改善用户在使用多模式内容和跨语言交互方面的整体体验.

2.2.3 木偶大师

木偶大师也被称为人脸再现，即利用深度合成技术改变人的面部特征，包括目标对象的嘴部、眉毛、眼睛和头部的倾斜，从而操纵目标对象的脸部表情，可形象比喻为“主人与木偶”的关系.人脸再现有各种应用，如在电影后期制作中为演员配音或编辑他们的面部表情，或为电影和游戏创建逼真的动画等.

人脸再现深度伪造的经典方法介绍如下：

1) 基于GAN的技术.方法如ReenactGAN[11]和ICface[12].ReenactGAN能够将面部动作和表情从任意一个源人物的视频传输到目标人物的视频中.首先，将源人物的脸部映射到边界潜在空间；然后，使用变压器使源人物的脸部边界适应目标边界；最后，利用目标人物的解码器生成再现目标人脸.该方法能够有效、可靠地实现基于边界的人脸迁移，可以实现逼真的人脸再现.ICface是一个通用的人脸动画器，可以控制给定人脸图像的姿态和表情.该人脸动画器为一个两阶段的神经网络模型，模型通过使用一个大的视频集合以自我监督的方式学习.

2) 基于RNN的技术.方法如FSGAN[13]，该方法可用于成对的人脸，且不需要对这些人脸进行训练.FSGAN是一种基于RNN的人脸再现方法，它能够调整人的脸部姿势和面部表情的变化，可用于单个图像或视频序列.对于视频序列，引入了基于再现、Delaunay三角剖分和重心坐标的人脸视图的连续插值.该方法还使用了一个面部混合网络，可以在保持目标皮肤颜色和光照条件的同时，对2个面部进行无缝混合.面部混合网络采用了一种将泊松优化与感知损耗相结合的泊松混合损耗.

2.2.4 人脸合成

人脸合成可以创建全新的人脸图像，涉及现实生活中可能存在也可能不存在的人脸.这些随机生成的人脸图像很多可以媲美真实的人脸图像，甚至代替一些真实肖像的使用，如广告宣传、用户头像等.人脸合成已得到了广泛的应用，如电子游戏的自动角色创建和3D人脸建模行业.基于人工智能的人脸合成也可能用于恶意目的，如合成社交网络账户身份的虚假图像来传播虚假信息.

人脸合成深度伪造的经典方法如PGGAN[14]，CoGAN[15]和StackGAN[16]，这些方法基于GAN技术.PGGAN是一种生成对抗网络训练方法，其关键思想是在模型训练过程中逐步增加生成器和鉴别器的图像分辨率，从低分辨率开始逐渐添加新的图层来逐步细化训练模型.该方法使训练速度和稳定性都得到了极大提高，产生了较高的图像质量.CoGAN是一种耦合生成对抗网络框架，用于在2个不同的域生成相对应的图像.CoGAN从2个域的边缘分布中分别提取图像，学习2个域的图像的联合分布.StackGAN是一种堆叠生成对抗网络，在生成基于文本描述的照片真实感图像方面取得了显著进步.在该方法的第1阶段，GAN根据给定的文字描述绘制物体的原始形状和颜色，生成第1阶段低分辨率图像；在第2阶段，GAN以第1阶段的结果和文字描述为输入，生成具有逼真细节的高分辨率图像，这一阶段能够纠正第1阶段结果中的缺陷，并在细化过程中添加引人注目的细节.

2.2.5 属性操纵

属性操纵是指通过修改属性特定区域，同时保持不相关区域不变，改变现有样本的面部外观.属性操纵包括摘下/佩戴眼镜，改变视角，皮肤润色(如平滑皮肤、去除疤痕、尽量减少皱纹)和一些更高层次的修改，如年龄和性别等.越来越多的人使用商业上基于人工智能的人脸编辑应用程序，如FaceApp，来自动改变输入图像的外观.

属性操纵深度伪造的经典方法如StarGAN[17]，AttGAN[18]和STGAN[19]，这些方法基于GAN技术.StarGAN能够学习不同视觉域之间的映射，同时满足生成图像的多样性和跨多个域的可扩展性的特性，在视觉质量、多样性和可扩展方面具有显著优势.AttGAN是一个高质量面部属性编辑框架，对生成图像应用属性分类约束，以保证所需属性的正确修改.该方法还被扩展到无监督的属性样式操作.该方法在保留面部细节的条件下，在逼真属性编辑方面优于目前的其他方法.STGAN考虑到特定的编辑任务，只涉及修改的属性而不是所有的目标属性，选择性地将目标和源属性向量的差异作为输入.此外，该方法自适应地选择和修改编码器特性，以增强属性编辑，提高了属性操作的准确性和感知质量，在任意人脸属性编辑方面优于目前的技术水平.

2.3 音频深度伪造

音频深度伪造可以克隆一个人的声音，也可以创造出这个人从未发出过的声音.基于语音合成和语音克隆的人工智能合成语音算法的最新进展显示，合成语音几乎与真实语音难以区别.合成语音被广泛用于不同应用程序的开发，如电视和电影的自动配音、聊天机器人、人工智能助手、文本阅读器，以及语音残疾人的个性化合成声音.然而，语音合成已成为语音生物识别系统的严重威胁.语音合成被用于各种恶意目的，如政治需求、假新闻和诈骗等.现有的音频深度伪造主要分为2类：文本-语音合成和语音转换.对应的生成技术如图2所示：

图2 音频深度伪造生成技术

2.3.1 文本-语音合成

文本-语音合成(TTS)可以从给定的输入文本合成自然声音，以便更好地人机交互.最初文本-语音合成技术采用语音连接或参数估计的方法.语音连接是将高质量的记录语音先分离成小的片段，再连接成一个新的语音.近年来，这种方法的不可扩展和不一致使其变得不受欢迎.参数估计是将文本映射到语音的显著参数上，使用声码器将它们转换为音频信号.随着深度神经网络的发展，深度神经网络的部署逐渐成为语音合成的主要方法，且取得了更好的语音质量.

文本-语音合成深度伪造经典方法介绍如下，它们都基于Encoder-Decoder技术.DeepVoice3[20]是一个基于全卷积注意力的神经文本-语音系统，训练速度很快，且合成语音有较高的语音自然度.Tacotron2[21]是一种端到端的语音合成方法，直接将原始文本转换为语音.在英语语音自然度方面，Tacotron2的表现优于经典管道系统，但对于日语语音合成，该方法还面临着巨大挑战.Arik等人[22]介绍了一种以少量音频样本为输入的神经网络语音克隆系统，研究了2种方法：说话人自适应和说话人编码.说话人自适应是利用少量克隆样本对多说话人生成模型进行微调.说话人编码是训练一个单独的模型，从克隆音频中直接推断是否嵌入了一个新的说话人音频，并与多说话人生成模型一起使用.在语音的自然性和与原说话人的相似性方面，2种方法都取得了良好的效果.Jia等人[23]描述了一个基于神经网络的文本-语音合成系统，能够生成不同说话人的语音音频，包括在训练中看不到的音频.系统由3个独立训练的组件组成：说话人编码网络，使用一个包含数千个没有文字记录的从说话人提取的噪声语音的独立数据集进行训练，生成一个固定维的嵌入向量；基于Tacotron2的序列到序列合成网络，以扬声器嵌入为条件，从文本生成mel谱图；基于WaveNet的自回归声码器，将mel谱图转换为时域波形样本序列.Cong等人[24]研究了基于序列到序列的TTS范式下噪声样本的数据高效克隆问题，将域对抗训练引入说话人自适应和说话人编码中，旨在从噪声语音中分离出噪声.无论是说话人自适应还是说话人编码，该方法都能从带噪声的说话人样本中连续合成出干净的语音，明显优于采用语音增强模块的方法.

2.3.2 语音转换

语音转换(VC)是一种从源语音到目标语音的合成技术，在源语音的语言内容保持不变的情况下，操纵源语音使其听起来符合目标语音的身份.语音转换系统将源说话人的音频录制文件作为源语音，创建目标说话人的深度伪造音频.它保留了源语音的语言特征和语音特征，并强调了自然性和与目标说话人的相似性.语音转换在现实生活中有多种应用，如表达性语音合成、个性化语音辅助、语音受损者辅助、娱乐行业配音等.

语音转换深度伪造的经典方法介绍如下：

1) 基于RNN的技术.Sun等人[25]提出一种基于序列的转换方法，使用基于深度双向长短时记忆的递归神经网络(DBLSTM-RNNs)建模源语音和目标语音之间的帧关联以及声音轨迹中的远程上下文依赖，提高语音转换中语音输出的自然性和连续性.

2) 基于GAN的技术.方法如CycleGAN-VC2[26]，StarGAN-VC[27]和DeepConversion[28].CycleGAN-VC2是CycleGAN-VC的改进版本，包含3种新技术：改进的目标语音、改进的生成器和改进的鉴别器.CycleGAN-VC2能够使转换后的语音特征序列在全局和局部结构方面更接近目标语音，在语音自然度和相似度方面优于CycleGAN-VC，包括同性别和不同性别间的语音转换.StarGAN-VC是一种基于StarGAN的非并行多对多语音转换方法.该方法使用单个生成器网络同时学习跨不同属性域的多对多映射，能够以足够快的速度生成转换后的语音信号，以允许实时实现，并获得了更高的音质和相似度.DeepConversion是一种深度神经网络语音转换方法，利用了大量的非并行多说话人数据，但只需要少量的并行训练数据.该模型可以在有限的并行训练数据中更有效地学习源语音和目标语音之间的映射关系.

3 深度伪造检测技术

3.1 视频深度伪造检测

本文将现有的视频深度伪造检测技术分为4类：基于图像取证的检测、基于数据驱动的检测、基于生物信号的检测和基于频率的检测.

3.1.1 基于图像取证的检测

Li等人[29]研究了深度网络生成(DNG)图像的识别问题.在考虑摄像机成像与DNG图像生成差异的基础上，分析了DNG图像与真实图像在不同颜色分量下的差异，提出了一个特征集来捕获彩色图像统计信息以识别DNG图像.该方法在训练数据和测试数据不匹配的情况下，能够准确识别DNG图像.此外，在GAN模型未知的情况下，仅使用真实图像进行训练，该方法在一类分类中也取得了良好的性能.Liu等人[30]提出一种深度融合神经网络(Fusion-Net)，通过跟踪篡改区域的边界来定位篡改区域.首先训练一组称为Base-Net的深度卷积神经网络，分别对特定类型的剪接伪造进行响应；然后对这些网络的若干层进行选择和组合，形成Fusion-Net.经过少量图片的微调后，Fusion-Net能够辨别出一个图像块是否来自不同图像块的合成.Zhou等人[31]提出基于双流的Faster R-CNN网络，并训练该网络端到端地检测篡改区域给定的操纵图像.RGB流从RGB图像输入中提取特征，以发现篡改的痕迹，如对比度差异、非自然的篡改边界等.噪声流通过从一个隐写分析的富模型滤波器层提取的噪声特征来发现真实区域和被篡改区域之间的噪声不一致，通过双线性池层融合2个流的特征实现图像篡改区域的深度伪造检测.与其他方法相比，该方法在图像大小调整和压缩方面具有更强的鲁棒性.

3.1.2 基于数据驱动的检测

Durall等人[32]提出一种简单的方法来检测深度伪造人脸图像.该方法基于经典的频域分析，仅使用少量标注的训练样本就显示出很好的结果，在完全无监督的场景中也达到了很好的准确性.Dang等人[33]提出一种利用注意机制来处理和改进图像检测和任务分类的方法，而不是简单地使用多任务学习来同时检测被操纵的图像和预测被操纵的掩模.学习后的基于注意机制的图像突出了信息区域，进一步改进了二值(真人脸与伪造人脸)分类，并将处理后的区域可视化.注意机制的使用提高了面部伪造检测准确度和操纵区域定位精度.Bayar等人[34]提出一种卷积网络架构，能够直接从训练数据自动学习检测特征.该方法可以自动学习如何检测多个图像，而不依赖于预先选择的特征或任何预处理.Rahmouni等人[35]提出一种用于区分计算机生成图像和真实图像的深度学习方法.该方法使用带有自定义池化层的CNN来优化当前算法的特征提取方案，以预测整个图像的类别.

3.1.3 基于生物信号的检测

Li等人[36]提出一种基于深度神经网络模型的人脸视频检测方法.该方法基于视频中的眨眼进行检测，眨眼是一种在合成的伪造视频中表现不佳的生理信号.该方法在检测基于DNN的DeepFake软件生成的视频时表现出很好的性能.Yang等人[37]提出一种方法来检测人工智能生成的伪造人脸图像或视频.该方法基于以下原理：将合成的面部区域拼接到原始图像中创建深度伪造，并在此过程中引入误差，当从面部图像估计3D头部姿势时，这些误差就会暴露出来.DeepFakesON-Phys[38]是一种基于生物信号的深度伪造检测框架，该框架使用一个卷积注意力网络(CAN)，从视频帧中提取空间和时间信息，分析并结合这些信息，以更好地检测伪视频.

3.1.4 基于频率的检测

Qian等人[39]提出一种基于频率的人脸伪造网络，利用2种不同但互补的频率感知线索(频率感知的分解图像分量和局部频率统计量),通过双流协作学习框架深入挖掘伪造模式，采用双离合变速箱(DCT)进行频域变换.Chen等人[40]提出根据混合特征映射的频率进行分解，并设计了一种八度卷积(OctConv)操作来存储和处理在较低空间分辨率下空间变化“缓慢”的特征映射.与现有的多尺度方法不同，OctConv被定义为一个单一通用的即插即用卷积单元，可以直接替代普通的卷积，而无须在网络架构中进行任何调整.通过简单地用OctConv替换卷积，可以持续提高图像和视频识别的准确性，同时减少内存和计算成本.

3.2 音频深度伪造检测

随着音频深度伪造技术的发展，人工智能合成的伪造语音在人耳中越来越难以分辨，对社会构成了巨大威胁.然而，现有的工作还未能完全解决合成语音检测问题.本节总结和回顾了目前所提出的一些经典的音频深度伪造检测方法.

Zhang等人[41]提出一种基于变压器编码器残差网络(TE-ResNet)的有效伪造语音检测方案.首先，考虑语音信号的帧间相关性，利用变压器编码器提取语音特征的上下文表示.然后，利用残差网络对深度特征进行处理，计算语音伪造的分数.为了增加训练数据的数量，对训练数据集应用5种语音数据增强技术.最后，通过逻辑回归将不同伪造语音检测模型在得分水平上进行融合，以弥补各单一模型的不足.Huang等人[42]提出一种基于注意增强的DenseNet-BiLSTM网络和基于分段的线性滤波器组特征的新模型.首先，利用短期过零率从每个语音信号中选取静默段，如果静默段的总持续时间只包含非常有限的数据量，则选择语音信号衰减的尾部；其次，从选定的片段中提取相对高频域的线性滤波器组特征；最后，建立一种基于注意增强的DenseNet-BiLSTM结构，避免过拟合问题.Zhang等人[43]提出一种抗欺骗系统来检测未知的合成语音(即文本-语音合成或语音转换)欺骗攻击.该方法的关键是压缩真实语音表示，并在嵌入空间中注入一个角边界来分离欺骗攻击.Wang等人[44]设计了一种基于说话人识别系统(SR)神经元行为监测的深度神经网络(DNN)，用于识别人工合成的假声.该网络利用分层神经元激活模式，推测捕捉的真实声音和人工智能合成声音之间的细微差别，为分类器提供比原始输入语音更清晰的信号.

4 深度伪造数据集

4.1 视频深度伪造数据集

1) UADFV[45]：该数据集共有98个视频，包含49个从YouTube收集的真实视频和49个由FakeApp[46]生成的深度伪造视频.

2) FaceForensics++(FF++)[47]：该数据集包含Deep-Fakes，Face2Face，FaceSwap和NeuralTextures这4个子集，其中包含从YouTube-8M收集的1 000个原始视频和使用文献[48]中指定的计算机图形技术和深度伪造方法生成的3 000个操纵视频.

3) DeepFake-TIMIT[49]：该数据集通过Faceswap-GAN方法生成，共包含32个个体的620个视频.DeepFake-TIMIT被分为2个大小相等的子集：DeepFake-TIMIT-LQ和DeepFake-TIMIT-HQ.在DeepFake-TIMIT-LQ中，输出图像的分辨率为64×64；在DeepFake-TIMIT-HQ中，输出图像的分辨率为128×128.

4) Celeb-DF[50]：该数据集提供了408个来自YouTube的不同性别、年龄和种族的个体的高质量原始视频以及795个伪造视频.

5) Deepfake Detection Challenge(DFDC)[51]：该数据集包含约1.9万个原始视频和约10万个深度伪造视频.

6) DeeperForensics-1.0(DF)[52]：一个人脸深度伪造检测数据集，包含6万个视频.该数据集中的伪造视频由一个端到端人脸交换框架生成，生成的视频质量优于其他现有数据集.

4.2 音频深度伪造数据集

1) ASVspoof 2019[53]：该数据集由执行逻辑访问(LA)和物理访问(PA)2部分组成.LA由语音克隆和语音转换样本组成，PA由重放样本和真实样本组成.2个数据集包含3个数据库，分别为训练、发展和评估，分别包含8名男性、12名女性，4名男性、6名女性和21名男性、27名女性的语音片段.

2) Baidu克隆音频数据集[54]：该数据集包含10个真实音频样本和124个伪造音频样本(包含120个克隆样本和4个变形样本).

5 未来研究方向

5.1 深度伪造生成

1) 建立多样化的深度伪造数据集.

深度伪造生成模型是由数据驱动的，模型输出反映了其在训练过程中学习到的特征.生成高质量的深度伪造音视频需要大量的训练数据.然而，目前深度伪造数据集只追求大规模，大多数数据集只关注个体的性别、年龄以及人脸照片拍摄地点、光照条件、姿势变化和距离相机的远近等因素，忽略了分辨率、压缩度或视频中常见的其他退化因素.此外，生成深度伪造数据集的方法也是有限的，当需要在输出中反映不同生成方法的多样性时，就会体现出当前深度伪造数据集的缺陷.

2) 考虑时间的相干性.

现有方法生成的深度伪造视频往往存在明显的伪影，如帧之间的闪烁和抖动，主要是因为深度伪造生成框架是在每个帧上工作的，没有考虑时间的一致性和连续性.例如，人脸替换未考虑眨眼频率、心跳频率等生理信号.为了解决这一问题，研究人员通过对生成器或鉴别器提供连续性内容来考虑时间相干性；也有研究人员使用RNN方法来考虑时间相干性，或者结合这2种方法.

3) 生成更符合常识的深度伪造音视频.

对于视频深度伪造来说，大部分的伪造内容反映在图像纹理上.然而，伪造数据集通常包含一些非常识性的数据，如非正常人的相貌或体态特征等，现有的视频深度伪造检测方法可能缺乏对这些基本常识的正确判断.音频深度伪造所面临的主要挑战是自然情绪、停顿、呼吸节奏和目标人说话的速度.

5.2 深度伪造检测

1) 提高深度伪造数据集的质量.

提高对深度伪造数据集的可访问性是提高深度伪造检测技术的一个重要因素.然而，与互联网上出现的实际深度伪造内容相比，现有深度伪造数据集中的视频质量存在一些缺陷，如视频中面部周围区域是否清楚、面部纹理是否平滑、缺乏头部运动(如摇头或转头)的视频、缺乏带有面部遮挡(如眼镜)的视频、对视频不同姿势或肤色所产生的不同效果的敏感度不足等.上述问题是由深度伪造生成步骤的不完善所导致的.未来研究要解决上述深度伪造所面临的缺陷，提高深度伪造数据集的质量，以更好地进行深度伪造检测.

2) 建立一个全面的评估指标.

目前，深度伪造检测方法被表述为一个二元分类问题，即样本要么是真实的，要么是假的.这种分类更容易在一个受控的环境中构建，利用原始的或人工制作的视听内容来验证深度伪造检测技术.然而，现实场景中的视频可以用深度伪造以外的方式进行修改，因此没有检测到被操纵的内容并不能保证视频是原创的.深度伪造的内容也可能是多种类型的改变，即音频和视频，因此一个单一的标签可能是不完全准确的.此外，在带有多个面孔的视频中，通常会有1个或多个面孔在一段帧上被深度伪造所操纵.因此，二元分类方案应该增强到框架级的多类/多标签检测或局部分类/检测.深度伪造检测器的性能好坏取决于深度伪造的质量高低，低质量的深度伪造几乎可以被所有深度伪造检测器识别出来，具有挑战性的高质量的深度伪造(如celeb-df,DFDC)很难通过检测器来识别.现有的研究仅通过检测精度和假警报来报告实验结果，忽略了与深度伪造质量的关系.未来应考虑深度伪造的质量，考虑更全面的实验结果.因此，研究人员需要提出衡量深度伪造质量的新指标.

3) 深度伪造检测规避.

随着深度伪造检测技术的发展，研究人员开始关注如何设计规避被检测人脸的方法.这种规避方法能够通过开发更先进的对抗性攻击方法，从而研究设计新的深度伪造检测器来实现.具体来说，给定一张虚假的人脸，将其映射为一张崭新的无法被当前深度伪造检测器正确分类的人脸，从而隐藏虚假人脸不被发现，以此来规避被检测的人脸.上述方法给深度伪造检测带来严峻挑战，未来研究人员需要提出对此类攻击具有鲁棒性和可靠性的深度伪造检测技术.