论“深度伪造”智能技术的一体化规制

2020-01-09王禄生

东方法学 2019年6期

王禄生

2019年3月，技术人员利用“深度伪造”〔1〕“Deepfake”最初只是在互联网上传播“换脸视频”作者的一个代号。在其后的发展传播中逐步被作为此类技术的代号。技术“换脸”明星杨幂的事件在舆论上引起热议。与部分粉丝称赞技术“逆天”“毫无违和感”形成鲜明对比的是，被“换脸”的杨幂本人的回应却显得颇为低调和耐人寻味。尽管视频制作者第一时间宣称“主要用于技术交流，并无营利行为”，然而，该技术运用仍然引发各界对侵权甚至是在色情视频中使用的担忧。就在各界围绕上述问题展开热烈讨论方兴未艾之际，一款叫作ZAO的AI换脸软件于同年8月底发布并迅速席卷了中国的网络。实际上，“深度伪造”技术最初名声大噪于2017年11月。当时，利用技术换脸明星生产的多部色情视频在美国“红迪网”上传播并引发各界关注。〔2〕据不完全统计，艾玛·沃特森（Emma Watson）、娜塔莉·波特曼（Natalie Portman）、加尔·加多（Gal Gadot）、米歇尔·奥巴马（Michelle Obama）、伊万卡·特朗普（Ivanka Trump）和凯特·米德尔顿（Kate Middleton）都是“深度伪造”技术的受害者。2018年1月，使用“深度伪造”技术的应用程序正式上线，普通公众在没有深厚技术背景的情况下也可以尝试“换脸”，这进一步加剧了“换脸视频”的传播。“换脸”的对象也迅速由明星、政客扩展到朋友、同学、同事。由于“换脸视频”的迅速传播，“红迪网”关闭了有关“深度伪造”技术的讨论板块。据称该版块注册用户已超过10万人。其后，聊天应用程序Discord也明确禁止相关视频传播。〔3〕See Kevin Roose,Here Come the Fake Videos,Too,THE NEW YORK TIMES （Mar.4,2018）,https://www.nytimes.com/2018/03/04/technology/fake-videos-deepfakes.html.与之类似，出道即巅峰的ZAO也在上线3天之后被微信屏蔽防问。伴随“换脸视频”传播的加剧的是对“深度伪造”技术是否以及如何规制的激烈讨论。在此背景下，系统地梳理该技术的技术逻辑、技术特征、应用风险以及规制方式就成为学术界迫切需要回应的问题。

笔者将从技术逻辑切入，阐述“深度伪造”技术特征及应用风险，分析现有技术规制和法律规制无法有效回应的根本原因，并从平台责任、作者义务和信息素养三个方面构建新的一体化规制体系，力图最终驯服技术的“巨魔”，将其限制在合理使用的范围之内。本文探讨的内容不仅适用于“深度伪造”技术及其实现的“换脸视频”，同样适用于未来具有高度真实性的音频、图片、视频的系列处理技术。

一、“深度伪造”的技术逻辑

众所周知，现阶段主流的“换脸视频”是通过“深度伪造”技术生成的。“深度伪造”是英文“深度学习”和“伪造”的合成词。它实质上是一种声音、图像与视频的智能处理技术，能够以极度逼真的方式模仿特定人物或者让特定人物看起来在做特定的事件，以至于未经过训练的观看者通常无法辨别其真伪。

如果抛开具体的称谓不谈，从技术逻辑来看，“深度伪造”依托的是“深度学习”技术，它是包括由相互联系节点组成的多层神经网络，可以根据输入的数据进行自动的计算并完成特定的任务。“深度伪造”的过程就是将图片、视频等数据“喂”给“换脸算法”，然后由算法在训练的基础上自动完成换脸操作。〔4〕See Samantha Cole,AI-Assisted Fake Porn Is Here and We're All Fucked,MOTHERBOARD （Dec.11,2017）,https://motherboard.vice.com/en_us/article/gydydm/gal-gadot-fake-ai-porn.详细而言，就是通过深度学习的算法，去识别目标人物（比如明星、政治家等）不同角度、姿态与表情的照片，然后不断训练从而自动生成伪造的图片，并将其覆盖到原有视频人物的脸部，形成“换脸视频”。其实质可以简单理解为从现有“源数据”（目标人物）中通过算法生成“新数据”（伪造视频）的过程。理论上，在足够训练数据和训练时间的基础上，“深度伪造”技术可以把任何人的脸“交换”成制作者想要的任何视频。

当然，能让“深度伪造”在短时间内名声大噪，依靠的并非一般意义的深度学习技术，而是采用了其中的一种名为“对抗生成网络”（简称为GAN）的模型。与传统深度学习技术单链条相比，GAN引入了“对抗”机制，由两组神经网络共同进行。其中一组神经网络的算法定位为“生成器”，它负责基于“源数据”创建目标图像模型，从而生成伪造的图像；另一组神经网络的定位为“鉴别器”，它负责基于真实的目标图像对“生成器”生成的伪造图像进行验证。每一种算法都在对另一种算法进行改进，从而加速训练的速度，进而生成高逼真度的虚假视频内容。可见，与传统深度学习单组神经网络相比，“对抗生成网络”类似于不断演变的猫鼠游戏，伪造者（生成器）与侦查者（鉴别器）之间不断通过“对抗”自我优化。通过这种“无监督学习”的模式，训练的数据越多，输出的效果就越好。对于名人、政治家，由于互联网上具备足够多的训练数据，这就导致“换脸视频”以假乱真。

为了更好地说明“换脸视频”的生成环节，笔者制作了技术示意图。如图1所示，“深度伪造”技术大致按照下列顺序实现“换脸视频”：第一，从互联网（通常是搜索引擎或社交平台）上获取给定目标人物（“源”）的视频、图像，从而形成供人工智能技术训练的数据集——“源数据”；第二，借助“对抗生成网络”算法中的“生成器”，通过神经网络的训练，生成伪造的视频、图像（“伪造数据”）；第三，“对抗生成网络”算法中的“鉴别器”将真实的目标数据与“生成器”生成的“伪造数据”进行比对；第四，当判定为“真”时，〔5〕此处的“真”并不是我们日常意义上理解的真实，而是将伪造数据与真实数据对比之后的相似度。如果“鉴别器”认定高度相似，则输出结果为1（true）；如果鉴别后认为不相似，则输出结果为0（false）。则可以作为下一步“换脸”的基础素材；当判定为“假”时，则返回优化“生成器”的算法；第五，选择合适的视频并将视频中原有人物的脸部图像替换成目标人物的脸部图像。具体而言，就是将视频分解成数百甚至数千帧，然后将通过“鉴别器”鉴别的伪造脸部图像（眉毛、嘴、鼻子和头部的位置及其动作）一帧一帧地映射到视频原有人物的脸部之上，从而完成“换脸视频”。最初“换脸视频”需要人工挑选合适的待替换视频，但随着技术的发展，已经可以通过目标人物的图像特征自主选择合适的视频。

图1 “深度伪造”技术GAN模型逻辑示意图

二、“深度伪造”的技术特征

视频、图片的技术化处理或伪造并非新鲜的事项。近年来，随着PS等技术的普及，对于图像的修饰与篡改已经成为常规现象。“深度伪造”之所以令人担忧，是因为它是高度真实性、泛在普适性与快速演化性的综合。“深度伪造”的上述技术特征将使得潜在造假群体和视频造假能力均呈现指数级跃升。

（一）高度真实性

与一般数字处理技术相比，“深度伪造”技术最为核心的特征就在于高度真实性，以至于极其难以被发觉。〔6〕See Robert Chesney,Danielle Citron,Deepfakes and the New Disinformation War:The Coming Age of Post-Truth Geopolitics,98 Foreign Aff.147,147—148（2019）.在“深度伪造”技术出现之前，伪造视频具有极高的可识别性。这是因为在很长一段时间内，对于图像、音频、视频的处理存在技术瓶颈，伪造的图像无法解决光线的细微变化，同时伪造视频在篡改语音时也往往无法准确捕捉差异化人群的节奏和音调。然而，这些瓶颈随着“深度伪造”技术的产生与发展，业已或正在或终将被攻克。前文在论及技术逻辑时已经强调，“深度伪造”技术是一种“无监督学习”，它通过“对抗生成网络”在自我优化中生成伪造的数据。对于这种技术逻辑，只要有足够的数据和运算速度，理论上生成模型会在“对抗”中持续自我迭代并不断优化伪造视频。那么一个显而易见的结果便是，“更大的数据、更好的算法和定制的硬件”将很快让这些虚假视频真实得可怕。〔7〕See Derek B.Johnson and Susan Miller,The Danger of “Deep Fakes”,GLOBAL CYCLING NETWORK （Jul.18,2018）,https://gcn.com/articles/2018/07/18/deep-fakes.aspx.普通人在未经过专业培训的基础之上，很难区分和发现。“杨幂换脸视频”就是一位AI技术爱好者将港版《射雕英雄传》（下称《射雕》）中“朱茵版”黄蓉的脸换成杨幂。有媒体评论道：“视频中，杨幂的五官与朱茵的表情几乎全部融合，难辨真假。”〔8〕刘津宁：《AI换脸技术暗藏法律风险》，《北京日报》2019年3月20日，第14版。此外，瑞士科学家尝试用最前沿的人脸识别系统去识别“换脸视频”，结果错误率高达95%。德国和意大利科学家的联合研究小组测试了1000段“换脸术”视频后发现，普通人必须通过特殊训练，才能鉴别真伪。〔9〕参见宣晶：《视频“换脸术”走近大众，引爆亿级流量后为何令人担忧》，《文汇报》2019年2月27日，第1版。

（二）泛在普适性

与传统的人工智能技术相比，“深度伪造”技术还具有泛在普适性。长期以来，对视频的深度处理技术垄断在政府或实力异常强大的企业手中，社会公众无从使用。一部以假乱真的视频制作通常需要好莱坞式的技巧和预算。然而，“深度伪造”技术的出现则在根本上改变了这一格局，使得该技术开始向一般公众普及。这又可以从三个方面展开：其一，“深度伪造”采用的是“无监督学习”。相较于“有监督学习”和“半监督学习”而言，“无监督学习”的训练数据不需要标注。这一特性使得“深度伪造”技术具有极强的亲民性。因为一般公众个人不具备对海量数据实时精准标注的条件和能力。其二，“深度伪造”的“源数据”具有获取便捷性。实际上，就技术逻辑而言，“深度伪造”是通过海量“源数据”的训练自动生成“新数据”（伪造图像）的过程。其生成精准度很大程度上取决于“源数据”的丰富程度。考虑到人工智能技术的飞速发展以及社交媒体上图片资源的丰富性与易获取性，制造“换脸视频”的技术难度与成本在飞速下降。其三，“深度伪造”无须安装编程语言和开源软件库就能运行，操作简单。尽管硬件上需要GPU的支持，但通过短期租用云平台的方式可以有效解决。其四，更为重要还在于，随着一款免费、易于使用的应用程序的出现，这项技术迅速向一般社会公众普及，其技术门槛进一步降低。普通民众只需要一两个目标人物的高清视频，8-12小时就可以制作一部自动换脸的视频。〔10〕参见李觐麟：《AI换脸技术的玩法还有很多》，《电脑报》2018年9月10日，第12版。

“换脸视频”要达到以假乱真还需要音频处理技术的支持。传统上，伪造特定人员声音存在明显的技术瓶颈，机器合成声音极易识别。随着人工智能技术的引入，无论是谷歌、百度抑或是讯飞都已经具备了生成模拟语音的能力，其通过对特定人物音色、语言要素的采集与训练，能够模拟出足以以假乱真的任何内容的语音。〔11〕在科大讯飞公司2016年度发布会上，曾发布一段视频。视频中，美国时任总统奥巴马用一段流利的中文预祝科大讯飞公司的发布会取得成功。这实际上就是用音频处理技术模拟的奥巴马的声音。参见袁一雪：《让奥巴马用中文演讲的“声音魔术”》，《中国科学报》2016年12月2日，第4版。根据ASI数据科学公司的一项测试，通过语音生成算法，只需要借助两小时的语料并训练五天时间，就可以模拟一份以假乱真的特朗普向俄罗斯宣战的语音。〔12〕Michael Chertoff and Anders Fogh Rasmussen,The Unhackable Election:What It Takes to Defend Democracy,98 Foreign Aff.156,160（2019）.上述音频处理技术的嵌入使得“深度伪造”技术的普及如虎添翼。

（三）快速演化性

前文在谈及技术逻辑时已经论及，“深度伪造”技术使用的是深度学习中的“对抗生成网络”，它在本质上是一种“无监督学习”，具有极强的自我适应性。一般认为，该模式不需要过多的人工干预，尤其适合以一般公众为服务对象的应用。实际上，在最初“对抗生成网络”主要局限于人工智能的研究群体，并未大规模在社会上运用。不过，“深度伪造”技术的出现打破了这一局限。研发者利用谷歌的开源学习软件“TensorFlow”来构建“对抗生成网络”在极短时间内就完成了“换脸技术”的升级换代并最终实现“换脸视频”。〔13〕See Oscar Schwartz,You Thought Fake News Was Bad?Deep Fakes Are Where Truth Goes to Die,THE GUARDIAN （Nov.12,2018）,https://www.theguardian.com/technology/2018/nov/12/deep-fakes-fake-news-truth.在“深度伪造”技术发展的早期，尽管训练过程是“无监督学习”，但训练的“源数据”还需要通过人工寻找大量素材，比如目标人物的视频、音频、图片，以及寻找合适的替换视频。这在一定程度上降低了该技术的“亲民”程度。知名的科技网站“主板”在2018年曾经预测“深度伪造”技术在寻找“源数据”方面的自动化至少需要一年时间，但事实上，这个自动化迭代只花费了一个月时间。现阶段，制作者只需要通过程序上传需要替换的目标人的照片，软件可以进行人脸识别，并且海量视频库中自动匹配最为合适的身体。〔14〕See Samantha Cole,People Are Using AI to Create Fake Porn of Their Friends and Classmates,MOTHERBOARD （Jan.26,2018）,https://motherboard.vice.com/en_us/article/ev5eba/ai-fake-porn-of-friends-deepfakes.“对抗生成网络”利用海量的网络资源不断“无监督”地自我迭代与优化，使得“深度伪造”在整体上呈现出一种加速发展的态势。换言之，“深度伪造”技术虽然处于早期阶段，但其却包含着巨大的潜力，由于技术的飞速发展，我们将很可能立刻面对无法区分真假的“换脸视频”。

三、“深度伪造”技术应用的风险

科技哲学认为，技术是把双刃剑，可能给社会带来不同程度的风险。伪造他人的言行对于人类而言并不陌生。在不同的历史时期，伪造行为可能以不同形式产生。然而，与传统技术相比，“换脸视频”的破坏力不仅仅在于“伪造”，而更在于“深度”。换言之，“深度伪造”的技术逻辑与技术特征的叠加使得对其应用可能产生不同于一般视频伪造处理技术的风险。互联网时代，尤其是自媒体的发展，打破了中心化的信息传播模式。它一方面增加了信息传播的效率，另一方面也降低了对虚假信息的控制能力。“深度伪造”技术的应用风险在互联网传播的特性之下被进一步放大进而可能产生不可控的局面。

（一）侵犯公民人身权利与财产权利

对“深度伪造”技术生成物（视频、图片、音频）的应用最为直接的风险之一就在其对被伪造公民的个人权利产生影响。在“深度伪造”技术的起源地美国，该技术最初用以制作各类的色情换脸视频——将明星的“脸”替换到其他的色情视频中。其后，随着技术的普及，“换脸”的对象也迅速由明星、政客向一般公众扩展。可见，由于“深度伪造”技术的高度真实性、泛在普适性和快速演化性的基本特征，该技术生产的视频高度逼真，且越发以低成本的方式普及，对于被“换脸”的明星或是一般公众而言，其名誉权、肖像权等基本权利就不可避免地受到侵犯。“杨幂换脸视频”在短期内微博的阅读量就达到了1.1亿，影响之广，可见一斑。另据不完全统计，遇上“换脸”的明星还有至少刘亦菲、刘诗诗、赵丽颖等人。〔15〕参见前引〔9〕，宣晶文。此外，“换脸视频”不仅将用于自我满足，而且也可能被用来敲诈、羞辱、骚扰和勒索受害者。〔16〕See Douglas Harris,Deepfakes:False Pornography is Here and the Law cannot Protect You,Duke L.&Tech.Rev.99,102（2019）.综上所述，“深度伪造”技术所产生的“换脸视频”最为直接的影响就在于公民的人身权与财产权。

（二）破坏社会稳定、国家安全与国际秩序

正如有专家预测的那样，未来几年，电脑将能够快速生成令人信服的、伪造的音频和视频信息，这将把假新闻提升到一个全新水平。〔17〕See Hilke Schellmann,The DangerousNew Technology That Will Make Us Question Our Basic Idea of Reality,QUARTZ（Dec.5,2017）,https://qz.com/1145657/the-dangerousnew-technology-that-will-make-us-question-our-basic-idea-of-reality/.“深度伪造”技术所产生的第二个直接风险就可能通过所谓的假新闻用以诽谤政客，破坏社会稳定、国家安全和国际秩序。设想在种族冲突严重的地区，一个政治人物发表种族歧视言论的“换脸视频”可能直接引发不可控制的恶果。2018年4月，有技术团队制作了涉及美国前总统奥巴马的“换脸视频”，在视频中“奥巴马”称美国现总统特朗普为“彻头彻尾的白痴”。〔18〕See Aja Romano,Jordan Peele's Simulated Obama PSA is a Double-edged Warning against Fake News,VOX （Apr.18,2018）https://www.vox.com/2018/4/18/17252410/jordan-peele-obama-deepfake-buzzfeed.同年5月，有人利用“深度伪造”技术制作了特朗普的视频，批评比利时的环保政策。尽管视频在制作上有明显瑕疵，但仍然有比利时的民众相信该视频为真，并激烈地回应。这一影响大大超过了制作团队的估计，使得他们不得不对评论者一一回应该视频其实是一个假视频。〔19〕See Oscar Schwartz,You Thought Fake News Was Bad?Deep Fakes Are Where Truth Goes to Die,THE GUARDIAN （Nov.12,2018）,https://www.theguardian.com/technology/2018/nov/12/deep-fakes-fake-news-truth.据不完全统计，现下成为该技术受害者的政客至少还包括德国总理默克尔、阿根廷总统马克里。

正因“深度伪造”技术所可能导致的假新闻泛滥，美国国家情报总监丹·科茨在参议院情报特别委员会发表演讲，提交了由美国情报界汇编的《全球威胁评估报告》。报告明确提到“深度伪造”技术，并指出战略竞争对手可能会试图使用“深度伪造”或类似的机器学习技术来创建令人信服的——但是虚假的——图像、音频和视频文件，以此对美国及其盟友和伙伴产生负面影响。〔20〕See Daniel R.Coats,Worldwide Threat Assessment of the US Intelligence Community,Senate Select Committee on Intelligence（Jan.29,2019）,p.7.英国《卫报》也认为，“深度伪造”技术可以造成任何人说过或做过任何事的假象，并不无担忧地认为会引发新一轮信息战。〔21〕关于“深度伪造”技术所可能导致的国际社会的“假情报战”的讨论可以参见Robert Chesney and Danielle Citron,Deepfakes and the New Disinformation War:The Coming Age of Post-Truth Geopolitics,98 Foreign Aff.147（2019）.

（三）消解社会共同体的信任

众所周知，我们对世界的经验以及我们对世界作出自信判断能力需要我们有一些证据来源。这些来源在形成共识的基础之上，自动引导我们作出判断。人们不可避免地依赖于超出他们直接感知的世界的可靠知识，这在本质上是一种知识生态系统。〔22〕See Marc J.Blitz,Lies,Line Drawing,and Deep Fake News,71 Okla.L.Rev.59,113—115（2018）.“深度造假”技术的泛滥还可能导致公众形成“眼见不为实”的心理预期。其直接结果是公众对公有机构和私有机构的信任度遭遇侵蚀。一直以来，视频都被视为真实性的基本标准，与容易失真的照片形成鲜明对比。“深度伪造”视频技术的发展将破坏我们对视频作为事件记录的信任。该技术最大的威胁不是公众会被欺骗，而是公众会把一切都当作欺骗。随着这种“深度伪造”技术的发展与普及，它潜在地可能造成一种信息无序的状态，会对原有的要求我们信任外部信息来源的个人决策或集体自治构成严重的，甚至是无法克服的挑战。〔23〕See Marc J.Blitz,Lies,Line Drawing,and Deep Fake News,71 Okla.L.Rev.59,110（2018）.其最终结果有可能导向霍布斯提及的“所有人与所有人的战争”，“眼见为实”的提法将消逝在历史之中。有研究表明，人与人的反复协作的基础是彼此的信任。当一个群体内部彼此信任时，群体净收益会提升。反之，彼此缺乏信任将导致群体的效益下降。〔24〕See Jeffrey Westling,Deception Trust:A Deep Look at Deep Fakes,TECHDIRT（Feb.28,2019）.可见，“深度伪造”技术的滥用将使得人类加速迈入“后真相时代”。〔25〕“后真相”一词最早见于美籍塞尔维亚剧作家史蒂夫·特西奇（Steve Tesich）1992年发表在美国《国家》杂志上的一篇文章，却在诞生20多年后于2016年被《牛津词典》评为年度词汇。改词用于形容“陈述客观事实对民意的影响力弱于诉诸情感和个人信念”。参见王悠然：《警惕“后真相”时代的假消息》，《中国社会科学报》2017年1月6日，第3版。在“后真相时代”，由于“真相”被认为不复存在，“人们只相信自己愿意相信的东西”。〔26〕参见李军：《“后真相时代”，凝聚共识靠内容而非流量》，《新华日报》2018年3月28日，第14版。由此，社会共识便难以聚合而成。

四、“深度伪造”技术应用的规制

“深度伪造”技术只是人工智能与视频处理技术结合的必然产物，它不是第一个，也必定不是最后一个该领域的尝试。尽管其动机可能从纯粹的戏谑、模仿，到争取商业利益，甚至是敲诈、勒索和政治操纵，但技术应用于以上述目的并非独特的问题，而只是一个有待解决的问题。〔27〕See Ryan J.Black and Pablo Tseng,What Can and Should the Law Do About“Deepfake”:An Update,LEXOLOGY （Dec.5,2018）,https://www.lexology.com/library/detail.aspx?g=09f3dc1a-d3c1-41d6-9029-1cb8794eb54f.现有的技术规制与法律规制手段无法完全覆盖“深度伪造”技术的诸多应用场景，这就需要在现有技术与法律规制之外构建一种全新的“平台-作者-受众”三位一体的新规制模式。

（一）现有技术规制及其局限性

对于技术应用的风险，通常的逻辑是“以子之矛，攻子之盾”——用技术进行规制。实际上，随着“深度伪造”技术的影响扩大，以技术进行“溯源防伪”和“反向破解”的理念与实践也日益盛行。

“溯源防伪”是指通过溯源技术从根本上保证视频的真实性。已有国外公司开始使用区块链等技术，利用在分布式账本上永久记录元数据，在创建之初为音频、照片、视频内容添加水印。由此，对于视频的真伪就可以便捷地识别。〔28〕See Robert Chesney and Danielle Citron,Deepfakes and the New Disinformation War:The Coming Age of Post-Truth Geopolitics,98 Foreign Aff.147,154（2019）.该技术虽然在技术层面没有显著困难，但却很可能会面临成本和政策方面的难题而无法真正推广。也有学者畅想，推出一项新服务——不可变的生命日志或身份验证跟踪，使“深度伪造”的受害者可以提供经过认证的不在场证明，可信地证明他或她没有说或做所描述的事情。〔29〕See Bobby Chesney and Danielle Citron,Deep Fakes:A Looming Challenge for Privacy,Democracy,and National Security,107 Cal.L.Rev.（forthcoming 2019）,available at SSRN.实际上，研究人员的灵感很可能来自美国作家戴夫·艾格斯（Dave Eggers）创作于2013年的反乌托邦小说《圆圈》（The Circle），小说中政客佩戴24小时的电子监控设备和流媒体设备来建立公众信任——如果你不透明，那么意味着你一定在隐瞒什么。

“反向破解”则是通过技术对“深度伪造”技术生成的“换脸视频”进行识别。美国国家标准与技术研究所和美国国防高级计划局的研究人员一直在致力于开发能够探测“深度伪造”的技术。〔30〕See Derek B.Johnson and Susan Miller,The Danger of“Deep Fakes”,GLOBAL CYCLING NETWORK（Jul.18,2018）,https://gcn.com/articles/2018/07/18/deep-fakes.aspx.研究人员发现“换脸视频”中人物眨眼次数较少、且极不自然。通过跟踪视频中人物的眼睛状态，“换脸视频”的识别准确率高达99%。〔31〕参见闫欣、华凌：《AI换脸也有 bug，看看人物眨没眨眼》，《科技日报》2019年3月18日，第8版。还有团队通过“换脸视频”中血液进入皮肤时细微变化来识别。〔32〕See Oscar Schwartz,You Thought Fake News Was Bad?Deep Fakes Are Where Truth Goes to Die,THE GUARDIAN （Nov.12,2018）,https://www.theguardian.com/technology/2018/nov/12/deep-fakes-fake-news-truth.

然而，无论“溯源防伪”抑或是“反向破解”，在“深度伪造技术”快速演化性的特征之下，都显得略显苍白。“道高一尺魔高一丈”，技术的进展速度往往高于技术的破解速度。举例而言，随着技术的发展，“深度伪造”技术可以收集海量的眨眼视频进行训练，由此就可以进一步优化“换脸视频”中的眨眼细节，从而成功避开检测工具。〔33〕参见冯卫东：《“换脸”也逃不过数字真探法眼》，《科技日报》2018年8月10日，第2版。因此，从某种意义上说，作为防守方的“鉴真技术”在作为进攻方的“伪造技术”面前往往处于落后挨打的地位。

（二）现有法律规制及其局限性

除了技术规制之外，对于高新技术应用规制的重要工具还包括法律。由于立法过快的回应甚至限制可能错过技术发展的机遇和审视技术带来问题的机会，因此对于“深度伪造”技术在内的前沿技术规制主要立基于现有的法律体系。实际上，无论从民事赔偿、行政处罚、刑事追诉等方面来看，现有的法律体系都为规制“深度伪造”技术提供了可能。

首先，正如本文第三部分提及的那样，“深度伪造”技术最为直接的风险就在于对公民的人身与财产权形成侵害。现有的民事法律体系内的相关制度可以对上述行为进行规制。具体来说，“换脸视频”可能涉及肖像权和名誉权。在现有的技术框架之下，“深度伪造”技术需要海量的目标人物的照片、视频作为“源数据”进行训练，生成伪造的目标人物（受害人）的脸部图像，并替换到选定视频的人物脸部。此时，目标人物的肖像权就受到侵犯。更进一步，由于“深度伪造”技术的高度真实性特征，社会公众可能形成对“换脸视频”主角的误解，认为其作出了他/她实际上并未做的行为或者发表实质上并未发表的言论，进而产生一种负面评价。在此过程中，“换脸视频”使得公众对目标人物形成了虚假或者误导性的观点，损害了其声誉，进而给其造成精神和物质的损失。由此，在现有的侵权责任法的框架之下，受害人可以要求“换脸视频”的作者承担删除视频、赔礼道歉、消除影响和赔偿损失等民事责任。

其次，“深度伪造”技术还可能侵犯视频的知识产权。按照我国知识产权的相关规定，视频作品的作者享有作品的完整权，不受任意修改的权利。当原始视频被曲解、编辑、修改之后，原作者的知识产权就受到相应的侵害。可见，当使用“深度伪造”技术进行视频“换脸”时，无疑就侵犯了原视频所有人的版权和照片所有人的版权。无论“换脸视频”制作者是否用于商业，只要不构成法定的例外情形，都已构成侵权。原始视频和照片的版权人都可以要求删除修改后的视频与照片副本、禁止发布视频并赔偿相应损失。从国外的实践来看，确实有版权人以侵权为由，要求网站删除特定的“换脸视频”。〔34〕See Leo Kelion,Deepfake Porn Videos Deleted from Internet by Gfycat,BBC NEWS （Feb.1,2018）,https://www.bbc.com/news/technology-42905185.

再次，“换脸视频”还可能触发行政处罚，这主要体现在国家相关主管机构对视频传播平台的管理。2018年3月22日，国家广电总局发布《关于进一步规范网络视听节目传播秩序的通知》（下称《广电通知》），明确规定“坚决禁止非法抓取、剪拼改变视听节目”。通知原文规定，不得制作、传播歪曲、恶搞、丑化经典文艺作品的节目，不得重新剪辑、不得截取片段拼接、不得传播篡改原意产生歧义的作品片段。同样以“杨幂换脸视频”为例，尽管该视频并不存在对原有作品的“恶搞”与“丑化”，但正如笔者技术逻辑部分指出的那样，“换脸视频”是将伪造的图片逐帧映射到视频之上，因此是一种对原视频素材的重新分解和编辑，无疑构成“剪辑”。同样，作者还将《射雕》作品中若干片段整合成一个新段落，也构成“截取片段拼接”。更进一步，将原视频“换脸”，还涉嫌“篡改原意产生歧义”。因此，平台对上述视频内容具有管理责任。若怠于履行责任，则相关管理机构可以依法处罚。

最后，“换脸视频”还可能构成相应的犯罪。如果将“伪造”和“传播”作为核心要素，在现有的刑事法律体系之下，“换脸视频”可能构成但不仅限于以下五大类的犯罪：第一，利用“深度伪造”技术传播虚假信息的，涉及险情、疫情、灾情、警情、军情、敌情、恐情，根据情节不同可能构成编造、故意传播虚假信息罪、编造、故意传播虚假恐怖信息罪、编造并传播证券、期货交易虚假信息罪、战时故意提供虚假敌情罪；第二，无论“换脸”的受害人是名人抑或是普通公众，都可能因为“换脸视频”所故意捏造和散步的虚构事实导致人格贬损与名誉损失。因此，该行为还可能构成诽谤罪。第三，利用“换脸视频”进行威胁、要挟行为，可能构成敲诈勒索犯罪；第四，利用“换脸视频”进行人脸识别进而秘密获得或骗取公私财物，可能构成诈骗类罪或者盗窃罪；第五，利用“换脸视频”编造虚假信息，在网络散布或者组织、指使他人在网上散布，造成公共秩序严重混乱的，还可能构成寻衅滋事罪。如果不考虑“伪造”而只关注视频“信息”本身，“换脸视频”的传播可能构成其他更多的罪名，诸如因为传播的内容是色情视频而构成传播淫秽物品罪、组织播放淫秽物品罪，因为传播内容是极端主义的言论而构成宣扬恐怖主义、极端主义、煽动实施恐怖活动罪等。如果我们将视角关注到视频的制作本身，还可能构成制作、复制、出版、贩卖、传播淫秽物品牟利罪。

可见，尽管现有法律没有针对“深度伪造”技术的专门立法规定，但就现阶段的行政、民事和刑事三个领域的相关法律，伪造造成的后果在一定程度上可以被行政处罚、治安处罚、民事责任、刑事犯罪等既有责任体系涵盖。然而，上述法律规制的缺陷也是显著的：其一，民事责任规制领域，构成侵犯公民肖像权的行为，通常应具备两个要件：未经本人同意且以营利为目的。若“换脸视频”并未以营利为目的，则难以被肖像权的制度体系所涵盖；另外，构成侵犯名誉权则根据受害人确有名誉被损害的事实、行为人行为违法、违法行为与损害后果之间有因果关系、行为人主观上有过错来认定。在实践中，“换脸视频”内容对“受害人”名誉的贬损可能难以证明。精神损害在没有造成严重后果的情况下往往难以支持。再以“杨幂换脸视频”为例，视频作者并非以营利为目的，更大程度上只是一种“炫技”。其“换脸”行为也没有对杨幂本人形成不当的贬损，精神损失无从谈起。尽管《射雕》的视频所有者可以主张侵犯知识产权，但实际上也很难以证明该视频传播对其造成的损失。同时，“深度伪造”技术所具备的泛在普适性也使得版权方需要面对海量分散、随机的“伪造”行为，维权成本极高。其二，在行政责任领域，《广电通知》实际上也无法充分规制“换脸视频”。这是因为《广电通知》规范的只是“视听节目网站”，而无法涉及公众个人行为。“深度伪造”技术的泛在普适性使得从事伪造行为的主要是公众个人，而不是“视听节目网站”。《广电通知》确实强调网站要严格管理上传节目，但对于如何管理、如何审查以及审查到何种程度则语焉不详。因此，在实践中这种管理更大程度上是一种事后的管理——在版权方投诉之后下线处理。换言之，在版权方没有行使相应权利的情况下，“换脸视频”就具有一定的传播空间。其三，在刑事责任方面，尽管刑法为伪造传播虚假信息的行为编织了貌似严密的法网，但实际上，只要视频信息并非承载特定的内容（如军情、险情、色情等），或直接从事违反犯罪（如诈骗、盗窃等），现有“换脸视频”的绝大多数情形都在刑事法网之外。至少，“杨幂换脸视频”以及现在越发流行的网络直播平台主播在直播时将自己的脸换成明星（明确向观众表明“换脸”）的操作就基本不在上述刑事规制之内。

法律规制更为显著的不足还在于它往往是一种事后规制。由于“深度伪造”的高度真实性的技术特征，借助既有的网络传播平台，其造谣的效应可能会成指数级放大。即使后续法律产生强有力的规制，但既有的传播影响已然形成。这便是所谓的“造谣动动嘴，辟谣跑断腿”。因此，对于“深度伪造”技术生成“换脸视频”的规制就不能仅仅局限于事后的规制。这也决定了现有法律的规制体系更大程度上是一种权宜之计。此时，对于“深度伪造技术”应用的事前与事中规制就显得尤为重要。

（三）“平台-制作者-受众”三位一体的新规制体系

实际上，无论是技术抑或是法律规制，都有一定的事后性。它们在特定领域和特定场景可以对“深度伪造”技术形成较好的规制，但同样无法完全规避上述技术在应用中可能产生的风险。因此，对于“深度伪造”技术的规制还应该建立三位一体的事前与事中规制模式。在伪造视频传播产生不利影响之前有效将风险限制在最低程度。具体而言，就是强化平台的审查责任、明确制作者的说明义务和培养公众的信息素养。三种措施良性循环，每个环节彼此加强，形成一个闭环。

1.强化平台审查责任

公民个人基于喜好或者研究需要而制作“换脸视频”并不具有违法性。只有当期将该视频传播后才具有法律探讨的空间。众所周知，在互联网时代，社交媒体与视频平台在“换脸视频”的传播中扮演着极其重要的角色。因此，平台有责任呈现真实消息，审查一切疑似虚假、夸大、带有煽动性的消息，尤其要防范假消息在平台上的病毒式扩散。〔35〕参见王悠然：《警惕“后真相”时代的假消息》，《中国社会科学报》2017年1月6日，第3版。当然，平台的审查责任也并非无远弗届。在“深度伪造”的“换脸视频”的传播中，平台只要遵循“技术正当程序”〔36〕See Bobby Chesney and Danielle Citron,Deep Fakes:A Looming Challenge for Privacy,Democracy,and National Security,107 Cal.L.Rev.（forthcoming 2019）,available at SSRN.即可被认为履行了审查责任。若怠于履行上述义务，造成相应后果，平台需要承担连带责任。

平台的“技术正当程序”包括以下几个方面内容：第一，修改平台的视频传播政策，对于“深度伪造”的“换脸视频”采取特殊政策，禁止上传利用“深度伪造”技术制作的未经授权的“换脸视频”。事实上，在红迪网事件之后，除了红迪网自身关闭相应版块之外，美国其他部分视频平台也修改网站政策，明确禁止上传利用“深度伪造”技术制作的视频，理由正是未经权利人的同意。回到“杨幂换脸视频”的事件中，视频作者既未获得杨幂方的授权，亦未获得版权方的授权。因此，他可以基于科学研究进行相应的训练，但要将“换脸视频”通过平台公开则另当别论；因此，只要有权利人主张侵权，那么平台有立刻删除的义务。第二，开发“深度伪造”的识别技术。目前，不少互联网平台已经通过智能算法来识别问题内容、快速审查发布和赋予高质量内容以高优先度。〔37〕See Lili Levi,Real Fake News and Fake Fake News,16 First Amend.L.Rev.232,239（2017）.这为平台进行内容审查提供了技术可能。在“深度伪造”的应用场景中，平台需要在传统内容形式审查的基础之上更进一步，实现对伪造视频的技术审查。从世界范围来看，大型的互联网平台已经推出相应的虚假信息识别技术。〔38〕See Jack M.Balkin,Free Speech in the Algorithmic Society:Big Data,Private Governance,and New School Speech Regulation,51 U.C.D.L.Rev.1149,1183（2018）.因此，大型视频传播平台推出对“换脸视频”识别机制也是大势所趋。第三，平台在识别来自“深度伪造”的相关应用程序（如FakeApp）的搜索请求时可以尝试提高其获得特定图片的难度。目前，“深度伪造”技术的“源数据”主要来自各大搜索引擎、社交网站，因此需要上述平台在识别“深度伪造”搜索请求时提高获取“源数据”的难度。谷歌就曾经通过算法修改特定搜索请求的返回结果，以增加查找某些资料的难度。〔39〕Dave Lee,Deepfakes Porn has Serious Consequences,BBC NEWS （Feb.3,2018）,https://www.bbc.com/news/technology-42912529.只要平台满足了“技术正当程序”，则可以认定在“深度伪造”视频的传播中不负连带责任。

2.明确作者的声明义务

由于“深度伪造”技术的高度真实性、泛在普适性与快速演化性，导致可能伪造视频的潜在群体剧增、视频欺骗性增强。“换脸视频”的行为可能呈现出分散、随机、破坏巨大且难以主动规制的特征。此时，就势必要建立一种全新的“换脸视频”作者声明义务。对于作者而言，需要遵循以下两个要求：其一，在视频的显要位置以明显的水印等方式声明“换脸视频”。其二，在通过平台传播时需要向平台声明该视频的“换脸属性”。如果生产者完成上述义务则推定为无过错，如果没有履行上述义务则推定为有过错。这种规制类似于《产品质量法》中的警示说明。当然，其实法国的相关立法已经为这种声明义务提供了参照。2017年法国政府就推出了一项法律规定，规定经过修图处理的模特照片必须标注“已修图照片”。此种作者主动的说明义务为有效规制“深度伪造”技术的生成物提供了可能。

3.培育公众的信息素养

虽然“深度伪造”技术极大增加了虚假视频的“可信度”，但更好的信息教育也是预防虚假视频产生不当社会影响的重要途径。与其期待通过禁止“换脸视频”的方式来解决问题，不如关注如何提升公众的“关键信息素养”，区分视频的真假。因此，除了平台的审查责任与制作者的说明义务之外，对于“深度伪造”技术的规制还有一个关键的环节——提升公众“关键媒体/信息素养”。

所谓信息素养，是指公众借助工具，理解新闻报道中的框架、偏见、不准确之处，并能够评估事实真实性的能力。〔40〕See Lili Levi,Real Fake News and Fake Fake News,16 First Amend.L.Rev.232,309（2017）.信息素养重点关注如何区分信息的真假。〔41〕Isabelle Courtney,In an Era of Fake News,Information Literacy Has a Role to Play in Journalism Education in Ireland,Irish Communication Review,Volume 16,Issue 1,2018,p.22.它指向“一组能力，要求个人识别何时需要信息，并具有定位、评估和有效使用所需信息的能力”，〔42〕Michelle H.Williams and Jocelyn J.Evans,Factors in Information Literacy Education,4 J.OF POL.SCI.EDUC.116,116（2008）.“但它的意义远不止于此：它还涉及充分利用信息和明智地解释信息所需的能力、属性与自信。包括批判性思维和意识，以及对与使用信息相关的伦理和政治问题的理解”。〔43〕Information Literacy Group,CILIP Definition of Information Literacy 2018,THE LIBRARY OF INFORMATION ASSOCATION（2018）,p.3.媒体素养是信息素养的组成部分。它关注的是理解媒体、便捷使用媒体（传统媒体、数字媒体）以及使用媒体创建或表达自我能力的知识。〔44〕See Caroline L.Osborne,Programming to Promote Information Literacy in the Era of Fake News,46 Int'l J.Legal Info.101,109（2018）.当今社会围绕新闻制作、信息传播形成了越来越复杂的商业模式，这就使得信息素养显得更加重要。

从整体而言，当今社会对于公众信息素养的培养缺乏必要的关注。社会公众在消费信息时，存在意识缺陷，在使用信息前，没有保持必要的批判性和审慎性。斯坦福大学的一份研究显示，年轻人对于互联网信息进行推理的能力极度有限，极度容易受骗。〔45〕See Stanford History Education Group,Evaluating Information:The Cornerstone of Civic Online Reasoning:Executive Summary（Nov.22,2016）,p.4.此外，由于“确认性偏误”〔46〕所谓的“确认性偏误”是指人们在主观上支持某种观点时，往往倾向于接收能够支持上述观点的信息，而排斥或忽视与观点相冲突的信息。和“过滤气泡”〔47〕“过滤气泡”的概念由Eli Pariser在2010年提出，指的是在算法推荐机制下，高度同质化的信息流会阻碍人们认识真实的世界。参见Kalev Leetaru,Why 2017 Was the Year of the Filter Bubble?,FORBES（Dec.18,2017）,https://www.forbes.com/sites/kalevleetaru/2017/2018/why-was-2017-the-year-of-the-filter-bubble/26146572746b。的存在，一个人倾向于接受自己支持的某种观点，并不断强化。因此，要在接受的基础之上进行批判性的认知，是一个巨大的挑战。仅靠理智和情感无法有效穿越“后真相”的泥潭。〔48〕有人认为，可以用理解和情感来穿越“后真相”的泥潭。参见夏远望：《用理智与情感穿越“后真相”泥淖》，《河南日报》2018年1月15日，第6版。具体而言，信息素养的核心目标有两个方面：第一，是让公众在接受信息之前习惯性地批判检查，〔49〕Caroline L.Osborne,Programming to Promote Information Literacy in the Era of Fake News,46 Int'l J.Legal Info.101,103（2018）.意识到“在这个数字时代，任何事情都不能盲目地看表面，因为那张脸可能是在欺骗你”。〔50〕前引〔31〕，闫欣、华凌文。第二，培养公众使用相关工具对识别视频来源、作者身份，评估视频承载信息的准确性和客观性，进而获得对视频内容进行批判性检查和验证的能力。这也是在“后真相时代”生存的必备技能。

结语

智能技术的发展呈现出加速迭代的特征。诸多技术及应用常常令法律人应接不暇。进入大数据与人工智能时代，一个明显的感受便是法律相对于前沿技术的滞后性越发凸显。实际上，“深度伪造”技术及其产生的风险只是诸多智能技术发展的衍生品之一。法律固然是强有力的规制工具，但要充分降低智能技术的应用风险，唯有技术、法律与伦理规制协同。