重构与挑战:“深度合成”的传播影响与技术反思
2021-12-04喻国明
喻国明,梁 爽
(1.北京师范大学 新闻传播学院,北京 100875;2.北京邮电大学 数字媒体与艺术设计学院,北京 100876)
在智慧传播的时代背景下,不断成熟革新的人工智能传播技术及海量流动数据的结合,为媒介数据实现从传统文本数据、电子文本数据到音视频数据的过渡提供了支撑和保障。尤其是当下日益复杂的信息传播场景,大大丰富了媒介用户的多维使用体验,“媒介-技术-用户”互动全面渗透人们的社会生活。在此媒介技术语境下,“深度合成(Deep synthesis)”技术应运而生,一经推出便迅速在世界范围内广泛传播并产生深刻影响。如今,作为人工智能技术进步和媒介社会发展的产物,结合多种信息网络技术的深度合成已参与到社会生活的方方面面,在还原社会情境、虚拟人物形象、深度文本融合等环节中发挥着重要的作用。不少技术乐观主义者认为,深度合成技术的商业价值不容忽视,其在影视产业、游戏产业、时尚产业中的技术参与能有效降低生产难度与制作成本,更能通过技术支持以促进用户与产品的双向互动,拉近用户与内容产品的距离,大大提升相应的媒介传播效果及影响力;也有技术悲观主义者提出,应当警惕当今社会中深度合成技术所带来的国家公民安全、新闻公正性、算法监督处理等方面的问题与挑战。
与持续升温的市场应用与社会讨论相比,围绕深度合成议题进行的学术研究刚刚起步,现阶段的国内外研究大多集中在深度合成机器学习与智能算法[1-3]、合成技术之深度伪造[4-7]等方面,但较少对深度合成整体生态发展的把握。总体看来,在对技术的剖析、应用的既有研究中,深度合成的技术逻辑、媒介社会反思成为研究者普遍关注的重点议题,怎样理解现阶段深度合成的技术逻辑及结构特征,包括智能算法、计算机结构模型对深度合成技术演进的支撑性作用?如何认知智慧传播时代背景下深度合成技术参与下的媒介社会互动?又如何合理利用深度合成技术对社会产业结构及社会价值产生的深刻影响,并积极应对技术媒介融合趋势下的机遇与挑战?这些问题的探讨关系着对深度合成技术既有影响的社会反思与媒介技术未来发展的把握。本文沿着“技术溯源—媒介技术互动—消解与重构—挑战与策略”的逻辑思路,对现阶段深度合成技术的结构特征、技术参与、社会影响等内容进行深入剖析,并结合技术带来的一系列影响进行媒介社会反思,提出应对措施与策略建议。
一、技术溯源:“深度合成”技术逻辑与结构特征
“深度合成”的概念来源于计算机科学中“深度学习(Deep learning)”和“合成(Synthesis)”的结合,作为一种基于算法指令自动化运行的合成媒体(Synthetic media)技术手段,深度合成技术泛指借助人工智能算法和计算机虚拟合成技术生成的数字化文本内容,包括自动生成的文本、图像、语音、视频等内容形态。从技术实现手段而言,深度合成技术主要依赖于生成器(Generator)、鉴别器(Discriminator)等智能算法手段——于2014年正式合并生成为深度神经网络形态“生成式对抗网络(Generative Adversarial Network, GAN)”;除此之外,卷积神经网络(Convolutional Neural Network,CNN)、变分自编码器(Variational Auto Encoders,VAE)等技术模型的加入也为深度合成提供了核心支撑与技术基础。随着通信网络技术的逐步革新,深度合成现如今已发展为集文本合成、图像合成、音频合成、视频合成等内容为一体的多模态合成技术。
究其本源,深度合成技术在20世纪90年代被学术界纳入智能科学的研究范畴之中,并在计算与应用的演变过程中日趋优化与完善,其应用操作的基本逻辑为通过将文字、图像、音频、视频片段的叠加、合并或替换,从而实现新文本、新内容的合成与虚拟。起初,深度合成技术的进步主要得益于GAN模型的不断精进,Korshunova等人在2017年首先提出利用生成式对抗网络来训练面孔识别模型[8],随后,有科学家致力于研究基于长短期记忆(Long Short Term Memory,LSTM)的架构模型,通过语音以提炼人类口腔特征[9]。科学研究成果的面世引发了市场上开源方案的提出,加速了深度合成内容的推动与演化进程。如今,技术推动下的深度合成不仅能完成图像合成、视频合成等程序功能,更能通过机器深度学习实现真人声音模拟、虚拟人物创造等多线程模态任务。
就深度合成技术的结构特点而言,一是结构模型稳定,由生成器和鉴别器生成的GAN首先将提供材料中的随机噪声转化为目标图像模型,再针对即将合成图像进行验证与判别,一旦由鉴别器判定为假,生成器则立即收到反馈并进行相应改进。随着两个对抗算法不断进行自我优化,经过“机器自我学习”模式的合成图像最终“进化”为高度逼真的文本模态,从而达到“以假乱真”“混淆视听”的呈现效果。二是合成内容精密度高,人眼在有限时间内无法进行准确的辨别。从理论上讲,只要有充足的数据学习资料和过硬的运算及硬件支持,深度伪造出的合成内容就能无限度逼近“真实”,可以说,“更大的数据、更优的算法、更好的硬件约等于无限接近真实的合成内容”。接下来,基于光线调控、眨眼频率、微表情捕捉等功能的多模态特征融合技术进一步增加真假内容文本的识别难度。三是兼容普适性较强,深度合成技术支持多载体、多任务兼容,且随着技术的不断开源与优化,技术的准入门槛逐渐降低,用户无须具备编程语言知识和软件库支持即可进行运行操作。因此,满足了用户猎奇、模仿心理的深度合成产品通过社交网络、陌生人传播模式的助力,迅速吸引了大量关注,在促进传输速率、传播效果的同时迅速实现流量到价值红利的转化。
二、媒介技术互动:智慧传播时代“深度合成”的技术参与
2020年被称为是“深度合成的商业化元年”,实现人工智能换脸、人脸合成、语音合成、视频生成甚至数字虚拟人等诸多应用形式的深度合成技术,作为人工智能发展到一定阶段的产物,逐步从深度伪造(deepfake)的阴影中脱离,迎来了商业化时代。[10]在走入智慧传播时代的当今社会,未来网络、5G/6G、区块链等新兴智能技术的耦合与应用将多维智慧媒介推向新的历史发展阶段,“万物皆媒”“万物互联”被赋予新的内涵外延。现阶段,人工智能技术迎来第三次发展浪潮,在超强算法、生物智能、移动传感等技术的加持下,人与机器、人与技术、人与媒介的互动合作更加亲密无间,无论是区块链技术应用推动下的智慧媒介生态系统改革,“5G+AI”对“场景化传播”模态结构改革的全面推动,还是下一代网络技术推动下“用户中心”传播格局的进一步深化,都为今天的媒介技术互动发展提供了新的时代情境与现实需求,新兴智能技术正快速进入社会传播活动的各个环节。
实际上,深度图像合成(Deep image synthesis)、深度视频合成(Deep video synthesis)、深度语音合成(Deep sound synthesis)以其高技术融合性和算法成熟性,较早地进入了人们的视线。现阶段,具备高度仿真能力和信息捕捉能力的深度合成技术正在被广泛应用于影视、娱乐、教育、医疗、社交、电商、科研等诸多领域,在媒介技术互动、推动社会智慧传播进程方面发挥了一定的技术贡献。例如,应用于电商领域的深度合成技术通过“快速换脸”技术,实现了消费者在购买前的“数字虚拟试穿”;医疗领域的深度合成技术能够通过说话者自适应(Speaker adaption)和说话者编码(Speaker encoding)技术,让失声患者重新获得“自己的声音”;在科普教育领域,英国公司利用语音合成技术将贝克汉姆的声音自动合成为八国语言,面向不同语言地区的青少年进行科学普及推广工作。
与此同时,在音视频深度合成技术的基础之上,借助自然语言处理的深度身体合成(Deep whole-body synthesis)技术也在近年走入大众的生活场景之中。2019年,日本人工智能数据网络公司Data Grid正式宣布仿真人AI的面世,新智能产品能够在身体深度合成技术的支持下自动生成虚拟人体模型,可全面应用于时尚、服装、娱乐等产业。同年,腾讯人工智能实验室(AI Lab)正式发布首个电竞虚拟人T.E.G(天鹅静),利用3D人脸塑型技术和深度身体合成技术,实现了语音、面部表情、肢体动作的人体深度合成迁移。一方面,不断升级优化的深度合成技术将协助人工智能进一步优化升级,完成更多、更广的服务工作;另一方面,通过自主学习与算法调整,技术得以进入“自主操纵”“自动合成”的全新生产阶段,从而实现从单纯“复制-粘贴”的简单操作到“学习-优化-进阶”复杂算法的跳跃。
三、消解与重构:“深度合成”对社会产业结构及价值逻辑的深刻影响
不可否认,深度合成技术的进步给今天的媒介社会结构带来前所未有的挑战。正如《黑镜(Black Mirror Season 5)》中展示的虚拟合成偶像“Ashley Too”生产过程,表现了深度合成技术对人类社会生活、情感认知带来的冲击性影响。近年来,深度合成内容的广泛传播对媒介信息、政府机构乃至整个社会系统的信任、安全情况带来深刻的影响,同时对社会政治、经济、文化、军事以及社会成员的认知、交往方式等社会价值逻辑产生重要变革。
首先,深度合成技术以其算法优越性和技术跨越性,对社会文化引擎与价值逻辑不断进行着消解与重构。基于智能算法技术和智能通讯手段发展而来的深度合成,自诞生以来,就以其融合性、互动性、精准性影响着人们的社会价值认知与文化产业发展进程。深度合成技术的渗透参与持续推动着社会文化形态的演进,在“符号价值”与“体验价值”高度凸显的当今社会,媒介产业的价值逻辑不断被重构,更贴近消费者需求、更重视用户体验的“用户中心”社会文化生态被逐渐建立,具有高度包容性、鲜明个人性的深度合成技术迅速受到年轻用户群体的青睐,如美国NETFLIX公司制作的《怪奇物语》借助Facebook的深度合成特效技术,支持用户与剧中演员“同框”制作短视频,拉近了作品与观众的距离,以参与其中的互动方式提升了观众的整体观看体验。近年来,随着深度合成技术的不断成熟与优化升级,其产研联动价值与艺术文化价值也逐渐显现,如2019年MIT-IBM Watson人工智能实验室发布了基于深度合成技术的“AI艺术画师”产品,正是以大量人类画作“投喂”生成对抗网络(GAN)的形式,通过计算工具“GAN Paint Studio”不断训练“AI画师”的艺术鉴赏、艺术创作能力,重塑了社会对艺术价值、文化价值的认知方式与评判标准。
其次,深度合成技术通过与多产业、多场域的联动融合,给社会众多产业发展提供了新思路、新路径,同时也注入了鲜活的生机与动力。近年来,深度合成技术的普及与推广深刻影响了游戏、艺术、娱乐、社交通讯、新零售等产业领域,从媒介技术融合的方式手段上为影视制作公司、博物馆修复、深度报道、数字复活等工作开辟了新的工具和平台,切实提升了文化产品的创建效率。尤其是自动数据生成、全身合成、3D塑型等技术形态的加入,大大节约了今天挖掘新闻数据、视频特效制作、多维图像修复等任务的时间与资金成本,推动了数字应用场景的拓展与落地。实际上,最基本的深度图像合成、深度视频合成技术早已通过与移动应用App合作嫁接的形式多次出现在我们的生活场景之中。与深度伪造技术有所不同,深度合成技术在维护数据安全、识别虚假信息等方面具有一定的技术优势与研究基础,AI合成主播、虚拟偶像、虚拟客服等也随着深度合成技术的不断深化融合而变得愈加逼真可信。以深度合成技术支持下的虚拟偶像为例,计算机通过对图像、声音、空间位置等信息的精准捕捉与复杂计算,为虚拟形象、虚拟人物的全方位塑造以及次元界限的打破提供了技术可能;加上深度语音合成技术对真人声音、语态的编码塑造,进一步为虚拟偶像的跨场域传播创造了条件,经过机器深度学习和算法训练之后的虚拟偶像更能担负与粉丝实时互动、进行情感创作等工作任务。
四、挑战与应对:“深度合成”技术的媒介社会反思
正如前面探讨的,深度合成技术在一定程度上对媒介社会带来了变革性影响,其辐射范围涉及社会结构、系统及社会成员认知、生活的方方面面。在如今智慧传播时代的媒介社会大背景下,无论是深度合成技术对媒介样态的丰富与催生,从传受结构、传播模态上给今天的媒介传播格局带来震动与重构,还是媒介技术互动参与过程中衍生的社会结构、伦理与安全问题,都需要将技术、社会伦理与人的关系紧密关联起来进行考量。正如有专家对“技术-伦理”关系的阐述:技术不可能以独立于伦理的态势获得发展,伦理是前沿科技发展的框架和底线,伦理的反思和引导需要一直贯穿技术发展的终始。[11]对深度合成技术的媒介社会反思亦是如此,技术的发展应遵循社会伦理,在社会伦理规范和框架下有序推动技术的革新和进步。
实际上,为对抗深度合成技术给媒介社会带来的一系列影响,学界和业界正在积极寻找相应的实施策略与解决方案。例如,结合无须权限的区块链技术(Permissionless blockchain),可以适用于深度合成的防范与监测工作,主要应用场景包括监测日志与传播行为、防篡改元数据及相关记录、维护身份认证密码及通行监测等等。另外,利用循环神经网络(Recurrent Neural Networks,RNN)、成对学习(Pairwise Learning)、数字图像取证技术(Digital Image Forensic)等人工智能技术,在处理深度合成监测、任务判定的过程中取得了一定的效果。谷歌在《人工智能:我们的原则(AI at Google: our principles)》中承诺:“我们致力于开发人工智能的最佳实践,以减少技术滥用所带来的潜在危害”[12]。2018年以来,谷歌着力研发的新型数据监测系统,旨在开发新的深度合成内容检测工具,更高效地识别深度合成假视频。但必须认识到的是,随着深度合成技术的不断成熟与算法升级,相关虚假合成内容的检测难度也逐渐增加。应当基于不同国家、地区的社会特点及区域优势,尊重社会技术发展逻辑与安全治理经验,整合技术发展、社会参与和政府监管力量的综合力量,循序渐进、科学有效地实现对深度合成内容的规范与整改。
我国较早对深度合成的社会影响进行了关注与应对,相关政府职能部门面对这一社会问题制定了一系列管理措施。2018年3月,国家新闻出版广电总局办公厅下发《关于进一步规范网络视听节目传播秩序的通知》,其中明确规定:“坚决禁止非法抓取、剪辑改编视听节目的行为,严格管理包括网民上传的类似重编节目,不给存在导向问题、版权问题、内容问题的剪拼改编视听节目提供传播渠道。”[13]并立即采取措施,对社交网络市场中存在问题的合成音视频、移动应用进行全面整改。次年1月,中央网信办、工业和信息化部、公安部、市场监管总局四部门联合发布《关于开展App违法违规收集使用个人信息专项治理的公告》,并迅速成立移动应用违法违规手机使用个人信息专项治理工作组,对多款设计违规操作的移动应用进行查处。[14]紧接着,国家互联网信息办公室、文化和旅游部、国家广播电视总局联合发布《网络音视频信息服务管理规定》,其中指出:“网络音视频信息服务提供者和网络音视频信息服务使用者利用基于深度学习、虚拟现实等的新技术、新应用制作、发布、传播非真实音视频信息的,应当以显著方式予以标识。”[15]这一新规定于2020年1月1日起正式生效实施,同时积极推动相关立法规制的确立进程。
国际方面,美国较早对深度合成内容的社会公信问题进行关注,在《2019年深度合成报告法案》中明确指出:“出于误导目的、使用新兴技术(包括人工智能、机器学习等),伪造或者操纵音视频或其他文本数据的数字内容伪造(Digital content forgery),将使他人对伪造内容的真实性产生误信,进而对社会公信、政府能力产生怀疑,并可能给社会系统带来后续更大危害,”[16]。2020年1月8日,美国国会针对数字操纵问题举行新闻听证会,有媒体报道认为,此听证会是一个明确的信号,它表示议员们正在认真对待“深伪”带来的威胁。[4]另外,英国出台的《网络危害白皮书(Online Harms White Paper)》于2019年4月被正式递交国会,证实了英国将采取确实措施对深度合成内容进行政府监管[17,18]。综合来看,深度合成技术所触发的智能风险问题已得到国际社会普遍重视,大家都在积极寻找相应的方案给予应对和解决。
五、结语
今天,“深度合成”给人类社会带来了前所未有的颠覆和改变,不断推动媒介社会的格局创新与价值重构。正如麦克卢汉所说的:“媒介是社会发展的基本动力,也是区分不同社会形态的标志。每一种新媒介的产生与应用都宣告我们进入一个新的时代。”[19]作为人工智能技术进步的产物,深度合成由诞生之初的科研技术产品,逐渐演变为媒介技术互动融合的典型代表,值得我们对现阶段媒介技术伦理进行深刻的思考。
尤其是伴随着媒介技术社会的高度发展,人们对技术、机器之依赖度、黏性度、亲密度日益提升,而“技术的铁笼”(1)“技术的铁笼”的概念最初源自Weber的社会学论述,由法国技术哲学家Ellul正式提出,后由美国科技伦理学家Spinello进行了“技术铁笼之伦理、道德”的经典论证。有中国学者指出:“我们说工具的场景分隔,在技术理想主义者看来,这就是所谓机械的‘技术的铁笼’。”[20]对人的束缚、制约甚至控制呈增强之势。深度合成作为技术工具既可以拓宽人类认知、丰富媒介体验,同时也加剧了人的软弱性。[21]人们在享受技术带来便利、优势的同时,也不得不面对由技术滥用、数据伪造等带来的一系列问题。我们必须认识到深度合成技术给娱乐、时尚、教育、游戏产业发展带来的活力与契机,给相关领域的延伸与拓展开辟了新的路径。例如,结合深度合成技术的科普教育能轻松合成多国语言进行世界大范围的传播;利用数字合成技术的影视制作能更高效、低成本地合成电影视觉特效,从而提升用户的观影体验。然而,也应高度警惕深度合成技术给社会安全带来的风险,以及给现有法律体系造成的新的挑战。现阶段,应当积极采取防范措施以应对深度合成带来的危害,并将其纳入全球治理的框架范围之内;大力推动国际打击深度合成虚假信息的有效协作,避免深度合成虚假信息在世界范围内的肆意扩散,维护国家和社会的繁荣与稳定。
恰如尼葛洛庞帝说的,“不管怎么样,我们无法否定这个媒介化生存时代的存在,也无法阻止传播技术的前进。”[22]目前,深度合成技术在我国的演化发展尚在可控范围之内,未来应如何从算法、数据、应用等层面科学管控技术伦理规程,发挥新兴技术优势以促进媒介社会发展、造福人类社会,将是一项值得持续关注的重点议题。