语音能克隆耳听不为实语音信息还能相信吗

2019-09-10冯韵浩

计算机与网络 2019年2期

冯韵浩

在即时通信软件中遇到好友凡是涉及代付、借钱、刷单等的消息，通常会第一时间想到对方是不是给盗号了，没办法，职业习惯所致。而本人验证的方式，都是让对方先发条语音来证明是他本人，然后再来谈要办的事儿。

可是，随着技术的的发展，语音也变得不可靠起来了，现在的技术已经可以很好地模拟人声，让凭借语音识别身份真伪方式也变得不可靠起来，这里就来谈一下语音模仿，再来看看已经进入大众使用的人声模拟读书应用效果到底如何。

一则新闻敲响警钟，语音来了也要分真假

前段时间，广东的孙女士称自己的微信被盗了，骗子利用她的微信向其好友借钱。孙女士的好友也很警觉，提出要语音核实其身份，没想到骗子还真发过去一条语音，内容就四个字：“是我是我。”对方一听，确实是孙女士的声音，于是就转了钱，进了骗子的圈套。无独有偶，河南许昌的魏先生，近日也被骗子用同样的手法，骗走了500块钱。

为啥已经通过语音确认了是好友的声音，还是被骗了呢？其原因是目前虽然已经有人声克隆模拟的技术，不过还没达到大众都能使用的地步，估计骗子可能用了语音复制技术，从被盗用户的语音历史中提取有效信息加以利用。或者事先添加了该被盗用户，然后诱惑该用户使用语音进行聊天，接着使用某加强版微信直接转发语音。

而这些只是基础的语音诈骗，如果人声可以模拟，那就严重的多了，但是目前人声模拟技术已经出现了。虽然不知道有没有谍战大片那种将变声器贴在颈部就能达到完美变声的科技，但是使用电脑来模拟人声的技术被开发出来了。

要谈谈声音克隆，我们先来看看早已实现的变声技术，现在变声技术已经在许多即时通信软件中得以应用，通过变声功能，可以把用户的声音由男声变为女声甚至变成萝莉音，不过这些变声效果都比较的生涩，比较容易被识别出是经过变声的。

声音克隆技术出现惟妙惟肖以假乱真

而声音克隆技术则有了进一步的发展，最終的效果就是可以完全地模拟某个人的声音，在不见面的情况下，都无法分辨哪个是本人发音，哪个是机器模拟出来的声音。

现在的技术已经可以通过AI算法来生成人的全套语音，人工模拟出来的语音甚至连愤怒、高兴等不同语气情绪都能够做到惟妙惟肖，足以以假乱真。那模拟人声是否需要很多素材？非也，所需要的材料也仅仅只需要被生成者的几段话而已。

开发这项技术的是谷歌2016年在加拿大蒙特利尔大学建立的人工智能实验室（MILA）。基于声音合成技术，MILA在

2017年4月份成立了Lyrebird公司。Lyrebird是一种名为琴鸟的鸟类，这种鸟具有一种特殊的天赋，它不仅能模仿多种其他鸟类的声音，它几乎还能模仿一切听到的声音。

在其网站DEMO部分，可以听到官方合成的足以以假乱真的特朗普以及奥巴马的声音，而美国那边也有记者用机器合成的句子跟家里人打电话做实验，他的母亲完全分不清楚真假。

之所以能产生如此高还原度的合成声音，背后的技术正是神经网络（Neural Network）和机器学习（Machine Learning）。神经网络模拟电信号在人脑神经元之间的传递过程，对输入数据进行处理。它利用分层的神经元，从大量样本数据中总结出共同特征。第一个用神经网络来生成人类自然语音的，就是DeepMind的WaveNet。没错，就是那个做AlphaGo公司。

WaveNet可以把PS痕迹明显的机器语音，转换成更加流畅自然的语音，与人类声音之间的差异大幅降低，目前在特殊视频界做的风生水起。而Lyrebird则更进一层，他可以基于音色、音调、音节和停顿等多种特征，来定义某个人的声音，然后生成更加拟真的声音。

而琴鸟公司的AI使用了一种全新的语音合成系统，能在“倾听”过程中“掌握”每个人说话时字母、音位和单词的发音特点，通过推理并模仿这个人声音中的情感和语调，“说”出全新的语句。

新系统使用模仿人脑思维的算法创建出一种人工神经网络，能利用深度学习技术将所听到的转换成语音，并仅靠任何人1分钟讲话内容，就能完全模仿这个人说话。

从以上内容可以知道，目前只需要拿到技术人员足够多的语音素材，就能通过机器学习的方式，进而达到模拟指定人物的讲话效果，模拟出来的声音还惟妙惟肖的。到这个技术普及的时候，黑客们就可以利用该技术模仿指定人物的声音来任意的合成他想要说的话。这样一来。利用语音验证来看看是不是本人的方式将变得越来越不可靠，好在目前这个技术尚处于实验室阶段，没有被普及。

能克隆语音的APP

目前，国内也有几个类似的语音模仿应用，利用它用户可以用自己喜欢的声音来进行听书，比如可以用女神那诱人的声音来帮你念读小说，用喜欢的人声来念读喜欢的小说，动听的声音让听书也成了一种享受。

其中一款手机应用叫《讯飞阅读》，没错，就是那个擅长语音识别的科大讯飞旗下的一款手机端阅读APP。

还有具有类似功能的APP是《迅雷阅读》，主打的功能是听书，用户可以用聆听的方式来欣赏小说，闭上眼睛，听着自己喜欢的小说，养养精神是个不错的事儿。

《讯飞阅读》是一个小说阅读工具，用户可以用它来阅读小说。跟其它小说阅读器不同，《讯飞阅读》可以使用许多主播的声音来进行念诵，有许多风格不同的主播，也有各种的方言主播（也就是说，可以用多种方言来听书），用主播的声音来听书，调好语速，就能大大地减少那种机器发音的生涩感，达到模拟人读书的效果。

而在这里要说的就是《讯飞阅读》的“声音复刻”功能，利用该功能，可以把自己或者你喜欢的人的声音进行复刻，然后就可以用该声音来进行念诵了。那么，复刻出来的声音像不像呢？使用时《讯飞阅读》会录音进行上传，按照APP的提示录制10段语音念诵信息后，就会进入人声复刻阶段，《讯飞阅读》会在服务器端进行语音的识别分析模拟，等分析模拟完毕后，就可以用该声音来进行小说的念诵了。

模拟出来本人的声音，有70 %～80 %的相似度，发给几个朋友听也说比较的像。但是仔细听还是有点机器发音的那种停顿感，还是可以分辨出来的，而且用自己的声音来听书，感觉也有些怪。

警惕声音复刻自己声音也要保护好

总之，利用这个功能或者说技术，可以在文本文件中输入任意的文字内容，然后在《讯飞阅读》中导入该文件，就可以用复刻的声音以语音形式来进行念诵该文件里的文字了，这也提醒了用户，不要把自己复刻的声音随便传播。

好消息就是，当前类似这种“声音复刻”的功能，需要事先收集用户说念诵出来的指定的几段文字后才能进行声音的复刻。而不是随便地收集任意几句话就能进行声音的复刻操作，这在一定程序上保障了用户的语音安全。

随着技术的发展，特别是AI人工智能的加入，人声的模拟变得越来越简单，只要收集足够多的个人声音素材，然后对个人说话方式、声调语调进行深入分析，再利用计算机语音合成，就可以模拟出个人真人的发音，随着技术的发展，模拟出来的人声将越来越难分辨真假。所以不要凭借短短的一段语音来确认对方，可以通过视频一下或者打个电话确认一番，小心为上总是好的。

人们常说的眼见为实中包括的图片、视频，其中图片早已可以用PS改的以假乱真，而视频也可以通过深度学习技术来嫁接人头，眼见也未必属实了！这就再次提醒大家，在互联网时代要更加注意保护自己的隐私信息。