APP下载

合成语音的声纹鉴定分析
——以两名AI 虚拟主播语音为基础

2022-04-07张学海杨璐铭

中国司法鉴定 2022年2期
关键词:共振韵母音节

张学海,杨璐铭

(广东省公安厅刑事技术中心,广东 广州 510050)

随着人工智能(artificial intelligence, AI)和语音合成等技术日益发展,AI 虚拟主播已承担了部分播报事务。 AI 虚拟主播(又称“AI 合成主播”)涉及语音合成、人脸建模、机器翻译等多项技术,其中语音合成技术的运用,使其能发出声音进行播报。

语音合成技术就是将文字信息转化对应的语音片段并合成为标准流畅的语音朗读出来,语音合成研究的目的是制造会说话的机器。 语音合成方法包含参数合成法和拼接合成法两大类。 随着时代的发展与科技的进步,应在司法鉴定领域对人工语音合成早作研究。

1 对象与方法

本文以两家企业打造的AI 虚拟主播的语音为研究对象,两款AI 主播分别以一男一女两位现实主持人为原型,在采集这两位真人主持人语音的基础上,运用语音合成技术合成具有各自原型主持人音色的语音,并分别在不同媒体平台进行新闻播报。

在研究方法上,通过相关视频节目收集公开播报的两款AI 虚拟主播的语音,并以各自原型主持人的节目语音为样本,从声纹鉴定的听觉感知、语谱分析两个方面进行研究。

2 听觉感知

2.1 审听

经审听,两位AI 虚拟主播的合成语音与各自原型的语音相比,在音质、纯度、音高等方面无显著差异,普通话发音标准无方言特点,并已经掌握了一定的语流音变变调模式。 例如:普通话有上声音变现象,即双上声音节词中,第一个上声字的调值由原本的[214]变为[35],在合成语音中,女合成语音将“养老”读成“阳老”,男合成语音将“采取”读成“裁取”。 符合真人发音逻辑。

普通话词语中, “一”字放在非去声调类之前基本上变调为去声、“不”字放在去声调类之前则变调为阳平,男合成语音在“一起来”“不断”,女合成语音在“邀您一起”“不作调整”的语境中,均将“一”变为去声,“不”变调为阳平,而在“一六〇战略轰炸机”“不合理”(男合成语音)以及 “一月”“不同”(女合成语音)等词语中,仍读原字音。 符合真人对“一”字和“不”字不同读音的发音逻辑。

合成语音与其原型语音的差异主要表现在两个方面:(1)自然度不够,整体上语音机械感较强。例如合成语音的“你我都哭过、笑过、沮丧过、欢喜过”这类排比句式,语调、节奏都很均匀,生硬不自然,其原型主持人讲述“构建亚洲命运共同体、人类命运共同体”时,则短语时长节奏有变化,“人类”重读、拖长,稍停顿再说“共同体”,更有情感、节奏感。(2)表达存在差错。 一是停顿不当,如合成语音将“石油输出国组织承诺”播报断句为“石油输出国 /组织承诺”;二是多音字声调错读,例如“为改革开放打call”的“为”被读为阳平。

2.2 讨论

普通话的语流音变有规律可循,AI 虚拟主播能通过学习、训练进而掌握一定的语流音变模式,避免生硬照字读音,在听感上已难以仅从字音去判断是否属于合成语音。 其与真人差别的方面,主要是在自然度及语音情感上,自然度不够主要是韵律上的差别。 韵律是指话语中的重音、节奏和语调现象。 合成语音节奏上平铺直叙,缺少变化、轻重音的区别,缺乏个人语音情感。 以前述排比句为例,虽然合成语音在新闻播报中没有激烈的情感表达,但与原型语音相比,即使同为新闻类低情感唤醒度的语音,仍在情感表达上存在差距。 情感合成语音要在合成语音技术基础上,加入丰富韵律的控制,使合成语音能够表达说话人情感,当前需就韵律特征与情感表达的联系加强研究,这一点也是分辨合成语音的重要参考维度。

至于表达上的错误,则说明合成语音对文本的语义理解、表达逻辑认识不清,具体表现在合成语音对韵律边界把握不准确。 此外,两位原型主持人普通话发音标准,本身不带方言口音特点。 如以方言普通话为原型提取语音特征,不同的合成方法能多大程度体现出方言普通话的特点,尚有待研究。

综上,合成语音的音质、纯度、音高等方面与其原型较接近,但在处理韵律问题上仍有待提高,这一不足令合成语音缺乏情感和自然度,出现播报错误并呈现出不真实的特点,合成语音听感上的韵律问题仍有待深入研究。

3 语谱分析

3.1 语谱比对

共振峰特征作为声纹检验的关键语音频谱特征,本文重点关注合成语音的共振峰特点。 在所用视频中,音频采样率均为44.1 kHz。 从AI 虚拟主播及各自原型语音中选出30 组相同发音音节 (女声14 组、男声 16 组)。 在谱范围为 4、8 kHz 的条件下,对该30 组相同音节声纹进行观察与测量。

就谱范围为4kHz 的语谱图频谱特征而言,26 组相同音的频谱特征基本吻合,其余4 组相同音的差异主要表现在4 kHz 谱范围内的高频部分(即3 kHz以上)。 如果将谱范围调至8 kHz,30 组相同音均在4 kHz 至8 kHz 范围内的语谱图中,则存在显著差异。 以“jie、mei”两个音节为例,图 1 为女性合成语音及其原型的“jie”音节不同谱范围的宽带图谱,两者主要差别在3.5 kHz 以上; 图2 为男性合成语音及其原型的“mei”音节不同谱范围的宽带图谱,两者主要差别在4 kHz 以上。

图1 女性合成语音及原型“jie”音节4 kHz及8 kHz 谱范围的宽带图

图2 男性合成语音及原型“mei”音节4 kHz及8 kHz 谱范围的宽带图

如无特殊说明,本文所指“高频共振峰”为3 kHz至8 kHz 范围内的共振峰。据观察,高频共振峰频谱特征的差别主要有两点:(1)共振峰条数不同。 在高频部分,部分相同发音组的共振峰条数存在不一致的情况,例如 “hui”音节(图3),虽然高频共振峰能量较弱,但合成语音在4 kHz 以上的共振峰条数明显较多。(2)共振峰位置不同。主要表现在共振峰频率、走向、形态等特征上。 图4 两条曲线分别代表女性合成语音及其原型语音的“li”音节共振峰瞬时功率图,能反映共振峰位置的差别。两者F、F均非常契合, 但女性合成语音的第三共振峰位于4 kHz,原型语音的第三共振峰约为4.2 kHz,合成语音的该条共振峰明显偏低,6 kHz 至7 kHz 范围内也是合成语音的共振峰频率偏低。

图3 男性合成语音及原型语音的“hui”音节宽带图

图4 女性合成语音及原型语音“li”音节瞬时功率图

在30 组相同音节的图谱中,4 kHz 以上的图谱均至少有其中一种差异点,甚至多组相同音在4 kHz 以上图谱中,两种不同兼备,如图5 女性合成语音及其原型语音的“ji”音节。 此外,女性合成语音的“wei、yi、bao、shi”等音节及男性合成语音的“mian、bei、chang、quan”等音节均如此。

另外,部分相同发音组在音节内辅音-元音过渡段形态上存在差别,合成语音在辅音、元音(均为声母、韵母)连接处存在明显割裂,原型语音往往是辅音-元音过渡自然连贯,如前文图1、图5 的第二共振峰。该现象主要出现在部分辅音为擦音的音节中。

图5 女性合成语音及原型语音的“ji”音节宽带图

3.2 讨论

共振峰频率特征反映的是发音过程中或发音过程中某一时段或某一瞬间声道的形状特点。 日常鉴定因录音设备、录音质量等问题,对于4 kHz 以上尤其是5 kHz 以上的高频共振峰关注较少,但高频共振峰也是原始声带音经声腔共振作用后的体现,虽然一般来说更高频的共振峰能量往往偏弱,但同样体现了个体特征。

就本次研究的AI 虚拟主播及其原型的语音而言,高频共振峰仍有相当的稳定性。 以“zhong”音节的“ong”韵母为例,图 6、图 7 分别为男性、女性合成语音及其原型语音多次念读该音节时的韵母平直段瞬时功率图。 在图示横坐标范围内,图6 男主持人的“ong”韵母高频共振峰频率平均值分别约为4 kHz 以及7 kHz,其男性合成语音的高频共振峰频率平均值约为 3.7、5.5、7.5 kHz;图 7 女主持人的“ong”韵母高频共振峰频率平均值分别约为3.7、7.5 kHz,其女性合成语音的高频共振峰频率平均值约为4.5 kHz。低频部分均差别不明显。此外,合成语音及其原型语音的“xi、er、shi”等音节,多次重复后的韵母平直段共振峰功率图均能体现个体稳定性以及与他者的差异性。

图6 男性合成语音及原型语音“ong”韵母瞬时功率图

图7 女性合成语音及原型语音“ong”韵母瞬时功率图

基于高频共振峰对差异的体现性及其自身的相对稳定性,在语谱图上,合成语音与原型语音的差别主要在于4 kHz 以上的高频图谱中, 有些音节在3 kHz 以上已能发现差别。共振峰条数、位置的差别等频谱特征是其主要且较为稳定的差异表现。

音节内辅音-元音过渡段是指处于声母和韵母之间,跟韵母共振峰平滑衔接的一段高度动态性的浊音音节。 该过渡段动态性较高,从语谱图上来看,当前合成语音技术,尚不能很好地呈现部分音节的这一动态过程。

4 结论

在当前技术水平下,合成语音在处理韵律问题上仍有待提高,听觉感知仍能发现缺乏情感和自然度、播报错误等问题,结合个人特征的听觉感知可作声纹检验的参考。 从语谱图上看,合成语音与其原型语音的差异主要表现在4 kHz 以上的高频共振峰上,有些音节在3 kHz 以上即能显示出差别,部分音节的音节内辅音-元音过渡段缺失。

待该技术更加成熟普及后应作更大样本量的系统研究,更应在深度学习等领域对声纹欺骗检测加强探究。

猜你喜欢

共振韵母音节
钟磬共振 大写开怀——张宜的人物画
共振的威力
r(re)音节单词的拼读规则
同声相应
拼拼 读读 写写
单韵母扛声调
浅谈韵母的内部结构分析
《湘水韵》及其编撰原理要点
看音节说句子
“共振”的世界