APP下载

语音信源的语义编码传输方法研究

2023-05-13牛凯NIUKai姚圣时YAOShengshi戴金晟DAIJincheng

中兴通讯技术 2023年2期
关键词:信源信道波形

牛凯/NIU Kai,姚圣时/YAO Shengshi,戴金晟/DAI Jincheng

( 北京邮电大学泛网无线通信教育部重点实验室,中国 北京100876)

过去70年,通信技术取得了突飞猛进的发展。基于经典信息理论[1],先进的编码技术包括信源编码、信道编码,已经逼近了信源熵/率失真函数以及信道容量。然而,经典信息论只研究语法信息,致力于信息传输的有效性和可靠性。从认识论观点看,信息分为3个层次:语法、语义和语用[1]。C. E. SHANNON 和W. WEAVER[2]指出了通信的另一层面,即通信的语义问题以及有效性问题。得益于人工智能技术的发展,之前未能被解决的信息的语义及语用层次重新得到了研究人员的关注。北京邮电大学张平院士深入分析语义信息特征,提出语义基(Seb)模型[2],指出语义信息可以用Seb 进行表征。张平院士提出“智简(Intellicise)”理念[4],进一步提出模型驱动的语义通信框架,实现通信系统由传输比特演进为传输经语义处理得到的新特征,例如Seb等。牛凯等深入研究了从经典通信到语义通信的范式转变,提出了语义通信系统的基本框架[5-7]。其他团队也对语义通信开展了多项研究工作:石光明等提出了语义通信的基本框架[8],秦志金等针对语义通信系统探讨了深度学习赋能的语义通信理论、框架和系统模型[9],北京交通大学、帝国理工大学团队分析了信源信道联合编码在语义通信中的应用[10]。本文总结并回顾已有的面向语音信源的语义编码传输方法,并指出未来的研究方向。

语音编码一直是移动通信中的基础问题,其目的是获得语音信号的紧凑表征,从而实现高效传输。波形编码和参量编码是传统语音编码的两大主流方法。波形编码旨在编码端对波形信号进行数字化,并在解码端尽可能重构波形,以脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)和自适应差分脉冲编码调制(ADPCM)[11]为代表。通过传输声学模型的系数,参数编码以低比特率成本提供了可比较的重建质量。线性预测编码(LPC)引入了信源-滤波器模型,它的参数通过线性来预测,并根据语音样本来确定。码激励线性预测(CELP)[12]是一种结合波形编码和LPC 模型的混合编码方法,适用于窄频带和中频带语音编码。Opus 是近几年性能较好的开源音频编码器[13],支持动态可调速率以及从窄带到全带宽的音频编码。其中,语音编码采用了基于LPC的SILK和能量约束重叠变换(CELT)编码器。

现有的通信系统采用传统的音频编码器级联信道编码的方法,但其编码信息与语义无关,且易出现差错传播的情况。从语义信息传输的角度来设计传输方法,可以在语义空间内纠正信道传输引起的偏差。这种方法的针对性更强,最终可以提升端到端的编码传输效率。基于神经网络的语音编码方法已经有了初步研究,引入线性预测和基于变分自编码器的矢量量化(VQ-VAE)[14],可以将语音特征以低速率传输。这些方法对语音信号的语义编码传输起到了指导作用。传统语音评价指标的不可微的性质导致无法直接用于语义编码模型优化,因此寻找合适的语音信号的语义传输的感知优化函数至关重要。

1 语义通信系统简介

语义通信系统的模型[5]如图1 所示,参照C. E.SHANNON 和W. WEAVER 的思想[2],该模型分为Level A 技术级通信与Level B 语义级通信两个层级,具体由信源、语义知识库、语义发射机、信号发射机、信道、信号接收机、语义接收机、信宿8个部分组成。

其中,语义知识库包括信道环境特征、信源及任务特征,可以对语义发射机/接收机、信号发射机/接收机起到指导作用。语义编码传输问题即如何在语义知识库的指导下进行语义发射机/接收机和信号发射机/接收机的编译码设计问题。

▲图1 语义通信的系统模型

语音信源的语义传输任务通常分为两大类:1)面向听觉的语音信号传输;2)传递内涵文本信息的语音信号传输。两类任务的语义编码优化设计准则也不同:面向语音文本内容的传输以误词率、文本重合度为语义传输性能的主要评价指标;面向人的听觉的语义传输主要考虑的是人的主观感受。针对如何提高人的主观感受(或称为感知编码),研究者提出了客观语音质量评估(PESQ)[15]、ViSQOL[16]等语音感知质量评价指标。在语音质量的主观评价方面,除平均主观意见分(MOS)外,常见的还有多激励隐藏参考基准测试(MUSHRA)[17]方法。

2 面向语音的语义编码传输方法

语音信源的语义编码传输一般包括两类方法:基于波形的语义编码传输和生成式的语义编码传输。

2.1 基于波形的语义编码传输

基于时域波形信号的语义编码传输方法直接从语音波形信号中提取语义特征并映射为信道中的传输符号。此类方法属于信源信道联合编码范畴。利用深度神经网络的信源信道联合编码,重建质量随信噪比的降低而柔和降低,不存在悬崖效应。QIN Z. J.等针对语音信源,构建了一种面向语音信源的深度语义通信网络(DeepSC-S)[18],提高了语音信号的重建质量。该方法主要利用卷积神经网络与“压缩-激励”模块提取语音信源语义特征,实现从信源数据到信道中传输符号的映射。该编码过程与信道条件有关,达到信源信道联合编码的效果。

语音信源向量s ∈Rm经过编码神经网络fe映射,得到语义编码向量x ∈Rk,满足编码约束x = fe(s; ϕe)。其中,ϕf为DeepSC-S 编码器模型参数。经过加性高斯白噪声(AWGN)信道后,解码器输入语义向量为y = x + n。其中,n ∼N(0,Ik)是独立同分布的高斯噪声向量,是噪声方差,Ik是单位阵。接收端译码器由卷积神经网络构成,经过解码,得到输出向量x̂= fd(y; ϕd)。最后,整个模型联合进行端到端联合训练,损失函数为:

DeepSC-S的PESQ-SNR曲线如图2所示,在不同信道中的相同信噪比下,DeepSC-S(红色)的性能优于传统分离式编码PCM+Turbo码的性能。

▲图2 DeepSC-S的PESQ-SNR曲线[18]

然而,DeepSC-S 对不同帧语音信号的编码速率是相同的,且提取的语义特征不明确,无法区分不同语音帧上的内容差异、语义差异,即无法从细粒度上刻画语义信息量的多少,因此难以获得接近于熵编码的压缩增益。这导致传输带宽较高,且编码效率较低。

为了进一步提高语音信号的语义传输效率,我们借鉴了非线性变换编码的思想[19-21],设计了基于非线性变换的语音语义信源编码方案[22]和语义编码传输方案[23]。下面我们简要介绍两种方案的基本原理。

基于信源变换编码的流程如图3所示。首先,语音经过分帧预加重等预处理后再经波形分析变换就可得到语义特征向量y = ga,ϕg(x),其中ϕg为波形分析网络的模型参数。其次,一对超先验编译码器将语义特征向量y变分建模为简单的高斯分布,从而使用算数编码器根据概率值对语义向量y进行熵编码。在收端,波形综合变换网络将恢复的语义特征向量yˉ重构为语音波形信号̂= gs,ψg(),其中ψg为波形综合网络的模型参数。

▲图3 基于非线性变换的语音信源语义编码流程图

在端到端优化时,为解决量化不可导的问题,引入了取值范围为的均匀噪声,得到语义特征向量的近似量化形式。类似地,超先验向量z 也可近似量化为͂,从而得到了熵模型:

其中,z = ha,ϕh(y),ϕh为超先验编码器的参数集合,N(μ,σ2)表示均值为μ,方差为σ2的高斯分布,*表示卷积。

变换编码的优化问题是一个有损信源编码问题。若语音语义传输是面向人主观听觉感知质量的,那么优化语音的主观感知质量比波形失真更加重要。总的来说,该问题可以转变为最小化真实的联合后验概率与实际概率密度分布的KL散度,即:

其中,等式后大括号内第1、2 项刻画了y 和z 的编码速率,第3项刻画了失真度量,第4项为求均值后为常数。

基于非线性变换的语义编码的率失真性能曲线如图4所示。我们可以发现,在低速率时,相较于自适应多速率宽带语音编码(AMR-WB)[23]以及基于变分自编码器的矢量量化(VQ-VAE)神经网络编码,基于非线性变换的语义编码的感知质量优势明显;在高速率时,PESQ 也与Opus 性能相近。

▲图4 基于非线性变换的语音语义编码PESQ分数(取值为1.0~4.5)

在非线性变换语义信源编码的基础上,语音信源的语义-信源信道联合变换编码不用对语义特征向量量化并熵编码,而是将其映射为信道传输符号,其流程如图5所示。一方面,语义特征向量y需要通过超先验编解码器将其变分建模为高斯分布。此步骤是为了用语义特征向量的概率分布及概率值来衡量该语音帧的内容复杂度,从而决定编码所需要的符号数。另一方面,利用Transformer[24]网络构成的信源信道联合编码器,可以将N 帧的语义特征向量y1,…,yN映射为信道中传输符号序列s = fe,ϕf(y1,…,yN)。其中,ϕf为信源信道联合编码器的参数集合。每个语义特征向量最终的编码长度由熵模型给出。

▲图5 基于非线性变换的语音语义信源信道联合编码系统结构

对于传输问题,其优化函数转变为端到端的率失真优化问题,速率此时定义为传输带宽,训练的损失函数如公式(4):

图5中基于Transformer网络的信源信道联合编/译码器包括4层8头注意力层,维度为1 024。语音数据来自于TIMIT(英文语音数据集)[25],采样率为16 kHz。图6 给出了不同信道下基于非线性变换的语义编码传输方法的仿真结果。图6(a)为AWGN信道在传输带宽为4 kHz的条件下,不同编码传输方法在PESQ评估指标下的端到端率失真曲线图以及主观得分箱线图;图6(b)为COST2100衰落信道[26]在传输带宽10 kHz、平均信噪比为2 dB 的条件下,不同编码方案的PESQ评估指标下的端到端率失真曲线图及MUSHRA主观得分箱线图。其中,红色线为非线性变换语义编码传输方法的曲线,蓝色线和绿色线为传统分离式编码方法曲线。我们可以发现,在相同主观/客观感知质量指标下,相较于传统语音编码的AMR-WB、Opus编码器级联5G LDPC信道编码,以及DeepSC-S,基于变换编码的语音语义传输所需带宽更少,且在衰落信道中也表现出更加出色的鲁棒性。

▲图6 基于非线性变换的语音语义编码传输重建语音质量性能

2.2 生成式语音语义编码传输

生成式语音语义编码传输的研究工作目前还较少,HAN T. X.等研究了上述所说的两种语音语义传输的范式[27]。在语音传输范式中,HAN T. X.等将卷积神经网络级联双向长短期记忆网络(LSTM)作为语义编码器,对语音帧的40 组频率滤波器系数进行语义特征提取。同时, 他们还借鉴了FastSpeech2[28]的做法,通过对齐模块预测每帧对应的子单词,并计算每个音素的音高、功率等声学特征。在接收侧,文本特征、声学特征向量经对齐级联,由文本-语音综合器恢复语音频谱,最后声码器根据频谱重新生成语音波形,生成效果如图7 所示。重建语音的MOS 在AWGN 信道中的各个信噪比下都优于DeepSC-S。

▲图7 生成式语音语义编码传输效果[27]

生成式语音语义编码传输的优势在于所需带宽少,无须将语音波形信号的全部信息编码,利用人的听觉特性用少量的滤波器组在编码前就可将高采样率的波形信号转化为低采样率的声学特征信号,这样可以降低数据量。但根据数据处理定理,对语音信号的处理会导致部分信息的损失。如果接收侧关注编码语音特征以外的信息,则会导致语义传输的效果变差。另外,生成式的语义编码传输方法通过生成模型来重建语音波形,生成过程的复杂度、编译码器模型的训练难度都将给生成式语义编码传输方法的设计和实际应用带来挑战。

近两年,生成模型正在快速发展,人工智能生成内容(AIGC)的质量及自然度逼近人类。可以预见,基于生成式的语音编码传输也将对语音信号的语义编码设计带来重要影响。

3 结束语

本文中,我们对语音信源的语义编码传输方法进行了整理与总结:首先回顾了现有的传统语音编码技术,分析了语音语义编码传输的优化目标,具体而言,在面向人的感知体验的情境下,优化目标主要为提高人的感知质量;而在面向文本任务的情境下,优化目标主要为提升文本识别正确率。其次,我们将现有的语音语义编码传输方法分为两大类:一类为直接对语音信号样值序列进行编码,一类为对传输语音信号的声学特征进行编码和传输,在接收侧通过生成式声码器重建语音。最后,我们展望了未来生成模型应用于语音语义编码传输的优势及挑战。

猜你喜欢

信源信道波形
基于极化码的分布式多信源信道联合编码
对《压力容器波形膨胀节》2018版新标准的理解及分析
基于LFM波形的灵巧干扰效能分析
信源控制电路在功率容量测试系统中的应用
基于ARM的任意波形电源设计
基于导频的OFDM信道估计技术
信源自动切换装置的设计及控制原理
大连台使用CTS-1记录波形特点
一种改进的基于DFT-MMSE的信道估计方法
基于MED信道选择和虚拟嵌入块的YASS改进算法