APP下载

以压缩感知为基础的语音数字编码技术

2019-01-06黎华

无线互联科技 2019年21期
关键词:压缩感知基础

黎华

摘   要:语音通信是当前社会发展中基本通信方式之一,实现高质量语音通信的根本在于计算机、电子技术等相关科技领域的发展。文章指出语音数字编码技术主要用于将原本模拟信号的语音转化为数字信号形式,方便用户对语音进行处理、传输以及存储。文章基于压缩感知,对语音编码技术进行详细分析。

关键词:压缩感知;基础;语音数字;编码技术

压缩感知技术能够实现对信号在采样的同时进行压缩,因此,受到信号处理行业的重视。对于数字语音处理来说,采样之后的量化编码是比较重要的一部分,在这样的背景下,本文以压缩感知作为基础,研究语音数字编码技术,希望以此能够为相关人士提供参考。

1    概述压缩感知

压缩感知,又名压缩采样、稀疏采样,从本质上来讲是查找欠定线性系统的一种稀疏技术,这项技术被广泛应用于电子工程领域,尤其是在信号处理方面。工作原理是信号具有稀疏特性,与奈奎斯特理论相比较,可以从比较少的测量中还原出原本想要获得的信号。核磁共振是一个比较典型的例子。

2    基于压缩感知技术下系数表示的语音压缩感知编码研究

2.1  稀疏表示理论

随着科学技术的发展,传感器技术应运而生,多数领域在发展中存在数据不断增长情况,例如音频、视频、地震等数据信息,如何对以上数据进行有效处理,使其表达方式更加简洁以及自适应,已逐渐成为当前信号处理行业重要问题之一。小波理论背景下的分解思想主要表达的是自适应选取特征。假设信号为s∈RN,L个N维长度向量d为字典D,表达式为D={d,∈RN,‖dγ‖=1,1≤γ≤L},给定字典后,信号s的线性组合表达式为:

也可运用分解逼近形式来表示信号:

α为展开系数,R(k)为经过k项之后的残差,若K<

上述表达式中α=[α1, α2, α3, …, αL],指系数展开后的向量组成,‖a‖0为a的L0范数,代表系数α非零元素个数。基于此,要想切实保证稀疏具备相应的稀疏度,就需要对维度k的大小进行合理固定,促使信号接近于模型min‖s-Da‖22 s.t.‖a‖0≤K,这种情况下,a处于绝对稀疏状态,稀疏度为K<

2.2  冗余字典

2.2.1  基于调和分析的字典

通过展开某种类型的固定基,将其使用于信号中某种类型的结构特征,不适用于局部变化大的信号。一般来说,这种方式需要定义与该信号结构特征两者相匹配的时频原子,主要是通过固定窗函数w(t)平移、拉伸以及调制的方式获取的,因此,要想确保时域局部性,就需要固定窗函数w(t)满足以下几点要求[1]:

(1)固定窗函数w(t)必须为连续可为实函数。(2)‖w(t)‖=1。(3)w(t)=。(4)dt≠0 and w(0)≠0。

之后对时频原子簇定义为:

在上述表达式中,γ=(s, u, ζ),尺度、平移、频率3种参量分别为s>0, u, ζ。假设w(t)为偶函数,在坐标u集中已知能量,同时已知能量的集中程度与尺度s两者成比例,这时候w(t)可转变为:

因w(w)也属于偶函数,这使得能量集中位置在对称轴w=ζ附近。通过对以上两个观察式进行探究发现,时频原子不管是在时域上,还是在频域上,都具备相应的局部性。运用这种方法构成冗余字典,一方面能够切实满足信号的特征;另一方面对某类信号进行有效分解。从本质上来讲,这种类型的字典生成方式主要是通过对参数进行调整,以此为基础对原子时频特性进行相应的调整,所产生的字典具有结构强、可选性大以及对各种异性结构进行有效稀疏表示等特征,在图像消噪、压缩等领域中已取得相应进展[2]。

2.2.2  基于样本训练的字典

基于样本训练的字典、不需要提前对字典原子表达式进行定义,但在通常情况下,经常会存在各种复杂约束代价函数,正则理论也因此导入。

当前比较流行的算法为K-SVD算法,也是K-Means算法扩大化,当字典中一个原子的近似表示为K-SVD算法时,就会退化为K-Means算法。从性质上来讲,这种算法主要是运用奇异值的方式进行分解,代替原有对逆矩阵进行求解的方式来获取更新原子,在圖像消噪领域中获得良好的应用。除以上集中算法之外,还有ODL算法、RLS-DLA字典学习算法、Analysis K-SVD算法等,以上得到的字典都属于非结构性字典,而在大部分算法中,主要包括两种,一种为稀疏分解,另一种为字典更新,其中,字典更新这种算法是由稀疏展开向量正则约束条件决定的。

2.3  语音压缩感知编码中稀疏表示的应用

本文以K-SVD算法为例,目标函数公式如下:

其中,x∈RN指的是训练样本;α∈RL指训练信号稀疏表示;D∈RN×L是冗余字典。其中X指训练样本集合,A指稀疏表示样本集合,K指系数表示系数中的最大稀疏度。根据误差逼近角度来分析,这种算法还可以表示为以下公式:

3    仿真结果分析

通过仿真实验验证语音压缩感知编码算法是否具有可行性意义。本次实验采用的语音来自CASLA98语音库,其中采样频率是8 kHz,选取人数为50人,男女语音分别为100句,最终结果为平均数。为切实确保这项编码具备可靠性,利用MOS分以及平均帧信噪比对解码后重构语言质量进行评判。

本次仿真实验冗余字典表示为D,其大小L=8 192;语音帧长大小为30 ms,图1为不同原子数量编码平均重构性噪比。根据图1可知,随着稀疏表示原子个数不断增多(单位:K),相应的重构语音信噪比也因此不断增大,但稀疏表示原子个数高于10以后,系统性能也随之呈现缓和态势发展。通过分析原子个数对重构语音MOS分产生的影响,可得出结论:重构语音MOS分会随着原子个数不断增加的过程逐渐趋于平缓发展。分析男声可知,重构语音平均信噪比为16.478 dB,MOS分为3.083,人耳听力感知趋于清楚,但还是存在杂音;分析女声可知,重构性能与男生差别不多,但从整体上看重构效果比男声语音要低,这主要是因为女声高频部分成分比较多,就使得DCT稀疏性差,出现重构误差大的问题。基于此,要想解决男声与女声之间存在的压缩感知性能差异,就需要选择男声女声效果优质的稀疏域,从本质上来讲就是将女声的稀疏字典进行改进,进一步实现对女声的真正稀疏表示[3]。

4    結语

综上所述,压缩感知理论与语音数字编码技术对社会的发展有积极性意义,本次探究希望能够为相关科学研究人员提供参考意见。

[参考文献]

[1]贾晓立,江晓波,蒋三新,等.利用结构特征的语音压缩感知重建算法[J].上海交通大学学报,2017(9):1111-1116.

[2]隋昊,周萍,沈昊,等.基于混沌序列的压缩感知语音增强算法[J].微电子学与计算机,2018(1):96-99.

[3]宋维琪,张宇,吴彩端,等.多道联合压缩感知弱小反射地震信号提取处理方法[J].地球物理学报,2017(8):3238-3245.

Speech digital coding technology based on compressed perception

Li Hua

(Yueyang Vocational Technical College, Yueyang 414000, China)

Abstract:Speech communication is one of the basic communication methods in the current social development. The realization of high-quality voice communication lies in the development of computer, electronic technology and other related scientific and technological fields. The speech digital coding technology mentioned in this paper is one of them. Its main purpose is to convert the original analog signal speech into digital signal form, so as to facilitate users to process, transmit and store speech. In this paper, the speech coding technology is analyzed in detail based on the compression perception.

Key words:compression perception; foundation; voice number; coding technology

猜你喜欢

压缩感知基础
“不等式”基础巩固
“整式”基础巩固
评当前基础音乐教育中的几种非理性倾向
“五抓五促”夯基础