APP下载

音频信号高维矢量编码算法研究

2019-08-12杨超孙云黄隽逸徐向旭孙保良

现代电子技术 2019年15期
关键词:神经网络

杨超 孙云 黄隽逸 徐向旭 孙保良

摘  要: 在音频信号编码中,提出在线性预测编码、SOM神经网络矢量编码以及Huffman编码相结合的声音信号联合编码算法的基础上,通过将声音量化编码算法中原有的2维量化矢量的维数增加,以进一步减小声音信号码率的方法。利用Matlab软件编程进行不同量化矢量维数条件下的声音信号编解码实验。实验结果表明,在保证声音质量的前提下,通过提高量化矢量维数,可使联合编码的最低码率在音频编码格式Opus码率的范围内,且接近Opus码率的下限。文中提出的编码算法可为音频压缩编码的进一步研究提供参考。

关键词: 音频信号; 矢量编码; 神经网络; 压缩编码; 高维矢量; 预测编码

中图分类号: TN911?34                         文献标识码: A                          文章编号: 1004?373X(2019)15?0043?04

Research on high dimension vector encoding algorithm for audio signal

YANG Chao1, SUN Yun2,HUANG Junyi1,XU Xiangxu3,SUN Baoliang1,

(1. Naval Aeronautics and Aviation University, Yantai 264001, China;

2. Unit 91604 of PLA, Longkou 265706, China; 3. Unit 92635 of PLA, Qingdao 266041, China)

Abstract: On the basis of a combination of linear predictive coding, SOM neural network vector coding and Huffman coding (Hereinafter referred to as the joint coding for short), a method of reducing the coding rate of sound signals is proposed in the audio signal coding by means of increasing the dimension of the original 2D quantization vector in the audio quantization coding algorithm. Matlab software is used to carry out the experiment of sound signal coding and decoding under the condition of different quantization vector dimensions. The experimental results show that, on the premise of guaranteeing the sound quality, the method can make the minimum code rate of the joint coding be within the range of the Opus code rate in the audio coding format and close to the lower limit of the Opus code rate by improving the quantization vector dimension. The coding algorithm proposed in this paper can provide a reference for further research of audio compression coding.

Keyword: audio signal; vector coding; neural network; compression coding; high dimensional vector; predictive coding

0  引  言

音频压缩已经广泛应用于消费类和专业级的音频产品、互联网应用、远程医疗和录放系统中。在现代通信系统中,随着带宽和存储容量需求的不断增长[1?3],音频编码研究也越来越受到重视。当前最新的低延時音频编码格式Opus对于互联网上的交互式声音和音乐传输来说是最佳的选择,同时也应用于存储和流媒体中。一些新的音频编码算法也在不断涌现,例如,一种将预测编码[4]、基于SOM自组织神经网络[5?8]的矢量编码[4,9?10]及Huffman[11]编码相结合的音频编码算法[12](以下简称联合编码算法)。在保证声音质量的前提下,该编码方法的码率小于MEPG?1 Layer3的最低64 Kb/s标准码率,本文通过提高声音信号联合编码中的量化矢量的维数以减小联合编码的码率。

1  2维联合编码算法

图1是2维联合编码算法编码程序流程图。首先,将1列声音采样信号按照奇偶顺序转换成2列,即将原序号为([2×n-1])的信号组成新的第1列,原序号为[2×n]的信号组成新的第2列,其中[n]为正整数。每列信号分别按照线性预测编码原理各自进行预测,计算当前的预测值和误差值,共得到2个误差值,将该2个误差值组成一组2维矢量,进行基于自组织神经网络的矢量编码。恢复声音时,译码过程与编码过程相反得到误差值,同时对两列信号的误差值进行基于自组织神经网络的矢量编码。恢复声音时,译码过程与编码过程相反,最后对译码数据用切比雪夫Ⅰ型滤波器滤波。

图1  2维联合编码算法编码程序流程图

2  高维联合编码算法实验结果与分析

本文将提高2维联合编码算法中量化矢量的维数,研究量化维数对码率的影响,旨在寻找进一步减小码率的算法。考虑到编码效率,一般维数选为[2n],[n]为正整数。实验中,选取量化维数分别为2维、4维和8维的编码算法进行实验。[m]维矢量编码过程如下:首先将1列声音采样信号按照顺序转换成[m]列,即将原序号为([m×n+i])的数据组成为新的第[i]列,其中[n]取值为自然数,[i]取值为[1~m]的整数。每列信号分别按照线性预测编码原理各自进行预测,计算当前的预测值和误差值,共得到[m]个误差值,将这[m]个误差值组成一组[m]维矢量,进行基于SOM自组织神经网络的4维矢量量化,然后进行Huffman编码;译码过程与编码过程相反,最后对译码数据用切比雪夫Ⅰ型滤波器滤波。

为了研究高维矢量联合编码,选择标准声音库中“雷声”这个日常生活中具有代表性的声音作为研究对象。其中,声音“雷声”时域信号的采样率为11 025 Hz,量化精度为8 bit。

基于SOM的神经网络的码本训练次数为300。联合编码的译码端低通滤波器的通带截止频率设为2 500 Hz,阻带截止频率设为3 750 Hz,通带波纹设为0.3 dB,阻带衰减设为10 dB。

表1是对声音“雷声”信号译码结果,其中,第4列是MOS值,是主观声音质量的定量描述。目前在国际上比较通用的音频质量主观评价标准是平均意见得分(Mean Opinion Score,MOS),MOS评分标准分为五级,在数字音频通信中,一般高质量数字化音频的MOS值在4.0~4.5分之间,质量满足长途电话网的要求,接近于透明信道编码,也常称为网络质量。音频通信质量一般MOS值在3.5分左右,此时能够感觉到恢复的音频质量有所下降,但能够知道声音中的内容,可以满足多数音频通信系统的适用要求。合成语音质量MOS值一般在2.0~3.0分之间,是指一些声码器的合成语音所能达到的质量,一般具有一定的可懂度,但是自然度和音色的确认方面不够理想。第5列是主观声音质量的定性描述,质量为“坏”,表示声音质量“不可忍受”;质量为“差”,表示“明显察觉且可厌但可忍受”;质量为“可”,表示“有察觉且稍觉可厌”。第6列是码率。

表1  “雷声”声音信号译码结果

由表1可知,2维联合编码在码书长度为2时,虽然码率为5.513 Kb/s,但是译码声音质量“坏”,不能用。当码元矢量为2维、码书长度为4时,以及码元矢量为4维、码书长度为16时,码率为11.025 Kb/s,译码声音质量为“差”,虽然音色不够理想,但是具有可懂度,可以用于通信。由表1可知,当码元矢量为8维、码书长度为64时,译码声音质量为“差”,但此时码率值为8.268 Kb/s,比相同的译码声音质量码元维数为2和4时的码率值11.025 Kb/s要小。所以,将码元矢量的维数提高,也就是采样更高维的联合编码算法,在译码声音质量相同的条件下,高维联合编码的码率较低维的联合编码算法可以达到更小的码率。

图2是采用8维联合编码方法对声音样本“雷声”的译码运算结果,其中联合编码的码书长度为64,码率为8.268 Kb/s,基于SOM的神经网络训练码本的码本训练次数为300。8维联合编码的译码端低通滤波器的通带截止频率设为2 500 Hz,阻带截止频率设为3 750 Hz,通带波纹设为0.3 dB,阻带衰减设为10 dB。

图2a)和图2b)分别是原始声音样本信号“雷声”的时域波形和频谱;图2c)和图2d)分别是对图2a)进行联合编码所得到的声音样本“雷声”的译码信号的时域波形和频谱。由图2a)和图2c)可见,“雷声”声音信号译码信号的时域波形与原始信号的时域波形形状基本一致;由图2b)和图2d)可见,“雷声”声音信号译码频谱在频率小于2 500 Hz的低频部分与原始信号频谱基本一致,大于2 500 Hz的高频部分,能量较原始信号的小,但是,由于人耳对频率大于2 500 Hz的高频频率部分敏感度小,所以,人耳听到的译码声音的内容和原始声音的内容基本一致,但是音色略差。

3  结  论

2维联合编码算法是一种预测编码、SOM自主神经网络2维矢量编码和Huffman编码的联合编码,并在译码时用切比雪夫Ⅰ型滤波器对译码信号进行滤波的算法。本文将2维联合编码算法中量化矢量的维数增加,研究了量化维数对压缩率和码率的影响,对同一声音样本分别用2维联合编码算法、4维联合编码算法和8维联合编码算法进行编码运算,计算结果表明,在保证译码恢复声音质量良好的条件下,增加2维联合编码算法的量化矢量维数可以减小码率。其中 ,采样率为11 025 Hz、量化精度为8 bit、量化矢量为8维且码书长度为64的联合编码算法甚至可以达到最小码率8.268 Kb/s。当前用于存储和流媒体应用、互联网上的交互式声音和音乐传输的最新的低延时音频编码格式Opus的采樣率为8~48 kHz,它的码率范围为6~510 Kb/s,可见,高维联合编码的最低码率在音频编码格式Opus码率的范围内,且接近Opus码率的下限。因此,音频高维联合编码算法将会有广阔的应用前景。

图2  “雷声”声音信号的原始信号和译码恢复信号

参考文献

[1] 丁荣格.音频编码技术在数字化传输中的应用[J].计算机与网络,2013,39(13):50?52.

DING Rongge. The application of audio coding technology in digital transmission [J]. Computer and network, 2013, 39(13): 50?52.

[2] 杨可歆.音频编码技术在数字化传输中的应用探究[J].科技创新与应用,2015(16):89.

YANG Kexin. Application of audio coding technology in digital transmission [J]. Technology innovation and application, 2015(16): 89.

[3] 张杨.音频编码技术及广播电台数字编码压缩传输系统建设[J].科技传播,2015(11):113?115.

ZHANG Yang. Audio coding technology and digital coding compression transmission system construction of radio station [J]. Science and technology communication, 2015(11): 113?115.

[4] 樊昌信,曹丽娜.通信原理[M].7版.北京:国防工业出版社,2015:302?305.

FAN Changxin, CAO Lina. Principle of communication [M]. 7th ed. Beijing: National Defense Industry Press, 2015: 302?305.

[5] 陈明.神经网络原理与实例精解[M].北京:清华大学出版社,2013:246?250.

CHEN Ming. The neural network principle and example [M]. Beijing: Tsinghua University Press, 2013: 246?250.

[6] 王龙,杜敦伟,白艳萍.基于SVM和SOM的雷达目标识别[J].科技视界,2015(16):505?509.

WANG Long, DU Dunwei, BAI Yanping. Radar target recognition based on SVM and SOM [J]. Science & technology vision, 2015(16): 505?509.

[7] 杨晨,闫薇.利用SOM网络模型进行聚类研究[J].网络安全技术与应用,2014(2):44?45.

YANG Chen, YAN Wei. Research on the clustering by using SOM network model [J]. Net security technologies and application, 2014(2): 44?45.

[8] 邹瑜,帅仁俊.基于改进的SOM神经网络的医学图像分割算法[J].计算机工程与設计,2016,37(9):2533?2537.

ZOU Yu, SHUAI Renjun. Improved segmentation algorithm of medical images based on SOM neural network [J]. Communication technology, 2016, 37(9): 2533?2537.

[9] 杨超,贺一君,任建存,等.码本均衡矢量编码算法[J].现代电子技术,2016,39(13):38?40.

YANG Chao, HE Yijun, REN Jiancun, et al. Codebook equilibrium algorithm for vector coding [J]. Modern electronics technique, 2016, 39(13): 38?40.

[10] 杨超,董世锟.矢量量化图像压缩方法[J]. 海军航空工程学院学报,2011,26(1):11?14.

YANG Chao, DONG Shikun. Image compresion method beased on vector quantization [J]. Journal of Naval Aeronautical and Astronautic University, 2011, 26(1): 11?14.

[11] 孟欢,包海燕,潘飞.Xilinx哈夫曼编码系统设计[J].电子产品世界,2017(11):51?54.

MENG Huan, BAO Haiyan, PAN Fei. Design of Xilinx Huffman coding system [J]. Electronic engineering & product world, 2017(11): 51?54.

[12] 杨超,徐向旭,刘云飞,等. 音频信号矢量编码算法[J].海军航空工程学院学报,2018,33(2):201?204.

YANG Chao, XU Xiangxu, LIU Yunfei, et al. Vector coding algorithm for audio signal [J]. Journal of Naval Aeronautical and Astronautic University, 2018, 33(2): 201?204.

猜你喜欢

神经网络
基于递归模糊神经网络的风电平滑控制策略
BP神经网络在路标识别上的应用研究
神经网络抑制无线通信干扰探究
基于Alexnet神经网络的物体识别研究
基于BP神经网络的旋转血泵生理控制
基于神经网络MRAS的速度辨识仿真研究
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
基于神经网络分数阶控制的逆变电源