基于语谱图和神经网络的声纹识别研究

2020-06-23李蜜

高师理科学刊 2020年4期

李蜜

基于语谱图和神经网络的声纹识别研究

李蜜

（华中师范大学物理科学与技术学院，湖北武汉 430079）

随着科技的不断发展，人们对信息安全的要求越来越高，如何更简单、更方便、更加安全地进行身份验证变得异常重要．在卷积神经网络（CNN）的基础上，结合语谱图和直方均衡增强算法对声纹识别特征进行学习和训练．模型使用非固定长度语音段，首先将语音段进行滤波、分帧、加窗和离散余弦变换得到语谱图，再使用直方均衡算法将像素点不均匀分布语谱图转化成像素点能在整个灰度区间均匀分布的语谱图，最后使用CNN对语谱图进行特征训练和身份认证．

声纹识别；语谱图；卷积神经网络；图像增强

随着现代科技的不断发展以及移动互联网、物联网等技术的普及，人们越来越致力于寻求高效安全的身份认证方法．声纹识别是生物特征识别的一部分，它是通过提取说话人语音中的特征来验证说话人身份的一种技术，与人脸识别和指纹识别相比，声纹识别具有实现简单、不易模仿、不会遗失等特点．

通过分析并深入研究了文献[7-11]的具体模型，包括前期的预处理过程、说话人特征提取结构模型、分类方法，结合文献模型的特点，本文使用CNN神经网络算法，将说话人语音使用MFCC算法提取个性特征形成语谱图，并将语谱图进行统一规范．之后使用直方均衡化算法对语谱图进行增强，使语谱图像素点均匀分配，再使用CNN神经网络进行特征训练学习和自动识别，达到身份认证效果．本文使用的开发平台为PyCharm，使用的神经网络框架为Keras．

1 声纹识别算法

1.1 语谱图提取

特征参数提取在语音识别等方面广泛应用，其算法线性预测编码系数（LPC）算法、线性预测倒谱系数（LPCC）算法和梅尔倒谱系数（MFCC）算法[12]等．其中，MFCC算法在梅尔倒谱频带上是等距划分的，频率尺度值与实际频率的对数分布更符合人耳的听觉特性，但是MFCC算法会进行三角滤波，造成说话人信息丢失．因此，本文直接将语音信号进行分帧之后，进行傅里叶变换，取其对数形成语谱图．

1.2 直方图均衡图像增强算法

直方图均衡化是通过一个映射函数，将输入的像素点不均匀的灰度图像转化为像素点能够在整个灰度区间呈现均匀分布，拉伸图像的灰度动态范围[13]．通过这种映射关系的处理，重新计算每一个像素点上的新像素从而实现图像增强．

直方图均衡化算法：

没有经过直方图均衡化增强算法处理的语谱图见图1，经过直方图均衡化增强算法处理之后的语谱图见图2．图1、图2为同一个说话人同一段语音，这２幅语谱图呈肉眼可见区别．实验结果表明，经过图像增强处理后的图片更能凸显说话人信息．

图2 图像增强语谱图

1.3 卷积神经网络

图3 CNN 模型

2 实验部分

2.1 语音数据集

实验采用AISHELL中文语音数据库，其中包含400个说话人，共178 h的语音数据，语音采样频率为16 k．语料库中的语音数据按8∶2的比例分为训练集和测试集．在训练集上随机选取100个语音进行训练，采用不同的迭代次数和抓取的训练个数测试模型准确率．模型使用SoftMax回归函数将神经网络输出转换成概率分布，再使用交叉熵来计算预测的概率和实际的概率之差距离来训练模型．

2.2 实验分析

训练集和测试集在不同迭代次数下的准确率和损失函数变化见图4．由图4可以看到，训练集和测试集在迭代次数不同的条件下精确度（ACC）上升和损失函数（LOSS）下降．在设置的迭代次数为30次时，精度上升和损失降低速率均较为快速，且能趋于稳定；在设置的迭代次数为40次时，精度上升和损失降低速度与30次时基本一致，而在迭代后期出现过拟合情况．因此，本文选择使用神经网络对声纹迭代30次来判断其精确度．

图4 不同迭代次数下的训练集和测试集准确率和损失函数变化曲线

将本文方法与常用的声纹识别模型CNN，GMM-UBM，GMM-SVM模型进行对比，在这些模型下的识别率见表1．

表1 不同模型下的识别率比较

从实验结果可以看出，在CNN结合图像增强算法之后识别率高于传统的神经网络CNN，LSTM模型以及传统的声纹识别模型．现阶段基于神经网络的声纹识别模型都是以大数据为基础，在大数据的基础上进行说话人个性特征提取，再用神经网络进行训练和学习．同样与传统声纹识别模型对比，传统模型学习形式过于单一，不能完全保证将说话人特征全部学习，影响识别率．本文借鉴使用语谱图和CNN网络声纹学习模型的方法，在语谱图的基础上进行图像增强．该方法的优点在于将语谱图上的说话人信息凹陷，便于网络模型从语谱图提取个性特征进行学习和训练，提高识别率．

3 结语

本文采用语谱图来表示声纹特征，并利用卷积神经网络对特征加以训练的方法，实现了对声纹信息的识别．在经过图像增强之后声纹识别有着较高的识别率，更好地反应了说话人的特征，提高了神经网络对声纹的学习和识别水平．

[1] Rabiner L R，Levinson S E，Sondhi M M．On the Application of Vector Quatiz-Ation and Hidden Markov Models to Speaker-Independent，Isolated Word Recognition[J]．Bell System Technical Journal，1983，62（4）：1075-1105

[2] Lawrence R，Rabiner．A tutorial on Hidden Markov Models and selected applications in speech recognition[J]．Processings of the IEEE，1989，77（2）：257-286

[3] Reynolds D A，Rose R C．Robust text-independent speaker identification using Gaussian mixture speaker models[J]．IEEE Transactions on Speech & Audio Processing，1995，3（1）：72-83

[4] 方晓．基于CPSO优化的BP神经网络在说话人识别中的应用[C]//中国通信学会青年工作委员会．Proceedings of International Conference of China Communication and Information Technology（ICCCIT2010）．2010：299-303

[5] 余玲飞，刘强．基于深度循环网络的声纹识别方法研究及应用[J]．计算机应用研究，2019，36（1）：153-158

[6] 李靓，孙存威，谢凯，等．基于深度学习的小样本声纹识别方法[J]．计算机工程，2019，45（3）：262-267，272

[7] 张旺俏．基于VQ的声纹识别研究[J]．中国科技信息，2007（7）：124-125，127

[8] 鲁晓倩，关胜晓．基于VQ和GMM的实时声纹识别研究[J]．计算机系统应用，2014，23（9）：6-12

[9] 陈仁林，郭中华，朱兆伟．基于BP神经网络的说话人识别技术的实现[J]．智能计算机与应用，2012，2（2）：47-49

[10] 吴震东，潘树诚，章坚武．基于CNN的连续语音说话人声纹识别[J]．电信科学，2017，33（3）：59-66

[11] 余玲飞，刘强．基于深度循环网络的声纹识别方法研究及应用[J]．计算机应用研究，2019，36（1）：153-158

[12] 高铭，孙仁诚．基于改进MFCC的说话人特征参数提取算法[J]．青岛大学学报：自然科学版，2019，32（1）：61-65，73

[13] 钱小燕．引导滤波的红外图像预处理算法[J]．科学技术与工程，2015，15（21）：32-33

Research on voiceprint recognition based on spectrogram and neural network

LI Mi

（School of Physical Science and Technology，Central China Normal University，Wuhan 430079，China）

With the continuous development of science and technology，people′ s requirements for information security are getting higher and higher，how to conduct authentication more easily，more conveniently and more securely becomes extremelyimportant．On the basis of convolutional neural network（CNN），the feature of voiceprint recognition is learned and trained by combining spectrogram and square equalization algorithm．The model uses a non-fixed-length speech segment．First，the speech segment is filtered，framed，windowed，and discrete cosine transformed to obtain a spectrogram．Then，a histogram equalization algorithm is used to convert the pixel uneven distribution profile into pixel points．A spectrogram that is uniformly distributed in the grayscale interval．Finally， the CNN is used to perform feature training and identity authentication on the spectrogram．

voiceprint recognition；language spectrum；convolutional neural network（CNN）；image enhancement

TP312

10.3969/j.issn.1007-9831.2020.04.008

1007-9831（2020）04-0039-04

2019-11-06

李蜜（1993-），女，湖北天门人，在读硕士研究生，从事声纹识别研究．E-mail：limi_1993@outlook.com