APP下载

基于深度学习的声纹识别技术

2021-03-04马姝颖王平陈妮文荣李思源

科学与财富 2021年26期
关键词:声纹识别深度学习技术

马姝颖 王平 陈妮 文荣 李思源

关键词:深度学习;声纹识别;技术

一、基于深度学习的声纹识别技术

声纹是指带有语音信息的声波频谱,是每个人说话过程中的语音特征和发音习惯的抽象特征,具有唯一性和稳定性。声纹识别技术(又称说话人识别技术)是指从说话人发出的语音信号中提取声纹信息,并据此对说话人进行身份验证的生物识别技术。近年来,随着深度学习广泛应用到目标检测、图像处理、自动驾驶等各个领域,深度学习的方法也逐步应用到声纹识别技术中,并取得了不俗的成效[1]。

声纹识别技术经常会与语音识别技术混淆,二者其实是两个不同概念。语音识别技术的任务是准确地识别出说话的内容(说的是什么),声纹识别技术的任務是确认说话人身份或者从某个已知的人群集合中辨认出那个说话人(是谁说的)。声纹识别技术的主要处理流程如图1所示,包括预处理、特征提取、声纹建模和相似度匹配。①预处理主要包括防混叠滤波、消除噪声、端点检测等。②提取声学特征参数是声纹识别的关键,通常将时域语音数据经过预加重、分帧、加窗、FFT等步骤转换为线性预测系数、LPC倒谱或梅尔倒谱等特征参数。③声纹建模包括声纹注册和声纹验证两个阶段:声纹注册阶段提取所有注册说话人语音中的声纹特征,为每个注册说话人建立说话人模型,将所有的说话人模型集合在一起组成说话人模型库;声纹验证阶段提取待验证说话人语音中的声纹特征,与说话人模型库进行相似度匹配,得分最高的作为最终的识别结果。

深度学习通过层级结构组合低层特征,可以学习到高度抽象的特征表征,能够挖据数据的本质信息,因此深度学习方法代替GMM-UBM被引入到声纹识别框架中,贯穿于声纹注册和声纹验证两个阶段。将深度学习引入声纹识别中,一般是对声学特征进行二次提取,再通过有监督分类器进行分类。基于DNN的声纹建模可以分为三个阶段[2]:第一个阶段是深度学习方法的引入。2011年,在第十一届全国人机语音通讯学术会议上,邓力分享了他在微软DNN-based speech recognition的研究结果,识别率提升了30%,这将声纹识别的准确率提升了一个层次。DNN能从大量样本中学习到高度抽象的说话人特征,并对噪声有很强的免疫力,至此深度学习被引入业界,国内对声纹识别技术的关注点也放到了深度学习上。第二个阶段是2014年谷歌提出说话人深度特征向量(d-vector)。采用多层DNN或多层LSTM的网络模型结构,其中DNN结构包含1层local connected层和多层full connected层外加一层线性层;LSTM结构为多层LSTM结构加1层线性层。通过提取深度神经网络最后一个隐藏层的输出,进行L2正则化,再累加起来取平均获得就可以获得d-vector。d-vector可以在不改变模型大小的情况使用更多的说话人数据来做训练。第三个阶段是2017年Snyder D和Daniel Povey等人提出x-vector。采用时延神经网络(TDNN)、池化层、全连接层和softmax层组成网络框架,声学特征参数MFCC作为输入,提取最后一个隐藏层或者倒数第二个隐藏层的输出作为x-vector。x-vector可以认为是d-vector的升级版,通过DNN将可变长度语音信号映射到固定维度的空间中,可以利用较短的语音捕捉用户的声纹信息,在短语音上拥有更强的鲁棒性,已经成为当前声纹识别领域主流的baseline模型框架。

目前,虽然声纹识别技术还存在实际应用中鲁棒性不足、复杂场景中识别率降低等问题,但是随着人工智能技术的不断发展,基于深度学习的声纹识别技术性能不断提升,尤其在指纹识别和人脸识别频繁出现漏洞的情况下,越来越多的机构已采用声纹识别技术作为身份验证。

二、总结与展望

继指纹、面部、虹膜之后,无接触、无感知的声纹作为象征我们个人ID的一部分,已经陆续开启了商用大潮。尽管现阶段声纹识别的应用仍具有一定的局限性,但是声纹主导的生物识别模式已经进入公众视野,并被时代所接受。未来随着5G、大数据、云计算等新技术发展愈发成熟、语音的入口更普及,基于深度神经网络的声纹识别技术一定很快就会迎来属于他的风口。

参考文献:

[1]郑方, 李蓝天, 张慧, 等. 声纹识别技术及其应用现状[J].信息安全研究,2016,2(1):44-57.

[2]蔡国都. 基于x-vector的说话人识别研究[D]. 北京交通大学, 2019.

项目支持:成都工业学院校级项目:基于机器学习的声纹识别关键技术研究(编号:2021ZR026).

猜你喜欢

声纹识别深度学习技术
基于i—vector声纹识别上课点名系统的设计与实现
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于深度卷积网络的人脸年龄分析算法与实现