数字语音处理课程的研究性实验教学设计<br/>——以声纹识别系统为例

数字语音处理课程的研究性实验教学设计
——以声纹识别系统为例

2022-08-06周箩鱼蔡昌新孙祥娥

实验室研究与探索 2022年4期

周箩鱼，蔡昌新，孙祥娥

（长江大学a.电子信息学院；b.电工电子国家级实验教学示范中心，湖北荆州 434023）

0 引言

当前正处于信息化和智能化的时代，无论是信息化还是智能化，其基础都是“数字化”。数字语音处理课程是数字化系列中的一门重要课程。该课程是在多门学科基础上发展起来的综合性的学科高度交叉融合的课程，其目的是让学生在掌握语音处理的基础、原理、方法和应用的同时，了解该学科领域近年来取得的一些新成果、新进展、新技术，并训练学生针对语音技术的工程问题，提出相应的解决方案［1-2］。

然而，数字语音处理课程的实验多以验证性实验内容为主，无法体现工程中实际问题的解决［3-5］。这样一方面造成学生对实验项目的兴趣不高；另一方面学生的实践能力得不到真正锻炼，其解决工程问题的能力没有得到提高。

研究性实验教学能够激发学生的自主学习意愿、培养学生的创新思维能力［6］。在此过程中，可以巩固学生对基础知识的掌握程度，而且可以提高其实践能力［7］。此外，研究性实验教学，它能够为教学与科研架起桥梁，方便科研内容转化为教学案例。

基于此，我校课程组以提高学生解决实际工程问题为目标，针对数字语音处理课程，设计了基于项目式的研究性实验教学，以数字语音处理中的一个重要知识点——声纹识别来展开研究性的实验案例设计，并给出了详细方案。该案例已在我校电信学院相关专业中实施，取得了较好的效果。

1 实验背景

研究性实验可以取自在研的科研项目，也可以取自前沿的技术。本文所设计的研究性实验案例取自于企业项目。项目中需要利用数字语音中的理论知识探索声纹的特性，并开发声纹识别系统，以此达到听音识人的目的。因此，以该项目提炼相关元素，精简项目内容，简化开发过程，由此实现完整的实验案例。而与项目相关的课程内容主要有两个方面：声纹特征分析和声纹特征识别。

1.1 声纹特征分析

人类的语音是由人体发音器官在大脑控制下的生理运动产生的。发音器官包括肺、气管、喉（包括声带）、咽、鼻和口，其中声带是对发音影响很大。声带振动的频率即基音频率决定了声音频率的高低，频率快则音调高，频率慢则音调低。其基音频率主要与声带（发声体）的长短、松紧、厚薄有关，而声带因人而异，不同人声带的具有不同的特点，因此基音频率经常作为说话人识别的特征之一［8］。

数字语音处理领域中，梅尔频率倒谱是基于声音频率的非线性梅尔刻度对数能量频谱的线性变换。因此，梅尔频率倒谱系数就是组成梅尔频率倒谱的系数。它衍生自语音片段的倒谱。倒谱和梅尔频率倒谱的主要区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更近似人类的听觉系统［9］。因此，使用梅尔倒谱系数来作为说话人识别的特征，更有利于提高识别效果。

基于以上分析，案例将从基音频率和梅尔频率倒谱两个特征进行设计。

1.2 声纹特征识别

声纹识别是一种通过声音判别说话人身份的技术。从直觉上来说，声纹虽然不像人脸、指纹的个体差异那样直观可见，但由于每个人的声道、口腔和鼻腔也具有个体的差异性，因此反映到声音上也具有差异性。如果将口腔看作声音的发射器，那作为接收器的人耳生来也具备辨别声音的能力［10-11］。

最直观的是打电话给家里的时候，通过一声“喂”就能准确地分辨出接电话的是爸妈或是兄弟姐妹，这种语音中承载的说话人身份信息的唯一性使得声纹也可以像人脸、指纹那样作为生物信息识别技术的生力军，辅助甚至替代传统的数字符号密码，在安防和个人信息加密的领域发挥重要的作用。因此通过声纹识别系统的开发，能大大地激发学生的兴趣，提升学习的效果。

2 实验设计

为提高学生解决实际工程问题的能力，研究性实验案例的设计既要具备基础性和层次性，又要具备高阶性和创新性。为了达到基础性和层次性的要求，实验内容将从数字语音课程的基本知识点出发，从基音频率到梅尔频率倒谱的提取，从特征匹配模型到深度学习模型，既注重基础，又逐步加大实验的难度。同时，为了达到高阶性和创新性的要求，将从基音频率和梅尔频率倒谱的统计分析，模板搜索算法的优化，特征提取网络的选择等方面对学生进行引导。学生将以小组的形式（2 或3 人为1 组）搜集资料，提出问题，探讨方案，解决问题，从而对声纹识别系统进行改进。

总之，所设计的研究性实验案例的主要目的是让学生更好地理解数字语音信号特征表达及识别的基本方法，同时结合工程实际问题，将数字语音课程的知识点串联起来，培养学生理论联系实际的素质，提高学生的工程实践能力和创新能力。

2.1 特征分析——从基音频率到梅尔频率倒谱

（1）基础实验内容。通过掌握基音频率和梅尔频率倒谱提取的方法，熟练掌握数字语音的时域分析、倒谱分析等特征分析方法。

要求每个学生录制自己的声音，获取各自的音频文件。选择合适的特征分析方法获取自己的基音频率和梅尔频率倒谱。如图1 所示，通过提取音频信号中的浊音信号，由自相关分析、倒谱分析等方法可以获取基音频率。如图2 所示，通过短时傅里叶变换，可以获得音频信号的语谱信息，再通过梅尔滤波，倒谱分析等步骤，获得梅尔频率倒谱。最后要求学生分析所提取的基音频率和梅尔频率倒谱，描述个人的声音特性［12-13］。

图1 音频信号及对应的浊音信号（浊音信号中可提取基音频率）

图2 梅尔倒谱系数提取过程

（2）高阶实验内容。综合所有学生的音频文件，构建音频数据集，引导学生通过机器学习等方法，分析男女各自基音频率和梅尔频率倒谱的特征，据此构建基于语音特征的性别判别模型。

2.2 声纹识别——从模板匹配到深度学习

（1）基础实验内容。以基音频率和梅尔频率倒谱作为特征，按照教材内容，构建基于模板匹配的声纹识别系统。如图3 所示，其过程首先将待识别的语音进行预处理，提取基音频率和梅尔频率倒谱，然后和模板库中的模板进行比较匹配，作出判决［12-13］。

（2）高阶实验内容。引导学生查阅深度学习相关资料，构建基于深度学习的声纹识别系统。如图4 所示，其过程首先将待识别的语音进行预处理，获取梅尔频率倒谱图，然后将其输入已训练好的深度学习网络，进行识别决策。

图3 基于模板匹配的声纹识别系统

该部分重在提高学生自主学习的能力，引导其创新性。如对于特征提取网络的选择，深度学习特征提取网络主要有AlexNet、VGGNet、ResNet 等网络［14-16］，

这些网络具有不同的性能，并且每种网络又包含不同的网络结构，比如VGGNet 中比较经典的网络就有VGG16 和VGG19。引导学生分析不同网络的性能并通过数据集验证其效果，以此使学生理解特征提取网络对于声纹识别的影响。此外，还可以引导学生对神经元结构，激活函数，损失函数等进行修改，尝试模型的优化，提高识别效果。