基于语音识别的‘方言’学习系统的设计与实现

2020-09-10朱可财陶博翔柯楠凯

启迪·上 2020年8期

朱可财陶博翔柯楠凯

摘要：语音识别技术可以使发音学习软件具有发音反馈功能，帮助学习者及时纠正错误发音，从而使学习者避免因多次重复而形成错误的发音习惯。本文介绍利用人工智能、语音识别技术开发出具有发音跟读、发音评价、发音纠正等功能的方言发音训练系统，旨在实现各地方言发音学习的智能化、普及化和便携化，在一定程度上提高方言学习者发音水平。

关键字：方言学习;语音识别;人工智能

1 项目背景

国人走南闯北，方言学习有利于加强各地人文交往，但方言发音成为大家方言学习中的一个难题，究其原因，主要在于以下 3 个方面：

（1）各地方言在发音方法上有很大的差异。在非母语环境下长大，在学习方言时会犯许多自己很难察觉的发音错误，如果在开始学习时不及时纠正往往形成等很不标准的方言。

（2）缺乏合格的方言教学老师。即便是在大中城市的中小学，也缺乏发音标准同时能准确指导口语发音的方言教学老师。一般多媒体教学，只能单方面进行传授，教师很少能够针对学生的特定情况进行互动方言教学，因而也起不到很有效的作用。

（3）缺少练习方言口语的时间和环境。语言是一种交流的方式，最重要的是多发音多练习，但是在传统的方言学习中，人们往往花费大量时间在方言读写上，而在口语发音上缺少时间上的保证和练习的机会。当前市场上的方言学习软件，大多侧重方言读、写等能力的提高。仅有的一些口语发音学习软件功能比较单一，只能进行简单的发音跟读等操作，缺少对学习者发音的有效反饋，训练效果不够理想。

2 项目实现内容

基于语音识别技术的方言学习系统的主要功能是以动画、声音、图片和文字的形式实现方言的发音学习和训练，能够实现对学习者发音的有效反馈，指导和纠正学习者不断训练、提高方言发音水平，并提供友好、直观和简介的操作界面。根据需求分析，确定系统的功能主要包括：

（1）发音示范。发音示范是指在进行发音学习时，首先播放标准的发音口型动画视频或标准的发音声音，同时配合发音口型结构图和介绍文字等使学习者对本发音有正确认识，能够全面的了解发音的要点，口型及舌位的运动特点等。

（2）发音跟读。发音跟读是学习者进行口语发音的主要练习途径，系统首先播放正确的发音动画或发音声音，然后提示学习者进行跟读;学习者依照提示跟读此发音，同时系统录制学习者发音至手机内存以便后续处理。

（3）发音对比。系统首先播放标准发音的口型动画视频或声音，然后播放已录制的学习者发音。发音对比功能主要是通过对标准参考发音和学习者发音进行对比，使得使用者对发音和标准音之间的差距有直接的了解。

（4）发音评分。发音评分是系统的核心功能之一，主要利用语音识别技术及相关的发音评分算法，对学习者的发音结果有一个定量的评价，准确可靠的发音评分能够使得学习者对自己的发音成绩有准确的认识，进而不断改进发音，提高自己的发音水平。

（5）发音结果的图像显示。发音结果的图像显示主要是以图像的形式反馈对比学习者发音与标准发音。系统采用发音共振峰对比图来反映标准发音和学习者发音共振峰的不同，根据共振峰与发音口型舌位的关系，参考图在一定程度上也反映了学习者发音与标准发音的发音口型和舌位的运动特点。

通过对系统的功能需求进行分析，最终确定系统的核心应包括以下几大模块：语音录制模块、语音及视频播放模块、基于AP 的发音评分模块、发音共振峰的图像显示模块。

2.1评分模块设计

系统评分模块采用基于 AP 的发音评分技术，模块包括评分参数生成部分和发音评分部分，负责评分参数的自适应生成及对学习者发音的正确评分，两者工作流程图如图所示。

首先，分别对测试发音和标准参考发音进行预处理。预处理包括对发音的预加重、分帧加窗，端点检测等过程。测试发音和标准发音经预处理后，再进行特征提取和模式匹配计算，系统应用MFCC 特征参数和 DTW 动态时间规整的方法。经过上述处理后，可以得到测试发音和标准参考发音的帧平均匹配距离。

2.2 反馈模块设计

发音共振峰的图像显示模块主要负责以图形化的形式描绘标准参考发音和学习者发音随时间的共振峰变化情况，从而定性的反映两者在发音口型上的差异。经过预处理、FFT 变换、共振峰提取等过程的处理，系统得到了学习者发音和标准参考发音的共振峰信息。为了将此共振峰信息以图形化的方式在移动终端上显示，系统利用Android 图表引擎 AchartEngine。AchartEngine 是一个针对Android程序开发的开源图表生成类库，支持折线图、柱状图、饼状图等，利用此类库系统能够显示发音共振峰对比图。

3 关键技术

3.1语音识别方法

项目根据模式匹配技术原理，先将已知语音信号的特征矢量作为模板存入模板库，经过特征提取，将输入待测语音的特征矢量与模板库中的参考模板进行相似度比较，最终得出识别结果。语音识别主要过程包括：预处理，特征提取，模式匹配等。图是基于模式匹配原理的自动语音识别系统的原理框图。

3.2 语音信息化特征提取

对语音信号进行预处理后，还需要对信号进行特征提取。特征提取部分负责计算和提取反映信号特征的关键参数，通过少量的参数来有效的描述语音信号，以便进行后续处理。对信号进行特征提取，不仅突出了模式匹配的数据特征，提高了系统的识别率，而且对信息进行了压缩，降低了系统的储存量和运算量。

3.3基于自适应参数的评分机制

在基于单参考模板的评分方法中，进行评分运算时，评分参数a和b需要结合专家经验评分结果来确定。已有的发音评分系统都是通过系统仿真和测试等方法，针对某个特定的计算机或硬件平台不断调试修改，来确定a和b的值，系统一旦完成，a和b的值无法更改。这种方法有一定的局限性，就是确定的评分参数往往只适合所测试的平台系统，一旦所用的平台或语音采集外设等更换，评分参数就会变得不再准确，评分结果也不再可靠。考虑到Android手机的硬件差异比较大，这种方法对于系统的应用和普及是很不利的。

为了解决上述评分方法中评分参数固定的局限性，本文提出了一种基于自适应参数（adaptive parameter，AP）的评分方法，旨在实现系统的平台自适应，提升系统的兼容性，提高评分机制的可靠度和准确性。基于AP的评分方法是对于基于单参考模板评分方法的改进，这里定义基于AP的评分算法为：

其中 x 和 y 為自适应参数。进行评分运算时的参数x和y不是确定的，而是可以随计算机或硬件设备的不同而自适应变化的。自适应参数x和y是通过系统的自适应训练而生成的，具体的计算流程如图所示。

系统在进行发音评分之前，有单独的评分参数生成模块来生成自适应参数。在评分参数生成模块中，学习者针对若干个语音进行发音，同时专家对学习者的发音进行经验评分。这样，对于每个发音来说，MFCC 帧匹配距离和相应的专家评分会一一对应。设所有训练发音的 MFCC 帧平均匹配距离的集合为 A={d1，d2，...di，...dn}，对应的专家评分集合为 B={s1，s2，... si，...sn}。由此便得到了帧匹配距离和专家评分的 n 对数据，并且它们满足如下关系：

为了求出参数 x和 y，可以采用最小二乘曲线拟合的方法得到 x和y的最佳值，理论上样本空间越大，得到的拟合函数也越精确。但是由于评分参数生成模块是在Android手机平台上实现的，系统对计算的实时性要求较高，对于参数的精确度要求相对来说不高。为了尽量简化评分参数生成的过程，降低计算量，系统选取5个语音样本来训练，并从中选取最合适3个样本来进行计算，这样就能够快速的计算出参数x和y的估计值，从而进行评分运算。

由于评分参数生成模块和发音评分模块位于同一手机设备上，发音评分的运算参数是在进行发音学习前根据专家打分训练生成的，产生的评分参数反应了当前系统硬件平台的特性，评分成绩与专家经验评分有很高的相似度。因此，基于AP的方法具有很强的自适应性、较高的准确度和可靠性，同时大大提高了系统的兼容性。

4结语

本系统实现了基于移动端，利用相关人工智能、语音识别技术开发出一套具有发音跟读、发音评价、发音纠正等多功能的方言发音训练系统，旨在实现各地方言发音学习的智能化、普及化和便携化。经测试，本系统发音评分准确度较高，发音纠正有效率达到 80%，能在一定程度上提高方言学习者发音水平。

[参考文献]

[1]黄威，石佳影.基于深度神经网络的语音识别研究[J].现代计算机，2016，（7）.20-25.

[2]邢安昊，张鹏远，潘接林，等.基于SVD的DNN裁剪方法和重训练[J].清华大学学报（自然科学版），2016，（7）.772-776.doi：10.16511/j.cnki.qhdxxb.2016.21.043.

[3]莫媛媛，郭剑毅，余正涛，等.基于深层神经网络（DNN）的汉-越双语词语对齐方法[J].山东大学学报（理学版），2016，（1）.77-83.doi：10.6040/j.issn.1671-9352.3.2014.289.

[4]张池.移动端环境感知系统中深度神经网络的应用[D].电子科技大学，2017.1-102.

[5]王振宇.嵌入式平台下语音识别技术的研究[D].贵州大学，2017.1-76.

[6]弓彦婷.基于声谱图显著性检测的音频识别[D].合肥工业大学，2015.1-54.

[7]郭胜强.基于深度学习的跨领域语音识别研究[D].重庆邮电大学，2017.

[8]赵天坤.基于深度神经网络的音乐信息检索[D].北京邮电大学，2015.1-70.