基于神经网络的语音识别点名系统

2017-04-12刘梦君陈雅诗

科技资讯 2017年5期

刘梦君+陈雅诗

摘要：伴随着现代科学与计算机技术的发展，人们意识到了语音识别技术所具有的重要理论价值和广阔的应用前景，而语音识别技术也成为了现代计算机技术研究和发展的重要领域之一。考勤是评价学生平时成绩的重要指标，传统的点名方式效率低下，真实性得不到保证，而目前实施的点名系统无法改善此类现象。针对上述问题，设计一种基于神经网络的语音点名识别系统来提高点名的准确率。在基于神经网络的语音识别点名系统中，通过比对说话人声音特征的方式来确定学生的出勤，从大量的实验数据中可以发现，此种点名方式可有效地提高点名的准确率。

关键词：语音识别特征提取神经网络

中图分类号：TN912 文献标识码：A 文章编号：1672-3791（2017）02（b）-0016-02

考勤是评价学生平时成绩的重要指标，但其准确率和真实性却往往得不到保证。在过去的点名方式中，比较为人们所熟知的有：老师喊学生名字，学生回答“到”。这是最为传统的一种，但是此种方式的弊端也显而易见——在学生达到30人及以上时，由于人数过多，老师难以准确制止学生之间相互代答的现象，导致学生“浑水摸鱼”，蒙混过关，考勤成绩不具有真实、准确性；另外，在手机的快速发展和普及下，一种APP点名方式也逐渐兴起。在需要点名时打开手机APP点击签到即可，点名的时间不固定，老师通过签到的情况来确定学生是否缺勤。但这其中忽略的问题则是虽然点名时间是随机的，但是出勤的同学可以用多种方式来告知缺勤的同学使其完成签到，这种情况下，考勤结果依然无法辨别。

针对上述问题，设计出一种基于神经网络的语音点名识别系统来提高点名的准确率。在课堂点名的时候，录入学生的实时语音，对输入的语音信号进行预处理，包括声音的预加重、加窗分帧处理与端点检测等。语音信号经过预处理后，再进行特征参数提取。在训练阶段，对特征参数进行一定的处理之后，为每个词条得到一个模板，保存为模板库。在识别阶段，语音信号经过相同的方法得到语音参数，生成测试模板，与参考模板进行匹配，将匹配相似度最高的参考模板作为识别结果。通过识别结果来判断是否为同一个学生回答，这样则可减少老师点名工作的繁杂度，并且可以大幅增加考勤的有效性以及准确率，来更好地达到“考勤”这一行为的预期目的。

通过实验表明，该系统具有较高的准确率。从之前的老师点名学生回答和APP点名等方式对真实性的一无所知、无法预测到现如今该系统可以使考勤的准确率达到85%以上，都表明了这种基于神经网络的语音点名识别系统可以有效地减少学生代替答到的行为并提高学校考勤的准确率，使评价学生平时成绩的重要指标——考勤结果更加真实、可靠。

1 具体方案

1.1 模型库建立

1.1.1 语音识别的预处理

语音信号的预处理是语音识别的基础与前提，包括语言的预滤波、采样、预加重、加窗分帧处理与端点检测等。

（1）预滤波、采样。

预滤波的目的是：抑制语音信号中超过f/2（f为采样频率）的分量对语音产生混叠的现象；有效地实现对50 Hz电源干扰的抑制。

滤波时使用的是个带通滤波器，采样定理要求采样频率至少要是语音频率的两倍。

在滤波和采样结束后，将模拟信号转换成数字信号。

（2）预加重。

声音信号中，处于低频段的信号能量比较大，集中了语音信号的绝大多数信息量。预加重就是将语音信号在输入端对高频部分进行增大，达到提高信噪比的目的[1-2]。

（3）分帧与加窗。

分帧可以采用连续分段的方法，但是为了使帧与帧之间能够平滑过渡，保持很好的连续性，现在一般采用交叠分段的方法。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取0～1/2。

在语音信号处理中常用的窗函数是矩形窗和汉明（Hamm ing）窗等。由于汉明窗的旁瓣高度是最小的，而主瓣是最高的，其对抑制频谱的泄露比较有效果，汉明窗有比其他窗函数更好的低通性[3]。

1.1.2 语音识别的特征参数提取

特征提取是指从说话人的语音信号中获得一组能够描述语音信号的特征参数的过程，人们发现说话人语音的个性特征在很大程度上取决于说话人的发音声道。特征参数可以是能量、共振峰值、零相交率等语音参数。因为不同的人所说出语音的各项特征参数不相同，因此，可以将特征参数作为判断两段语音是否为同一个人的重要判断依据[4]。

1.2 语音识别

1.2.1 人工肝神经网络简介

人工神经网络（ANN）简称神经网络，使用计算机网络系统模拟生物神经网络的智能计算系统。它是基于人脑神经元的原理，模拟人脑神经元的结构和活动建立的一种识别模型，其最终目的是建成一种具有自学习能力、联想能力、识别能力的系统[5]。

1.2.2 BP神经网络

BP算法，也称为EBA算法，也就是误差反向传播算法，系统地解决了多层神经元网络中隐单元层连接权的学习问题，并在数学上给出了完整的推导[7]。

按照神经元之间的连接方式，可将神经网络分为两大类：分层网络和互联型网络[8]。

2 实验过程与讨论

程序的起始界面如图3。

在该系统中，声音文件的格式均为.wav格式，频率默认为8 000。

首先在录入学生信息时采集学生的语音，一并存入数据库，通过预处理、特征提取等工作提取出每个学生的声音特征，例如速度、能量等，将这些数据存入模型库文件trainer中，提供给之后的神经网络训练使用以及作为课堂点名时的声音样本。在日常上课点名时实时采集每个学生回答同样话语的声音，经过预处理及特征提取等同样的步骤放入文件夹speaker中来与模型库中的语音样本进行比对，文件名为该学生学号。若是同一人回答，则会显示trainer** matches speaker** ，两者文件名数字相同；若显示匹配的数字不相同，则代表可能不是同一人。

图4为一段語音的特征参数图形。

由图4可以更加直观地看出，不同的语音所具有的特征参数波形图是不一样的，我们就可以利用这个特性来达到分辨是否为同一个人回答的目的。

3 结语

语音识别、神经网络都是现在学术界的研究热点，以基于人工网络的语音识别为基础，对语音识别的过程进行了系统和深入的研究。基于语音识别的原理和过程，结合BP神经网络的理论和特点，研究了基于MFCC的语音识别，完成了相关算法与软件的编写，结合神经网络语音识别等知识，运行出了一个简易的点名系统。可以大大减少学生代替答到的现象，塑造一个良好的课堂环境并得到可靠的考勤结果。符合科技日益发展的现代社会的需要，课堂与生活一起与时俱进。

参考文献

[1] 王伟臻.基于神经网络的语音识别研究[D].浙江大学计算机学院，2008.

[2] 张稳.基于神经网络的语音识别系统的实现[D].成都理工大学，2013.

[3] 吴炜烨.基于神经网络语音识别算法的研究[D].中南大学，2009.

[4] 雷涛.基于神经网络的语音识别研究[D].浙江工业大学，2005.

[5] 施彦，韩立群.神经网络设计方法与实例分析[D].北京邮电大学，2009.

[6] 余建潮，张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计，2009，30（5）：1189-1191.

[7] 王明.基于神经网络的语音识别技术研究与实现[D].电子科技大学，2012.

[8] 李昌立，吴善陪.数字语音-语音编码实用教程[M].北京邮电出版社，2004.