APP下载

基于语音识别的课堂签到器

2018-10-26朱泰管震臻李新战韩雪白玉帅

科技资讯 2018年10期
关键词:数据库

朱泰 管震臻 李新战 韩雪 白玉帅

摘 要:采集大量不同说话人的语音信息,将音频信号转换成电信号,然后把说话人话音中的个人特征提取出来,利用

sql server 2012软件建立一个学生信息数据库,用于存储待签到的学生信息,最后基于高斯混合模型(GMM),把待说话人的语音与保留在数据库中的语音进行匹配判决,再通过比对数据库中的信息,以此找出待识别的人,从而达到签到的目的。

关键词:高斯混合模型 数据库 个人特征

中图分类号:G64 文献标识码:A 文章编号:1672-3791(2018)04(a)-0032-02

Abstract:Gauss Collecting a large number of different speaker's voice information, the audio signal is converted into electrical signals, and the personal characteristics of the speaker voice extracted. By using SQL Server 2012 software to establish a database for storing student information, student information to sign in, based on Gauss mixture model (GMM), the voice of the speaker and the voice to be retained in the database for matching decision, and then by comparing the information in the database, in order to find out the recognition of people, so as to achieve the purpose of attendance.

Key Words:Gauss Mixture Model; DataBase; Personal Characteristics

每个人都是一个独立的个体,每个人的声音也是各具特色的。把人的声音单独提取出来作为人的一项特征来分辨说话人的身份,这在理论上是行得通的。事实上也是,现代科学技术对于语音的应用已经相当广泛了,比如:在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理通信与电子系统、自动控制等领域中有着广泛的应用[1]。

1 说话人识别方法和系统结构

图1是说话人识别系统的结构图,它由预处理、特征提取、模式匹配计算、参考模板制作和识别判决等几大部分组成。首先将声音录入到设备中,将其在计算机中把语音信号转变成电信号,通过波谱分析,提取出不同说话者的个人特征。

然后在特定数据库中存入大量不同学生的个人信息,将特征提取步骤中提取到的个人特征对应到相应的学生项之中。接着在需要识别学生个体的时候,将此时的说话人声音与数据库中存储的数据进行匹配,从而分辨出学生的个人身份。在此过程中,预定相似度达到某一个值即可确认出该学生身份。因为在不同环境和时间,说话人发出的声音可能会有细微的差别,因此不可能每次都能够百分之百的还原之前录入到数据库中的音频特征信息。

2 说话人识别特征的选取

在理想情况下,选取的特征应当满足下述准则。

(1) 有效区分不同的说话人。

(2) 易于从语音信号中提取。

(3) 不易被模仿。

(4) 尽量不随时间和空间变化。

同时满足上述所有要求的特征目前是不可能找到的,所以只需满足其中部分即可。

3 GMM模型的识别问题

在给定的一个语音样本中,说话人辨认的目的是要决定这个语音是属于N个待识别说话人中的哪一个。在一个封闭的待选人集合里,只需要确认该语音属于语音库里的哪一个說话人,在辨认任务中,目的是找到一个说话者i^*,他对应的模型λi^*使得待识别语音特征矢量组X具有最大后验概率P(λ_i/X)。基于GMM的说话人辨认系统结构框图如图2所示

根据Bayes理论,最大后验概率可表示为:

4 建立数据库

要实现语音识别签到,首先需要有一份待识别人的个人信息,所以需要建立一个数据库,用以存储这些个人信息。我们以学校课堂签到为例,需要的信息有:姓名(Sname)、性别(Ssex)、学号(Snumber)、院系(Sdept)、以及预处理时提取出的声纹特征(Svoice)。其中以学号每个学生都不相同,取唯一值[3]。

Create table Student

( Snumber CHAR(10),

Sname CHAR(20) UNIQUE,

Ssex CHAR(2),

Sdept CHAR(20),

Svoice CHAR(50),

在建立好的学生信息表中输入一定数量的学生信息,如表1所示。

5 结语

人在说话的时候,发音常常会随着环境的变化、说话人的情绪变化、说话人的健康状况变化而变化,因此说话人的个人声纹特征不是固定不变的,这些变化对识别系统存在较大的准确性影响 在这些不定因素的影响下,如何较为正确的识别出说话人仍是一个较难攻克的课题。

参考文献

[1] 王侠.语音识别应用无限[J].计算机世界报,1999:24-26.

[2] 沈忱,基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用[D].东南大学,2007.

[3] 邵妍,霍春宝,金曦.基于改进的高斯混合模型算法的说话人识别[J].辽宁工业大学学报:自然科学版,2010,30(1):8-10.

[4] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3-6.

猜你喜欢

数据库
Designer测试大数据预定义均衡配置
MemSQL获3000万美元D轮融
数据库
数据库
数据库
数据库
数据库
数据库
SQL语言在电信业务数据库数据查询中的应用
数据库