基于GMM的听障儿童听觉辨识能力机器检测研究
2023-12-14韩雪晴廖庆洲廖盛斌
徐 杰, 韩雪晴, 廖庆洲, 廖盛斌*
(1.华中师范大学经济与工商管理学院, 武汉 430079;2.国家数字化学习工程技术研究中心, 武汉 430079; 3.武汉软件工程职业学院人文学院, 武汉 430205)
1 听障儿童听觉辨识能力测试背景
听觉是人类感知世界、接受信息的先天能力之一.听障儿童由于听觉能力先天性不足导致语言发展滞后,进行干预训练成为发展听障儿童听觉能力的关键因素[1].目前,听障儿童听觉干预训练广泛采用听觉口语法(auditory-verbal therapy,AVT),即通过听力辅助设备,扩大并利用听障儿童听觉能力,进行个别化诊断式教学,主要训练其倾听能力,进而使之能开口沟通[2].听觉口语法首要环节是测试听障儿童听觉辨识能力,检查儿童能否辨识到正常言语频率范围内声音.人工林氏七音是检测儿童听觉辨识能力一种简便易行、行之有效的方法.
听觉口语法是专业教师或治疗师面向听障儿童家庭提供的康复服务,教学时间通常为1~1.5 h,频次一般为每周1~2次[4],通常听觉干预训练前听障儿童需要分别测试双侧耳朵的情况.在专业教师紧缺的情况下,人工进行林氏七音测试耗时费力,缩减了听障儿童学习听力训练时间,间接影响了听障儿童听觉能力发展进程.
语音识别技术的出现,为测试人员改良林氏七音测试带来了新的可能性,语音识别技术因能够将人类语言转化成计算机可以读取和识别的形式,实现人机交互,而被应用到工业、农业、军事、交通、医疗以及教育等各行各业中[5].在教育领域中,刘文开等[6]研究利用语音识别建构智慧教室,提高智慧教室的信息化程度.曹雪燕等[7]研究了语音识别技术在聋人大学生课堂教学中的应用,认为使用语音识别技术弥补了手语对大学专业词汇表达的不足.
针对人工检测听觉辨识能力存在耗时耗力的问题,将语音识别技术应用于听障儿童听觉辨识能力测试有望减少对人力的依赖,从而大幅提升效率.本文主要探讨如何利用语音识别技术快速、高效测试听障儿童听觉辨识能力.
2 研究方法
本研究将采用语音识别算法针对听障儿童林氏七音发音数据设计识别模型.目前,有许多算法应用于语音识别,如动态规划算法[8]、高斯混合模型(Gaussian mixture model,GMM)[9]、隐马尔科夫模型[10]以及RCNN[11]等,本研究在文献研读基础上选取高斯混合算法对林氏七音建模,利用隐马尔科夫模型进行对比实验.
2.1 数据来源与处理
本研究使用的语音数据集来源于湖北省聋儿康复中心,录制听障儿童AVT课程13节.首先,对课程视频进行分析,提取林氏七音音频数据.接着,对数据进行清洗并人工标注,最终得到音频数据91条.采用留出法将数据集D划分为两个互斥集合S训练集70条和T测试集21条,部分音频数据波形图示例如图1所示.
图1 音频数据集波形图示例
2.2 声学特征提取
声学特征指表示语音声学特性的物理量,是声音诸要素声学表现的统称.如表示音色的能量集中区、共振峰频率、共振峰强度和带宽,以及表示语音韵律特性的时长、基频、平均语声功率等.
声学特征提取是语音识别的关键步骤.提取声学特征的方法有多种,如基于人耳听觉特性梅尔频谱系数(mel-frequency cepstral coefficients,MFCC)特征[12]、能量特征、频谱特征[13]等,以及基于这些特征的融合与改进[14-15].其中,MFCC是一种广泛应用于语音识别的特征参数[16-17].梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,本研究利用Mel频率倒谱系数提取林氏七音数据集的声学特征,具体提取MFCC步骤如图2所示.
图2 MFCC提取步骤
2.2.1 预加重 提取MFCC特征第一个阶段是预加重,由于林氏七音中存在元音,可能出现频率高而能量下降的声谱斜移现象.采用预加重补偿语音信号所压抑的高频部分,突显高频共振峰.
2.2.2 快速傅里叶变换 原始信号经过处理后,需要将时域信号转化为频域信号,抽取信号声谱信息,利用快速傅里叶变换(Fast Fourier Transform,FFT)得到信号在频谱上的能量分布.
2.2.3 Mel滤波器组 FFT计算得到的结果是关于每一个频带上能量大小的信息.由于人耳对不同频率的敏感程度不同,且成非线性关系,因此需要将频谱按人耳敏感程度分为多个Mel滤波器组,
用对数表示Mel声谱值是由于人类对信号级别的反应按照对数计算,使用对数来估计特征时,对于输入的变化也不太敏感.
2.2.4 离散余弦变换 由于滤波器之间是有重叠的,Mel滤波器组计算出的滤波器组系数高度相关,应用离散余弦变换去除相关滤波器组系数并产生滤波器组的压缩表示,获得最后的特征参数.
将林氏七音音频数据集部分MFCC进行可视化,如图3所示.
图3 数据集MFCC示例
2.3 建立声学模型
在建立模型阶段,通过高斯混合模型为提取的声学特征矢量建模并指派声学似然度.
单变量高斯分布通过参数一个均值μ和一个方差σ2来定义,可以对一个单独的倒谱特征计算声学似然度[18].由于MFCC是一个多维的矢量,可以使用多变量高斯分布来指派声学似然度.多变量高斯分布使用N维的均值矢量μ和协方差矩阵Σ来定义.
多变量高斯分布将特征矢量每一个维度作为高斯分布来建模,而一个特定的倒谱特征可能非正态分布,高斯混合模型通过把若干个多变量高斯分布加权混合建模以避免非正态分布的情况,高斯混合模型如下式所示,
f(x│μ,Σ)=
其中,μ为均值,Σ为协方差矩阵,ck为混合系数,M为混合的高斯分布个数.
2.4 训练声学模型
训练声学模型通过计算高斯混合模型参数最大化声学似然值.本文将采用测试集训练声学模型,利用EM算法估计模型中参数,具体步骤如下.
1) 音频声学特征作为样本集D={x1,x2,…,xn}.
2) 初始化高斯混合模型的参数μ、Σ、ck.
3) E步:根据当前参数计算每个样本属于每个高斯成分zi的后验概率
γij=P(zj=i|xj).
4) M步:计算新的均值μ,
计算新的协方差矩阵Σ,
计算新的混合系数ck,
重复以上E步、M步,将最终得到的参数代入到目标函数中完成模型.
3 实验结果与性能评估
将林氏七音测试识别设计为一种多分类任务,七音分别代表七个种类.多分类任务的评估指标比较复杂,一般将多分类任务视为n个二分类任务.对n个二分类任务通常使用宏平均(macro-average)、微平均(micro-average)、加权平均(weighted-average)等方法评估模型表现情况.其中,宏平均计算方法区分样本不同类别,先分别计算每个类别的Precision、Recall,然后所有类别度量值平均.微平均不区分样本类别,计算整体的Precision、Recall.加权平均是对宏平均的一种改进,考虑了每个类别样本数量在总样本中占比,为样本分配权重.由于本研究利用留出法划分数据集,为每种样本分配相同数量音频,在此基础上综合考虑三种评估指标,最终采用宏平均中Macroprecision(式(1))和Macrorecall(式(2))作为评估模型的指标.宏平均注重区分类别,缺乏对整体数据集的考察,选取精确率(式(3))作为补充,评估模型在整体数据集的表现情况.
(1)
其中,PrecisionPj的计算方法如下:
(2)
其中,RecallRj的计算方法如下:
(3)
在二分类任务中,TP、FP、TN、FN分别为被模型预测为正类的正样本、被模型预测为正类的负样本、被模型预测为负类的负样本、被模型预测为负类的正样本,具体如表1所示.
表1 评估模型
多分类任务可以用一个混淆矩阵来表示,混淆矩阵是一个n×n的矩阵,n表示多分类的类别数,混淆矩阵对角线上表示的是分类正确的样本.行代表了真实类别,列代表了预测类别.图4为高斯混合模型的混淆矩阵.
图4 GMM混淆矩阵
Macro precision、Macro recall两种指标只反映了模型对数据集整体的表现,表2展示了高斯混合模型每个音的具体分类以及准确率表现情况.
表2 GMM分类报告
实验结果表明,高斯混合模型林氏七音分类精确率为0.96, 召回率为0.95,准确率为0.95,其中,/m/音预测正确的数量低于其他六音,/u/音真实正例被分类器召回数量低于其他六音.
3.1 高斯混合模型与隐马尔科夫模型对比
为了进一步验证高斯混合模型在机器识别林氏七音中的准确性,本研究分别采用高斯混合模型和常用来处理音频数据的隐马尔可夫模型对相同数据集建模进行对比实验,图5为隐马尔科夫模型预测类别的预测结果与真实结果.
图5 HMM模型预测类别结果
HMM每个音具体分类以及Accuracy表现情况如表3所示.
表3 HMM分类报告
最终,HMM模型分类的精确率为0.94, 召回率为0.90,准确率为0.90.两种模型实验在三个指标中对比情况如表4所示
表4 GMM与HMM的表现比较
实验结果表明,高斯混合模型在正确分类的数量以及分类的精确率上有较大优势,在总体三个指标的性能表现中也均优于HMM模型,能够较好地识别林氏七音.
4 结论
本研究提出了一种基于高斯混合模型的机器识别普通话版林氏七音测试方法.首先,在湖北省听障儿童康复中心采集并制作林氏七音数据集;接着,提取普通话版林氏七音数据集的声学特征;然后在普通话版林氏七音训练集的基础上建立并训练高斯混合声学模型,将模型设计为多分类任务,通过Macro precision、Macro recall、Accuracy三个指标评估模型的表现情况.本研究将高斯混合模型和隐马尔可夫模型在同一数据集上进行对比实验,结果表明,基于高斯混合模型林氏七音测试模型能更好的识别普通话版林氏七音.