基于隐马尔可夫模型的物联网终端语音身份动态识别方法
2021-12-30郭霏霏
郭霏霏
(泉州职业技术大学智能制造学院,福建泉州362000)
计算机和人工智能的迅速发展为实现语音身份识别提供了可能。当下的智能设备能够迅速捕捉并提取语音信息,将对应的身份信息以代码的形式输入计算机,使计算机能够依照人类的思维方式,对捕捉到的语音进行计算和分析[1-2]。如出现不同的语音控制指令时,通过计算机的对比、思考及推断,可以划分、辨认出指令人的身份,再判断是否执行指令[3]。物联网终端语音身份识别技术的实现是多个领域共同努力研究的成果,其中包括计算机科学、声学等多个领域[4-5]。计算机等硬件设备的发展,对人们的生活产生潜移默化的影响,越来越多的智能工具进入大家的工作生活中,并成为生活中不可或缺的一部分。语音身份识别技术作为一种具有先进性、创新性的技术,在多模式人机交互等方面具有广阔的发展前景[6]。为此,有学者提出相关的研究成果。余玲飞等[7]提出一种基于卷积神经网络和深度循环网络的声纹识别方法,但该方法存在训练和识别时间较长等问题。隐马尔可夫模型是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型存在从可观察的参数中确定隐含参数,然后利用这些参数进行下一步分析的复杂性,但对过程的状态预测效果良好,能以较快的速度计算出具有维修能力和多重降级状态的系统概率,实现物联网终端语音身份动态识别,从而解决以往方法存在识别时间较长的问题。目前,隐马尔可夫模型已应用于生物信息科学、故障诊断以及计算机文字识别等众多领域。基于此,提出了一种基于隐马尔可夫模型的物联网终端语音身份动态识别方法,构建隐马尔可夫模型进行语音采集,并对身份特征信号数据进行分类识别,最终完成物联网终端语音身份的动态识别。
1 隐马尔可夫建模
1.1 隐马尔可夫特征
隐马尔可夫模型具有对语音的文本、纹理建模的功能,能准确高效地定位语音特征点,已被广泛应用于语音身份特征点定位。运用隐马尔可夫模型时,纹理需要通过仿射变换的形式映射到对应的文本实例中,得到当前对象的描述模型,从而实现表观建模。
1.2 文本建模
设Ps为一个物联网终端语音序列,Pt为物联网终端端点语音序列,θ为混合均值,Ps+i为s点到端点i的物联网终端语音序列的差值,若特征均值E(Ps)=θ,语音方差V(Ps)=E(Ps-θ)2=τ2,且V(Ps,Pt)仅是特征差|t-s|的函数,则称物联网终端语音序列是一个稳定过程。
稳定过程Ps与Ps+i之间的方差为
作为i的函数,隐马尔可夫只与文本特征i有关,与文本序列e没有关系。i点的物联网终端语音序列为
式中:Zs+i为s到i点的标准化功率谱曲线。
对于给定的物联网终端语音序列P1,P2,…,Pn,-e为文本序列e的平均值,si+t为i点到端点t的文本序列,物联网终端语音序列的隐马尔可夫模型为
1.3 纹理建模
从空间域来看,需要利用功率谱空间频率对终端语音身份进行验证。由于识别的语音均存在相似的功率谱分布特征,因此可得到语音纹理空间频率的标准化功率谱曲线如下:
式中:j为语音纹理空间频率;m为语音纹理指数,且m∈(0,1)。
m值与功率谱曲线衰减速度呈正相关关系,且两者越大,纹理越模糊;相反,m值越小,功率谱曲线衰减越慢,识别语音的高频分量越多,纹理越清楚。
由于语音的纹理自相关函数和功率谱是傅里叶变换对,因此可得到语音纹理的隐马尔可夫模型为
式中:f为傅里叶变换的功率信号;τ为语音纹理功率谱指数。
结合文本模型及纹理模型,完成隐马尔可夫特征的构建。对训练语音自动标记N个特征点,并将这些点的位置构成集合N={(x1,y1),(x2,y2),…,(xn,yn)}。
对训练语音对应的标记点进行归一化处理,以某个标记点为基准,对其他标记点进行归一化处理,使得其尽可能地接近基准标记点的整体位置。采用主成分分析法处理数据,得到平均数据特征-A以及按特征值大小排序后的n个特征向量,隐马尔可夫模型中标记点特征方程为
式中:t0为初始给定的语音参数;Qi为语音特征量。
在初始给定一组语音参数后,得到语音中心标记点,再根据训练语音的标记点,得到平均数据特征和标记点特征向量,完成隐马尔可夫特征模型的建模。
2 物联网终端语音身份动态识别
物联网终端语音身份动态识别是输入一组或多组语音身份识别的数据后[8-9],对采集数据进行预处理、特征提取以及识别分类,最终完成语音身份识别的过程[10]。
2.1 语音数据的采集
在隐马尔可夫特征模型的基础上,构建由语音变化参考模块和1台计算机组成的语音捕捉平台,其能够对语音进行文本和特征捕捉。当平台开始工作时,语音变化参考模块通过无线网络以30 Hz的频率上传语音变化的数据,通过计算机接收数据,并采用地址查询方式接收语音变化参考模块发送的数据[11-12]。为减小体积和电磁波干扰,需要增强平台独立性,采用隐马尔可夫特征模型,对数据进行实时采集,经去噪处理进行数据融合,实时捕捉语音特征,再通过无线网络模块将数据发送到上位机,由上位机中的程序对数据进行处理,最终转变为信号形式。
2.2 语音预处理
语音质量受很多因素的影响,例如,当语音采集设备的质量不达标时,采集到的语音会产生噪声,影响语音质量及语音身份识别率[13]。为解决此类问题,需采取必要的预处理操作以消除噪声,使特征表达更有效,为后面的分类打好基础。需要说明的是,人的语言表达为不连续性,包含语音片段与空白语音片段,而不含语音的片段对语音身份识别的影响较小,因此实验中去除了空白语音片段[14-15]。
本文采用隐马尔可夫特征模型可对每个语音进行数据样本采集。选取目标语音数据作为原始信号,由于该信号存在噪声,因此需要提高语音身份识别效果。为此,在提取原始信号特征前,对其进行预处理,选取隐马尔可夫特征模型对原始信号进行滤波处理,利用加窗方法分割原始信号,此时单个信号包含了1 024个样本。设信号采样频率为100 Hz,经过加窗处理后的信号时间跨度为10.24 s,以完成单个行为动作。若矩形窗过短,则不能包含足够用于识别不同语音的识别信息;反之,隐马尔可夫特征模型滤波处理则会出现延迟的现象。
2.3 语音身份特征提取
利用加窗方法对处理后的语音身份信号进行身份特征提取,即
式中:Y为样本数;Ai为i点的样本值。
根据X轴偏度进行语音身份识别,有
相关系数可对变量之间线性相关程度指标进行衡量,变量A、B的相关系数为
式中:Bi为i点的的相关系数为相关系数的平均值。
2.4 分类识别
根据提取的语音身份特征,对其数据进行采集与处理,具体设计流程如下:
(1)根据传感器特性对获取的语音身份特征信号进行信号空间初始化处理,使其赋予四阶单位矩阵;
(2)语音传感器遵循离散数据采集,形成四维矢量数据,可将该数据全部输出;
(3)利用隐马尔可夫特征模型可处理数据空间矢量值,并获取优化估计结果;
(4)依据传感器数据信噪比以及噪声方差矩阵,对数据进行修正处理;
(5)依据各个传感器信任级别进行语音身份识别。
初始化处理语音传感器,采集语音信号的全部数据;对身份信息进行初始化处理,获取身份数据。将这两部分数据全部集中到四维状态数据空间,并对其进行滤波处理,获取最优特征数据,经自适应修正,在信任级别条件下动态识别物联网终端语音的身份。
3 实验与分析
选择20人,在同一环境下采集每个人的20组控制命令语音,每段语音3~5 s,组成包含400段语音的测试数据集。设置语音信号采样率为16 kHz,16位单声道,采集帧长为60,在Matlab仿真平台上进行模拟实验,得到语音信号波形如图1所示。
图1 语音信号波形图
实验中选取识别率及识别所需时间两个指标,对本文方法和文献方法进行对比。将选用的样本分为3种:噪声环境、慢语速和快语速。表1为两种方法在不同条件下的识别率及识别所用时间的对比。
表1 不同条件下的识别率与识别时间
由表1可知,在慢语速下两种方法的识别率都达到了100%,证明了两种方法的语音身份识别的有效性;但对于快语速下的识别率受到较大的影响,而本文方法的识别率下降较小。这是由于本文方法在语音身份识别时考虑到了语音身份的类内差别和类间差别,且使用了语音特征空间;而文献方法只考虑了不同语音身份之间的差别,所以导致识别率下降较大。在噪声环境下的识别率,两种方法都有所下降,但本文方法的识别率明显高于文献方法,表明本文方法的去噪性能较好。
随着识别条件的增加,两种方法的识别所用时间都随之增加。但相较于文献方法,本文方法在3种不同条件下识别所用的时间都要少于文献方法。这是因为本文方法使用的隐马尔可夫模型能以较快的速度计算出具有维修能力和多重降级状态的系统概率,从而实现物联网终端语音身份动态识别;文献方法则因为将卷积神经网络与循环神经网络相结合,虽然可以提升识别率,但两种方法叠加使用,增加了识别时间。
根据上述3种不同条件的语音身份识别,对两种方法的稳定性进行对比。分别从每种条件数据中选取100组数据进行识别稳定性实验,并将文献[7]中的识别方法与本文方法进行对比分析,结果如图2所示。
由图2(a)可知,两种方法识别慢语速语音时,均接近于标准值,稳定性相差不大。但随着识别条件的增加,由图2(b)、(c)可知,相较于文献方法,本文方法更加趋近于标准值,说明本文方法的识别稳定性更好。
图2 不同条件下的语音身份识别稳定性
4 结 论
本文提出了一种基于隐马尔可夫模型的物联网终端语音身份动态识别方法,通过隐马尔可夫特征建模,在此基础上构建语音捕捉平台;构建隐马尔可夫模型进行语音采集,并对身份特征信号数据进行分类识别,最终完成物联网终端语音身份的动态识别。实验结果表明,本文方法识别精准度较高,识别用时较短,且稳定性较好,以期为语音身份的精准识别提供一定技术支持。