支持向量机在语音识别中的应用
2015-03-02高家宝
摘要:支持向量机采用数学方法和优化技术,将向量映射到一个更高维的空间里,建立一个有最大间隔的超平面,其在语音识别技术中应用广泛。
阐述语音识别技术及支持向量机的原理,介绍支持向量机在语音识别中的应用。
关键词:语音识别;支持向量机;机器学习
DOIDOI:10.11907/rjdk.143728
中图分类号:TP301
文献标识码:A 文章编号文章编号:16727800(2015)001003902
基金项目基金项目:广西教育厅科研基金(201010LX454)
作者简介作者简介:高家宝(1976-),男,广西平南人,桂林电子科技大学计算机科学与工程学院硕士研究生,河池学院现代教育技术中心工程师,研究方向为计算机应用。
0 引言
语音识别起源于上世纪50年代,它首次实现了10个英文数字的语音识别,开始了语音识别研究工作的序幕。语音识别技术就是让计算机通过识别和理解过程把语音信号转变为相应的文本或命令的现代信息技术,其关键技术是语音识别单元的选取和特征参数的提取。近20年来,语音识别技术研究工作取得了显著进展,开始从实验室研究逐步走向市场应用。人们预测,在不久的将来,语音识别技术会溶入到工业、军事、通信、医疗、汽车内环境噪音抑制、测谎、家庭服务等各个领域,并对各领域的发展起到强有力的推动作用。汉字语音录入就是语音识别技术在实际生活中的一个具体应用例子。IT界很多专家学者都认为语音识别技术是2000年以来信息技术领域十大重要的科技发展技术之一。
语音识别是一门交叉学科,也是模式识别的一个非常重要分支,它与生理学、心理学、语言学、计算机科学以及信号处理等都有密切的联系,其最终目的就是要实现人与机器进行自然语言通信,用语言代替手指来操纵计算机。
支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它采用数学方法和优化技术,将向量映射到一个更高维的空间里,并在这个空间里建立一个有最大间隔的超平面,便于解决数据挖掘中的问题,在某种程度上攻克了“维数灾难”和“过学习”等困难,并在语音识别、生物信息等领域应用。近年来,把支持向量机应用到语音识别技术中研究越来越多,取得了很大的成就[13]。
1 支持向量机原理
1.1 线性支持向量机
考虑训练集Τ={(x1,y1),…,(xl,yl)}∈(Rn×Y)l,其中xi∈Rn,yi∈Y={1,-1},i=1,…,l.若存在ω∈Rn,b∈R和正数ε,使得对所有使yi=1的下标i,有(ω·xi)+b≥ε,而对所有使yi=-1的下标i,有(ω·xi)+b≥-ε,则称训练集T线性可分,也称相应的分类问题是线性可分的。对线性可分问题,可转化为求解变量ω和b凸的二次规划问题。
minω,b12ω2s.t. yi((ω·xi)+b)≥1,i=1,…,l.(1)
对一般分类问题(包括线性不可分问题),可引入松弛变量ξi≥0,i=1,…,l。把问题(1)改为原始优化问题
minω,b,ξ12ω2+C∑li=1ξis.t. yi((ω·xi)+b)≥1-ξi,i=1,…,l,(2)ξi≥0,i=1,…,l,
其中ξ=(ξ1,…,ξl)T,C>0是一个惩罚参数。
1.2 非线性支持向量机
把“线性分划”推广到“非线性分划”,只需引进一个适当的变换Φ。引进从空间Rn到Hilbert空间Η的变换x=Φ(x)。
Φ:Rn→Ηx→x=Φ(x).(3)
训练集T经变换(3)后变为
ΤΦ={(xi,yi),i=1,…,l}∈(Η×Y)l,(4)
其中xi=Φ(xi)∈Η,yi∈Y={-1,1},i=1,…,l。此时,非线性分划解的优化问题为:
minω,b,ξ12ω2+C∑li=1ξi
s.t. yi((ω·Φ(xi))+b)≥1-ξi,i=1,…,l(5)ξi≥0,i=1,…,l.
1.3 常用核函数
1.3.1 最基本的核函数
(1)定义在Rn×Rn上的函数Κ(x,x′)=(x·x′)是核函数。(2)若f(x)是定义在Rn上的实值函数,则Κ(x,x′)=f(x)f(x′)是核函数。
1.3.2 多项式核函数 d为正整数,则d阶齐次多项式函数Κ(x,x′)=(x·x′)d及d阶非齐次多项式函数Κ(x,x′)=((x·x′)+1)d都是核函数。
1.3.3 Gauss径向基核函数 以σ为参数的Gauss径向基函数Κ(x,x′)=exp(-x-x′2σ2)是核函数。
2 支持向量机在语音识别中的应用
使用支持向量机进行语音识别步骤:
①输入语音数据;
②选择核函数类型(包括选择核函数类型、多项式核函数、RBF 核函数及其它核函数);
③选择模型参数;
④解决二次优化问题;
⑤支持向量集;
⑥分类器。
支持向量机学习性能的好坏关键在于核函数及其参数选择。用户在利用支持向量机进行求解分类问题时,首先需要选择一个核函数类型,然后确定核函数的参数和惩罚因子。核函数对应于非线性映射函数及其特征空间,确定了核函数就等于确定了非线性映射和特征空间。由此可见,要想支持向量机有突出的推广效果,首先必须选取适当的核函数并将数据映射到正确的特征空间。如果核函数不同,那么数据映射到特征空间也相应不一样。用户在确定了核函数的类型后,接下来要做的就是选择相应的参数,其参数值直接决定着支持向量机的分类精度和学习性能。
综上所述,核函数类型、核参数和惩罚因子的选择在不同程度上影响着支持向量机的性能。但是,支持向量机的核函数及参数选择直到现在还没有形成统一的模式,也没有找出指导支持向量机核函数及参数选择的好办法,用户对参数选择只能根据以往经验和频繁进行对比实验,存在着很大的局限性。
语音信号中含有丰富的信息,特征提取是从语音信号中提取出有效信息,它是语音识别的关键。机器对语音信号进行分析处理,去掉与语音识别无关的冗余信息, 提取能够有效表征说话人特征的参数。对于非特定人语音识别来说,应尽可能地使特征参数更多地反映语义信息,尽可能降低说话人的个人信息;对于特定人语音识别来说,则恰好相反。在实际应用中,通常直接把语音数据文件作为处理对象,人为地添加高斯白噪声。语音特征可采用 MFCC特征、LPC特征、LPCC特征或ZCPA特征。说话人在发同一个音时,其持续时间长度和各音素的相对时长都是随机变化的,为了便于处理,将提取的特征参数通过动态时间归整算法进行时间归一化处理,然后作为支持向量机的输入参数。在支持向量机语音识别系统中,可以通过采用不同的核函数对语音信息进行训练和识别,以取得最好的识别结果。
3 结语
支持向量机是一种基于统计学习理论的机器学习方法,其应用范围广泛,如:语音识别、数据挖掘和神经网络等,有相对完善的理论基础。虽然支持向量机在理论上有明显优势,但支持向量机起步较晚,应用研究相对滞后,科研成果不够突出,目前,大多数是做仿真和对比实验。支持向量机的应用研究是一个很有潜力的研究方向。