与文本相关的汉语语音识别系统研究
2012-08-24马丽静
马丽静
(太原理工大学,山西 太原 030024)
多少年来,人们一直在梦想着一种全新的通过语言进行人与物、人与机的信息交流。随着电子技术的发展,这种愿望在逐渐实现。最早让机器合成语音的是起源于美国声码器的发明,之后,文本和语音编码出现映射,由文字输入可转成对应的语音。再经过长期的研究,由语音输入转成文字输出也变成可能,尽管识别率还不尽人意,但目前已有应用产品在实践着研究成果。可以预言,语音识别技术的发展会像计算机互联网的发明一样,改变人们的工作和生活方式。
1 国内外与文本相关语音识别技术发展的历史和现状
语音识别系统要融合以下4个方面的技术:语音分析技术、语音存储与再生技术、语音合成技术、语音识别技术。人类很早就开始研究声音,起初是研究发声的物理过程及其数学表达方式和模型,同时还研究语言语音学。语音技术在国外的最早应用是20世纪30年代,此时出现了声码器,49年研制成功了电合成器。50年代,10个英文数字语音识别系统问世。70年代,语音识别技术取得了许多实质性进展,语音识别技术产品进入商品市场。80年代后,语音识别技术的研究和开发更加活跃,出现的产品有Bell实验室的Conversant语音信息系统和用于读音识字的TM英语博士智能拼说玩具系统。
国内,在20世纪70,80年代才开始语音识别技术的研究,发展过程和国外相同,但起步晚、速度快。起初也是只对孤立词和0~9的数字语音进行识别,80年代后期,在已有的研究基础上,开始着手大规模连续语音识别系统的研制。清华大学拿出无限词汇的汉语听写机样机,输入的是语音输出的是汉字,通过识别语音形成相应文本。在同一时期,中科院自动化研究所研制出北京旅游信息咨询系统,用户可以用连续的语音向系统咨询有关北京的名胜,现场测试识别率达到94%。其后,由北方交通大学研制的汉语文语转换系统,台湾工业技术研究院电脑与通讯研究所研制的铁路订票系统陆续问世,这些系统的响应速度还不错,辩识率大致是90%。最近几年,国家加大了这一研究的投资力度,国外也投资巨款紧锣密鼓地开发着实用的汉语语音识别系统。因此,语音识别技术的应用历史不长,国内外的差距不大,理论和实用上都有很大的发展空间。
2 与文本相关的汉语语音识别的算法研究
语音识别技术的发展过程中有两个突破点:首先,是以动态时间规划识别算法为主的孤立字、特定人和小字表的限制条件下进行的语音识别;其次,是以隐马尔可夫模型(HMM)算法为主的大词汇量连续语音识别系统。近期的识别系统大多是隐马尔可夫模型算法的优化和附加,如矢量量化语音识别,隐马尔可夫模型与自组织神经网络结合的语音识别。隐马尔可夫模型语音识别原理简化如下,定义隐马尔可夫模型(HMM)为:
对于观察序列为,O=O1O2……OT,一个有 N 个状态(S1,S2,…SN)的 HMM由三元参数组 λ=(π,A,B)表示,π=[π1,π2,…,πN]为初始分布,A={aij|i,j=1,2…,N|}为状态转移概率矩阵,B 为观察序列O中任一观察在各状态的观察概率空间中的分布。对于给定的一个观察序列O=O1O2…OT和一个HMM参数组λ=(π,A,B),语音识别具体实现分3步:①先对词表中每个词c建立一个HMM模型;②对输入的语音词,即要识别的词进行特征提取形成观察序列 O=O1O2,…OT,然后对每个模型求 P(O|λ);③最后选择模型中似然度最高的词作为识别结果。
在国内已实现的各种语音识别系统中,一般用音节来作为识别单元,汉语音节由声母和韵母组成。有时也加音调,1个音节的状态数通常取为6,状态数的选择一般凭经验,主要是看对识别率的影响。在大词汇量汉语语音识别系统中,有时也采用声母和韵母做单元建立HMM。一个好的系统必须优化地解决概率P(O|λ)计算、最佳状态链的确定、模型参数调整的3个基本问题,以减小误识率。
3 新型的器件和芯片
美国ISD公司生产的语音录入和重放的ISD系列芯片,采用EMPROM存储方法将模拟语音数据直接写入半导体存储单元中,不需另加A/D或D/A变换来存储或重放。1978年,美国TI公司首次推出单片语音合成器,语音音素合成器,这使文本到语音的转化应用得到了很大的发展。汉语音素合成器也在研制,并已应用到手机和一些电器上。各种语音识别芯片也纷纷上市,英语读音字典、汉字语音字典都已开始应用,语音识别技术也走向市场,出现声控玩具、语音拨号等产品。语音识别技术从简单到复杂,从英文到汉语,实现了输入文字输出合成语音和输入语音输出对应文字的文本同语音的双向转化。与文本相关的语音识别技术有了很大的发展,但这些系统都有局限性,还存在着许多必须解决而尚未解决的问题,理论和实际上都有很大的发展空间。
4 面临的问题
语音处理技术的问题来自两个方面:语音编码和语音识别。前者的问题是怎样建一个更稳定的语音数字编码系统,要求低速率语音编码合成语音音质要有更好的自然度,能在多次音频转接后正常使用。这涉及到语音信号的特征选择和提取问题。目前常用的特征参数有短时频谱、短时自相关函数、短时能量、短时平均幅度、短时过零率、倒谱、线性预测编码、共振峰参数等。后者的问题是语音识别系统的适应性差,对各国不同的官方语言和同一国家的不同方言,系统性能会变的不尽人意。两者还面临一个共同的问题,就是语音不能抗强噪声的干扰,语音数据的采集都是在无噪声环境下进行的,在高保真设备上录制的语音才能作为语音编码技术的语料来使用。
5 发展方向及对策
改善合成语音的自然度和语音识别系统的识辨率,多方位地开展研究使信息互补,克服单一信息带来的弊端是一发展方向,国内外有关研究人员已致力于声视语音处理系统的研究,就是在语音识别的同时加上唇型视图的辅助判断,减少误识率,抵抗高噪音。另一方面,发展语音理解系统也是未来的发展方向,使机器也能理解语言,并且能像人一样运用这种理解力。目前,在以下方面有待深入研究:
(1)如何克服给语意的分析和理解带来困难的口语语法不规范和语序不正常问题。
(2)考虑到人类听觉系统的MEL参数及语音的差分计算,听觉计算模型对失真的测度。
(3)基于小波变换的参数表示,各种参数提取,及其失真测度。
(4)隐马尔可夫模型同矢量量化的结合,产生有记忆的语音识别。
语音识别技术方兴未艾,随着科学技术的发展,语音识别技术会有更重大的突破,强适应性,鲁棒性好的产品会不断产生,且有更广泛的应用前景。
[1]郑方,汉语语音听写机技术的研究与实现,软件学报vol.10,No.4 Apr.1999.
[2]Seward,Alexander,A fast HMM match algorithm for very large vocabulary speech recognition.Speech Communication,v 42,n 2,February 2004,p191-206.
[3]王炳锡,语音编码[M]西安电子科技大学出版社,2002.
[4]朱民雄,计算机语音技术[M],北京航空航天大学出版社,北京2002.