语音合成技术的发展历程与理论研究
2014-04-29王顺利付嘉铭夏长春
王顺利 付嘉铭 夏长春
摘 要 近年来,语音合成技术中的波形拼接算法被广泛地运用在各个国家的技术前沿。大多数的实验研究结果表明波形拼接算法具有可靠的实用性,所以在市场中已经具有许多语音合成产品,这些产品对人们的日常生活和工作的各个方面有很大的影响。
关键词 语音合成 发音 自然度 时域波形 語音库
中图分类号:TN912 文献标识码:A
1语音合成技术的发展历程
随着语音合成的要求越来越高,语音学家对语音合成的研究技术不断更新。早期研究利用合成语音的参数方法,以提高它的LSP,LPC和其他言语参数。这些都反映在越来越多和越来越严格的语音合成系统应用,现在不仅对语音合成有连贯性的要求,而且还有更高的需求。
上世纪60年代TTS英文版系统被成功研制。在80年代,我国也开始研究中文TTS。中国科技大学,社会科学院,中国科学院,清华大学等所有单位都在TTS的研究领域中不懈努力奋斗。不仅如此,在中国台湾的著名大学,如台湾大学和台湾交通大学也开始在语音系统领域中研究。甚至一些研究成果已成为产品在现实中使用。同时,在世界主要国家也已经开发相应的产品。
上世纪80年代后期和,科学家就开始对修改语音合成技术的时域波形进行研究,即PSOLA(基音同步叠加)技术。其主要特点是:在衔接语音波形段,首先按照上下文,根据拼接单元与PSOLA算法调整的韵律特征,合成波形不仅保持主音发音段的功能,并能与环境做出韵律特征的拼接单元,从而获得可懂度和自然度很高的合成语音。PSOLA技术有了很大的发展和广泛的应用。为了提高合成语音的质量,人们开发了语音波形拼接技术,该技术主要用于一些语音信号的参数如音高,而不是语音参数波形。这项技术能合成出更加自然的语音。
在上世纪90年代,比LPC语音合成技术和共振峰技术更优越的技术已经诞生,利用该项技术合成的中文与英文显得更加自然,并已经被广泛应用于商业领域。近年来,人们在研究通过数据库建立的语音合成算法。只要应用数据库就可以进行基本的语音单元合成,可以更方便的进行语音信号的拼接合成。对于确定合成语音质量,语音库中起着非常重要的作用。多种感情的语音单元是各种情况下语音数据库的唯一入口,从而合成了一种任意语句。因此,语音数据库的容量必须足够大。这种合成语音的自然度将有较大的升级。
现在,随着语言学的不断发展,语音合成技术已经从最初对语音内容清晰度和连贯性的要求,逐渐演变成对语音的自然特性的高度追求。如何将合成后的语音显得自然是科学家们越来越关注的话题,但现在的语音技术仍不能满足人们的需求,因此,目前众多产品制造商正在对语音合成自然度不断创新。所以。语音合成在未来具有更大的商业市场和机会。世界各个主要国家都对语音合成技术做了集中的大量研究,技术已经达到了一个较高的水平,虽然我国现在语音合成技术较为弱后,但在不久的将来,随着国家对语音技术的重视程度将会不断提高,人们对语音的自然度要求就会有更高的重视程度,中国将有越来越多的企业和部门从事语音合成技术的研究。我国将在语音合成方面将会和国外长期竞争,并会在这样一个良性的竞争中获得更加先进的技术。
2语音合成技术的理论
语音合成技术已越来越多地在现代社会中得以应用,大大提高了人民的生活质量。如电话号码查询,计算机应用,旅行的火车与飞机班次语音查询等。
语音合成是利用语音处理技术来建立数字语音模型,模型首先通过激励信号,在人体器官中传递声音,随后发出声音。语音合成技术可以根据不同的规则分为不同的类型,如信道模型参数法,语音参数法和波形拼接法。波形拼接法是衔接语音信号和易懂的语音信号,从而合成信号强度和自然度高的语音信号。
LPC技术是将时域中的信号在保证传输率的基础上,来完善时域波形的技术处理方法。LPC技术的优点和缺点非常清晰,它具备简洁和易于处理的算法,然而它仅仅是一个简单的解码语音信号,只能实现一定程度上的语音连接。同时,波形拼接技术的最大特征是利用一些语音波形的数据来存储所有相关的语音信息,所以对语音自然度的提升将起到很大的作用。但要合成单音节或充满感情的语句有在有些情况时是很难妥善处理的,如果单独的音节或词在充满感情的语句中进行处理,显然其综合素质将受到一定的影响。
上个世纪末,科学家们提出了一个语音波形拼接的有效方法,即基音同步叠加技术(PSOLA),可以解决上述问题,给语音处理技术带来了一股新鲜血液。该技术主要是对语音信号的持续时间,强度,频率,时间等参数进行控制。而这些语音信号参数的改善对语音信号处理非常重要。所以LPC技术与PSOLA技术在控制韵律词的修饰方面有更多的优点,通过该项技术合成的语音在自然度等各方面比其他合成方法都更要出色。
参考文献
[1] 陈静,李薇,崔忠伟,刘霞.?语音合成技术的研究及其发展[J].中国科技信息.2007(14).
[2] 党建成,周晶.?语音合成技术及其应用[J].计算机与信息技术.2007(06).