嵌入式语音合成技术的发展及在智能家居行业的应用

2013-07-09张红英

家电科技 2013年11期

嵌入式语音合成技术，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音并朗读出来，相当于给机器装上了人工“嘴巴”。它涉及声学、语言学、数字信号处理、计算机科学等多个学科，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”,与传统的声音回放设备（系统）有着本质的区别。传统的声音回放设备（系统），如磁带录音机，是通过预先录制声音，然后回放，从而实现“让机器说话”的，这种方式无论是在内容的存储、传输或者方便性、及时性等方面都存在很大的局限性。而通过计算机语音合成技术则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。

利用文语转换技术进行语音的合成，需要经历一个文语转换的过程。

语言学处理

“语言学处理”在文语转换过程中起着重要的作用，主要模拟人对自然语言的理解过程文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。

韵律处理

“韵律处理”为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。

声学处理

声学处理，主要是根据前两部分处理结果的要求输出语音，即合成语音。

文语转换过程

基于文语转换技术，可制成文语转换系统，这个系统实际上可以看作是一种人工智能系统。为了合成出高质量的语音，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图（图略）。文语转换过程是先将文字序列转换成音韵序列，再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则；第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。因此一般说来，文语转换系统都需要一套复杂的从文字序列到音素序列的转换程序，也就是说，文语转换系统不仅要应用数字信号处理技术，而且必须有大量的语言学知识的支持。

嵌入式语音合成技术的本质是基于它能将输入的语音通过语言转文本技术转化为语言代码。语音是信息的载体，语音识别的基本任务就是将输入的语音转化为相应的代码。通过这个转化的过程，使人们在存储和传输这样的语言代码的时候，无论是存储空间还是传输率都比语音直接存储和传输要方便的多，而且它还可以把连续的语音信号变成一种只需要有限符号集中的代码，这样也很容易被计算机或者专用的信息处理单元所理解，便于和人进行交流。因此，该技术可以实现广泛的应用，如声控应用、用于自动口语翻译、把语音识别和合成技术相结合构成的一种超低比特率的语音通信系统等。

语音合成技术的发展

国外的语音合成技术发展较早，且前期运用最多的就是共振峰合成器技术。但经过多年的研究与实践发现，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。基于此，自八十年代末期至今，语言合成技术又有了新的发展，特别是1990年基音同步叠加（PSOLA）方法的提出，使基于时域波形拼接方法合成的语音的音色和自然度都有了很大的提高。

国内的汉语语音合成研究起步较晚，二十世纪八十年代初期，国内汉语语音合成研究才逐步兴起。但此后，国内汉语语音合成研究基本与国际上的研究同步，大致也经历了从共振峰合成、LPC合成到应用PSOLA技术的过程。在国家863计划、国家自然科学基金委、国家攻关计划、中国科学院有关项目等支持下，汉语文语转换系统研究近年来取得了令人瞩目的进展，其中不乏成功的例子：如1993年中国科学院声学所研发的KX-PSOLA、清华大学研发的TH_SPEECH；1995年联想佳音、中国科技大学研发的KDTALK系统等。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度都达到了较高的水平。然而同国外其它语种的文语转换系统一样，这些系统合成的句子及篇章“语音机器味”较浓，其自然度还不达到用户可以广泛接受的程度，从而制约了这项技术的商品化进程。

总的说来，我国语音合成技术研发与技术应用的发展，同计算机技术的普及和网络、通信、广播电视等技术和业务的发展是同步的，可以说，正是信息产业的迅猛发展推动了语音合成技术应用领域的发展和突破，进而刺激了语音合成技术突飞猛进的发展。

我国在语音合成领域的研究选择了与国外错位发展的策略，并且目前在逐步缩小与国外关键技术领域的差距，在车载语音装置、计算机声音输入或输出技术、自然语言数据的数字数据处理方法或设备等领域已具有了一定的竞争优势。

嵌入式语音合成技术在智能家居中的应用

这几年，智能家居行业发展较快。具体到智能家居领域，嵌入式语音合成技术可以有以下几个方面的应用：

1、防盗功能：安装在房间内外的红外探测器、门磁等，可以探测到任何非法入侵活动，并利用语音合成技术，发出警告，连动开启相应灯光或电器，对小偷起到震慑作用；同时向用户发送短信及拔打用户事先预设的电话进行报警。

2、紧急求助：当用户家中的老人或小孩独自在家发生了意外，需要帮助时，只要按一下随身携带的遥控器，系统就会自动拔打用户的手机，并利用语音合成技术，播报家中的实时情况，以便于用户尽快采取帮助措施。

3、防火防煤气泄露：安装在室内的无线“烟感”、“气感”在探测到有危险信息的时候会向系统发射信号，系统将自动通过网络向用户发送短信，并通过电话拔打用户预设的电话号码，此举可以最大限度地保证用户家中的财产不受损失。

4、方便控制：无需起身，开门、关灯，只要轻轻一按遥控器就可立刻开启或关闭灯光，从而大大的方便了用户的日常生活。

5、科技时尚：通过网络，用户可以监控家中的情况，并控制家中的安防系统的开启或关闭；而通过电话，用户不仅可远程控制家中的安防系统，还能有效的控制家中灯光的开启及关闭。

如今，嵌入式语音合成技术已为很多家居公司的产品提升了内在价值，同时，TTS语音引擎的加载也使得很多家居产品更加具有生动性，便捷性，更富于人性化。

物联网时代将是全面迈入声控的时代

其实，语音控制在物联网领域早有应用，不久之前，美国一家视听公司就已经透过SIRI对快思聪自动化控制系统进行了控制，用户可以通过语音进行开启灯光、调整灯光亮度、启动家庭剧院、控制空调、切换影音频道等操作，这也使得家庭自动化的发展往前迈进了一大步。然而，语音交互要真正实现面向大众，则面临着技术、使用模式和用户文化环境等多重挑战。语音控制虽有一定的优越性，但由于其控制的准确度和稳定性都还存在一定缺陷，一直未能得到规模化的应用。

不过，中国移动李正茂在中国语音产业联盟成立之际曾透露：“今后，中国移动将在客户系统、语音门户、搜索门户、智能家居、短信及邮件中逐步提高智能语音功能，包括智能语音翻译，助推中国移动的业务和服务再上新的台阶。”而目前，语音合成技术也已在我国的车载调度、导航、智能家居、安防监控、考勤、播报终端等二十多个领域有了很多成功的案例，这说明，谁能在行业浪潮中放出创新之举，谁就能够夺得更多的市场先机。

放眼全球，智能化的语音产品扎堆上阵，一股语音声控的热潮已是势不可挡。虽然面临一些技术瓶颈，但在技术不断走向成熟的背景下，将语音技术融入更多领域已成为一种新的发展趋势，其应用的准确度和稳定性问题也有望迎刃而解。展望物联网未来的发展，将语音控制技术规模化的应用于物联网亦将成为未来市场发展的新趋势之一。物联网时代，用声音引领未来，值得期待！