语音合成技术在电力调度自动化系统中的应用

2019-05-08宋吉峰周智成谢代钰陈新凌张旻钰

通信电源技术 2019年4期

关键词：报警调度语音

宋吉峰，周智成，谢代钰，陈新凌，张旻钰

（广西电网电力调度控制中心，广西南宁 530023）

0 引言

广西电网电力调度控制中心原来的电力调度自动化系统主要依靠人为录音实现语音报警功能，存在一定的局限性。因此，需调整和优化能量管理系统，利用语音合成技术，实现电力调度自动化系统语音报警功能，弥补人为录制的缺陷。

1 语音合成技术的概述

语音技术可将输入的语音转换为语言代码。转换过程中，无论是传输效率还是存储空间，都优于直接传输和直接存储。此外，语音技术可将连续语音信号转换为有限符号集中代码，便于工作人员理解和沟通。语音合成技术可广泛应用于多方面，如自动口语翻译、声控及语音通信系统等。

2 语音合成系统具备的特点和优势

2.1 特点

（1）支持语种较多，包括英语、普通话及粤语等。

（2）合成音色众多，可提供众多发音人录制的音库，可为粤英混读和中英混读提供支持。不同音库具有不同采样率的音库安装包，主要有16kb/s、8kb/s、6kb/s及11kb/s等。

（3）语气表现能力较强。系统引入感叹、疑问及反问等语气，可自动识别当前合成的句子的感叹语气和疑问语气类型，增强了合成语音的表现力[1]。

（4）可处理数字、多种语音及英文字符串的合成，提升了数值和数字识别效果。同时，读法规则匹配度高、数值和数字朗读准确率高、发音圆润丰满以及节奏感较强。

（5）短语组词效果明显。系统依据短语合成特征，在音库中增加了众多短语语料，合成效果明显。单音发音准确率高，合成短语和句子较清晰，合成的句首单元和句末单元效果较自然。

（6）可将合成语音和背景音有机结合，使用户在具体应用中拥有更好的合成语音体验。加入MP3格式背景音乐的支持，扩大了用户对背景音乐的选择范围[2]。

（7）系统拥有批量处理预录音的工具。此工具可对预录音进行有效的批量删除、添加、格式变换、分解及合并。

（8）远程监控图形界面，管理网络资源和语音合成服务，并具备语音资源管理接口和多引擎管理接口。

2.2 优势

与人工录音相比，语音合成技术具有以下优势：

（1）系统的语音发音效果完整，且效果较统一；

（2）如果增加调度自动化系统的容量，语音报警系统功能无需任何系统的语音维护；

（3）语音报警准确率较高，避免了人为录制语音文件造成的失误；

（4）升级便捷，即升级相应系统只需升级语音合成系统的语音报警音库；

（5）语音合成较迅速，几乎无间歇和停顿。

3 语音合成报警系统具备的功能和实现方式

报警服务器端具备的功能：可依据报警类型和报警等级进行差异性设置，可取消原来的设置和报警次数的设置；可设置各种事项的报警和报警次数，确认报警事项的报警是否完成；可灵活选择发音人；可调节音调和音速；设置时间、数字及字符的读法[3]。

语音合成技术的语音报警系统可利用传输控制协议——客户-服务器的方式实现语音报警。客户端的微型计算机安装TTS软件，服务器端需在电力调度自动化系统数据采集和监控服务器上运行。两台服务器可进行服务器端的配置，实现双机备用的功能。硬件把关器为客户端提供支持，而一套软件只具备一个硬件把关器，因此只能安装在一台微型计算机上[4]。

TTS软件应用于电力调度自动化系统，如图1所示。两个语音报警进程都在SCADA系统上运行，相互配合。

图1 TTS软件应用于电力调度自动化系统

4 语音报警系统的参数和性能

4.1 语音报警系统的参数

第一，合成效率。合成效率是语音报警系统合成语音的投入与产出的比例。由于目前中英文之间合成效率差距较大，使用中英文的混合文本的合成效率作为平均效率。第二，占用内存。测试程序，以确定系统占有的字符数。第三，响应时间，即任务从执行到完成的时间。第四，CUP占用，即测试程序CUP占用时间和系统中CPU占用时间的比值。第五，实时标准，最长合成时间不大于3 s，平均合成时间不大于2 s[5]。

4.2 语音报警系统的性能

TTS软件语音合成迅速，内存约为205 MB。完成语音合成任务时，CPU占用内存为2%，平均合成时间控制在1 s内。

5 TTS在电力调度自动化系统中的应用效果

由于传统语音报警由人为操作录制，录制准确率低、效果差。广西电网电力调度控制中心更新电力调度自动化系统，利用语音合成技术开发语音报警系统。该系统运行效率较高，语音效果统一、连续，运行效果明显，且语音报警免维护[6]。

6 语音合成技术的发展趋势

6.1 提升合成语音的自然度

提升合成语音的自然度是转换高性能文语的要求。虽然已基本解决了词组和单字的自然度和理解度，但句子和整篇的自然度还存在较大问题。归纳韵律规则尤其是归纳连续语音韵律规则，用定性规则描述定量化，极大地影响合成语音的自然度。此外，处理前段文本也会影响合成语音的自然度，突破自然语言的理解，以促进语音合成技术的良好发展[7]。

6.2 丰富合成语音的表现力，降低语音合成技术的难度

目前，国内外大多依据文语转换系统进行语音合成研究，解决问题面较狭窄，不能满足不同年龄段、不同语气特征及情感的表现需求。随着社会的不断发展，人们对人机交互的要求越来越高，需丰富语音合成的表现力，增加音库个数和容量。因此，需利用参数合成法分析参数特征，调整年龄、语调及语气，使合成语音拥有更强的表现力。此外，需降低语音合成技术的难度。为促进语音合成技术的广泛应用，需降低音库容量。目前，合成语音的存储容量能满足工作站等硬件平台，但难以负担商务通、无线通信手机等设备。