语音控制计算器的设计与实现

2013-11-19严新华

商洛学院学报 2013年2期

严新华

（商洛学院现代教育技术中心，陕西商洛 726000）

计算器是计算机上常用的工具软件，在日常工作和生活中带给人们极大的方便。Windows操作系统就自带了一款计算器，除了这款计算器之外，许多开发者也开发了各种不同的计算器。这些计算器都采用键盘和鼠标输入，用鼠标点击输入效率很低，而用键盘输入很繁琐，输入数据较多时手指容易疲劳，容易输错，用户体验很差。如果能用语音控制输入，只要说出需要计算的数值和运算就能看到相应的结果，就能使用户使用起来更加方便，使用户可以轻松愉快地完成运算工作。而语音识别技术经过多年的发展已经逐渐进入实用阶段[1]，IBM、微软等公司都推出了自己的语音识别和合成引擎。本文就基于微软公司的Speech SDK 5.1研究和设计了一款语音控制的计算器，经测试输入准确率高，使用方便，能够给用户带来更加良好的使用体验。

1 Speech SDK 5.1简介

微软的Speech SDK 5.1是一套语音应用程序开发包，可以识别多种语言，包括英文、中文和日文等[2]。SDK里提供了语音识别与合成的引擎组件和应用程序层接口，还包括详细的技术资料和帮助文档[3]。它完全遵循COM标准，底层的协议都采用COM组件的形式，与应用程序层完全独立[4]。和语音相关的工作由COM组件完成，包括语音识别引擎(Speech Recognition，简称SR)和语音合成引擎(Text To Speech，简称TTS)，分别管理语音的识别与合成[5]。这使得应用程序设计人员可以忽略复杂的语音技术，直接调用相关的语音应用程序接口（SAPI）来实现语音功能，从而专注于语音应用程序的开发。SAPI 5.1的体系结构如图1所示。

图1 SAPI 5.1的体系结构

2 语音控制计算器的结构模型

语音控制的计算器通过识别用户的语音，代替键盘输入相关的数字和运算符等，然后进行计算并显示结果，其结构模型如图2所示。

系统采用麦克风将语音信号输入给计算机，声卡以一定频率进行数据采样[6]，然后进行A/D转换，将转换后的语音数据送给语音识别引擎。语音识别引擎通过中文语音包和控制命令库识别用户说的数字、运算符等于等，然后用程序加以区分，最后运算并显示结果。

图2 语音控制计算器的结构模型

3 应用Speech SDK的关键技术

语音控制计算器应用Speech SDK的语音识别引擎识别用户所说的数字和运算符等，其关键是提高输入的准确性和提供良好的交互性[7]，其中的关键技术包括语法规则的选择，语言识别的方式和识别错误的处理。

3.1 语法规则的选择

SpeechSDK包括听写语法(Dictation Grammer)和命令控制语法(Command and Control Grammer)两种语法规则。听写语法用于连续语音识别，可以识别大段的话语，但准确率不高。命令控制语法用于识别用户在语法文件里自定义的一些特定词汇和句子，准确率相当高。在语音控制计算器中，进行的是非特定人有限词汇的语音识别[8]，这正好符合命令控制语法的特点，所以采用命令控制语法，既符合语音控制计算器的特点，又能提高语音输入的准确性。

3.2 语音识别的方式

识别用户语音时通过识别运算符把用户语音分段，分别识别成数值和运算符等，对数值的识别每个字识别成一个命令，这其中正确有效的XML文件是识别的关键。在语法规则的XML文件中编写“加、减、乘、除”用来通过语音输入运算符，再在XML文件中编写“零、一、二、三、四、五、六、七、八、九”这些数字和“十、百、千、万”这些数量单位用来识别数值，比如用户语音“三百八十二”就可以识别为5个控制命令，并转换为382，“二十一万八千”就可识别为6个控制命令，并转换为218000。为了方便用户，也可读成数字串的形式，省略数量单位，比如“四五二三”可以识别为4523。还要在语法规则的XML文件中编写“等于”来实现结果的显示。除此之外，把数据清零时需要一个清零的命令，为了避免在噪声的干扰下语音识别引擎把“清零”识别成“零”，清零命令采用“清除”而不用“清零”。

3.3 识别错误处理

为了让用户能直观的看到语音输入的数值和运算，以便及时发现语音识别中的错误，此计算器不像普通计算器那样只显示当前数值，而是在系统识别出数字和运算符号等语音后在界面上显示数学运算公式[9]，并在识别出“等于”后显示等号和最后的运算结果。在语法规则的XML文件中再编写一个“回退”命令，如果用户发现识别错误，说声“回退”就可以清除刚才输入的数值或运算符。