面向指控系统的嵌入式语音交互技术设计与实现

2016-01-08杨加平

机械与电子 2015年4期

关键词：语音识别指控

杨加平

(江苏自动化研究所计算机事业部，江苏连云港 222006)

Design and Realization of Speech Interaction Technology Face to Command and Control System

YANG Jiaping

(Computer Division，Jiangsu Automation Research Institute，Lianyungang 222006，China)

摘要：针对海军指控系统的信息输入延迟问题，提出一种新的语音交互解决方案。以DSP芯片为核心的交互系统，并针对具体的应用环境，给出了系统的初步设计思路和具体步骤，对现实中的一些实际问题有一定的指导意义。

关键词：语音识别；指控；DSP

中图分类号：TN912

文献标识码：A

文章编号：1001-2257(2015)04-0072-03

收稿日期：2014-11-17

作者简介：杨加平(1988-)，男，江苏盐城人，工程师，主要从事加固计算机研制工作。

Abstract：A new kind of solution is given for speech interaction for command & control system of navy that interaction system is centered on DSP chip and in allusion to the specific use of the environment，the preliminary design ideas and the specific steps of the system are given，that solution can guide to resolve some real problem in reality.

Key words：speech recognition；command & control；DSP

0引言

对于海军用指控系统，反应时间是指从雷达发现录取目标开始到系统给出满足精度的目标指示为止的时间间隔(不包括必要的人工操作时间)，此指标至关重要。实际中，此反应时间越小，则留给本舰的生存机会越大。要缩短舰载指控系统的反应时间就必须尽可能压缩信息处理的时间。从人机交互角度来看，改善信息输入手段，尽量减少人工操作时间，是减少信息处理时间的重要手段。

1语音交互系统实现的可行性

随着计算机技术日新月异的发展，最近15年中语音识别技术的研究有了实质性的突破，许多成功的语音识别系统相继问世。例如，Cardin等研制的基于TIDIGIT数据库的非特定人连续数字语音识别系统，误识率仅为0.5%；而Das等研制的20 000单词的特定人孤立词语音识别系统，误识率仅为1%。据统计，现有的语音识别系统以每年2n的速度降低误识率。目前，这些系统部分或全部地克服了特定说话人、孤立词、小词汇量和有限语法这4个约束，达到了很高的识别率。更重要的是，这些系统中的绝大部分已经走出实验室成为商品。其中，最具代表性的当属IBM公司研制的ViaVoice，它属于大词汇量连续语音识别系统，其误识率，在一定的环境下可以低于5%。

本文所设计的语音识别系统，基于特定人、孤立词、小词汇量和有限语法的语音识别技术，该技术已经非常成熟，系统完全能够实现。

2语音交互系统的功能组成

语音技术包括语音识别技术和语音合成技术。本交互装置主要实现语音识别功能和语音播放功能，可大致分为4部分，如图1所示。

图1　语音交互系统功能原理

2.1语音特征提取

语音特征提取，是从语音波形中提取随时间变化的语音特征序列。Mel 频标倒谱参数(MFCC) 特征是目前使用最广泛的语音特征之一，具有计算简单、区分能力好等突出的优点，因而常常成为许多实际识别系统的首选。在经典MFCC特征提取算法中，输入语音首先通过傅里叶变换得到其频谱，然后再在频域上应用一组Mel频率上均匀分布的滤波器，来得到类似人耳听觉特性的非线性频谱分辨率。

2.2声学模型与模式匹配(识别算法)

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型通常由获取的语音特征通过训练产生，目的是为每个发音建立发音模板。在识别时将未知的语音特征同声学模型(模式)进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率，以及灵活性有较大影响。目前，中大词汇量的非特定人连续语音识别系统，一般采用HMM模型，计算比较复杂；对于便携式移动设备(如手机、掌上电脑等)而言，多是基于使用孤立词识别系统，综合考虑算法的易实现性和响应的速度，一般采用动态时间规整(DTW)识别算法。动态时间规整采用了动态规划的思想，能够实现最佳意义上的待测语音与模板之间的时间对准，这就解决了要比较的2个语音持续时间不同的问题。

2.3语义理解

计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。一般上层软件做出相应操作，执行相应命令。

2.4语音播放

计算机运行各种应用程序，如果此程序和语音交互装置存有接口，则程序将自动调用交互装置中的语音播放模块，实时把信息播放给用户。

3硬件结构和软件流程设计

识别系统采用嵌入式系统。嵌入式是将语言识别软件及模型，写在设备的存储器里，识别过程在终端完成。

3.1硬件结构设计

一个完备的语音交互系统，不但要具备语音信号的采集和播放功能，而且更重要的是要能完成复杂的语音信号分析和处理算法。通常这些算法运算量大，且又要满足实时或准实时的快速高效处理要求，因此，采用高速DSP芯片。以TMS320C6200为信号处理核心设计了该系统，其硬件配置如图2所示。TMS320C6200是美国Texas Instrument公司的16位定点DSP产品，它包括改进的哈佛(Harvard)结构、高性能CPU、片内存储器、在片外围接口以及一套高效的汇编指令集，性价比好。语音采样和输出采用TLC320AD50芯片，该芯片是TI公司生产的16位语音编码/解码芯片，采用sigma-delta技术提供高精度低速信号变换，有2个串行同步变换通道和前后处理的滤波器。片外程序存储器、数据存储器均选用Flash芯片。

图2　硬件结构

系统中DSP控制AD/DA部件完成语音数据的采集和回放，并根据下载软件完成相应的信号分析，是系统的关键部件。使用时，DSP程序下载到C6200的内部程序区。采样前，C6200通过内部定时器Timer来设置AD/DA部件的采样频率。单个样点采样完成后，AD/DA部件产生C6200硬件中断INT1，C6200响应中断INT1，将来自AD的采样数据写入FIFO，主机通过读FIFO获得采样数据；语音回放前，C6200按照回放频率设置内部定时器Timer，使之产生中断INT1；回放时，主机将数据写入FIFO，C6200定时响应中断INT1，从FIFO读取数据并将它送到DA输出；信号处理任务在C6200内部完成，单次处理的输入输出数据在片外存储器与DSP部件之间交换。

3.2软件设计

整个工作流程主要由主机控制流程和DSP中断处理流程构成。软件流程如图3所示，其中，INT1用于语音信号的采样和回放；INT2用于主机向DSP传送程序运行参数、DSP向主机传送数据；INT3用于从片外程序存储器下载程序，对于不同的分析处理有不同的DSP程序。

图3　软件流程

4语音交互装置抗干扰设计

影响语音识别的因素很多，主要包括背景噪声、传输通道变化、心理紧张及工作压力和情绪变化所发生的发音变异。这些因素共同构成了影响识别系统顽健性的诸要素。

4.1背景噪音

早在1911 年，Lombard 就发现了说话者在背景噪声下会努力调整自己的发音方式，以提高说话的清晰度，即使发相同的语音，其语音的特征参数MCFF也会与安静环境下的发音有所不同，像声音变高，语速变慢，音调及共振峰变化等，这就是后来被研究者称作的Lombard 效应现象。Lombard 效应影响的大小依赖于背景噪声的强弱和类型。舰载设备环境复杂，背景噪音多，舰船上主要有海浪声、风声、马达声、人的走动声、飞机起飞降落盘旋声和枪炮声等；潜艇上主要有水流声、马达声、人的走动声和武器发射时的巨大噪音等。在实际应用中，通过分析可以得知，背景噪声的特征参数MFCC的低阶特征变化比较明显，而高阶特征几乎保持不变。因此，可以通过对低阶特征加较小的权值，高阶特征加较大的权值，使背景噪声的MCFF特征尽量保持平稳，来减小背景噪声对正常语音的影响，从而减少语音的变异，使得变异语音的特征和正常语音特征接近。

4.2传输通道的变化

为保证传输通道的电气性能，减小噪声信号的引入，采用滤波、放大等设计手段，将传输通道造成的衰减影响减到最小。

4.3情绪影响

情绪影响语音信号的特性，东南大学在这方面进行了研究，提出了一些情感语音信号识别的方法。本文不再详述。

5结束语

对语音识别技术在舰载指控系统中的应用，进行了设计。提出了以AD/DA芯片采样输出语音信号，以高速DSP芯片为核心的控制系统对语音信号进行处理的设计方法，并给出了软件流程。对交互装置中的抗干扰情况进行了简要描述，具有较强的工程实用性。

参考文献：

[1]董士海，王衡.人机交互.北京：北京大学出版社，2004.

[2]黄凤岗，宋克欧.模式识别.哈尔滨:哈尔滨工程大学出版社，1998.

[3]赵训威.基于TMS320C6200系列DSP芯片的应用与开发.北京：人民邮电出版社，2002.

投稿邮箱更改启事

各位作者：本刊投稿电子邮箱现为jxydz@vip.sina.com。由于网站域名更改，原投稿电子邮箱jxydzb@public.gz.cn停止使用。特此声明。感谢各位作者和读者一直以来对本刊的大力支持。