某自行装备车载语音交互系统设计
2019-09-23马海峰孙利峰翟二宁徐建锋李永锋
马海峰,孙利峰,翟二宁,徐建锋,李永锋
(1.西北机电工程研究所,陕西 咸阳 712099;2.中国人民解放军 66289部队,河北 涿州 072750)
随着人工智能技术的迅猛发展,国内外针对人机交互技术的研究日益广泛。从人机交互角度来看,改善信息输入手段、减少人工操作时间,是提高信息系统效率的重要手段[1]。现役自行装备内仅能通过视频、画面等显示方式使操作人员“看”到装备状态和外部指令等信息,对信息的处理和利用只能采用文字或图形的方式。操作人员对信息的感知方式单一,缺少“听”的感官方式,尤其在作战时,操作人员精神高度集中,特别是在观察PPI(Pixels Per Inch)画面或战斗画面中的目标时,容易忽略重要的状态或显示的指令信息,造成不期望出现的后果。开展自行装备的语音交互技术研究,对于优化装备系统人机工效,提升整个系统的运行效率,有着重要意义[2]。语音交互与其他交互技术有机结合是车载武器系统人机交互技术发展的重要方向,其应用前景非常广泛。
针对自行装备信息感知技术的研究,通过增加播报功能,将重要信息通过语音方式进行播报,解决车载装备中人机交互方式单一问题,使操作人员能“看”到信息的同时可以“听”到信息,丰富操作人员对信息的感知方式,进而提高车载装备的信息利用效率,在装备运用中具有一定的现实意义。基于上述背景及应用需求,笔者设计了一款车载通用语音交互系统,实现了语音合成播报和多通道音频管理功能。语音合成播报功能用于实时监控、采集系统总线状态、故障及警报等数据信息或接受上级指挥控制命令并通过语音合成进行语音播报;多通道音频管理功能用于多路模拟音频输入/输出信号调理并完成各通道独立音量控制、话音通道切换选择等。
1 系统设计
1.1 组成
车载语音交互系统由语音播报器、PTT(Push To Talk)发控组合、扬声器、有源麦克风组合等组成。语音播报器为核心设备,由主控板和音频处理板等构成,负责数据处理、语音合成、音频信号处理、逻辑控制、接口管理等任务;PTT发控组合为电台发控信号采集、隔离、输入装置;麦克风组合为多路麦克风音频采集、叠加、输入装置;扬声器为音频播放装置。
语音交互系统组成如图1所示。
1.2 原理设计
语音播报器通过数据接口模块获取空情、命令、状态等信息;处理器模块进行数据分析及转换,并将结果发送给语音合成模块;语音合成模块进行语音合成并输出模拟音频信号。该音频信号汇同2路电台输入音频信号以及1路有线设备输入音频信号经过独立音量调节电路后,输入模拟混音电路实现语音叠加。混合音频信号经功放电路进行功率放大之后输出给扬声器,最终通过扬声器播报信息。
麦克风组合采集的模拟音频信号经过有源放大及语音叠加之后输入音频通道管理模块,音频多通道选择电路在处理器模块通道选择逻辑控制下完成混合音频信号三选一通道输出,分别作为2路电台或1路低速有线设备音频输入信号。最终在PTT发控组合控制下,电台或有线设备发送输入的音频信号。
语音交互系统工作原理如图2所示。
2 硬件设计与计算
语音播报器为语音交互系统核心,其硬件设计采用模块化设计思想,主要包含处理器模块、语音合成模块、功率控制模块、音频通道管理模块、接口模块等。
处理器模块核心芯片选用AM4379处理器,主频高达1 GHz,集成2路CAN、2路千兆网口以及多路UART,适用于各种工业应用现场。具有功耗低,接口丰富,处理能力强等优势,可满足总体设计需求。
功率控制模块包含音量调节和功率放大两部分。音量调节通过微调音频信号输出功率来实现,功率放大电路为驱动扬声器提供足够输出功率。音量调节选用4通道专业、高端音频系统音量控制器PGA4311,具有以0.5 db为步进的-95.5~+31.5 db宽增益范围。处理器模块通过SPI(Serial Peripheral Interface)接口发送音量调节命令,4通道独立控制,且支持静音模式。功放器件选用TPA3106D1VFP高效D类BTL音频功率放大器,最大输出功率40 W,4种固定增益可通过2引脚进行设置,且具有过热、短路自恢复保护功能。该功率放大电路设计简洁,转换效率高达92%,无散热装置,体积小[3]。
语音叠加选用双运算放大器RC4580-Q1,具有低噪音、高增益带宽、低谐波失真、高输出电流特性,适合于音频处理应用。4路音频输入信号经过1∶1反相加法运算,再由跟随电路输出,提高驱动能力[4]。
2.1 滤波器设计
为了改善音频信号质量,提高语音辨识度,在语音叠加输出端设计了8阶30 kHz低通贝塞尔滤波器[5],2阶低通贝塞尔滤波器如图3所示,将2阶滤波器进行简单的串联便构成了8阶低通贝塞尔滤波器。
贝塞尔滤波器通频带内提供平坦的幅度和线性相位响应,音频信号失真小,但它的选择性比同阶的巴特沃斯或切比雪夫滤波器差,所以设计了高阶滤波器,从而必须严格选择放大器和元器件来达到最低的噪声和失真度。
设计选用低噪声高精度CMOS双运算放大器AD8656,1%公差的电阻器和5%公差的陶瓷电容器。在整个电路中使用低于1 kΩ的电阻器,可以降低热噪声影响。每个AD8656放大器在30 kHz带宽内带来的噪声低于3 nV/Hz,并且在30 kHz带宽范围内总噪声低于3.5 mVrms.对于1 Vrms输入信号,电路产生的信噪比优于109 dB,并且对于1 kHz、1 Vrms输入信号,电路产生的THD+N(总谐波失真+噪声)因子优于0.006‰.
2.2 语音合成模块设计
语音合成模块选用XFS5152CE芯片,该芯片是高集成度的国产语音合成芯片,支持任意中文、英文文本的合成。采用GB2312、GBK、BIG5 和 UNICODE 4种编码方式,每次合成的文本量最多可达 4K 字节。芯片对文本进行分析,对常见的数字、号码、时间、日期、度量衡符号等格式的文本,该芯片能够根据内置的文本匹配规则进行正确的识别和处理;对一般多音字也可以依据其语境正确判断读法;另外针对同时有中文和英文的文本,可实现中英文混读。
处理器模块通过异步串口(UART)发送控制命令,可对XFS5152CE芯片进行相应的控制,当XFS5152CE收到语音合成命令时,直接合成指令中包含的文本数据并播报输出。XFS5152CE芯片外围电路主要包括复位电路、时钟电路,以及异步串口波特率、电源等配置电路。语音合成模块电路框图如图4所示。
3 软件设计
语音播报器软件采用层次结构化设计方法。定制的BSP程序完成Linux操作系统与硬件平台的无缝联结;API程序封装应用程序的I/O操作、DMA操作、中断例程及OS调用[6]。
根据系统功能要求,应用软件包含6个功能模块:CAN总线接收和解析模块;串口数据接收和解析模块;以太网数据接收和解析模块;语音合成处理模块;音量控制模块;通道选择逻辑模块。工作流程如图5所示。
上位机控制界面的开发基于VxWorks 系统风河多媒体库(WindML)和图形开发工具Tilcon.作为一套微内核、高可靠性、可裁剪的嵌入式实时操作系统,VxWorks具有友好的用户开发环境、高性能内核及良好的持续发展能力,可靠性高、实时性强;Tilcon是先进的多平台嵌入式实时操作系统图形开发环境,其IDS集成开发环境,能够在嵌入式实时操作系统下设计出运行效率好、图形质量高的人机图形用户界面GUI[7].
语音播报器控制界面采用弹出式菜单设计,通过软按键控制其弹出或隐藏。界面包括通道选择和音量调节两个控制区,通道选择包含“电台1”、“电台2”及“有线”3个单选框,对应3路音频输出通道选择控制;音量控制按照全通道或各通道独立调节方式设计,拖动按钮完成相应通道音量调节任务。语音播报器控制界面如图6所示。
4 实装验证
4.1 试验系统搭建
在某自行装备上,将车载语音交互系统接入CAN/ETH系统总线,通过串口与综合管理系统相连,电台1、电台2及有线话音设备通过音频口接入语音播报器。试验系统架构如图7所示。
该语音交互系统通过监听CAN/ETH系统总线数据,读取装备状态、故障、警报等信息,进而语音合成并播报;装备综合管理系统将情报、控制、位置和命令信息采用TXT文本的方式通过串口发送至语音交互系统,语音交互系统进行语音合成并播报;通过综合管理系统远程操控语音播报系统,包括音量调节、音频通道选择以及播报器状态查询等。
4.2 验证结果
试验过程中,模拟实际应用场景,分别在CAN/ETH总线输入各种状态、故障、警报等数据信息;综合管理系统模拟发送各种情报、指令及控制命令。测试语音交互系统语音播报功能清单如表1所示。
表1 语音播报功能清单
注:预置播报指令为1条/min,每条不超过15个汉字。
通过综合管理系统部署语音播报器控制软件,分别对通道选择及音量调节控制进行了100次反复测试,全部操作成功。
验证结果表明该语音交互系统能够通过系统总线及数据接口获取信息,从而进行语音合成并播报;能够实现远程音频通道选择及音量调节控制;麦克风及发控组合可以通过电台或有线设备对外通话,功能正常。通过该语音交互系统实装使用,有效降低了重要作战指令、状态提示以及故障警报等信息错漏的可能;且可以替代传统车内通话系统,操作简单、便捷。
5 结束语
为提升某自行装备人机交互效率,完善操作人员信息获取方式,笔者设计了一款车载语音交互系统,首次实现自行装备数字信息的语音播报服务;同时支持终端控制功能,可以实现远程音频通道选择及音量调节。实践证明该语音交互系统结合传统人机交互模式,完善了车载装备人机交互功能,提高了操作人员对整个装备系统状态的掌控能力和信息的利用效率,对于人机功效的提升具有积极意义。该语音交互系统已在某自行装备成功应用,提升了整个武器系统的作战效率。