基于国产语音专用芯片的新型识别模组设计及空调应用

2021-06-15毛跃辉文皓

家电科技 2021年3期

毛跃辉文皓

珠海格力电器股份有限公司广东珠海 519070

1 引言

随着人工智能技术的逐渐成熟，“语音识别”将会是人与机器最自然的交互方式，语音控制的空调产品化将有助于提升空调产品的竞争力，形成技术制高点，领先市场竞品。通过调研目前市场上已经在售的语音智能单品，发现目前行业普遍采用的语音识别方案是基于通用主控芯片并搭载Linux系统、Wi-Fi模块，解决方案硬件成本高并且自主可控性差，制约着未来千亿量级物联网终端的规模化应用。为了实现语音方案低成本、低功耗、数据可靠、高性能的目标，本文提出一种基于国产物联网操作系统的专用国产芯片和国产Wi-Fi芯片的轻量级语音异构AI计算平台。完全国产化的产品，将来能够支持语音模组在物联网设备中的大规模应用，此次在语音空调中成功应用，具有重大意义。

本文设计一款基于国产专用语音芯片搭载国产物联网系统的语音模组，包括模组硬件设计和软件设计[1]。硬件设计上实现语音信号采集、语音信号处理、语音识别结果控制的功能。软件设计上优化回声消除和自然语言处理过程，使得语音识别性能能够满足工程应用需求。

2 硬件选型设计

本模组主要由国产专用语音芯片、国产Wi-Fi轻量级芯片、采样电路、FLASH、接口电路等组成，使语音模组兼具配网、IoT控制、通讯、语音处理等功能，最远可支持5米的高精度识别，实现智能控制全套语音化操控。根据整体系统功能特性，考虑性能、功耗、稳定性等方面的平衡，最大程度上做到语音系统低成本、低功耗、高性能。模组硬件框图如图1所示。语音系统整体启动时间在4 s左右，工作电压12 V左右。详细参数如表1所示。

图1 模组硬件框图

表1 系统参数

2.1 语音芯片选型设计

语音专用芯片基于Cortex-A5处理器，频率最高1 GHz；其中封装32 M RAM、1个DSP模块和1个10通道的DMA控制器；芯片内置音频ADC和DAC，最多支持6路音频输入，2路音频输出。整个芯片能够支持低功耗和自适应动态电源管理架构，能够满足国产物联网操作系统[2]的运行要求和语音前端降噪及离线识别的运行要求。语音专用芯片架构框图如图2所示。

图2 语音专用芯片架构框图

2.2 Wi-Fi芯片选型设计

Wi-Fi芯片选型主要关注点：支持工作模式、PA（功率放大器）和LNA（低噪声放大器）是否内置、数据接口、天线端口个数、射频校准和产测方案、射频性能、方案稳定性等等。在充分考虑整体语音系统框架、功能、功耗、成本等要求，决定采用国产Wi-Fi SoC方案。本方案是轻量级OS系统，具有启动快、功耗低的特点，且Wi-Fi芯片最终经过相应测试，性能能够满足项目需求。芯片具体规格如表2所示。

表2 Wi-Fi芯片选型规格参数

设计时需注意要点：

（1）PCB板厚需要大于等于1 mm；

（2）为减小信号干扰，信号走线，信号线和电源线走TOP层；

（3）为减小信号反射，信号线尽量短，信号线不要穿越电源和地分割区域，保持完整的电源地参考平面；

（4）合理设计结构，保证产品内部与外界有热交换途径。单板上大功率且易产生热量器件要均匀分布，避免局部过热，影响器件可靠性和散热效率。

2.3 麦克风采样电路设计

采样电路采用差分输入电路和外围保护元器件，起到抑制共模信号、抑制尖峰电流、通交隔直的作用。采用麦克风偏置电压源，对麦克风输入提供一个电压参考。其中一路麦克风采样原理图如图3所示。

图3 麦克风采样电路

3 语音降噪和系统设计

语音识别主要作用就是把一段语音信号转换成相对应的文本信息，然后通过各控制模块间的通讯把识别到的信息进行落实。该系统主要采用国产物联网操作系统双SoC的方式，主要由前端降噪、语音识别、语义理解、控制处理、语音合成、Wi-Fi联网通讯等部分组成的远场语音识别系统[3]。用户的语音指令通过麦克风的拾音，经过云端音频转文本和语义理解的处理，最后用户的意图被转化成空调能够识别的文字、格式，通过URAT跟空调主板进行通讯，并实现用户意图的控制。通过Wi-Fi连接云端资源服务器，从云端获取在线资源，便于实现用户的非空调控制意图。语音系统框架主要如图4所示。

图4 语音系统流程框架图

3.1 前端降噪优化设计

ASR（Automatic Speech Recognition）自动语音识别系统主要由声学特征提取、语言模型、声学模型和解码器等组成。训练识别的过程是从原始波形语音数据中提取的声学特征，经过训练得到声学模型与发声词典、语言模型组成网络，对新来的语音提取特征，经过声学模型表示，通过解码得出识别结果，语音前端识别流程如图5所示。

图5 前端识别流程图

为了尽可能地提高语音系统的识别率，在语音拾音前端就需要开始进行优化设计。对麦克风拾音在设计麦克风阵列时，注意保证麦克风阵列的一致性和密封性，在拾音端优化回声消除。麦克风阵列设计需满足以下3点：1）实现声音到达麦克风的路径尽可能短、宽；2）声音路径内不要存在任何空腔；3）麦克风需要有橡胶套和固体表面隔绝，起到降低壳体震动传声以及密封性的作用。

通过前端降噪阵列的设计，配合融合深度学习的自适应远场语音降噪技术，解决前端信号因远场环境复杂，夹杂噪音、混响、自噪声等识别困难问题，实现可靠远场降噪。降噪前后音频录音曲线对比如图6所示，从图6中可知，在采用自适应远场降噪技术后，人声得到放大，噪音被抑制，最终获取纯净的识别人声。

图6 降噪前后音频对比图

3.2 语音识别优化设计

由于模组内部存储资源有限，在本地音频资源存储上做了优化。本地音频文件由先前的PCM（Pulse Code Modulation，脉冲编码调制）文件格式更改为占内存更小的ADPCM（Adaptive Differential Pulse Code Modulation，自适应差分脉冲编码调制）音频文件格式。同时通过修改音频使用逻辑代码，离线播报的回复内容，更多采用多个ADPCM文件组合的方式，从而减少文件数量，减少离线播报应用对于系统资源的占用，达到提高系统资源综合利用的效果。

其次，针对现实复杂场景下的语音识别的困难，想要有效地提高系统性能，如何获得大量的优质标注数据至关重要。本文设计基于异构神经网络的主动学习技术来选择训练数据，从海量数据中挖掘出有效的数据，降低获取高质量数据的成本，有效提高复杂环境下语音识别性能。

模型结构采用基于MMI准则[4]（最大互信息量准则）的包括Highway跨层连接的CNN+LSTM+TDNN[5]级联模型，云端采用基于LF-MMI（Lattice Free Maximum Mutual Information）准则的CNN+LSTM+TDNN级联模型，利用云端采集、海量数据模拟等方法获得超过10万小时的数据，增强复杂环境的语音覆盖度，提高建模效果。

设计中提出的主动学习系统[6]，采用多种子模型并行解码的策略，从多个不同角度学习到海量无标注数据的特性，从而使得从无标注数据中挑选出来的可用数据与人工标注数据之间存在强互补特性，且因异构神经网络中子模型与目标CLTDNN模型不同，减小挑选出来的数据与原始的标注数据之间的同质性。

另外，研发中采用基于Highway跨层连接的声学模型训练方法，可以进一步有效地从声学模型角度提高模型性能，并结合特殊的数据挑选标准，使得选择出来的数据更加贴合实际的真实场景，以此综合进行模型训练，有效提高综合语音识别的性能。

由表3可知，主动学习技术选择数据和模型训练，只需要1200小时的数据，对系统性能的提升好于用4000小时的基线系统，由此可知，本文提出的主动学习技术数据选择方法对训练模型性能非常有效，极大的改善了声学模型效果。