智能家居语音交互自动化测试系统

2022-04-14孙杰英余明松黄伟彬林永明

日用电器 2022年3期

孙杰英余明松黄伟彬林永明

（广东中创智家科学研究有限公司/威凯检测技术有限公司广州 510663）

引言

智能家居主要由两部分组成：核心的控制设备和执行命令的设备。核心的控制设备负责接受和判断人的命令，转化为数字信号，传递给执行设备。核心控制设备主要有网关和智能音箱，网关是智能家居的控制中枢，负责设备和设备之间的通信；智能音箱则是智能家居的语音控制入口，实现将语音转为数字信号。执行设备则为具体的智能家电。

语音交互作为智能家电控制入口之一，它不像某一智能家居生态的专有APP一样将固有指令转化为数字信号，而是需要通过离线/在线方式将语音识别结果识别为指令再转化为数字信号，期间，语音交互系统就可能出现误识别的问题，这就是智能家居语音交互测试的目的即发现语音交互系统存在的缺陷。

此外，传统测试方法测试效率低、浪费人力、难复现等问题，需要在语音交互测试的各阶段实现自动化，以优化人力资源，提升效率，使得测试易于复现，测试报告更具说服力及解决语音交互测试各环节的溯源问题，减少捏造数据的可能性。

1 语音交互系统概述

语音交互系统的语音识别技术处理流程包含语音输入、VAD端点检测、特征提取、声学模型、语言模型、字典与解码几个部分。这又可分为两个部分：前端信号处理，包含语音检测、特征提取、降噪、回声消除，使设备麦克风收集到的数据更好地反映语音的本质特征；后端识别即设备语音模块根据声学、语言模型解码语音信号输出文本内容的过程。

由语音交互系统的技术处理流程，可以看出语音交互测试贯穿于语音交互系统的整个处理流程。语音交互测试的数字化可以分为以下几个模块：背景噪声回放模块、语料自动播放模块、测试环境模块、测试结果分析模块。

2 设备校准

测试开始前，需要对设备进行校准操作。按照第五点测试环境模块布置DUT、声源、噪声源位置，在此基础上对扬声器、人工头、低音炮进行校准，使扬声器到DUT的声压大致处于同一水平，使人工头、低音炮声压达到一定水平；然后校准整个测试场地的声学环境。

3 背景噪声回放模块

背景噪声回放模块用于模拟智能家居设备在真实环境下的噪声。

传统上，智能家居的语音交互测试一般在真实的家居场景中进行测试，背景噪声一般采用家居环境下产生的噪声，如中央空调、电风扇、油烟机、洗衣机、电视机、人与人之间的对话等。对于诸如中央空调、电风扇、油烟机、洗衣机等产生的平稳噪声，在多次实验下，这些设备的产生的噪声基本不会发生变化，易于复现；但对于电视机播放的内容、人与人之间的对话产生的非平稳噪声，会受到诸如电视机音量、播放节目、人之间语速、对话内容、年龄、口音、性别等多方面因素的影响，使得在真实环境下的复现几乎不可能实现。

所以智能家电语音交互测试采用提前录制噪声的方式使复现变得简单。噪声的录制要求使用高质量的录音设备用于获得与真实噪声尽可能相同的信息量，减少测试的系统误差,如人工头双耳、高保真全向性麦克风及其他高质量录音设备等；噪声录制对采样频率、采样范围有一定要求，因为人的听力范围为20～20 000 Hz，有一些人耳察觉不到的噪声也会对家居智能设备产生影响，同时录制噪声对环境也有一定要求如房间的本底噪声、混响时间、温度等；噪声的播放要求使用高保真音箱，采用四扬声器阵列用于模拟噪声源的不同位置，模拟仿真环境下人的活动产生的噪声[1]，或采用其他方式使用高性能多通道声卡、高低音扬声器组合模拟真实环境。同时，背景噪声还需要进行标注，以便测试重现时获取必要的噪声信息，这需要标注噪声的声压级与语料的信噪比等。

4 语料自动播放模块

语料自动播放模块用于测试语音交互系统在安静环境下或噪声环境下的唤醒率、识别率。

传统上，采用测试人员现场发声口呼智能语音设备命令词来进行设备的识别效果测试，但该方法受测试人员主观影响较大，不确定因素过多，导致测试结果不稳定。

为保证测试结果可重现，避免人为因素引入的错误，提高测试质量，语料通常采用将包含智能家居设备指令关键字的文本通过TTS（Text to Speech）技术将文本转换为音频文件。然后借助放音设备播放该语音文件，进行语音识别，而后借助自动化测试工具检测语音交互系统获取识别结果并记录到文件[2]。

但借助TTS技术虽可减小人工录音的复杂度，但TTS技术获得的音频过于单一，不能很好地还原人说话地语速、语调，缺乏变化。

所以语料录制需要采用不同年龄、性别、口音的真人进行录制[3]，录制设备需要采用符合ITU P.57要求的人工耳或IEC 61094-4要求的麦克风设备。同时录音应该在混响时间较低的房间录制，减小混响对录音回放时的干扰，以达到较好的复现效果。

另外，现有的自动化测试方法对语音文件的播放仍需人为控制，相邻语音之间的时间间隔不灵活，如以固定间隔播放语音，可能导致时间的浪费。

因此对大批量的语音文件可借助自动化工具或脚本在收到上一条识别结果后或超出预设时间后，立即播放下一条语音文件，使两条语音之间的间隔实现最大缩减，增大一定时间内的测试数量。

5 测试环境模块

测试环境主要是用于模拟不同智能家电使用真实环境，对尺寸、本底噪声、混响时间等有一些要求。此外，设备的布局也会对测试结果产生影响。

如图1、图2以电视机为DUT，声源和噪声源相对DUT的布局会对测试结果产生影响。

图1 声源与DUT相对位置

图2 噪声源与DUT相对位置

如用扬声器阵列模拟背景噪声时，模拟环境的本底噪声会对扬声器阵列模拟的噪声混响时间造成干扰，影响模拟效果；而模拟环境的混响时间会对本就包含混响的背景噪声造成影响。

6 测试结果分析模块

测试结果分析则可以分为离线/在线情况下误唤醒（次/H)、唤醒率、识别率，或者安静/噪声环境下误唤醒（次/天）、唤醒率、识别率。

在对测试结果进行处理之前需要获取到测试的结果，这需要在前三个模块中分别对噪声播放的log、语料播报的log、DUT设备输出的log做出格式要求，以便于控制机自动化处理测试结果。对各环节log的要求如下：

噪声播放log要求：噪声文件需要与某一语料播放的起始时间一一对应，比如某语料播放时间为20 s，对应噪声文件的5：01-5：21，这样一一对应，在复现时可以减小复杂度；还需要记录此时噪声的音量大小，同样用于减少复现的复杂度；此外，整个噪声文件的长度也需要记录到log中。

语料播放log要求：需要记录当前语料播放的起始时间戳，播放时音量、速率等参数，该语料的文本信息、播放次数等。

DUT设备log：需要记录开始识别语音信号到识别完成的时间戳、识别的文本信息、对应设备执行的操作等。此外，控制设备需要与被测设备建立通信，可通过串口、网口等进行通信，现有智能家居设备大多采用Android系统，可选择使用adb通信。

测试结果的处理一般有两种方法，一种是边测试边处理，采用自动化语料播报的第一种方法，在收到上一条识别结果后或超出预设时间后，即播放下一条语音文件，这样接收到一条识别结果处理一条。但这种方法需要对文件进行大量的读写操作，可能会造成相当大的时间浪费。另一种方法是设定一定的测试时间，在测试结束后统一对log进行处理，使用脚本对数据进行处理。第一种方法可以节省人力资源，但只能简单地获得识别率、唤醒率、误识别测试等简单的数据，第二种方法需要一定的人力资源，但可以对测试结果进行深入地处理，获取详细的测试报告，用于诊断语音交互系统的问题。