智能燃气灶语音识别测试方法研究
2024-01-17曾如翔陈响亮张维刚何正罡
曹 延,曾如翔,陈响亮,洪 涛*,张维刚,何正罡
(1.中国计量大学,杭州 310018;2.浙江方圆检测集团股份有限公司,杭州 310018)
语音识别技术凭借其便捷性,在智能家居领域迅速发展[1-2]。据调查,2021 年中国智能家居设备市场出货量2.5 亿台,同比增长21.1%。截至2027 年,智能家居市场规模将达到2 078.8 亿美元[3]。智能燃气灶是随智能家居发展,兴起的新型智能化产品,与传统燃气灶具相比,其独特的语音识别功能为使用人群带来诸多便利[4]。但与智能燃气灶快速发展不匹配的是其语音识别功能检验方法的缺失。
目前,智能家居领域内较完备的标准是SJ/T 11688—2017《智能电视智能化技术评价方法》。该标准由全国音频、视频及多媒体系统与设备标准化技术委员会制定,其中包含了语音交互、体感交互的测试方法,但测试对象仅限于智能电视,无法满足智能燃气灶语音识别可靠性测试要求。而应用最为广泛的标准是GB/T 36464.2—2018《信息技术 智能语音交互系统第2 部分:智能家居》。此标准规定了语音输入准则、唤醒成功率、交互成功率等计算方式和远场拾音距离,但智能燃气灶实际应用距离小于3 m,且未详细规定测试点位。基于此,本文根据智能燃气灶的实际使用情况,从测试环境、测试点位、语音口音等角度对智能燃气灶语音识别测试方法进行探究。
1 研究技术路线设计
根据智能燃气灶实际使用环境和相关测试标准,搭建测试环境和语音采集环境,并按语音识别功能的命令集,采集不同音频数据,搭建数据库。进一步连接符合精度要求的设备,选择合适的试验方法,搭建检测系统,进行试验,再对实验结果分析评价。研究技术路线如图1 所示。
图1 研究技术路线
1.1 电路设计及连接
为保证测试可靠,选取CRY605 型人工嘴,通过BNC 接口与上位机输出串口连接,接收上位机发出的语音集信号单元并正常发声,总谐波失真不大于1%;M3 型扬声器通过USB 接口与上位机输出串口连接,接收上位机发出的噪声集信号单元并正常发声,总谐波失真不大于1.5%。
1.2 测试方法研究
考虑到影响因素众多,按传统的遍历试验会造成试验次数繁多,所耗成本巨大,因而利用正交试验法挑选试验条件,安排试验计划,并通过较少次数的试验,简化试验条件,选取最优化的试验方案。
1.3 试验结果评价
根据实验结果,计算测试样机的总识别成功率。运用Minitab 软件对试验数据的进行正交分析,以此评价试验数据及结果的可靠程度。
2 试验条件设计
2.1 录制环境
为降低环境底噪对测试的影响,选取静音室作为所需噪声集及命令集的录制环境,并对所录制音频进行滤波优化处理。滤波优化模块采用二阶有源带通滤波器,以实现音频数据的滤波优化。此外,为了保证空气的吸收作用可小至忽略,要求所选静音室混响时间在2 kHz 处小于1.5 s,在4 kHz 处小于0.8 s。
按GB 3096—93《城市区域环境噪声标准》中对城市5 类环境噪声标准值的规定,结合家用智能燃气灶使用场景,控制噪声集平均声压级范围在40~50dB(A)。为保证信噪比达到标准规定的10 dB(A),控制测试命令集平均声压级范围50~60 dB(A)。上述噪声集通过人工嘴播放。
2.2 试验环境
由于智能燃气灶大多置于厨房内,通过对国内普通住宅厨房平均面积的调查,搭建模拟厨房时,控制其为面积5~8 m2的常见U 型厨房[5]。为真实还原智能燃气灶实际使用环境,考虑厨房内物品对语音信号的吸收、反射等作用对测试的影响,为模拟厨房配备了必要家居,包括洗漱台、橱柜等。
2.3 音频数据库
2.3.1 噪声数据库
依据家用智能燃气灶实际使用场景常见的噪声,收集16 种噪声,建立噪声数据库。根据实际调研,按其对测试影响的程度,最终选取正常底噪、油烟机噪声、语言噪声和水流声4 项具有代表性噪声用于测试时模拟实际噪声。
2.3.2 语音数据库
由于目前缺乏智能燃气灶语音测试标准、完善的训练音频库和评估库,无法直接调用已有的标准测试音频进行测试。因此,在对市面上智能燃气灶产品功能进行调研后,得出测试用的集内命令集。另外,针对用户常用的命令,组成测试所用集外命令集。
3 试验设计
3.1 试验设计思想
影响智能燃气灶的语音识别唤醒成功率和交互成功率的因素包括口音、距离、高度和背景噪声,每一种影响因素都有多水平层次。若按传统控制变量试验,将四大影响因素的每一水平分别组合,会得到144 种试验方案,总试验次数达到43 200 次,耗时长。因此引入正交试验,利用一套规格化的表格,选出少数几个代表性强的试验条件概括所有因素的所有水平对试验的影响情况。具体试验步骤如图2 所示。
图2 正交试验设计流程图
首先分析常规影响因素,确定各因素的不同水平,选取最接近标准正交试验表,应用拟水平法,建立因素水平表,进行正交试验,将结果记录并分析。
3.2 正交试验设计
按照智能燃气灶实际使用情况进行布局后,将声级计放置于智能燃气灶收音麦克风,距离小于5 cm,但不与收音麦克风接触,用于测量播放语音和噪声的分贝值。
因厨房平均面积为5~8 m2,考虑家用智能燃气灶实际使用场景,测试时控制智能燃气灶使用距离不超过1.5 m,语音识别测试均为近场测试[6],距离因素取50、100、150 cm 三水平。考虑我国中年男性和女性的平均身高为169.7、158 cm[7],高度因素取155、165、175 cm 三水平。
根据影响因素及其水平建立因素水平表。如表1所示,表中A 因素与B 因素只有三水平,选取最具可能性的水平作为第四水平,建立正交设计表。
表1 因素水平表
3.3 测试流程
按照上述正交设计表进行测试,具体流程如下:
1)连接噪声播放设备,对其进行调试,使其输出音频声压级满足试验要求的45±1 dB,通过位于智能燃气灶收声处的声级计示值对其进行合格性判定。
2)连接语音播放设备,对其进行调试,使其输出音频声压级满足试验要求的55±1 dB。通过位于智能燃气灶收声处的声级计示值对其进行合格性判定。
3)按正交设计表依次进行试验,每种测试条件随机播放100 条唤醒语句,视智能燃气灶3 s 内正常响应为唤醒成功。
4)记录16 种测试条件的唤醒成功率和交互成功率。
4 实验结果及分析
实验数据记录及分析表见表2—表5。
表2 智能燃气灶语音识别数据表
从极差的角度进行分析。从表2 可看出影响唤醒成功率最大的是C 因素,C2 水平下效应最低,其次是B 因素和D 因素,效应最低水平为B1、D4;影响集内语音和集外语音交互成功率最大的是D 因素,极差远大于其他三者,效应最低的水平均为D3。
从方差的角度进行分析。各因素相应自由度、均方根、F 值和p 值的计算结果见表3、表4、表5。在取置信水平α 为0.05 时,各因素p 值均大于0.05,表明无显著影响;但当α 取0.1 置信水平时,针对集内语音和集外语音的交互成功率,D 因素p 值小于0.1,表明有显著影响,即口音因素对交互成功率最大,与极差分析结果一致。
表3 唤醒成功率方差分析表 %
表4 交互成功率(集内)方差分析表
表5 交互成功率(集外)方差分析表
综上,对于智能燃气灶的语音唤醒成功率,各因素影响不显著,高度、底噪、口音影响略大于距离;而针对集内和集外语音的交互成功率,口音影响显著,且交互成功率较低。因此,智能燃气灶厂商在进行产品优化设计时,应当加强智能化设计,同一指令进行语序变化时,还能进行有效识别;在出厂检验时,要重点模拟不同高度和口音环境,进行有效的功能检测,以满足顾客需求。
5 结束语
语音识别技术在家用电器领域的应用正不断扩大,智能燃气灶作为智能厨房的重要组成部分之一,其语音识别测试方法的开发与完善将推动智能燃气灶生产企业及第三方检测机构的迅速发展。本文提供了一套具体的智能燃气灶语音测试方法,通过模拟环境的搭建、背景噪音的叠加以及测试语音库的搭建等措施,满足智能燃气灶语音测试对测试环境、背景噪音等方面的要求,并进行具体实验,为相关企业产品的设计与开发,以及第三方检测机构对智能燃气灶语音识别功能的检测提供了参考方案。