一种基于语音交互应用的全时AI电视系统设计方案
2022-03-22洪文生徐遥令沈思宽艾倩
洪文生 徐遥令 沈思宽 艾倩
摘 要:提出一种基于语音交互应用的全时AI电视系统设计方案,详细阐述了系统工作原理及AI语音交互、AI待机交互、线性阵列麦克风模块和防反射收音管道设计关键技术;系统在开机和AI待机状态时均可进行AI语音交互,实现不间断全时语音交互,同时AI待机语音交互功率低,系统语音交互准确性和识别率高。该方案已应用于创维全时AI电视产品,效果良好,产生了良好效益。
关键词:语音交互;全时AI;电视
以人为中心的身体、姿态、动作、表情、语音识别技术的自然人机交互已开始应用于智能电视[1]。声音可最自然和直接地访问信息和交换信息,语音信息输入、识别和实现,可以大大降低用户的通信成本,丰富人机交互[2]。语音识别技术是通过对语音信号特征的提取,使用不同的模式对其进行匹配,最终将语音信号转化成为文本内容或者命令的技术[3]。
语音交互作为最符合人机交互的方式之一,逐步成为电视等智能硬件的“标配”,并使语音搜索成为了主流的AI(artificial intelligence,AI)技术[4]。AI语音技术在智能电视上应用,需要24 h全时段支持交互功能,不管是开机状态还是待机状态,都要能够接收和处理语音、实现交互,为人们提供高品质和便捷的交互服务。
本文提出一种基于语音交互应用的全时AI电视系统设计方案,阐述了系统工作原理及AI语音交互、AI待机交互、线性阵列麦克风模块和防反射收音管道设计工艺关键技术;系统在开机和AI待机状态时均可进行 AI语音交互、实现不间断全时语音交互,同时AI待机时的交互功率低,采用线性阵列麦克风和防反射收音管道设计实现良好的收音效果,系统语音交互的准确性和识别率高。该方案已用于创维全时AI电视产品,得到了良好应用。
1 系统原理
基于语音交互应用的全时AI电视系统由全时和分时工作模块组成,框图如图1所示。全时工作模块包括阵列麦克风、语音DSP、互联网功能、语音处理部分及电源管理模块;分时工作模块包括显示处理、视频处理、音频处理及其他电视处理模块。
全时AI电视系统有三种状态:开机、AI待机和深度待机。开机时,全时工作模块和分时工作模块处于工作状态,电视可以进行语音交互、音视频播放等;AI待机时,全时工作模块处于工作状态,而分时工作模块处于关闭状态,此时仅语音交互相关的模块处于工作状态,其他模块基本不消耗电能,在保持正常语音交互的情况下实现了低功耗;深度待机时,全时工作模块和分时工作模块都处于关闭状态,此时功耗极低,但无法进行语音交互。
全时AI电视系统的待机流程如图2所示。电视在开机状态时,可以进行AI语音交互、音视频播放等,接收遥控器、按键、语音或手机等设备发出的待机指令,如果此时系统设置为AI待机且网络连通,将先关闭分时工作模块,然后进入AI待机状态;否则依次关闭分时和全时工作模块,然后进入深度待机状态。在AI待机时,可以进行AI语音交互、响应语音指令,打开分时工作模块的部分功能,进行语音响应播报声音;可以通过语音唤醒电视或传统遥控方式快速唤醒电视,使电视系统不需要重启而迅速进入开机状态;还可设定特定条件(如长时间未进行AI语音交互时)自动切换至深度待机状态,以节省能耗。在深度待机时,不响应AI语音交互,且必须通过传统的遥控或按键开机指令使系统重启后进入开机状态。
2 关键技术
1)AI语音交互技术
AI语音交互技术原理框图由全时AI电视系统、网络、服务器系统组成,如图3所示。其中,全时AI电视系统包括声音采集、声音提取及增强、人声识别与语音检测等模块;服务器系统包括语音识别、逻辑转换等模块。
全时AI电视系统通过声音采集模块采集声音(包括环境噪声、人声、及电视喇叭声音等),进行降噪等预处理后得到声音信号,然后对声音信号进行回音消除、去混响、声音提取和增强等处理,以及进行人声识别及人声端点语音检测,获取人声语音信息,然后将语音编码、调制后通过网络传送给服务器系统;服务器系统接收语音后,进行语音识别和逻辑处理等,向全时AI电视系统反馈语音代表的语义等信息;全时AI电视系统接收到反馈信息后,进行解码处理并生成电视系统的执行指令,控制电视系统的模块工作,完成AI语音交互。
2)AI待机交互技术
由系统原理阐述可知,在AI待机时分时工作模块进入关闭状态。而在AI待机过程中,为满足良好人机交互需要、同时要兼顾低功率消耗,根据AI交互不同的指令,在交互时需要合理启动分时工作模块的部分功能进入工作状态。AI交互指令及处理功能工作状态如图4所示。
AI待机交互技术设计原理为:①当AI语音为音频指令时,需合理开启音频处理功能;如语音输入“今天天气怎么样”,电视系统收到服务器系统的反馈信息并生成及执行指令,立即开启音频播放功能进行天气播报;如语音输入“播放音乐”,电视系统收到服务器系统的反馈信息并生成及执行指令,立即开启音乐播放器和音频播放功能播放音乐。②当AI语音为视频指令时,需合理开启视频和显示处理及音频处理功能;如语音输入“播放中央一套”,电视系统收到服务器系统的反馈信息并生成及执行指令,立即开启视频播放功能和打开电视屏幕显示及开启音频播放功能,进行央視一套节目播放。③当接收到遥控或按键指令时,需合理开启显示或音频处理功能;如指令为待机,需要立即开启显示功能;如为音量加减,则仅开启音频处理的音量调节功能而不开启显示功能。在特定或设定场景下,如果未检测到AI语音交互或遥控等指令,系统可以由AI待机状态进入深度待机状态。
3)线性阵列麦克风模块及工艺
麦克风设计是影响全时AI电视系统语音交互准确性和精度的重要因素之一,系统采用线性阵列麦克风模块及防反射收音管道设计工艺。
防反射收音管道设计示意图如图6所示,由导音管、密封圈、吸音膜及麦克风组成。防反射收音管道的导音管开孔大于麦克风收音孔20%以上、保证收音范围较广;密封圈采用硅胶材质,与导音管下表面精密配合,为防止声音反射,采用吸音膜来吸收未进入麦克风收音孔的声音,吸音膜吸收音频频率范围大于人声的频率范围,即大于20 Hz~20 kHz,确保每个频段的声音都能很好衰减;防反射收音管道能够有效防止声音反射问题,同时确保收音范围广,獲取高质量音频。
3 系统应用
全时AI电视系统设计方案已经在多个电视产品中应用,涵盖43~86英寸(注:1英寸=2.54 cm),包括创维电视Q40、Q51、S81、S9A等产品系列。产品内置线性阵列麦克风,支持良好的全时AI语音交互体验,市场销售规模超过百万台。
以65英寸电视产品为例,AI待机时功率约16 W,从AI待机状态进入开机状态的时间约2 s,支持远距离语音交互:3 m内唤醒率99%、识别率95%,8 m唤醒率95%、识别率93%。
4 结束语
文章提出一种基于语音交互应用的全时AI电视系统设计方案,阐述了系统工作原理及AI语音交互、AI待机交互、线性阵列麦克风模块和防反射收音管道设计工艺关键技术;系统在开机和AI待机状态时均可进行AI语音交互,并实现不间断全时语音交互;同时AI待机时的语音交互功率低,并采用线性阵列麦克风和防反射收音管道设计实现良好的收音效果,系统语音交互的准确性和识别率高。该方案已应用于创维全时AI电视产品,效果良好,产生了良好经济社会效益。
参考文献:
[1]任飞.智能电视软件平台关键技术研究[D].成都:电子科技大学, 2013.
[2]汪文弈.智能电视语音交互系统的研究与设计[D].成都:电子科技大学,2017.
[3]王景山.基于语音交互的电视节目点播系统[D].兰州:兰州大学, 2016.
[4]章金水.AI客厅语音入口探索与实践[J].数字通信世界,2020, 44(3):24-26.
3905501908227