基于环形麦克风阵列的远场语音识别系统
2017-04-22支艳利张云伟
支艳利, 张云伟
(昆明理工大学 信息工程与自动化学院,昆明 650504)
基于环形麦克风阵列的远场语音识别系统
支艳利, 张云伟
(昆明理工大学 信息工程与自动化学院,昆明 650504)
语音在远场识别中,随着语音传播距离的加大,语音本身的衰减,混响、背景噪音、人声干扰和回声加大等技术难题,会引起的识别距离近、识别率低等问题。针对这些问题,提出了一种基于环形麦克风阵列的远场语音识别系统。该设计采用SinoVoice公司环形布局的pansy板作为语音前端处理的核心,结合其相应的离线语音识别引擎以及单片机,运用于服务机器人的语音动作控制系统中。经在噪声环境下的非特定的不同距离、不同角度、消回声的语音识别测试,结果表明在噪声环境下,该系统对远距离命令也有较高的识别率,并且可以消除回声,适用于服务机器人的应用环境,也适合其他有噪环境下远场语音识别系统的应用。
远场语音识别; 环形麦克风阵列; 语音控制
0 引言
随着语音识别技术的快速发展,语音识别系统已经成为目前最热门和最具发展前景的新型技术之一[1-2],并且已经广泛应用于机器人、智能终端设备上。2015年百度世界[3]会议指出,语言是人类传递信息的主要手段,具有很大改变人与设备交互的潜力,目前语音识别已经达到95%的准确度,但是大段的语音需要距离近,发音清晰才能有较高的识别率,所以如何让语音交互更自然是现阶段研究的主要方向。
在语音识别过程中,机器人、智能终端设备大多使用单麦克风,或者主副麦克风的录音识别方式,但是受到环境噪音的影响,造成语音识别率较低,拾音距离短等问题,很大程度限制了智能语音交互的应用与发展。并且当语音传播距离加大时,因语音本身的衰减,混响、背景噪音、人声干扰和回声等多重复杂因素,造成必须要近距离对讲而且识别率低的问题。在对话过程中,为了使机器人不识别自己的声音,语音交互方式是一问一答,使语音交互体验不如人意不能满足市场的需求。语音识别运算量较大,目前应用语音识别技术的各种智能移动终端与应用多采样“云”端语音识别技术服务。而现实生活工作中,网络并非能覆盖所有环境,同时很多用户也担心流量的增加导致使用费用的增长,因此完全依赖“云”端语音识别技术给用户造成了很大的不便。综上可知,虽然语音技术水平已经出现边际效应,但语音场景却没有出现爆发增长。目前使用场景的局限被认为是人机语音市场发展的最大阻碍[4]。
本文以SinoVoice公司环形布局的pansy板作为语音识别前端处理的核心,结合其离线语音识别引擎来解决在多重复杂环境下的远场语音识别问题,并且利用其消回声技术,来实现人与设备的自然交互。
1 环形麦克风技术
麦克风阵列是由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。
在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。
1.1 技术原理
灵云麦克风阵列pansy板由一个50 mm*50 mm的主板和4个硅麦克风板组成,如图1所示。
图1 麦克风环形布局示意图
有两种布局方式,一种是线性布局,另一种是环形布局。本文根据服务机器人的外形特点,以及应用场合,采用其环形布局的Pansy板。此环形麦克风阵列全面整合了声源定位(DOA)、波束形成(BF)、语音增强(SE)、回声消除(AEC)等实用化语音信号技术。在语音识别前端,通过环形麦克风阵列准确进行声源定位,并利用麦克风阵列的空域滤波特性,在目标说话人方向形成拾音波束,抑制噪声和反射声,增强声音信号。在嘈杂环境下可以准确识别3到5米的远距离语音,识别率达95%,满足了智能终端设备在复杂声源环境下的语音交互需求,摆脱了为准确识别远处命令而使用的遥控器或者手机上的APP,使语音控制更流畅、自然。全力推动了智能语音交互在家居、车载、机器人等领域进入实用化阶段。
Pansy板具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,因而成为智能语音处理系统中在远场距离时捕捉说话人语音的重要手段。并且麦克风阵列通过消回声算法,把设备播放的声音给过滤掉,使机器人或终端设备在播放声音时,同时可以识别用户的语音指令。
远场语音识别技术的核心有两点,一是语音前端处理:利用麦克风阵列、回声消除等技术将目标说话人的声音增强,并抑制或消除周围无用的声音(噪声+回声);二是语音识别引擎针对麦克风阵列处理后的数据进行专门优化,以使远场识别效果达到最优。
1.2 技术特点
(1)360度全方位拾音,快速准确定位声源。4个麦克风分布在一个水平的环形圆的4周,环形的最小半径是5 cm。在拾音角度方面,该阵列可实现环形360°环形拾音,精准度控制在±10°以内,准确捕获说话人位置,进行敏锐的声源定位。根据终端产品的外观形态,将麦克风安装在其环形的表面;比如机器人比较矮小,且可以找到比较好的环形面,例如头部位置,如图1所示。
(2)利用针对pansy板优化的语音识别引擎,提高了远场语音识别的准确率。经过麦克风阵列处理后的语音,让离线语音识别引擎获取的语音更为清晰纯净,并且结合针对麦克风阵列处理后的数据进行专门优化的语音识别引擎,以使远场识别的准确率进一步提高。
2 硬件电路设计
2.1 总体结构设计
整个系统的硬件电路主要包括语音处理和语音识别两个模块。语音处理模块主要为环形pansy板,语音识别为SinoVoice公司提供的离线语音识别引擎和结合使用的单片机STC10L08XE。系统的实现方框图,如图2所示。
图2 系统总体结构框架图
2.2 语音处理部分
语音处理采用SinoVoice公司的环形布局pansy板。此环形麦克风阵列产品采用4麦克风环形布局的方式,对4路麦克风的录音进行语音算法处理,可以实现3到5米远距离语音交互;产品自带唤醒功能,可以使用自带唤醒词或者定制特殊的唤醒词,采用录音训练方式,提高唤醒识别率;可以定位到说话人的位置,使机器人能够转向说话人,如果设备不可移动,麦克风阵列也可以在说话人方向形成拾音波束,增强说话人的声音,对周围背景音和混响进行抑制;灵云麦克风阵列通过消回声算法,把设备播放的声音给过滤掉,能在播放声音时,同时识别用户说的话,实现语音打断功能。
为了使客户的产品更加快速的和麦克风阵列产品进行对接,pansy板既没有开发板那么大的尺寸,也不像核心板那样,需要客户自己设计外围电路,客户可以使用pansy板做样机测试,也可以用来量产。
2.3 语音识别模块
离线语音识别引擎使用灵云离线式词表识别技术,该技术采用了最新算法、引擎设计,识别率已提高到97%以上。同时,相对于其他语音识别引擎,在实时率、加载时间和资源占用率等技术性能均有很大的优势,能够很好满足目前各种移动终端的应用需求。离线语音识别技术主要应用于各种移动终端,保证用户在无网络环境下依然可以应用语音识别技术,应用语音流畅地与各种数字设备进行沟通交流。
离线式语音识别技术,有效地帮助用户摆脱应用语音识别对“云”端的完全依赖,满足用户在没有网络的环境下,仍然能够方便使用语音识别技术能力。该技术通过在智能移动终端中加载离线语音识别引擎、离线语音包,对语音进行本地化声学模型、语言模型的处理,从而使各种智能移动设备实现本地化应用和语音识别技术的需求。离线式语音识别引擎,具有识别率高、识别速度快、低运算资源占用、低内存消耗的特性,能够满足更多终端设备的使用,保证用户更好的在无网络状态下应用语音识别技术的体验与感受,如图3所示。
图3 语音识别原理框架图
离线识别引擎与STC10L08XE单片机采用并行方式相接,通过单片机先将关键词列表存储在识别引擎的离线语音包中。语音识别的过程也是语音识别模块完成的工作的过程:把通过语音识别模块识别的文字内容和列表中的关键词语进行匹配,找出得分最高的关键词语作为识别结果输给单片机,单片机播放对应的提示音。
3 性能测试与应用
本文所设计的远场语音识别系统主要用在语音控制服务机器人,在应用中主要关注的是识别率和实时性。为了检测远场识别效果以及消回声功能,在实验室60 dB噪音环境下,选取了不同音色的人站在距离麦克风不同距离且不同角度分别进行测试,每个测试进行50遍。实验1数据表明,经过环形麦克风处理过后的语音识别率可达95%,并且当在机器播报的时候,机器并没有拾取机器播报的声音。实验2,验证了和机器不同角度时,经麦克风声源定位且语音处理后的识别能力,试验2数据表明,pansy板可以准确进行声音定位。
试验1:在实验室60 dB的噪音环境下,测试人保持和机器角度固定,当和机器距离增大时,使用pansy板与不使用pansy板的识别率分别如图4和图5所示。两种方法下对多个语音命令处理后的波形如图6、图7所示。
试验2:在实验室60dB的噪音环境下,测试人1站在距离机器人5米处,测试与机器人0度、30度、60度、90度时,正确识别率,如表1所示。
4 总结
在多重复杂环境下的远场语音识别是使用场景被局限的一个重要原因,也是使人机语音市场发展的最大阻碍。其
图4 在60 dB、经降噪处理后,不同距离的正确识别率
图5 在60 dB、没经降噪处理后,不同距离的正确识别率
图6 经麦克风降噪语音处理后输出的语音波形
图7 无降噪语音处理后输出的语音波形 表1 在固定某因素下,不同角度的正确识别数据表
0度30度60度90度前进98.7%95.6%97.3%99.2%点头96.5%97.0%98.2%98.5%抬起左手97.7%98.9%95.3%97.1%放下左手99.3%96.6%96.4%99.6%
原因主要是受限于背景噪音、其他声音干扰、回声、混响等多重复杂因素,进而导致的识别距离近、识别率低等明显痛点,在这些问题没有解决之前,智能语音交互将一直是一个短板。本文设计运用SinoVoice公司的环形布局pansy芯片作为语音识别前端处理的核心,运用其离线语音识别引擎和单片机完成了语音控制系统的语音识别模块的软硬件设计。试验结果表明,基于环形麦克风阵列降噪技术的远场语音识别系统,对于远场语音命令的识别率可达95%。并且结合其消回声技术,使人机交互更流畅。本系统小型化,随着智能产品的普及,该系统将极大推进语音识别技术在真实生活场景中的应用。
[1] 刘幺和,宋庭新.语音识别与控制应用技术[M].北京:科学出版社,2008:3-40.
[2] 赵力.语音信号处理[M].2版.北京:机械工业出版社,2009:1-26.
[3] 百度世界大会:语音识别国内外现状.[2016年9月1日].http://baiduworld.baidu.com/
[4] 刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833.
[5] 潘丽杰,徐本亮,朱琪,王利峰,繆惠根.基于双麦克风降噪技术的语音识别系统[J].现代电子技术,2016,39(2):137-139.
[6] 郭海智,杨大全,郭亮.基于云计算和语音识别的控制系统[J].电脑与电信,2016(1):84-86.
[7] 于俊婷,刘伍颖,易绵竹,李雪,李娜.国内语音识别研究综述[J].计算机光盘软件与应用,2014(10):76-78.
Far-field Speech Recognition System Based on Circular Microphone-array
Zhi Yanli, Zhang Yunwei
(Kumming University of Sinence and Technology,Faculty of Information Engineering and Automation, Kunming 650504, China)
In the far-field speech recognition process,with the increase of distance of speech transmission,it arises the problems, such as voice attenuation,reverberation,background noise,human interference and echo increase,etc.These problems make the speech recognition distance and rate low.According to these problems, this paper presents a solution, which is a far-field speech recognition system based on circular microphone-array.The design adopts SinoVoice company loop layout pansy speech front-end processing as the core, combined with the corresponding off-line speech recognition engine and single chip microcomputer. The design is used in the control system of service robot of speech movements. Under non-specific consideration of the noise environment with different distance and different angles, fire echo speech recognition tests are carried out. The results showed that under noise environment, the system for remote command also has a higher recognition rate and can echo cancellation, can be used in the application environment of service robots, is also suitable for other environmental noise in the far field of speech recognition system application.
Far-field speech recognition; Circular microphone-array; Speech control
支艳利(1989-),女,河南省安阳市,昆明理工大学,硕士研究生,研究方向:智能信息系统。 张云伟(1972-),男,云南省昆明市,教授、博士。
1007-757X(2017)04-0062-03
TN912
A
2016.10.11)