智能耳机自然用户接口技术重点专利分析
2018-06-05黄懈刘文静
黄懈 刘文静
摘 要:文章基于CPRSABS和DWPI专利数据库,对智能耳机自然用户接口技术的重点专利进行了分析和整理,有助于该领域技术人员全面了解智能耳机自然用户接口技术的基本发展态势,对涉及智能耳机自然用户接口领域的研发工作有较大帮助。
关键词:自然用户接口;语音;动作;脑电波;核心专利
中图分类号:G306 文献标志码:A 文章编号:2095-2945(2018)13-0035-03
Abstract: Based on the patent database of CPRSABS and DWPI, this paper analyzes and arranges the key patents of the natural user interface technology for intelligent headphones, which is helpful for the technicians in this field to fully understand the basic development trend of the natural user interface technology for intelligent headphones. It is of great help to the research and development of the natural user interface for intelligent headphones.
Keywords: natural user interface; voice; action; brainwave; core patent
1 概述
自然用户接口是指用户不需要借用专用设备,也无需经过学习或者经过一些简单的学习,由机器根据用户的语音、动作、姿态、脑电波等判断指令,并执行相应操作,具有多维度、多感官、智能化的特点。本文将智能耳机自然用户接口技术按照技术手段划分为语音识别、动作识别、脑电波控制三个分支,并对这三个分支的技术发展脉络做相应梳理,同时撷取各分支的重点专利进行分析。
2 语音识别
2.1 技术发展脉络
2000年之前涉及语音识别技术的专利申请量很少,相关专利主要集中在通讯通话中,如对人类语音的简单判定及相关的理论分析等;2000-2013年间,语音识别技术得到了极大的发展,专利申请量较多且呈现较明显的增长势头,此时语音识别技术得到人们越来越多的重视。
图1列出了语音识别技术演进路线。可以看出,语音识别技术最早的重点专利申请是美国通用魔术公司于1999年所提交的授权公告号为US6408272B1的申请,其涉及一种分布式语音用户界面,包含能够接收用户语音输入的本地设备,其对用户输入语音做初步处理以确定自身是否能对用户命令进行应答,如果不能则将语音输入信号发送给远程系统做进一步处理,该专利给出了早期语音识别技术的一个雏形;此后,各家公司开始积极研发语音识别技术,技术研发点逐渐覆盖语音识别技术中的语音输入/输出、语音数据处理、语音软件产品、语音分析系统以及语音控制等,如美国电话电报公司提出的公开号为US8392188B1的发明专利申请,其主要涉及独立语音识别系统中音位配列模型的建立方法,通过使用电流音位结构模型识别来自用户的输入通信的手机,从所识别的电话中检测词素(声学和/或非声学),并输出所检测出的词素以进行处理,进一步的,该方法还更新所检测的词素的音位结构模型和下一个用户交互期间存在用于由系统中使用的数据库的新模型。微软公司提出的公开号为EP1199712的发明专利主要涉及语音识别中的噪声处理,通过对输入的语音信号进行降噪处理,可以更准确的识别出语音关键信息,提升了语音识别的准确性。
通过对语音识别技术领域重点专利的申请人分析可以发现,该领域的重点专利主要被美国公司所拥有,我国语音识别领域的相关专利质量参差不齐,部分专利内容比较简单,涉及的技术点比较单一,保护范围较小,与发达国家相比,在技术上仍然存在着明显的差距,要真正形成国产智能耳机的核心竞争能力,还要走很长的路。
2.2 与语音识别相关的重点专利
苹果公司于2013年3月提出了一件授权公告号为US9363596B2,发明名称为“使用加速计检测用户的语音活动的系统和方法”的专利,其给出了智能耳机语音识别技术发展的新思路。
图2示出了本发明耳机的主要结构,由图可以看出,耳机包含一对耳塞和耳机线,用户可以将耳塞中的一个或两者佩戴在耳朵上,耳机中的麦克风接收用户的语音信号。这些麦克风可以是空气接口声音拾取装置,其将声音信号转换为电信号,当用户采用耳机传输其语音时,环境噪音也可能被传送。耳塞包含扬声器,用于检测运动的加速计以及面对骨膜方向的前部麦克风和背对骨膜方向的后部麦克风,同时,在与耳塞连接的耳机线上具有多个麦克风,其形成一个或多个麦克风阵列,耳机线上的麦克风阵列可以用来形成麦克风阵列波束,通过增强或减弱选取的麦克风以获得一个给定方向的波束。通过加入传感器和麦克风进行语音智能识别,以及耳机中内置的多个传感器,包括两个加速传感器和麦克风,这些传感器将与位于耳机线上的降噪麦克风配合,形成抑制噪音的系统,从而在更大程度上提升耳机的降噪功能。而传感器作为语音活动检测器,专门检测由用户所产生的振动,不论是用户声带产生的“既浊音”,还是不使用声带产生的“清音”,传感器都可以通过组织和骨骼中的振动检测到。而通过加速计检测到的振动数据,将会整合到前置和后置麥克风中,而从麦克风中输出的信号,将用来识别“既浊音”和“清音”。
3 动作识别
3.1 技术发展脉络
借助视觉或运动感知设备,用户本身可以充当遥控耳机的角色,通过不同的动作,向耳机发出不同的指令。在这种人机交互模式下,用户不需要使用额外的设备来达到控制目的,通过动作的合理设计,使得用户对耳机的动作控制完全符合用户的习惯,形成一种符合人类直觉的自然的交互系统。
图3示出了动作识别技术演进路线。由图可以看出,动作识别技术最早的重点专利申请是由美国人米勒·史蒂芬于2000年所提交的授权公告号为US7109970B1的个人申请,其涉及一种使用声音和手势远程控制计算机和其他电器的设备,其给出了早期动作识别技术的一个雏形;此后,韩国的三星电子株式会社于2006年所提交的公开号为KR20060121784的申请给出了基于手势的用户接口方法和装置。然而,这个阶段有关动作识别的精度并不高,在肢体动作上停留在静态手势识别,且相应的硬件处理速度还远远达不到要求,加上市场对于智能耳机动作识别的互动技术需求不高,导致该领域技术的发展在比较长的一段时间内都处于实验性阶段。2007年,美国的缤特力公司提出了发明名称为“光学耳机用户接口”,授权公开号为US7631811B1的专利申请,该耳机在用户佩戴的外部具有一个指垫,耳机还包括一个光学扫描仪用来扫描指垫并输出一系列手指放置在指垫上的连续图片,耳机处理器处理光学扫描仪的输出并检测手指在指垫上的相对运动,通过识别出的手指的运动以执行相应的功能;加拿大的行动研究有限公司于2010年提出了授权公开号为US8405528B2,发明名称为基于手势的智能耳机专利申请,其也是涉及智能耳机中的用手势控制媒体播放器的技术。我们可以看到,这一阶段动作识别技术的研究得到了不断的重视,随着耳机功能的不断丰富和发展,许多发明人开始寻求新的耳机互动技术。到2013年,美国微软公司提出了具有姿势控制的耳机(公开号为TW201511578A),其通过点头或头的倾斜,而不是明显的身体互动实现对耳机的控制,通过头部简单动作的控制,可以促进装置的隐秘使用以及使用者的隐私;丹麥的奥迪康有限公司提出了用于听力装置的体戴式控制设备(公开号EP2731356B1),其依靠识别出的预定手势控制听力装置;台湾的纬创资通股份有限公司提出了用于穿戴式电子装置的控制方法(公开号TW201537390A),该方法包含侦测手势动作,并据以产生侦测结果,以及依据该侦测结果控制穿戴式电子装置执行预定功能及产生提示讯号。我们可以看到,经过前期的技术积累和市场选择机制,智能耳机中动作识别技术的一些基本功能已经实现,当前阶段出现了大量改进型的专利申请,技术功效集中在用户体验和可靠性方面。
通过对动作识别技术领域重点专利的申请人分析可以发现,该领域的重点专利仍然主要被美国公司所拥有,我国动作识别领域的相关专利仍然存在质量参差不齐,专利内容比较简单,涉及的技术点比较单一,保护范围较小的问题。
3.2 与动作识别技术相关的重点专利
奥迪康有限公司于2012年提出了一件公开号为EP2731356B1,发明名称为“用于听力装置的体戴式控制设备”的申请,包括壳体并适于依靠识别出预定手势而控制听力的装置,壳体包括安排成与佩戴者的身体区域电容性耦合的参比电极及包括第一传感器电极,控制设备还包括:适于在第一传感器电极和参比电极之间提供第一电试探信号的第一信号发生器;适于根据第一传感器电极和参比电极之间的阻抗确定第一信号值的第一测量电路;适于根据第一信号值识别出手势的检测器;及适于根据识别出的手势向听力装置提供控制命令的控制单元,其中第一信号发生器适于在多个信号频率下提供电试探信号;第一测量电路适于在多个信号频率下确定第一信号值;及检测器适于根据在不同信号频率下确定的第一信号值之间的比率的变化识别出手势。
相比采用传统的电容性接触传感器对动作进行识别,该专利所采用的动作识别手段有效的减小了耳机的体积,同时,其有效避免了由于来自环境温度和湿度的不可控影响造成用户界面控制不可靠的弊端。
4 脑电波控制
4.1 技术发展脉络
相对于语音识别和动作识别技术的较早发展,智能耳机中的脑电波控制技术起步相对较晚,一方面这是由于人的大脑过于复杂,人类对于它的研究还比较初级,另一方面,脑波测量的困难也成为阻碍技术进一步发展的重要原因。然而,脑电波控制技术作为最自然的人机交互方式,近几年来,其已成为智能耳机自然用户接口技术中的研究热点。
图4示出了脑电波控制技术演进路线。由图可以看出,脑电波控制技术最早的重点专利申请是2002年法国电信公司提出的公开为GB2396421A的申请,其涉及一种测量头部信号和面部肌肉运动的头戴设备,通过电极对头部信号采集以实现对终端的控制。该申请给出了利用脑电波控制终端的技术方案,但这一阶段脑电波对终端的控制效果并不可靠;其后,智能耳机脑电波控制技术逐渐发展,相继出现了通过情感和思维控制的计算机(公开号US2010173271A1),具有生物传感器的音频耳机(公开号US8271075B2),基于NFC的脑电波β波信号感应蓝牙耳机(W02016192455A1),用于探测和控制脑电波信号的传感器(公开号US2012197092A1)等。然而,目前涉及的脑电波控制技术专利还停留在一些简单控制上,由于人脑的复杂和脑波采集的困难,要实现真正的智能耳机意念控制还有很长的路要走。
4.2 与脑电波控制技术相关的重点专利
纽罗斯凯公司于2007年提出了一件公开号为US2008177197A,发明名称为“根据脑电波信号处理系统评估精神状态的方法和装置”的申请,其是一种无噪音的便携式的脑电情绪识别系统,由硬件和软件组成,能够高质量的估计脑状态,脑状态的高质量信号能够被采集用于各种领域的脑机接口,包括消费产品、视频游戏、玩具、军事和航天领域。该专利属于脑机接口领域的基础专利,其后纽罗斯凯公司自身开发的一款意念控制耳机就采用了这项专利技术,美国最大的玩具公司美泰公司的Mindflex及后续产品也均基于这项专利技术得以实现。
5 结束语
本文通过研究智能耳机自然用户接口技术的重点专利,对所属领域技术人员的研发工作提供了一定的指导。
参考文献:
[1]房廷舜,胡涛,刘有成.基于STM32的智能耳机控制系统设计[J]. 机械工程师,2017(02):87-88.