智能家居语音控制系统发展展望
2019-05-23买永锋王艳敏
英 钊, 买永锋, 王艳敏
(哈尔滨工业大学,哈尔滨150001)
0 引言
自21世纪以来,随着物联网技术、网络技术、信息技术等的高速发展,智能化设备也逐渐飞入寻常百姓家。更加智能化的、人性化的设备给予了每个人更加舒适、便捷的生活体验。智能设备成本的降低,使智能化设备逐渐走入人们日常生产生活的方方面面。
传统的智能化控制方式往往是基于PC端的操作界面进行的合理控制,且需要较复杂的布线与连接。这不仅对智能化设备的安装和使用有较高要求,且不利于智能化家居设备的广泛应用。相较于传统的控制方式,由语音控制的智能系统也对家居设备的生产及使用产生了巨大变革。一方面对比于长时间的了解控制面板,语音控制不仅更加方便快捷,能够适应更多人群得到更加广泛的应用;另一方面,语音作为一种最自然的人机接口,有比触控或手势更加便捷的免持操作特性。因此,语音控制让物联网逐渐成为智能家居不可或缺的一部分,基于物联网的智能家居渐渐成为家居市场的主流。
以Apple智能手机为代表的siri率先提出了语音控制的概念,而随后智能语音控制技术蓬勃快速发展,Amazon Echo智能音箱设备成为除手机之外,让语音助理作用于控制智能家居设备的第一批装置。而以Google、Microsoft等为代表的互联网巨头也相继跟进,探索语音控制技术在智能化家居设备的应用。2018年家电展中可见,一般的智能家居产品(例如电灯、电视、音乐播放器等设备)基本都能通过语音控制实现其功能。通过联网工作,其自身甚至还可以通过Alexa、Google或Siri被控制。当然,语音控制技术发展过程中,难以避免会遇到瓶颈。当前的技术进展多处于应用阶层,很多产品达不到高智能水平,且在强噪声干扰和远场识别方面存在不小的挑战。
1 智能家居语音控制系统
智能语音控制系统主要包含四个部分,即用户终端、消息处理服务端、中控主机、智能家居设备。用户终端首先收入用户语音信息,再由互联网渠道将收集到的语音信息传递至消息处理服务端,服务端对于收集到的语音信息进行识别,通过语义分析得到相应的控制指令传回至中控主机,中控主机将识别的命令发送至目标设备,从而实现智能家居设备的控制。智能家居语音控制系统基本组成见图1。
图1 智能家居语音控制系统基本组成
1.1 用户终端
其功能主要为接收用户语音消息,并将语音消息进行初步处理通过网络转发给消息处理服务端。用户终端可以是智能手机、笔记本电脑、智能可穿戴设备(如智能手表、智能手环)等各类用户终端。用户终端对网络环境的限制较少,只要能够连接到互联网即可。
1.2 消息处理服务端
其功能主要为接收用户终端的语音消息,并且对语音消息进行解析处理,通过智能算法将其转化为智能家居设备控制的具体指令,再通过网络将智能家居设备控制指令发送给中控主机,例如Linux系统云服务器等。消息处理服务端主要组成为均衡模块、安全模块、语音识别模块、语义分析模块、家居服务模块5个模块。
(1)负载均衡模块:将接收到的语音消息分配给相应的服务器。
(2)安全模块:对接收到的消息进行身份验证与解密,确保信息的安全性。
(3)语音识别模块:将语音消息进行语音识别后转换为文字消息。
(4)语义分析模块:对语音识别模块得到的文字消息进行语义分析,从而生成智能家居控制指令。
(5)家居服务模块:主要用来接收来自中控主机系统的注册,并将智能家居控制指令转发给中控主机。
其中,语音识别模块是整个控制系统的核心部分,语音识别的一般步骤为:语音输入——获取设备所得到的音频信息;音频信号特征提取——在得到音频信号之后,对音频信号进行基本的预处理,然后对预处理之后的音频信号进行特征提取,例如MFCC是最常用的声学特征;声学模型处理——把语音的声学特征分类对应到音素或字词的小单元;语言模型处理——利用语言模型将字词解码成一个完整的句子,从而得到了最终的语音识别结果。
1.3 中控主机
其功能为向消息处理服务端发送中控主机信息,并保持与消息处理服务端的网络连接,接收消息处理服务端发送的智能家居设备控制指令。且依据目标智能家居设备支持的控制协议,将识别的语音指令转化为目标智能家居设备具体的控制指令,并通过网络发送目标智能家居设备控制指令给目标智能家居设备。中控主机一般处在家庭局域网内,可以通过路由器等设备接入互联网。
1.4 智能家居设备
其自身按照接收的目标智能家居设备控制指令,执行相对应的指令操作。如空调、洗衣机、冰箱、热水器、电饭煲、灯、窗帘以及门;甚至也可以是各种传感器用来获取相应的状态信息,比如利用温度传感器获取室内温度。智能家居设备要求能够与中控主机进行通信,对通信协议的选取没有严格限制,它可以是 RF射频技术、ZigBee,Z-Wave等。但是控制目标智能家居设备的控制指令需要与中控主机相互兼容。
2 智能家居控制系统关键技术
2.1 通信方式
通信方式是指智能家居与用户终端之间进行消息命令传输的方式,不同的方式适用于不同的工作场景。通信方式主要分为以下4种。
(1)直接联机
智能家居与用户终端的相关模块直接进行匹配连接。优点在于无外部依赖,不需其他设备及安装成本;缺点是受限于物理媒介,无法进行远距离直联,通常情况下只可一对一联接,难以实现多台设备互通。
(2)局域网内部连接
智能家居与用户终端双双接入局域网,在其内部进行交流通信。缺点是同样受限于物理媒介,但相比直接连机方式能够实现多台智能家居互通控制。
(3)互联网连接
互联网连接的优点是突破了上述通信方式对空间的束缚;缺点在于难以为所有连入互联网的家居设备分配能够访问的网址。
(4)互联网注册转发
该方式要求建立一个带有可访问固定网址的注册转发服务器,智能家居与用户终端分别通过互联网与该服务器进行通信,服务器再将信息传递给另一边。优点显然是解决了无法相互寻址的难题,并不再受限于物理媒介。缺点在于网络抖动影响传输效率。
2.2 通信协议
智能家居通信协议并没有统一标准。总体看来可分为两大类:一是有线通信,二是无线通信。国外的智能家居企业巨头大都选择有线通信技术,而中国作为后起之秀更偏向于无线通信技术。有线通信可靠性好、传输速率高,功能稳定是它最大的优点;无线通信灵活度高、扩展性强,符合当代的绿色环保理念。同一行业,同一需求,选择的差异无非是侧重点不同。
(1)有线通信协议
1)C-BUS作为基于7层OSI模型的有线通信协议,通过总线与控制单位进行连接,使用灵活。广泛用于照明、安防、监测等智能化控制系统。
2)KNX是被正式批准的住宅和楼宇控制领域的开放式国际标准,由EIB协议为基础进一步发展而来。可通过电力线、双绞线等材质通信,广泛用于家具控制以及商用楼宇,支持安防、空调等系统。
3)X10是在国际上一种通用的智能家居电力载波协议,也是世界上第一个用电力线作为控制信号的通信协议。其优点在于价格低廉、设置方式简易,但由于共用一条线路导致稳定性问题。
4)CRES-Net是快思聪的通信协议。得益于该厂商的技术积累,其产品应用广泛,允许设备进行双向通信且配线结构多样。
(2)无线控制协议
1)Bluetooth(蓝牙)是在10~100m空间内搭建网络连接使电子设备进行短距离数据传输的无线通信技术。优点是功耗低、传输速度快、安全性高等;但数据传输大小受限、可以一次连接的蓝牙设备少且连接有单一性。适用于功耗敏感的设备。
2)RF射频技术用于点对点通信,穿墙效果强,可靠性差,其电磁波的通信频率在3kHz~30GHz,可用于一些简单的控制设备上。
3)Z-Wave是一种新兴的基于射频的、低功耗、低成本、高可靠、适于短距离的无线传输协议。可广泛用于安检系统、照明系统、家庭影院等领域。
4)WiFi是一个创建于IEEE 802.11标准的无线局域网协议。其优势为传输速度快、传输范围广、普及应用度高。几乎所有手机、笔记本电脑、平板电脑等电子设备均将WiFi列入主流标准配置。
5)ZigBee是基于IEEE802.15.4标准的高可靠度、低功耗的无线传输协议。主要特点是功耗低,两节五号电池的可供其使用六个月至两年。另外ZigBee还有低成本、安全性高、工作频段灵活等优点。
2.3 相关技术
(1)语音识别控制技术
语音识别技术(ASR)通过对输入语音信号的音频信号特征值提取,再进行声学模型及语言模型等处理,使得机器设备识别出语音的内容、语种等信息。当前语音控制功能的实现分两种:一种是近场语音识别,另一种是远场语音识别。
(2)播放状态打断技术
当对处在工作中的智能音箱等设备实现语音控制时,麦克风与扬声器间的距离要远小于麦克风与用户间的距离,此时应采取内外兼顾的措施。采用特殊回声消除算法在设备内部减少噪声带来的影响;采用麦克风阵列结构在设备外部以降低设备本体的震动对声音失去的干扰。
(3)近场和远场语音拾取技术
近场语音拾取可借助手机等终端设备直接进行语音控制;远场语音拾取将麦克风阵列拾取的语音数据信号通过识别算法转化成可识别的文字,相比原理相同的近场语音拾取技术,语音信号会在传播过程中发生衰减或受到干扰。因此对于不同场景的远场语音拾取技术,需要配置优化语音识别引擎。
(4)唤醒目标检测技术
为了实现远距离语音控制,采用麦克风阵列波速成算法确定是否有指令发出。原理是将空间划分为若干区域,当检测到某一区域有唤醒词出现,就增强该区域的麦克风拾音能力,另外抑制其他区域麦克风的拾音能力,以针对特定角度、方向的声音进行拾取,从而进一步实现语音控制。
3 智能家居语音控制的发展应用
目前智能家居备受关注,其产品呈现“喷井式”发展。根据《中国智能家居设备行业市场前瞻与投资报告》数据阐述,起步较晚的智能家居行业的市场规模在2020年预计达到3 576亿元新高,到2025年全世界将有10%的智能家居用户。智能家居的核心是人性化,语音交互作为人类沟通最自然的方式,更能满足人们对家居人性化的需求。据预测,2019年超过30%的智能家居会通过机器对话的方式进行控制。
智能家居与智能语音的结合是未来市场的大趋势。市场行业普遍确信,作为最便捷、自然的人类交互方式,语音交互正在不断向智能家居领域渗透,必将在未来智能家居市场中占据重要地位。
北美市场被认为在2016年已达到成熟化,因为那时Alexa已经卖了1 000万台,北美家庭已经养成了使用习惯。反观国内的智能家居语音控制市场刚刚起步,主要原因是前些年我国发展语音控制市场的萌芽较晚,但目前各个企业厂家都开始尝试向这个方向去探索。语音交互场景的实现需要满足三个条件:即硬件成本要低(如WIFI模块或声音处理芯片)、内容资源和服务丰富、语音识别和语义理解成熟。我国市场面临的问题是硬件成本不够低,需要加强对未来芯片和板卡的改进;对于语音语义的容错率还不够完备,语义理解要比语音识别更有挑战性,相信把人工智能(AI技术)带入到语音控制技术中可以有效解决;还有一点,国内的内容生态链不够完善,近几年企业的资源版权意识都在加强,但资源过于集中在几家巨头手中,如何让他们加强对智能家居产业的支持力度,降低内容成本,是一个巨大的挑战。
近年来,各大厂商开始致力于发展智能家居,大批优秀智能家居品牌崛起,推动市场进入爆发期,促进人工智能、物联网等技术的迭代更替,从而使得智能家居的控制形式升级。智能家居语音控制系统因为各项研究技术的发展变得越发成熟有效,例如语音识别技术(ASR)引擎可以理解多种语言口音,语音生物辨识技术可用于辨识登陆的用户以提供智能家居环境的不同权限,极大改变了我们未来的家居生活品质。目前市场关于语音控制的智能家居设备种类繁多,如可语音换台上网的智能电视、语音调节温湿度的智能空调,以及智能微波炉、扫地机器人等。
回顾展望智能家居控制方式。初期,业界普遍认为由手动控制向终端控制是家居智能化的基础条件,智能手机则被看作最合适的智能终端,但对于某些设备反而会使用户受手机智能控制所累,用户开始渴求更简捷、更智能的控制手段;当前正在逐渐成熟的语音交互控制方式,满足了用户解放双手的需求,随着智能音箱Echo的问世,各个科技巨头开始投身智能家居市场布局,从终端到语音控制是人类向人工智能迈进的重要一步;感应式控制是理想化智能家居的下一阶段,产品可以通过感应用户状态从而对自己进行调整,免去人工操作,从语音到感应式控制是未来智能的进化之路;自动化控制将代表极高的智能化程度,产品可以对用户身体活动以及环境等记录,自主学习用户使用习惯,自我调整和进化,这种变被动为主动的控制方式将是智能家居进化的里程碑。
从终端控制到自动化控制、从被动控制到主动控制,智能家居行业正在飞速发展。在技术尚未突破的现在,以语音控制为主的智能家居可谓是当前市场所能提供的最自然的人类交流家居设备,但其模式还不够成熟,语音识别、设备兼容等方面有待提高,另外智能家居市场的标准应更加完备。相信智能家居语音控制未来可期。
4 结束语
随着智能化设备成本的降低和更大范围的普及,智能家居系统发展具有良好的发展前景与较为广阔的市场。而智能语音控制得益于自身难以取代的自然性、快捷性,已经获得了世界范围内的重视和快速发展。尽管智能语音控制技术发展要得到普遍的应用还有诸多瓶颈,但随着计算机等相关技术的快速发展,这些问题必将得到解决。而以我国为代表的智能家居市场还有待深层次的挖掘,智能家居的语音控制系统必将迎来较大发展。