APP下载

语音识别技术在智能家居领域应用

2021-11-22梁海珍

电子技术与软件工程 2021年4期
关键词:音箱语音人工智能

梁海珍

(广州市高级技工学校 广东省广州市 510800)

1 人机语音识别技术研究背景

众所周知,最近这几年刚刚发展起来的人机沟通、指纹识别、人脸识别等技术,很大程度上促进了机器对人类的行为方式以及人类语言的理解。而人机交互技术给人们带来的生活方式的改变、生活质量的提升,使计算机技术和互联网技术逐渐被越来越多的人所接纳。自从人们发明键盘、鼠标以后,各种高科技技术例如:小爱同学、Siri、人脸识别、指纹识别技术等应运而生,使得人机交互的形式发生了极大的变化,真正使得计算机科学和互联网技术进入千家万户、让我们的生活变得更加多姿多彩。

2 人机语音识别技术的应用现状

2.1 智能机器人

生活中我们常见的人机交互产品可以在感受、思维和反应等方面全方位无死角的模拟人类的身体语言,尽管他还达不到人类的那种精确的水平,可是它能够完全行自我控制,因此从某种程度上来说它可以被称为真正意义上的机器人,它的控制系统的中枢就是中央处理器,以及各种类型的传感器,其中语音识别技术在整个技术链条中占据了重要地位。在当今社会的发展背景下,机器人在我们的生产生活中应用已经非常广泛了,无论是在农业、工业、手工业、医学等各个领域都应用广泛,并在此基础上形成了独立的专业学科。目前机器人行业已经成为了现代高科技发展的一个热门行业,它的发展水平很大程度代表了一个国家的工业竞争力的大小,逐步与我们的生活接轨,进入千家万户。

2.2 能音箱-天猫精灵

在智能机器人之后,逐步映入大众眼帘并且进入千家万户的智能交互产品就是智能音箱了,同那些传统的播放音箱相比,智能音箱的功能令人眼花缭乱,这些功能之所以能够实现,其中首要的原因就是互联网技术的发展,以及后续各种人工智能技术的快速发展,智能音箱与智能机器人也有很多相似之处,其中最主要的就是它们都应用到了人机交互中的语音识别技术,所以当我们对它发出指令时,他会很好理解我们的指令并且很好执行,智能音箱之所以成为智能音箱,是因为当我们对它发出指令它会理解指令并输送给控制中心,控制中心控制它进行以下几种行为:

(1)在线音乐播放功能:这是音箱的核心功能。例如:线上播放音乐,线上收听新闻联播与知晓股票最近状况等。

(2)语音沟通功能:例如:线上会谈、智能手机短信的发送与接收、学前教育、陪伴老人等。

(3)管理个人生活的功能:例如:设闹铃、查找有用信息等。

(4)智能控制各种家电的功能:即通过智能音箱来控制各种家居用品。

(5)其它线上服务功能:利用智能音箱结合各种手机应用程序进行更多语音服务,例如:语音购物功能,手机充话费功能,甚至可以语音叫外卖、滴滴打车等。

3 语音识别技术中存在的问题

3.1 成本问题

大规模的智能产品的生产有助于科研成果向市场转化,带动经济发展和推动提升人民生活水平。尽管我国目前的人工智能识别在技术方面已经比较成熟,但是其产品的成本普遍较高,而且产品自身的功能价值与价格、成本不相匹配,如此一来就限制了人工智能识别技术的应用。比如以智能家电为例,现在不少智能家电都运用了语音识别系统,方便用户通过语音指令对家电进行控制,可是价格和传统家电相比普遍偏高,导致其难以成为家电市场的主流消费,尤其是在这个智能手机占据主流市场的时代,各种智能家电市场的萧条也就可以理解。

3.2 可靠性问题

目前人工智能识别技术的可靠性有待提高。尽管目前一些产品造型独特、功能创新,但是在具体使用过程中的体验感和实用性却不好,难以满足用户的真正需求,以人脸识别系统为例,即便这项技术在当今时代的应用已经相当广泛,但是对人脸位置、光线等条件的要求依然比较高,而且识别过程往往比较麻烦,甚至常常出现无法识别的情况,一些功能强大的人脸识别系统,体积比较大,价格比较高,也难以实现普及,限制了人工智能识别技术的进一步发展。

(1)语音识别在环境比较嘈杂的情况下,识别效率很低,语音助手很难分辨和翻译出来相应的语音;

(2)在公共场所进行语音识别的时候,涉及到的个人隐私问题很可能会暴露;

(3)语音指示的识别程度受很多方面因素的影响,在识别水平和正确率上不如直接打字或触控操作快捷;

(4)语音识别的局限性主要在语音来源的广泛性,据不完全统计,全世界总共有1000 多种语言,而经常使用的语言就有数十种之多,语言识别技术对各种语言的适应是需要长期发展的。类似于中文中的四川方言、广东方言、上海方言,这几种方言的使用频率特别高,这些当地的语言在语言发音如词汇和字符的发音上都与以往所接触的语言有所不同,让语音识别系统尽快适应各种地方的语言是迫在眉睫的问题。

(5)连续说话识别、停顿识别。生活中,由于一些人养成了某些习惯,导致会反复说出某个词汇。面对这些问题,就要加强端点检测技术中端点选取准确度,摒弃语音中的空隙,让这些磕磕绊绊的话变成一段连续的话。我们在处理这些语音信号时,可以对一些反反复复出现的语言进行恰当的删减,提升语音识别的速度。

4 语音识别技术应用-智能音箱

4.1 智能音箱的前世今生

最近这几年,几乎家家户户都有一个智能音箱,这使得国内和国外掀起了一股智能音箱的使用潮流。与普通的传统音箱相比,智能音箱的功能比较全面,不但可以播放音乐、连接蓝牙,还可以与我们进行语音交流、播放视频等等。2015年京东推出国内第一款智能音箱“叮咚”,这是我国最早也是应用最广泛的智能音箱,从那以后,智能音箱产品如同雨后春笋般发展起来。据不完全统计,在2017年12月底,全国从事智能音箱生产的厂家就有上千家,仅仅在深圳这一个城市中,就有112 家智能音箱的供应商。2017年,阿里巴巴的达摩院推出了第一款智能音箱产品-天猫精灵,他通过在自己的电商频道进行销售和展示,在双11 当天就卖出了100 万台左右。从那以后,智能音箱的销售市场几乎都被阿里巴巴的天猫精灵所垄断,而小米公司同样不甘落后,迅速推出“小爱同学”,并且不断对小爱同学进行升级改造和更新换代,所以国内智能音箱市场的三足鼎立局面初步形成。

4.2 智能音箱中的交互原理概述

人发出指令—音箱对声音处理识别—传输服务器作出相应回应—传回到其功能载体—得出结果—产品开始运行。语音交互技术在当今时代潮流的大背景下发展,智能音箱的诞生给人们的生活带来了极大的便利,使得人与冰冷的机器建立了联系,更加重要的一点就是智能音箱产品的各种功能也将物体和物体之间也联系了起来。智能二字主要体现在两个方面,第一个方面就是可以连接无线网,然后与人类进行语音交互、沟通;第二个方面就是可以随心所欲的播放音乐、互联网技术的应用以及我们日常生活中的控制能力,对我们的家居方式进行语音控制,智能音箱的灵魂就是人机语音交互技术,这也是其中最关键的一项技术,所以说各种智能产品基本上都可以利用语音作为媒介来控制其产品。

4.3 智能音箱中的关键技术

当我们说了一段话之后,智能音箱首先要收到这种信号。其中,麦克风列阵技术就应运而生了,我们常见的音箱中大概有7 到8 个麦克风,这就使得智能音箱可以从任意方向接收语音信息中的语音信号,以及来消除各种噪音所带来的影响。在这之后就需要对我们所收到的语音信号进行处理,使得机器可以理解接收的信号,这里就用到了自然语言处理技术和语音识别技术。然后智能音箱需要对所接受和处理的结果再一次进行合成语音信号,语音合成技术也就应运而生了。在这三项关键技术当中,最关键的就是语音识别技术,这里所运用到的语音识别技术特别复杂,综合了多门学科,如果我们想要搞懂语音识别技术的话,就需要认真理解语音识别技术的各个步骤,这里主要从三个步骤来介绍。

4.3.1 预处理技术

当说话人发出语音信息时,周围环境中的杂音影响会非常大。因此,第一步任务就是需要把这些干扰音频去掉,据我所知语音信号的频率会在某个范围内波动,这样的话我们可以采用抗混叠滤波的方法使语音信号频域分析上的静音区段和杂音区段与携带有效信息的语音信号区段进行区别,模拟信号与此同时可以向数字信号进行转变。另外,因为一段语音信号中的有用信号的功率很小,无用信号的功率很大,因此无用信号占了输入的很大比例。因此,我们需要对目标语音信号来进行预加重处理,目的是提高目标信号的能量值,根本上就是提高振幅方便与杂音区分开来。端点检测是其中的重要步骤,当我们发出一段语音信息时,其中必不可少会掺杂一些噪音,而真正有用的语音信号却只存在一小段区间当中。进行端点检测的目的就是为了确定语音信号的最初位置,避免其他干扰信号的混合进来,短时平均幅度与短时平均过零率是两种端点检测的常用算法。

4.3.2 特征提取技术

当我们拿到一段语音信号之后进行的下一个步骤就是特征提取,这项技术的灵魂是把所接收到的语音信号分成多个区段,然后把具有实际意义的特征参数提取出来,之后再进行统计。那么提取出来的这段有用的信号就可以代表你所发出的那段语音信息的信息量之和。因为舍去了不必要的区段,所以说特征提取技术往往也会被很多人称为数据压缩,这也简化了之后的计算量,特征提取的基础是隐马可夫模型,在隐马而可夫模型中,含有不可见的未知参数,特征提取技术中,这些未知参数就是指语音信号中所含有的语义信息,所以说特征提取技术是语音识别技术中的重要环节。

4.3.3 训练及识别技术

目前我们所接触到的智能音箱产品中,语音识别的精确度还是比较高的,这是建立在大量训练的条件下完成的。在实验室阶段,语音识别网络会经历大量的训练,这种训练就类似于对计算机的训练,只有反反复复不断进行训练,然后再进行数据统计,才会得到正确的结果,这样做可以使计算机不需要真正深入理解自然语言也可以实现人与机器之间的交流互动。深度学习是这种训练中必不可少的部分,它是人工智能的发展的重中之重,深度学习的特点就是,运算次数多,处理信息的次数多,在深度学习当中,任意一层所得到的结果将会作为下一层的输入来使用,这样循环下去就达到了深度的效果。但是在实际应用当中,深度学习的层数还要加以控制,如果层数太少的话那么深度学习的效果就会变差。层数过多也会导致计算繁琐,效率低下。深度学习在语音识别网络中,主要是学习语音信号的特征,之后再与互联网中的数据进行比对,最后再得出计算结果。

5 总结

通过以上分析我们可以清晰的了解到,人工智能语音识别技术作为一种刚刚崛起不久的高科技技术,虽然它出现的时间不太长,但是在20 世纪50年代左右关于计算机理解人类思维和意识的想法就已经被提出了,但是因为当时技术水平的发展相对落后,导致其研究并不顺利。一直到20 世纪中后期,计算机中各种应用技术才趋于成熟,人工智能识别技术的研究才取得了较大进步,并逐渐渗透于人们的生活与工作。为了更好的满足现代社会实际生产与工作的需要,最初是在语音识别领域运用人工智能识别技术,主要是借助智能化的语音识别来方便人们的工作与生活,比如智能手机中的语音助手。在智能识别技术后续的发展中,其应用的范围和领域不断扩大,比如在指纹识别、声音识别、人脸识别以及条形码识别、智能卡识别等方面,其发展日趋成熟,给人们的生活带来了更多的便利。

猜你喜欢

音箱语音人工智能
KEF推出新一代LS50 Wireless Ⅱ音箱
Polk(普乐之声)推出高端Reserve系列音箱
魔力语音
小音箱,大精彩 B&W 805 D3尊贵版书架音箱
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
多一对音箱,多一份惊喜Marantz AV8805
2019:人工智能
对方正在输入……
人工智能与就业