人工智能在声控设备中的应用分析
2019-08-15苗文
苗文
摘 要:人工智能技术已经得到了人们的重视,且在众多领域开始承担重要角色。本文结合对声控设备的理解,研究并分析了人工智能语音处理技术和智能声控的原理,并就家庭的声控应用展开一定的设想,为进一步建设智能家庭提供新的思路。
关键词:人工智能;声控;智能语音处理;信息处理系统
中圖分类号:TP18 文献标识码:A 文章编号:1671-2064(2019)12-0032-02
0 引言
在科学技术飞速发展的今天,人工智能被越来越多的人所熟知。“人工智能”一词已经成为热门词汇,越来越多的科学家致力于研究人工智能,希望通过人工智能这一技术来提高我们生活和工作的效率。什么才是人工智能?它是通过用计算机来模拟人的思维想法和行为,从而帮助人们完成一系列事情的智能技术。人们最熟悉的应该是深度学习,它也是人工智能的一个分支。其原理应用最有名的就是AlphaGo,该智能机器战胜了李世石围棋大师。它能够通过根据当前下棋的情况,计算黑白棋的胜率;能够不断的进行自我学习等。新版本AlphaGoZero能够自我对弈,并且在对棋的过程中能够发现新的下棋策略。从另一方面来说,这也是一种突破,人们可以从围棋机器身上在学习到新的游戏策略。
说起声控,首先能够想到的就是Siri。即使是在手机屏幕关闭的情况下,你也能唤醒它。然后对它说出你想要做什么,例如,问它明天天气如何,它就会立马给你搜索你所在城市的天气并将天气情况读出来;或者你想定一个明天早上的闹钟,你只需要告诉它什么时间即可。语音助手的使用能够极大程度上提高我们生活的效率,并且能够释放我们的双手。不过,语音助手也并不是万能的,并不像人工智能机器一样可以自我学习和训练,它只是基于现有的一些数据库上进行操作,如果你问的事情超出数据库中的内容,语音助手将无法回答或完成。本文将通过分析人工智能技术和智能语音处理技术等,来深度了解人工智能在声控设备中的原理和应用。
1 人工智能语音处理
1.1 人工智能技术概况
人工智能技术从1956年开始提出发展到至今,也是有了质的飞跃。人工智能最主要的意义也是能够让机器去替人类完成更复杂的事情。目前,在人们日常的生活中随处可见的人工智能运用,它给我们的生活带来了非常多的便捷和效率。比方说,无人机、智能机器人(扫地机器人等)、语音识别、图片视频识别等,这些用到了人工智能技术。就现在科学技术发展的情况来看,人工智能的发展是必然的结果。众所周知,我们处在一个大数据的环境下,如果仅仅将数据收集和管理,这将失去大数据的意义了。如何使我们的生活变得智能,这也需要用到人工智能技术,将收集到的数据进行深度分析,挖掘这些数据之间潜在的内容,这样才能体现这些数据的真实价值。
人工智能运用的比较多的是在智能手机上,刚刚也提到苹果手机的智能语音助手Siri,这就是一个很好的例子。目前,人工智能也运用到了医疗方面,智能手臂、人体植入芯片等。在人工智能给我们带来益处的同时,也有人会质疑人工智能的安全性,是否有一天智能机器人会不受人类控制。但是有人不这么认为,有学者认为目前的人工智能还处于弱人工智能,并没有达到强或超人工智能水平。弱人工智能阶段还无法做到让机器人拥有自己的各种情绪。而超人工智能则是能够让机器人有自己的情绪和思考能力,能够让机器人做出和人一样的举动。虽然人工智能在不断地发展和完善,但是从弱向强人工智能发展还有很长一段路要走,就目前的科学技术还很难突破。
1.2 智能语音处理技术
针对智能语音技术的定义有很多,其包含的种类也是非常多的。本文主要通过分析语音识别技术基本原理来解读智能语音处理技术[1]。
智能语音识别是指用机器将人类说的话转变为能够被机器所能执行的语言或者文本,使得机器人能够明白人类所要表达的意思,并加以实施。语音识别最基本的工作原理可以分为两个阶段:(1)从人类的语言转换到文本或其他形式阶段。即语音信号输入到机器设备中,然后设备取读语言信号,最后转换为机器能够接受的语言形式(文本或者编码等)。(2)处理和执行阶段。在语言形式转换完成之后,机器将会执行接收到的命令。
在第一个阶段时,机器会对接收到的语音信号进行采样和比对,然后将声波转换成为数据。由于将声波转换为数字信号的过程非常的关键,而这一过程采用的是语音活性检测技术,它能够帮助检测语音信号的存在,避免一些不必要的数据影响。其技术的基本原理是声波波形和频谱分析,之后再基于统计分析,将声波转换为数字数据[2]。
2 声控设备的技术分析
2.1 智能声控原理
现在市场上普遍用的声控产品就是声控灯了,最早使用的声控灯是通过声音的大小来控制的。而现在声控灯能够识别“开灯”和“关灯”,通过所发出的命令来执行相应的操作。本文主要通过分析智能声控的组成和工作过程来了解智能声控的原理。文本对声控的分析都是基于语音识别的声控门的基础之上[3,4]。
2.1.1 智能声控的组成
图1所示,智能声控系统由九部分组成,分别是输入端;C1卷积层;S2池化层;C3卷积层;S4池化层;C5卷积层;F6全连接层;F7全连接。
输入端是将人的声波转化成为一个灰度图,此后所有的操作都是基于该灰度图形之上。C1卷积层的主要作用是对输入的灰度图形进行特征的提取;S2池化层的目的是减少参数的训练,即C1层提取的特征之后,给提取的图像尺寸进行对半缩小;C3卷积层是对C1卷积层的深入,从上一层训练得到的数据进行深入分析。S4池化层和C5卷积层是对上两层的深入和重复;后两层都市对数据的训练。
2.1.2 智能声控的工作过程
根据声控的组成部分,给出智能声控系统的工作过程。其系统训练主要是利用卷积网络模型。主要过程可以描述为[5]: