智能语音APP系统设计

2019-01-11郭徐东朱伟杰王雪梅

现代职业教育·高职高专 2019年11期

郭徐东朱伟杰王雪梅

[摘要] 为了方便手机用户智能识别语音，快捷体验音乐，运用科大讯飞先进的语音识别技术，可以识别用户“哼”和“唱”，通过Webview方式展现匹配的歌曲列表，供用户选择播放，识别过程中几乎不受周围冗杂环境的影响，提升用户体验感以及识别效率、准确率。系统还可以自由切换用户识别引擎，可以导入APP中一段音频来识别，甚至可以识别生活中遇到的各种声音，并显示在手机屏幕上，APP让我们的生活更智能，更便捷。

[关键词] 智能语音;语音识别;Webview

[中图分类号] TB51+8 [文獻标志码] A [文章编号] 2096-0603（2019）31-0056-02

人们可以通过很多方式来感受音乐，音乐播放器是最便捷、最实用的一种。传统的音乐播放器通过两种方式实现控制：一是按键控制，二是无线蓝牙控制，这两种方式对手不空闲或者是疲惫、残疾等特殊人群是不方便的，为了减少手动操作，发明了语音控制，但也带来新的问题。

示例场景：你走在大街上，听到一阵熟悉的音乐，想知道歌曲名字，因此出现了随时随地识别音乐的软件。

本系统就是为了方便用户识别音乐，提供的一款完整、高效、快捷的移动端软件。

一、研究意义

最早的智能语音出现在20世纪90年代末，市场有搭载语音识别功能的手机，那时的语音识别是通讯功能的一个附加选项，而现在语音技术已脱离通讯功能独立存在，语音不仅可以帮人拨打电话、发送短信，还可以用来遥控手机或者控制其他机器进行拍照或播放音乐，甚至运用于汽车行业。

有些场景有必要用语音来完成，如开车时突然有电话要接听，正在炒菜时想回复一条短信，在这两个虚拟场景中，如果使用手指来操作手机，显然不够方便，甚至会有危险，而采用语音来完成这些功能，比较方便和安全。智能语音的出现，更促进了人们对声音技术的追求。

我国语音识别研究工作起步于20世纪50年代，虽然起步比较晚，但由于国家重视，近年来发展速度也很快，紧跟国际步伐。中国地大物博，人口众多，因而有庞大的消费市场。国外对中国的语音识别技术也很关注，由于汉语复杂，对语音识别的技术研究更具有挑战性，到目前为止，国内的语音识别还是商业应用，在各个银行已经逐渐实现了智能语音技术的广泛应用，有自动取款机、自主办卡等业务，在医院、家庭等场所还没有普及，因此需要加快推广步伐。

现如今，许多用户已经在手机上享受到了语音识别技术的方便，比如智能手机操作典型的例子就是小米手机中的小爱同学，已经实现了智能语音交互，但是这与真正的人机交流还有很遥远的距离。

二、系统设计

智能语音APP基于IOS平台，采用MVC框架、Webview、单例传值、对象模型、代理等技术。系统有三个界面：登录界面、语音识别界面、设置界面，系统功能结构如图1所示。

（一）登录界面

登录界面主要是负责用户登录，可以通过第三方软件登录，如QQ、微信，也可以短信验证登录。

管理员使用另外的界面登录，登录后可以进行各种系统设置操作。

（二）语音识别界面

语音识别界面主要是利用各种引擎来识别语音，分为语音识别、哼歌识曲和唱歌识曲，调用不同的接口，判断用户的音频特征。语音识别界面如图2所示。

用户登录该软件之后，跳转到用户识别界面，点击开始按钮可以开始识别自己的语音。其主要的工作原理是启动麦克风设备，收集用户音频，将音频压缩成指定的rmvb格式上传到云端，通过云端返回的json字符串，解析识别歌曲相似度、歌手、歌曲名等信息，解析字符串中可能会出现曲名相同，但是由不同歌手演唱的歌曲，再通过json字符串转化为我们所需要的数据，通过model传输将数据显示在自定义cell中，用户可以通过点击相对应的歌曲名，引用Webview的方式来播放歌曲，操作流程图如图3所示。

（三）设置界面

设置界面可以设置用户信息、设置引擎、识别记录、软件分享、软件评价、信息反馈、软件介绍等。

“设置引擎”功能可以方便用户设置语音识别引擎，以便识别不同的语音进行判断。软件自动获取的是AUTO接口，即自动判断音频的格式，而用户可以选择afs接口，即哼唱选项，也可以选择原生接口，即调用aas接口。

为了软件的推广以及完善，设置了“软件分享”和“信息反馈”功能，用户可以通过微信或QQ进行分享，用户点击时会跳转到APP Store进行下载;若用户发现软件有不足之处，可以通过“信息反馈”功能，进行反馈，以便公司完善软件。

在管理界面通过第三方MOB，管理员还可以观看软件下载量和下载次数以及某个软件界面的浏览次数等信息，便于观察用户的使用状况，更加方便地管理软件。

三、结语

语音交互已经成为人工智能领域最成熟，也是落地最快的技

术。尤其是深度学习的兴起，让语音识别、语音合成以及自然语言处理的发展速度提升到了一个新的高度。

智能语音应用前景广阔，这是人机交互的一大特点，而音乐播放器中的语音识别更是与人们的生活密不可分，识别的正确率、效率尤为重要，因此，软件要以用户的体验为前提。语音识别技术发展到今天，已经能够识别中小词汇和很多方言，识别精度也越来越高，未来语音识别产品的前景以及市场会更加广阔。

但是，目前计算机对用户语音的识别度还不是非常理想，人机交互中还存在一些问题，语音识别技术还有很长的一段路要走，必须要取得突破性的发展，才能更好地应用于商业，这也是未来语音识别技术的发展方向以及努力目标。

参考文献：

[1]齐立波，黄俊伟.C#入门经典（第七版）[M].北京：清华大学出版社，2016.