基于语音交互界面的智能音箱发展现状研究

2020-07-12浙江外国语学院艺术学院310023

大众文艺 2020年10期

（浙江外国语学院艺术学院 310023）

一、研究背景与现状描述

在人工智能的浪潮下，设计的客体不仅仅局限于电子屏幕内，而是逐渐扩展至真实世界的多维中。个性化的推送方式、智能匹配以及语音逐渐成为新一代用户的主流交互方式，原先以苹果为核心的APP生态将会从移动互联转变至智能物联。

语音交互作为一种自然的人机交互方式，至今已由来已久，近年来语音交互更是被应用在各种产品中，智能手机、智能家居、AI以及车载人机交互等。基于对话式用户界面的智能产品成为引领AI产业的排头兵，人工智能的浪潮正颠覆我们生活的一点一滴。作为新一代的功能领域，语音用户界面（Voice User Interface，VUI）对于用户体验阐述了多方位的产品需求，包括语言构建、应用与情感塑造以及逻辑思维搭建等方面，在产品与用户之间通过“语言沟通”搭建关系桥梁，是最自然的交互方式。智能音箱作为语音交互的功能产品，带给用户前所未有的交互体验。与如今的智能手机相比，智能音箱的语音交互功能可以增加用户提出需求的效率，并且更自然、更舒适。它所拥有的技术不需要指导用户如何使用，因为用户知道：只需要说出来便可以了。智能音箱以更为情感化的交互方式带给用户更流畅的产品体验。

二、语音交互界面简述

在目前主流的人工智能产品中，主要包含以下三种界面表现形式：图形用户界面、对话式界面、语音用户界面。

其中在图形用户界面与对话式界面之间衍生出了界面式聊天机器人（Chatbot），谷歌将聊天机器人定义为：为了模拟与人类对话而设计的计算机程序。它是一种使用自然语言与人类进行对话的软件机器人，又被称为对话系统。聊天机器人普遍应用在即时通讯平台，以娱乐、零售以及客服为目的，便于与消费者及时沟通，增加便利。聊天机器人可以使用语音界面，但大多数聊天机器人都是基于文本界面。以线上订餐服务为例，GUI与基于文字的聊天机器人相比，使用图形界面的APP效率更高，Dan Grover在博客中写道：机器人不会取代APP，更好的APP才会。

VUI的早期是交互式语音应答系统（Interactive Voice Response，IVR）。如今，IVR系统多数被使用在电话语音咨询服务，因为IVR系统能够有效增加服务效率，将不同的顾客引导至服务端口或不同职能的客服。常见的有电信移动公司的电话咨询平台，或是各大银行的电话自助查询服务平台等。

在对话式界面与语音用户界面之间衍生出了智能语音助理，这也是VUI的第二个时期。我们熟知的有基于苹果系统的Siri、三星的Bixby以及Google Assistant系列等。与IVR系统不同的是，在智能设备中具有电子显示屏，允许用户在使用语音的同时，使用屏幕进行视觉上的交互，这可以传达给用户更准确的信息，是一种多模态的界面。语音交互流程是怎样的呢？用户发出指令后设备被唤醒，设备在语音接收后开始对语音进行识别，自然语言理解后输入至人工智能系统，人工智能系统运算后产生自然语言理解，进行语音合成后形成语音播报。这就是“小爱同学，今天天气怎么样？”“今天上海市多云，气温15度。”的语音交互流程。对话式界面交互三个阶段分别是输入语音识别、应答判断以及自然语言输出，它是交互界面与智能语音之间的桥梁，从询问现在几点钟到预定今晚出发的机票，一切都可以成为对话式的。在使用基于苹果系统的Siri或三星的Bixby时，用户与设备产生了一系列的对话是一次次的信息交换，用户可以感受到每一次对话的独立性。

三、智能音箱的发展进程

1.迎面而来的智能音箱

小屏幕和不带屏幕的智能设备越来越受人们的欢迎，这种设备无法进行完善的图形交互。除了触摸交互以外，语音已成为最主要的交互方式，用户能自然而然的进行语音对话。

在2014年11月，亚马逊Echo领先进入智能音箱市场。次年5月，科大讯飞与京东联手推出叮咚音箱，成为国内第一款智能音箱。2016年，Amazon不断丰富Echo家族，推出了Echo Dot+Amazon Tap，继续引领智能音箱领域的发展。现如今，随着互联网巨头相继涌入智能音箱领域，语音交互生态、流媒体内容生态相继建立，多达数十款的智能音箱陆续推出。根据玛丽•米克尔2018年5月在Code大会上发布的2018年互联网趋势报告显示，亚马逊Echo的安装基数在2017年第三季度至第四季度上升了1000万人，达到了3000万人以上。由此可见，基于VUI的智能音箱等语音控制设备正在蓬勃发展。

2.有屏与无屏智能音箱的设计原则

常见的智能音箱可以分为有屏幕与无屏幕，有屏幕的智能音箱可以使用语音交互与图形交互协同工作，产生多模态的交互作用，而无屏幕的设备只能依靠单纯的语音进行交互。

Amazon Echo是一款不带屏幕的智能音箱，顶部边缘带有光环。它主要通过语音与Alexa语音服务连接，在对Amazon Echo发出指令前，用户需要说出唤醒词“Alexa”开启设备。再说出唤醒词后，设备顶部的光环会高亮，接着持续听取用户下达的指令。Google Home也是一款语音激活的智能音箱，可以实现日历、购物清单、快递查询等功能，它的唤醒方式是“Hey，Google”，它也是无屏智能音箱，在顶部倾斜可触控表面有四种颜色的LED灯，接收新消息时会闪烁发光。无屏智能音箱的初衷是让用户解放双手，以更自然的方式进行交互，尤其是在厨房或是办公时显得尤为重要。当然，缺少屏幕的图文交互会影响用户的体验，当智能音箱不能理解用户某个指令时，用户很可能是不知情的，很可能会“傻傻”等待设备回应。

目前，有屏智能音箱的市场份额逐渐增大，Google Home Hub、亚马逊Echo Show、腾讯系的亲见M10以及百度Little Fish VS1等都是带屏幕的智能音箱，无屏的智能音箱是单纯对话式的语音交互，而带有屏幕的智能音箱是语音交互与可视化交互的结合。智能音箱领域将成为一个多融合的生态圈产物，不单纯存在于语音交互领域。

有关于无显示屏的设备，在实践或设计中应当遵循以下原则：

（1）简洁的语音反馈

用户下达的语音指令应当是简短、线性的，所以传递的信息需要简洁明了，尽可能降低认知负担，避免在语义上产生歧义。

（2）常态语音进行对话

设计师应当尽量让语音交互更加自然且更加人性化，用户能够像与朋友交流那样以常态进行对话。

（3）提供反馈

无屏的智能音箱的交互反馈会受限于音频输入和音频通道，因此使用简洁、自然的对话方式能够让用户需求更快达成。当然，无屏的智能音箱可以通过灯光变化达到一定的反馈。有屏的智能音箱则可以通过显示屏中的图文获得复杂反馈。

（4）指令后能够修改

用户发送错误指令非常常见，重新对话发送指令可能会影响用户体验。若智能音箱具有显示屏，那么用户便可以通过手指滑动修改错误指令。对于无屏设备来说，如果用户在传递指令的过程中产生错误，VUI最好能够支持用户随时修改已下达的指令，用户可以撤销该条指令的传递。并且可以修正用户因口误而造成的错误，例如，如果问设备“今天天空怎么样？”系统回答说“今天多云，15至18度”。语音交互常存在歧义，有屏设备可以在屏幕中显示结果选项，但在VUI中是否可以增加歧义的内容选项，是具有挑战性的。

（5）语音的停顿时长

有屏智能音箱可以将一个问题的停留在屏幕上，长时间的等待用户下达指令，而VUI则需要遵循一般的对话停顿时长。一般人们对话时，停顿通常小于400毫秒，若停顿时间过长则会破坏对话的关联度，VUI需要以更自然的方式与用户对话，在停顿的时间上需要适用于人类常态对话原则。

（6）复杂数据反馈

若用户需要得到复杂数据的反馈，有屏智能音箱可直接显示在屏幕上。通过屏幕将图文清楚的展现，用户可以进行操作。如果在VUI中展现复杂数据或是结构化的数据，那就必须考虑对话的可行性以及对话中传递的内容、语速以及如何在传递中有效停顿。由于这一类的功能障碍，无屏智能音箱的设计重点可能会避开需要大量图标数据反馈的情况。

（7）情感化的语音输出

VUI系统中，都需要塑造一个人物模型。在语音用户界面领域，人物模型是用户通过智能设备的语音及语言，推断出的人格或拟人化的形象。用户常常认为设备具有某种人格特质的前提是VUI具有情感化的语音输出。近年来语音交互发展迅猛，语音合成的技术大有提高，但相较于真实人类或GUI仍有一定的局限。在人类常态对话中，语音、语调、语气的变化，都具有意义，GUI中可以把重要的句子高亮，但在VUI中如何着重强调某一段话是更具有挑战性的。

四、具有人格化的智能音箱

1.基于真实生活场景

当智能音箱成为一个真正的虚拟助手时，应当具备符合真实生活场景的相关语境。语境意味着智能音箱知晓对话之前的相关信息，并且清楚与用户之前的对话内容。理想的互动情景包含了三种模态：情境模态、用户模态以及设备模态。情境模态包括时间、物理环境、所在区域。用户模态包括用户认知、情绪及心理状态、感知能力、感官及机体。设备模块包括设备类型、信息的输入与输出以及软、硬件设备。智能音箱在进行对话时，应当结合用户的行为导向，根据真实生活场景逐步引导用户以语音说出需求。

2.新技术带来多模态的交互体验

人工智能的发展分为三个阶段：感知智能、认知智能及通用人工智能。感知有对语音、语言、图像等方面，这是人机交互最重要的部分。随着人工智能技术的蓬勃发展，交互模式从单一模态转变成多模态协同工作，智能音箱从语音模态延伸至语音与可视化协同模态并发展成更高级的多模态交互，多模态的交互技术基于传感器技术，包含视觉、听觉、触觉等多种交互方式，使设备拥有人类一样的情感与思维以及更复杂的运算能力，是智能交互的发展趋势。如果再结合一些用户习以为常的其他交互方式呢？如果智能音箱可以捕捉到用户的眼动焦点，用户可以盯住场景中的某样产品直接问“这个多少钱？”。一个多模态的设备能够通过语音及眼动检测等功能结合语音输入内容给用户答案。AliGenie是一款中文人机交互系统，在第一代的基础上引入了听觉、视觉、触觉及情感反馈的多模态交互能力。

五、结语

现今市场上已出现了很多具备语音交互的智能音箱，Strategy Analytics的最新季度研究报告指出，2018年第三季度全球智能音箱出货量同比增长197%，在2018年最后一个季度使用量有望超过1亿台，智能音箱正在成为许多家庭的标配。基于语音交互的智能音箱将会不断完善，随着对话式AI平台、深度神经网络、虚拟助手等相关技术领域的不断发展，语音交互产品将引来爆发性的发展。当有一天，人工智能能够像人类一样进行自然对话，那必将是一个崭新的时代。