智能音箱语音交互流程及设计方法探寻

2020-03-23江南大学设计学院214000

大众文艺 2020年6期

（江南大学设计学院 214000）

随着科技的不断发展和设计师对人本身的关注，用户交互界面随之经历了几次主要演变：从具有较高使用要求的命令程序界面（CLI），到需要一定学习过程的图形用户界面（GUI），以及正在崛起的基本不需要任何学习成本的自然用户界面（NUI）。20世纪70年代以来，人工智能技术发展迅猛，世纪期出现了具有一定交互功能的语音应答，语音交互前期简称为ivr（Interactive Voice Response）即语音互动式应答，随后在人工智能和模式识别技术的影响下，自然的交互方式开始逐步在各个方面进入大众视野，其中以智能音箱为代表的语音交互技术是当下NUI市场化最趋于成熟的技术，并成为智能家居设计中重要的一环。根据数据机构Strategy Analytics研究报告《中国2019智能音箱用户调查》中显示，中国目前有3500万左右的家庭拥有智能音箱，其中超过一半的用户拥有两台或以上的智能音箱，并且有三分之一的智能音箱用户使用的是带屏音箱。随着市场化推动，越来越多的研究者们聚焦于语音交互设计，因此本文主要通过智能音箱的技术需求流程设计分析，以期通过结合相关技术的可行性来提高语音交互识别的准确率和情感输出并在此基础上提升用户体验。

一、语音交互的优势与劣势

与传统的GUI界面相比，智能音箱语音交互在智能家居控制环节有以下的优势：（1）自然语音交流，无需其他肢体接触，可以在距离空间内完成交互行为；（2）可以一人操控，也可以亲子等场景下多人使用；（3）不消耗学习成本，语言是人天生具备的能力，没有使用熟练度要求；（4）硬件成本较低，具有较高普世价值。

但是与移动智能助手相比，智能音箱在智能家居的使用中也存在着一定的劣势：（1）对语言标准度要求比较高，口音较重的用户语言识别度较低；（2）噪音条件下语音识别准确度较低；（3）对使用距离有一定要求，远距离使用需要协助移动端连接；（4）语音输出拟人化情感表现不够自然，难以融入人性化气息。

对于智能音箱而言，由于其使用场景开放，无边界的输入方式在提供便利的同时也面临着用户在与设备交流时会产生大量的无用或错误的指令信息，从而造成沟通障碍，相较于场景及交互目的有所限制的企业定制服务设备，例如银行智能服务机器人，在较长的一段时间内其准确率和情感化表现难以达到并满足用户体验需求。

二、智能音箱语音交互实现流程

在《统计自然语言处理》第二版中，对人机对话系统进行了阐述，即语言生成器在对话管理模块的指导和控制下生成响应的句子。在人机对话过程中，一共有五个环节，分别是语音识别→口语解析→问题求解→语言生成→语言合成。也就是说，在与用户进行语音交互过程中，机器要经过语音信号接收并转化为可用数据，将其结果进行需求提取和解析，再与所相对应的领域信息进行耦合，完成指令信息或得到其他反馈后再通过语音合成技术最终表达给用户。

在这些环节中，语音识别与语音合成部分决定着用户体验，因此如何准确的识别并且自然的反馈，成为智能音箱语音交互设计的核心问题。以小米旗下智能音箱小爱同学为例，在其完整的智能语音交互过程中，主要经历以下四个阶段：

1.ASR（Automatic Speech Recognition）语音识别：在该模块下，系统将收集到的语音信息进行分析，转化为文本或机器语言，主要通过训练数据库解码来实现从语音到文字的转化。在这个过程中，当有用户提交的信息或新兴词汇被多次错误识别时，会进行迭代纠正，在后续的过程中进行优化和更改。

2.NLP（Natural Language Processing）需求理解：在这个阶段中，一般是将用户的意图进行拆分和提取，从而完成对应指令。NLP模块是实现智能语音交互的关键部分，决定着机器是否可以理解用户真实意图和实际需求。

3.Skill：合理反馈：这个阶段中，根据语音交互设备的使用目的和范围的差异，其技能指向性也不尽相同。需要根据上一阶段需求的用户指令，做出符合用户预期的反馈，比如银行导向服务型技能；以天猫精灵、小爱同学等为代表的智能家居型技能等。

4.TTS（Text-To-Speech）语音反馈：一般有两种方式来输出语音，一种是在大量的录入信息中选取需要的词汇片段进行拼接，另一种是使用参数算法产生语音数据。现阶段这两种语音反馈方式都能够满足基本的语音输出目的，但是由于语言的情感限制，还难以达到舒适的自然交流状态。

为了实现更高准度的语音识别，近年来技术领域提出了很多新的情绪识别算法，来提升机器的理解能力，经典的语音情感识别模型有两种，一种是将情绪化语言进行标签分类，比如高兴、伤心、生气等。一种是对情感进行划分，利用维度空间概念对不同的情绪状态进行分类，这种方法相比较前一种更加客观的根据情绪本身的正负效应和高低来进行划分，因此范围更广，能够收集到全部重叠或模糊的情感状态。值得思考的是，复旦大学曾将DTW（动态时间规整）情绪识别信息模型与MFCC（Mel倒谱系数）特征参数结合，对婴儿部分常见情绪状态信息进行识别，并能够达到70%以上的识别率，当情绪识别辅助文本情感趋向来参与语音识别和需求理解模块中，是否会更加懂得用户所想，甚至主动察觉用户情绪精神变化问题，从而在医学领域有所帮助呢？

由于自然语言的多重含义，譬如同样的词组在不同的语境下表达的意思也不相同，因此如果能够对用户进行角色分析，并将所用词组与上下文语境进行结合，辅助网络新型词语的不断更新和纳入，云端与终端贯通结合，未来智能语音设备将可以大幅提升用户命令需求的识别准确率，在这一点上是有迹可循的。除此之外，在不断提升语音合成技术的同时，在智能音箱设计中加入虚拟人格设定，提升语音反馈人性化体验，辅助补足语音不够自然的缺陷，从而提升用户代入感。

三、智能音箱语音交互系统设计方法

以用户为核心是交互设计的重要准则，技术的发展为语音交互设计师们提出了新的挑战，如何协助现有技术，实现更加准确、自然高效的用户体验，根据以上环节需求，尝试提出以下设计方法：

1.与模式识别技术相结合——支持ASR补足识别缺陷

语音信息采集及转化阶段相当于智能音箱的“耳朵”，针对语音交互中识别准确度的劣势，与体感交互技能相结合，为智能音箱增加“眼睛”，视觉与听觉相互协作，当难以对语音中的情绪进行提取识别时，可以参考用户动作与表情，对口音较重或者不够标准化的用户语言文本进行修改与更正，消除歧义。

2.针对不同用户群体提供专属人设定制——辅助NLP增强用户需求理解

诺曼曾在《情感化设计》一书中提出，情感化设计在反思层与产品的特性关系表现为三个层级，即确定自我形象、满足个性化需求、形成持久记忆与关注。在智能音箱设计中，增加个性化人设定制，找准用户定位及用户爱好方向，可以辅助设备理解用户特殊情感需求，比如追星女孩在使用语言中可能会参杂大量饭圈用语，体育爱好者日常语言中也会使用大量体育词汇，因此针对此类人群语言倾向，满足其个性化表现需求，不断优化相关环境语言信息，甚至预测未来对话及需求方向，从而增强特定该范围人群的语音需求识别准确度，引发情感共鸣。

3.增强拟人化形象魅力——提升TTS情感反馈

对智能音箱进行品牌人格化设计，为其表现声音和性格注入魅力。比如幽默化言语的应用，将语境中同义词汇进行替换，幽默作为情感表达的重要载体，会为智能设备增强吸引力和亲和力，对现阶段不够流畅自然的声音反馈作为辅助代偿机制，最终提升用户对产品的回忆与情感依赖。

4.增强情境感知，主动出击——情感反思层面增强心理依赖

情景感知能够通过预测用户的需求来减少用户的操作，具有一定的主动性。譬如当用户询问上一次点的外卖时，其目的是想要再次预定或者询问同店铺下其他相关部分推荐餐点，当二次询问过后，根据用户购买记录主动询问是否再次预定或询问相关推荐需求，根据用户兴趣模型进行自主需求沟通，减少用户重复操作，提升用户满意度，加强用户心理依赖。

四、总结与展望

语音交互硬件成本较低，因此先一步推广成为大众接触自然用户界面的契机，智能音箱的市场化推广，也使得用户对智能家居中采用自然语音交互方式的接受度明显提高，随着模式识别与人工智能技术的不断发展，融合更多适配的交互渠道，可以预见未来家居无穷的“智慧”。短期条件下与体感等其他自然交互方式相比较语音交互实现场景更为广阔，学科和市场的成熟发展为自然的交互设计带来了更多机遇，与此同时，设计师们也应该从其技术层面加深了解，并探寻其可能在情感化方面或交互方式上带来的不同体验。为了能够实现真正的自然交互愿景，还应在跨学科的设计实践中探索更多的创新点与未来发展的可能性。