汽车智能语音发展趋势：从被动到主动的交互升级

2021-11-08李深安

汽车电器 2021年10期

刘权，徐伟，李深安

（1.广州汽车集团股份有限公司汽车工程研究院，广东广州 511434；2.科大讯飞股份有限公司智能汽车事业部，安徽合肥 230000）

近年来，中国汽车工业取得了飞跃式发展，从2009年起连续12年稳居全球汽车产销第一。汽车行业也正在面临着几十年来最大的变局，储能技术、人工智能、云计算和移动互联网技术也正在以惊人的速度不断快速突破。与此同时，汽车用户也越发追求电动化、智能化、娱乐化和个性化。用户对汽车的控制使用也从最基本的驾驶功能、空调控制等传统功能，逐步地扩展到导航、多媒体、信息娱乐、个性化设置等多样化功能。交互方式也从传统的物理按键到触屏，发展到现在的多模态交互，从用户发起请求车辆被动接收执行，到智能化的主动式交互和关怀。因此，汽车智能交互技术发展，尤其是从被动到主动式交互的发展升级是非常重要的研究课题。

1 汽车交互智能化发展概述

1.1 汽车人机交互方式发展

近年来，随着互联网行业不断渗透传统的汽车行业，智能座舱概念的不断涌出，各家车企都希望可以打造出以“极致的互联网汽车体验”为核心标签的智能网联汽车产品，而智能汽车不再是简单的以车子为中心，而是以人为中心，在保证车内外人员安全的前提下，为驾驶员和乘客提供丰富的智能化、个性化和愉悦的驾乘体验。人机交互的方式也从最初的单纯的按键发展为按键、触屏、语音、视觉等多种交互模式。

1.1.1 传统人机交互方式

按键和触屏我们都可以认为是传统的人机交互方式，都需要车内人员通过手去操作车内的设备。汽车在早期主要以驾驶为目的，驾驶员和乘客对车辆的控制只能通过按键的形式。而且最初的按键基本上都集中在中控仪表盘上，距离驾驶员较远，操作不方便。后期才逐步过渡到现在的方向盘按键控制加上中控仪表盘按键相结合的方式，这种方式的改变使得驾驶员对按键的控制更加灵活和安全。

20世纪80年代，触摸屏被大规模商用化。随着触摸屏技术的不断发展以及在智能手机上的大规模应用，汽车中控屏幕也逐步普及推广，而且各家车企也开始着手车机中控屏幕的外观、应用以及应用的交互等的设计和优化。甚至特斯拉在2013年推出了采用垂直定向搭载17英寸车载显示屏的电动车—MODEL S，全面取消中控物理按键，几乎可利用屏幕操控所有的车载功能。2018年，比亚迪第2代唐推出了支持90°旋转功能大尺寸的悬浮式中控屏。中控屏也朝着大尺寸、可移动、多屏幕方向发展［1］。

1.1.2 智能语音交互方式

随着人工智能技术突飞猛进的发展和在智能语音上的应用，智能语音交互方式开始在车上广泛应用。通过语音交互的方式完成车辆功能的控制和信息查询，更加便捷，解放了用户的双手。智能语音交互技术与汽车产品相结合，不仅很大程度上提升了用户驾驶过程中的体验，也提高了驾驶的安全性。智能语音是一个系统性工程，涉及语音增强、语音唤醒、语音识别、语义理解、汽车视觉、主动交互、语音合成等多项技术和过程［2］。

1.1.3 多模态交互方式

除了听觉之外，人与人之间还可以通过视觉、触觉、嗅觉等多种方式进行交流。同理，在人机交互过程中，人可以给车机输入语音、图像、表情、手势、触摸等多种模式的信息，机器可以综合利用这多种输入信息处理用户的请求，从而提高人机交互的自然度和效率。多模态并非多个模态的集合，而是各单一模态之间的有机协同和整合［1］。

最后，需要指出的是，虽然当前汽车人机交互方式多种多样，而且越来越智能，但是还没有完全丢弃传统的按键，因为相比较其他交互方式，物理按键最为可靠和安全，尤其是对车门、落锁、发动机等跟车辆安全紧密相关的零部件和功能。

1.2 汽车人机交互技术发展

如上所述，语音交互是一个系统性的功能，涉及语音增强、语音识别和语义理解等多项技术。

1.2.1 语音增强

在人与车机的语音交互过程中，麦克风录制的用户语音信号，往往都会伴随着车辆行驶的胎噪、发动机噪声、开窗时的风噪、空调噪声等，而且在高速、闹市区等一些特定的场景下，噪声信号甚至比用户语音信号更强。另外，车机播放的音乐、提示音等也会跟着用户语音信号一起被麦克风录制进去。以上各种噪声的存在，使得麦克风直接录制到的用户语音信号品质非常的差，如果直接将带着噪声信号的音频送入识别，可想而知，效果会非常的差，基本上不可能完成人机交互的任务。因此，麦克风录制的原始信号都会经过语音信号的增强处理，“去除” （只能尽可能的降低噪声，不可能完全去除）掉胎噪、风噪等噪声和播放音乐和提示音等的回声信号，提升用户语音的信噪比，得到“干净的”用户语音信号。另外，通过麦克风阵列技术实现语音信号的分离和非目标区域的噪声抑制，从而实现车内多音区交互［4］。

从技术发展上，语音增强从最初的单通道语音增强发展到基于麦克风阵列的多通道语音增强，以及在多音区上的优化和应用。语音增强的算法也从传统的数字信号处理方案发展到现在的基于深度学习的神经网络模型和数字信号处理相结合的方案。

1.2.2 语音唤醒

当前无论是汽车语音交互还是音箱、手机等语音交互，因为误触发问题还未达到全时免唤醒（任何时候用户都可以通过语音进行交互，而且有意图的交互给出结果，用户没有交互意图的时候不给响应）交互的状态。在连续语流中实时检测说话人特定语音片段的语音唤醒技术，是目前最主流的语音触发方式。

从发展阶段上来看，语音唤醒也经历3个阶段：启蒙阶段、新技术探索阶段和大规模产业化阶段。从技术上来看，语音唤醒从最初的模板规则到最新基于神经网络的方案，唤醒的效果和误唤醒的优化都得到了很大提升［1］。

1.2.3 语音识别

简单来说，语音识别就是将用户所说语音信号转换成文字，包括语音信号的特征提取和识别转码两大过程。语音增强后的数字信号，提取音频的特征（如MFC特征）信息之后，经过声学模型和语言模型解码，将音频信号转换成文本序列（即识别文本）。其中，声学模型判断每段语音属于各音素（例如声韵母）的概率，如用户说的“中国”，声学模型将其转换成“zh”、“ong”、“g”、“uo”的音素序列。语言模型则反映字词出现的先验概率和词顺序是否符合语言习惯。如上文“中国”的声学模型发音序列，通过声韵母和字词的组合，能够出现很多候选序列，如“中国”、“钟国”、“重过”，语言模型会判断文字为“中国”的概率比“钟国”和“重过”的概率大，从而最后输出的文本序列为“中国”［4］。

1.2.4 语义理解

语义理解从用户语音识别文本中抽取意图和槽位，并结合交互逻辑给出提示语、信源搜索结果等。在语音交互对话系统中，语义理解一般主要包括：语义抽取、对话管理和语言生成。在技术方案上，近几年随着词向量模型、端到端注意力模型以及谷歌最新BERT［5］模型的提出和应用，语义理解正确率在汽车垂直领域达到较好效果，基本能够满足用户日常交互需求。但是，语义理解最核心的难点是语义表示问题和开放性说法等问题，导致在语义效果评判上很难统一，也是未来人机交互中最核心板块。

1.2.5 语音合成

跟语音识别刚好相反，语音合成（TTS）是将文本转换为语音信号的过程。在人机交互系统中，机器给人的信息反馈，除了界面交互的展示之外，通过语音信号的合成和播报也是非常重要的方式之一。尤其是在汽车交互场景，TTS合成播报显得尤为重要，好的TTS不仅能够给用户他想要的信息，同时能够减少用户转移视线看车机屏幕的频次和时间，从而大大的提升了驾驶的安全性。近年来基于神经网络技术的语音合成，在主观体验MOS分达4.5分，接近播音员水平。另外，当前在个性化合成、情感化合成以及方言小语种合成等方面继续探索［6-7］。

2 汽车智能语音主动交互技术概述

2.1 汽车智能语音交互链路

下面以用户一句语音交互请求为例，说明汽车语音交互整体链路和流程。

1）首先用户发起语音请求（一般通过语音唤醒词唤醒或者车机按键，在此不赘述语音唤醒的过程），车机麦克风拾音之后，调用语音增强能力接口，对音频做回声消除、噪声抑制等语音增强处理，提升音频的品质。

2）语音增强之后的音频进行识别转写，转写之后的文本做文本后处理，如标点符号的处理、敏感词的检测和大小写规整等。

3）识别规整后的文本进行语义理解（包括语义抽取、上下文交互、信源搜索、对话管理等），给出语义理解的结果。

4）车机端拿到语义结果之后解析出对应的技能名称、意图和语义槽，然后根据对应技能交互设计进行交互上的展示和操控（如UI展示天气查询的结果、TTS播报天气查询结果、控制空调等）。

由上可知，从语音交互流程来说，语音交互过程大致可以分为录音、语音增强、语音唤醒和识别、语义理解、语音合成和UI/UE交互展示，语音交互过程示意如图1所示。

图1 语音交互过程示意图

从汽车语音交互整个链路来看，我们可以将其分为3大部分，车机端、云端调度和云端AI能力。

2.1.1 车机端

从整个车机端来说，主要包含系统硬件层、系统层和应用层。其中系统硬件作为车机最底层的设备，提供如录音、屏幕触控和展示、CPU核心运算能力等基础能力支撑。系统层作为应用层和硬件层之间的桥梁，给应用层提供相应的硬件操作能力接口，如通过麦克风录音、扬声器实现提示语播报功能等。应用层作为人机交互的入口，则通过云加端AI核心能力的集成（云端调度接口和本地AI能力SDK）、系统能力接口的调用和APP实现车内智能交互功能。当前科大讯飞语音交互系统中，语音增强、语音唤醒、语音识别、语义理解、语音合成等AI能力均实现了本地化，可以在无网络或者弱网络情况下实现用户的语音交互需求，而且能达到很好的效果。如图2所示。

图2 车机端

2.1.2 云端调度

云端调度服务作为车机端和云端AI能力服务之间的连接桥梁，提供车机端请求云端的调度接口，然后根据车企项目配置的云端AI能力调度，获取云端语音识别、语义理解等AI能力结果，并通过调度链路返回给车机端，如图3所示。

图3 云端调度服务

2.1.3 云端AI能力

相比本地车机端AI能力而言，云端AI能力具备更优的性能和效果，而且云端的AI能力可以结合配套的平台化工具体系进行灵活的配置，如是否进行识别后处理、语义理解支持的技能范围、信源搜索调度配置等。另外，云端AI能力的升级相比本地端更方便，代价更小。一般在保证接口、协议等不变的情况下，可以根据效果、性能等方面的需求不断迭代优化升级。但是车机端的AI能力更新升级往往只能通过OTA的方式进行，甚至需要让车主到4S店去升级。随着移动互联网和5G的发展，车企越来越注重云端AI能力的接入和持续迭代升级，这也为云端AI能力的智能性、创新性以及平台化等方面带来了挑战。

2.2 汽车主动交互技术

提到主动交互，大家可能并不陌生，比如当我们走向车辆，汽车会通过传感器或人脸识别等技术来以语音、灯光、全息影像、车外屏等形式来给我们来打招呼。不仅仅是用户上车之前的一些主动式交互，在用户驾驶过程中，甚至在用户离开车辆之后，均会存在主动式交互的需求。比如用户驾驶过程中主动监测用户是否在疲劳驾驶、身体健康数据等。主动式交互由机器发起，实时跟踪、积累数据，信息反馈变得更为及时有效，在为用户带来便利的同时，也提升了安全性。

汽车主动交互过程中，首先车机通过麦克风、摄像头等采集车辆信息、路况信息、用户信息以及环境感知等信息，然后对提取到的各种信息数据进行融合，提取对应的特征信息，上传到认知决策模块。场景引擎根据收集的信息判定是否符合特定的主动交互场景触发条件，并结合推荐引擎推送的用户个性化推荐数据，对符合条件的场景，则向车机推送主动交互场景数据，车机响应执行并等待用户的后续交互。大数据模块则根据不断收集到的数据信息进行大数据的挖掘分析，生成用户画像个性化数据、车辆画像数据等大数据信息。推荐引擎则会根据用户画像个性化数据和车辆画像数据生成推荐数据。最后，系统再根据车机端的执行和用户的后续交互反馈等信息，迭代优化认知决策模块的算法和数据收集策略、特征提取策略、感知融合算法等［8］。图4为汽车主动交互过程示意图。

图4 汽车主动交互过程示意图

以用户导航过程中主动推荐沿途加油站为例，主动交互过程如图5所示。用户发起导航之后，感知收集服务收集位置信息、导航信息、油量油耗等数据信息，并实时计算，将计算结果数据给到场景引擎和推荐引擎，在满足特定的加油站推荐场景（如剩余油量较低、即将经过用户经常加油的加油站等）下给用户推荐合适的沿途加油站。最后将推荐数据下发到车机端，用户做二次交互选择。

图5 汽车主动交互过程案例演示

2.3 场景自定义交互技术

智能座舱场景自定义是智能网联汽车产品的重要组成部分之一，也是市场潮流发展的趋势，用户可以根据自己的喜好、安全意识、精神修养、儿童娱乐、生活习惯等行为，通过手机端设置，经过云端，同步车机，快速语音、软按键、主动等方式触发，串联音乐、车窗、空调、座椅、氛围灯等执行动作自动运行。另外，智能座舱场景自定义通过积累并记录用户习惯选择数据，融合人工智能引擎和主动交互技术，与车辆、用户、环境、生态、交通数据等深度挖掘，多维度融合，为用户推荐经典场景、高频场景、主动提醒场景等模式，从而减少用户操作行为，降低用户负面情绪，提升用户行车满意度与行车安全性、感受沉侵式场景体验。

用户可以通过手机APP、车机APP、网页平台等多个终端入口完成场景自定义的功能，既可以自定义触发的指令（如自定义的语音说法、车机软硬按键、手势等），也可以自定义指令触发之后的执行动作（如播放歌曲、控制空调、形象互动等）。举例来说，用户可以定义触发指令为语音说法“宝宝醒了”，执行动作为播放儿歌+打开空调，编译打包引擎将用户定义的触发指令和执行动作编译打包成特定格式的数据，此数据作为用户场景个性化数据，识别和语义理解时均会用到。后面当用户说到“宝宝醒了”的说法时，语义服务会读取用户自定义个性化数据，匹配到触发指令对应的执行动作数据，并下发到车机客户端解析执行。另外，用户在自定义场景数据时，场景推荐引擎根据用户交互习惯、热点数据等给用户推荐场景数据。匹配到触发指令之后，执行动作也会跟场景推荐引擎打通，给用户做个性化推荐，如推荐加油站、歌曲等。场景自定义交互技术示意如图6所示。

图6 场景自定义交互技术示意图

3 汽车智能语音人性化交互展望

从按键交互到语音交互，再到多模交互；从被动式执行交互再到主动式交互，当前汽车人机交互逐步向数字化、智能化和个性化发展。今后随着5G的发展普及和人工智能算法的迭代发展，汽车主动化交互将会越来越智能和个性化。汽车会通过不断优化，综合处理复杂的信息，为用户提供最精准的解决方案，成为你越来越走心的朋友。而针对驾驶员和其他乘客提供个性化服务，具有更多的应用价值和更广的前景。另外，在万物互联即将到来的时代，汽车作为人们出行必要的交通工具之一，必将会跟人们的出行、工作和生活的所有场景互联互通，给用户提供无缝衔接的智能化交互体验，满足人们在不同场景下的需求。