打开“车窗”说亮话
2022-02-26许晖
许晖
大家没有翻错《故事会》,这种看似小说才敢编的小概率故事,能登在《汽车之友》技术栏目上是有原因的。按照概率而言,哪怕属于亿分之一概率边缘事件之中的边缘事件,以地球上几十亿人作分母,也总会有人属于100%中招的苦主。此前曾有媒体用情景剧视频方式演绎过,坏人在车外唤醒智能车机打开车窗行凶。随后不少作为测试对象的主流车型顷刻失守。这就意味着“边缘事件”发生概率并不小,很有可能会成为行业安全隐患。在与来自于业内主要语音识别提供商赛轮思以及星河智联的工程师交谈之后,我们先把结论放在前面说。车外语音开窗事件真不真?真;是否威胁到配备该功能的车辆?是;出现问题还有救么?有!至于真不真?是不是以及有没有,正是科普的内容。
作为如今大多数新车标配功能,讲述语音识别控制汽车功能前,咱们先了解“声”这个物理术语。这种可通过介质(空气或固体、液体)传播的玩意,物理学角度是由物体振动产生的机械波。能被人(频率在20Hz~20000Hz之间)或动物听觉器官所感知。最初发出振动的物体叫声源。人类对声的利用多种多样,譬如传递信息、反射定位,甚至传递能量。而从社会学角度,在人类万千表达手段之中,“有声语言”最重要,也是构成社会交流的基础。随着科技发展,声音已经从人与人之间发展到人与机器之间的沟通交流。语音识别与控制技术正是由此发展而来。
“heySiri”应该是不少人对语音识别的第一印象。当智能设备成为个人无法离开的随身用品时,实用软件逐步成为被依赖对象。语音识别技术虽然发展迅速,但实际历史不长,甚至连百年都不到。最早的语言识别技术起源于1952年的贝尔实验室那台6英尺高自动数字识别机“Audrey”,可识别数字0~9发音,且准确度达90%以上。60年代计算机应用推动了语音识别技术发展;70年代语音识别领域取得突破性发展,线性预测编码技术被成功应用于语音识别,同一时期,统计方法开始被用以解决语音识别关键问题,这为接下来“非特定人大词汇量连续语音识别技术”奠定重要的基础;80年代,连续语音识别成为研究重点之一。1988年李开复在美国卡内基梅隆大学用VQ/HMM方法,实现了997词的非特定人连续语音识别系统SPHINX。人工神经网络在语音识别中也得到成功应用。
人与人之间沟通若不清晰,或许还能追问一句“啥玩意儿?你再说一遍”。可当人与机器之间沟通出现类似情况就不好玩了。除非无聊至极,估计绝大多数人希望语音识别能在腾不出手的时候,给予迅速且准确的回应与执行,而非闲聊或误操作。语音识别的关键难点在于准确率。仅为了拨打电话、编发信息以及查询导航等基础功能运作,是难以满足消费者需求,真正让现在车载语音商业落地的,是当车辆控制权限逐步放宽情况下,通过语音识别功能更为便捷地控制更多需要自行操作的如娱乐系统、舒适系统等功能。减少行驶中分神操作的危险。
车载语音识别是否安全?这个问题从前并不太受关注。毕竟所控制的功能基本属于娱乐设备或者舒适调节这些舱内控制。就算随着可控制功能层级下放。车灯、雨刮器等也加入可控行列,对行驶中车辆整体安全并无妨碍。可万没想到控制车窗开合这项行驶中无害的功能,在停驶期间成为安防隐患。让原本能短暂成为避难所的车舱,瞬间门户大开。
有人认为开篇的恶犬案例略扯,其实分析下来与网上歹人喊开车窗行凶如出一辙。除非是真空状态,要不不论车辆隔音做得如何好,只要声量足够大,凭借空气、固体车窗等介质传入车内的语音指令,依然可由系统接收作出执行。也就是说此安全隐患的确存在。安全对于车辆永无小事,这是所有与车相关企业的共识,再小的安全问题不能被轻视,无论如何也要解决掉的。
针对车辆语音识别安全,目前海内外并没有专门的法律法规以及具体指导,甚至连行业标准也仅仅在起草验证阶段,但几乎所有语音识别技术提供商均早已意识到该问题的存在。那么现有技术是否可以解决这个隐患?我们选择与国际智能语音巨头赛轮思,以及国内人工智能新贵星河智联的语音识别专家进行了相关交流。先简单介绍一下两家企业。目前为全球65家合作伙伴,提供超过70种语言技术的赛轮思,拆分于苹果Siri语音技术供应商Nuance的汽车业务团队,全球有超过4亿台汽车部署了赛轮思的语音技术。而星河智联则由广汽集团、广汽资本以及讯飞云创三方合资成立,讯飞云创背后是国内语音巨头科大讯飞。在车外语音控制车窗开启事件上,双方均一致认为的确存在这个安全隐患,而在如何以技术解决该问题上,大家所给出的解决方案既有同类项,也有各自的创新方案。
复用车内摄像头检测范围内唇形变化,判断语音指令是否由驾驶員发出是其中一项。实际上,星河智联的多模语音交互已经成熟落地,唇音融合语音技术让语音检出精准率从68%提升到95%,有效减少误触发。其优点是对固定车主的主驾非常友好,但一定程度上限制了后排以及副驾乘客的多音区控制用户体验。
也可以通过增加拾音麦克风结合声源定位技术进行检测。这种方式较为明显的缺点在于受噪音干扰。虽然整体提升VAD门槛,但车内边缘位置的唤醒率指标略差。车窗关闭情况下,车外唤醒夹杂环境噪音并非单点声源,为此十分依赖算法对车内外的区分能力。在这点上赛轮思提出了增加车外麦克风的建议。这项在欧洲已经被用作检测来自于救护车、消防车等特殊声响,提示让行的功能,在与车内系统结合之后能很有效识别指令发出来源。
其实笔者认为拦在众多车企面前的并不是技术问题,而是成本问题。在交流中不难发现,语音识别供应商们为车企所提供的方案,几乎都提交了类似问题的深度解决方案。可不论是增加传感器还是进一步优化软件,均涉及到整车成本的增加而已。既然问题已经出现,返厂增加硬件以及重刷对应软件显然并不现实,如何快速进行补救是刻不容缓的事情。
更换系统唤醒词的方式在工程师看来顶多算最快方案而不是最好方案,毕竟如果是熟人作案,依然存在有被猜中的几率。更好的方式应该是OTA升级车机系统。通过改变判断当前车速与车门主动落锁这两种状态以及增加二次确认来解决问题。最简单的是当车速小于一定程度,譬如5km/h的时候,语音唤醒功能只能通过按键触发,默认唤醒词无效。稍微严谨一点则是对于语音开启车窗的指令增加一个需要主驾点击的弹窗确认。更为严谨一点则是在此基础上加入车门锁状态判定,若车门由车主主动上锁,俺么系统接收语音指令时增加需要点击的二次确认,否则不受限制。这些解决方式看似牺牲了部分用户体验,可与增加了一份安全相比,应该是当下解决燃眉之急的最佳建议。
道高一尺魔高一丈,技术的发展有赖于待解决问题的发现,对于未来守护语音识别安全的技术会如何发展,其实也存在着不少解决方案。其中一种应该属于声纹识别技术。所谓声纹是用电声学仪器显示的携带言语信息的声波频谱。与指纹识别、人脸识别技术类似,声纹识别也是生物特征识别技术的一种。该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。声纹虽然不像人脸、指纹的个体差异那样直观可见,但由于每个人的声道、口腔和鼻腔也具有个体的差异性,因此反映到声音上也具有差异性,所以每个人都拥有着自身独特的声纹。是否担心口技演员那惟妙惟俏的模仿能力会成为该技术的软肋?其实无需担心,模仿得再像的声音,顶多欺骗人耳,而对于由机器拾音所进行的鉴定就无能为力了。事实上赛轮思最高等级的声纹识别技术,已经部署在银行鉴权应用之上。虽然成本颇高,但无惧使用者是否感冒鼻塞导致声音变化的技术实力依然值回票价至于市面上不少智能音箱产品所引入的声纹技术几乎不涉及安全等级操作,成本与精度也能控制下来。这也解释了为何鲜有与安防相关的,如门禁一类消费电子产品使用声纹技术,主要还是对于设备、分析系统以及鉴别软件要求目前来说还相对较高。
星河智联给出的另外一条可供研究技术路线同样不错,让语音识别技术与目前大热的UWB超宽带技术相结合。UWB超宽带技术具有10cm范围的精准定位特性,倘若将语音识别功能鉴权模式交给UWB技术,让系统得知声音发生者的精确定位处于车辆何方,并决定是否进一步执行。另外一个好处在于,目前UWB技术被大量应用于车辆数字化钥匙上,语音识别鉴权需求的加入,方便UWB相关传感器有效复用,并不会过多增加成本。更何况目前国内涌现出如清研讯科这类专注于UWB技术的科技企业。强强联手可能会有惊喜。
本文纯属解读与科普,至于这个锅到底该谁背并不在讨论范围,反正在我看来肯定不会是语音识别技术提供商的锅。从破防的诸多车型基本属于各家主流热推的中端产品来看,这和与日俱增的新车研发速度,以及销售压力不无关系。主机厂们是时候放慢“弯道超越”的车速,用心完善问题所在。另外需要感谢首先以视频形式发现问题的媒体。但也要建议那些随后没完没了,哗众取宠,危言耸听蹭流量的自媒体,你们让人有点反感了。建议好好看书,多和工程师交流,以数据与技术为根基,助力中国汽车圈朝愈发完善的方向前行。