“寻找贾维斯”简史

2019-09-10风辞远

科海故事博览·下旬刊 2019年1期

风辞远

可能人人都希望自己有个“贾维斯”。虽然已经退出漫威电影很多年，但是我们还是能够记起那个钢铁侠战衣里无所不能的AI助手。独特的幽默、优雅的语调以及非常靠谱的人设，让无数科幻迷对这个看不见听得到的角色产生了无尽好感。

对贾维斯的迷恋有多疯狂呢？我见过贾维斯版本的电脑桌面程序，贾维斯模样的手机UI以及以贾维斯命名的AI算法。设计师和极客们，迄今为止想了无数办法来“复活”属于自己的贾维斯。然而画面越来越逼真的贾维斯界面，显然无法得到它的精髓：像朋友一样的沟通与陪伴。假如说有某种技术希望能够在“本质”上寻找贾维斯，那么一定非语音助手莫属。

由于身处一个科技爆炸的年代，日常生活中我们可能不太留心某种技术的发展。但是如果一旦停下来回头看看，会惊奇地发现一门技术原来经历了相当惊人的变化。比如说手机中的语音助手，已经成为日常生活的一部分。而如果回首一下它的历史，说不定会大吃一惊：原来用语音助手复活贾维斯，并不是说着玩玩的。回看这些年语音助手的成长，会发现在人性化交互、应用能力拓展以及功能集成上，语音助手的体验确实在一步步逼近“贾维斯”这个终极目标。最近好像流行写各种简史，那不妨让咱们今天来讲一段，关于“寻找贾维斯”的简史。不难发现，语音助手的进化轨道，其实已经非常清晰明确。

语音助手初长成

大家都知道，最早的语音助手是苹果推出的Siri。想当年，在大家都没跟手机说过话的时候，Siri小姐姐真的可谓是叱咤江湖。《生活大爆炸》里甚至有一集，专门安排拉杰什和Siri谈了回恋爱。然而要承认的是，技术必然有其阶段性。就像老爷车虽然经典，但是肯定无法开上21世纪的高速路。初始阶段的Siri，在今天来体验其实是很初级的。

语音助手这件事，之所以得到了苹果的大规模投入，其实主要是云计算系统的功劳。其实更早时候，语音助手的雏形已经出现。只是当时云计算体系没有铺开，只能把若干语音指令存储在手机中，这导致用户的问答模板过分单调。而从Siri开始，语音助手完成了云端部署。这样可以在云端存储大量的對应模板，并且实时更新，从而让语音服务成为可能。

这时候的Siri虽然知道的多了，但是智商却十分堪忧。由于当时的语音助手完全是模板化的，换句话说你必须准确说出了问题，并且被Siri准确识别了，才能给你找出对应的答案。然而套路终归是套路。那个时候，应用Siri的体验大概是这样的：Siri，帮我给xx打电话。好的，已经拨打。Siri，帮我打个电话，我要联系xx。对不起，Siri没有听懂……

总之就是，模板不能错一点点，否则就是推倒重来。好在，这种语音助手完全比拼模板数量的时代，很快就过去了——因为AI来了。

AI来了之后

早期语音助手的最大缺点，在于问答只能模板化。用户实际上不是在跟语音助手聊天，只是把遥控器换成了语音操作而已。这在某种程度上反而是增加了用户的交互成本，同时也让用户心中对于“语音助手”这个概念的智能化期待大打折扣。

好在AI来了。随着深度学习的复兴，以神经网络处理语音任务逐渐成为主流。随着AI加入，语音助手开始呈现语义理解、多轮对话，声音合成等能力，并且在这几条轨道上不断发展。于是我们看到了语音助手的听力越来越敏捷，很多情况能够和用户像正常聊天一样说下去。甚至方言、儿童音等问题都得到了一定程度的解决。

这个时期的语音助手，最具特色的代表应该是谷歌语音助手Google Assistant和微软小冰。前者2018年曾经创造过模仿真人打电话而不露馅的“壮举”，而后者也常年活跃于聊天界，以不被发现是AI而著称。这个时候的语音助手体验，已经有了比较明显的升级。比如用户说我想打个电话/帮我打个电话/帮我查一下某人的号码，然后打电话，语音助手基本都能明白。

而且在深度学习的帮助下，语音助手还能记住用户的聊天习惯，时不常还能跟用户逗个闷子，聊天时立个人设。然而这并不是终点。随着AI语音助手的普及，尤其是在手机中的广泛应用，用户发现它能干的事情还是太少了。基本就停留在打电话、发短信、整理日程表等几种。然而这几种在今天已经是名副其实的边缘应用。

只能聊而没啥用的语音助手，就好像贾维斯只能陪着托尼瞎聊天，却无法启动钢铁侠战衣——这显然是严重影响票房的。在移动AI觉醒的这两年，随着终端AI处理能力越发强大，事情开始有了更多发展。

折叠出人性化交互

在语音助手的进化上，有两件事决定了今天的故事走向。一个是客观上来说，无论是端侧还是云侧的AI处理能力都在变强。许多之前无法触发的AI应用开始变为现实，这些能力就像钢铁侠的装甲和武器，让语音助手有更多可以操纵的空间。

更明显的改变来自消费者和厂商，对语音助手这件事发生了主观上的升级。过去语音助手作为一个“尝鲜品”，主要能力是显露自己多么智能强大。而在今天，已经习惯语音交互的用户需要的是“以我为主”，让语音助手提供服务，而不是炫技。

众所周知，我们在手机中的主要服务，是基于APP产生的。那么语音助手的下一步也就是要融合到APP当中，把服务抽象出来，带给用户方便。比如三星的Bixby最先尝试了打穿APP的方案。这主客观两个条件结合，构成了今天语音助手的主要升级方案：折叠交互，融合应用，体现人性化。

在这条路上已经有了不少参赛者，而目前能够看到将语音助手这件事推到新高度的，是刚刚更新的EMUI9.1。小艺这个名字，对于华为用户来说并不陌生。而EMUI 9.1版本的小艺经历了一个跨度非常大的升级。从整个语音助手发展历史的角度看，这些升级也可能十分重要。咱们还是基于几个场景的变化，来研究一下小艺刚刚带来了什么。

能听能说，也要能看。语音助手这东西，大家已经默认其能力就是听和说。然而实际上，一个真正的“助手”还需要一个基本的能力，那就是“察言观色”。之所以语音助手一直缺乏“看”这个层面的能力，原因很大程度在于大部分手机还无法承载复杂的AI视觉计算。这个领域华为这两年一马当先，自然也就孕育出让语音助手走向听、说、看全能的基础。在EMUI9.1版本中，小艺开启了多模态融合交互。之前，用户想用手机识别花草、汽车之类的，需要点开摄像头或者专用APP。这个流程其实有点烦琐，而且很多一闪而逝的风景可能就要错过。

而新的小艺，则可以让用户长按电源1秒就唤醒它，直接对手机说“这是什么”，语音助手就会自动识别花草、汽车等。这个能力更有用的地方是识别食物卡路里，可以直接语音问手机“我吃这个会不会胖”，然后小艺就会自动开启卡路里识别，报出食物的卡路里数量。小艺还会根据识物的卡路里级别，建议你少吃还是放心吃。估计也就是小艺才如此友善，同样的问题问朋友，他们大概会说“你吃空气也会胖”。看的目标不仅是基于摄像头，同样也可以看到手机里的图片。小艺的视觉结合，另一个玩法是用语音搜图。比如用户可以说“找到我女朋友去年的照片”，手机就会在图库众多的图片中找到你想要的。

穿透APP来服务你。我们今天的生活，就是在无数APP中穿梭。同时也要承认，很多功能其实隐藏在APP深处，想要完成是有点麻烦的。举个例子，在你口渴难耐时，想要去自动售货机买瓶水。一顿操作终于选到了合适的饮料，这时提示你要扫码付款，然后此时要先经历找到支付宝，打开支付宝，点击扫码——这个过程中每一秒都是煎熬。而在EMUI9.1的升级中，小艺加入了更多用语音解锁APP场景的功能。比如上面这些操作，现在可以直接对手机说“扫码”，一句话唤醒。这个技能适用于各种着急买东西的场景，其中滋味大家不妨自己体会。

另一个很有代表性的场景是在微信里。现在微信语音似乎已经完全取代了电话，但是在茫茫然一片的微信里，想找到合适的人其实还挺难。要经历点开搜索，打字，完成搜索点入对话框，发起语音，一共4个步骤。而小艺则可以直接说一句“给微信里的某人打电话”来一步完成。此外，不同應用中触发小艺，据说还有不同惊喜。

可学习和可定义。小艺的另一个升级点，在于学习用户语音习惯和使用习惯的能力得到了加强，同时开启了自定义组合技能的新模式。比如我们周五下班坐进车里，这时候其实是有很多事先要用手机完成的。比如说，打开导航确认目的地，放首《今天是个好日子》听听，给哥们发微信约去看球，给老婆发语音说今天要加班不回家吃饭了……这种做法并不值得提倡。

可以看到的是，这一波操作虽然心情愉快，但是未免复杂了点，手速慢的人分分钟就会被晚高峰给追上。而在新版的小艺中，用户可以自定义这些操作，整合成同一个语音命令。比如说对小艺大吼“劳资下班了”。小艺就会自动进行用户设定的上述操作，又简单又解气。从小艺的故事可以看到的是，手机语音助手走到今天，已经不仅仅是一个语音软件本身的智能程度问题，而是整部手机的能力，都要通过语音助手来集成和调动。把多种能力、多个应用，多个交互进行折叠，最终折叠出的才是更省时省力，更符合用户期待的自然交互。

而从语音助手诞生时的套模板，再到AI的入场，随后发展到手机软硬一体化的智能折叠时代，语音助手的变迁史中，似乎可以总结出一个公式。

语音助手的“贾维斯公式”

到底怎么才能做出大家心目中的贾维斯？通过手机和语音助手的不断耦合，我们可以发现这样几件事是先决条件。

不断升级的AI综合体。从谷歌、微软、亚马逊激烈竞争的语音助手，到国内的智能音箱热潮、手机语音助手不断升级，而AI能力始终是这个故事的“主线剧情”。而随着步入移动AI时代，语音助手现在的任务，从整合AI技术，开始发展到了整合AI应用、AI能力和AI技术的三合一模式。

回望华为手机开启AI进化的这两年，从EMUI在8.0时期开始，诸多智慧能力开始显现。到 9.0时代，开始加强视觉AI应用，并且对AI能力进行整合。而到9.1当中，语音助手开始整合更多AI应用。可以看出，AI的从无到有，从弱到强，从分散到整合，是手机助手进化的主线。

软、硬件不分彼此。在手机当中，一款软件的能力总归有限，只有与应用、内容和硬件层面更好结合，才能真正让用户获得智能的体验和实际的应用价值。这就好比只会逗闷子的贾维斯并不招人喜欢，天文地理无所不知，还能操纵钢铁侠战衣的才是“真·贾维斯”。语音助手之所以让今天的领军者变成华为和EMUI，很大程度在于华为手机这几年在软硬件一体化能力上的积极探索，一定程度打破了旧有手机模式的藩篱。当语音助手可以调动智慧视觉和各种应用，其价值就好像你的朋友突然由员工升级成了老总……

基于人性，去折叠每一个交互。要注意的是，语音助手始终伴随着一条炫技之路：由于AI带来的技术非常充沛，开发者很容易把语音交互搞得复杂无比。虽然初心是让消费者感受到技术爆发的魅力，但实际应用中消费者往往不胜其扰，只能敬而远之。所以在语音助手的进化中，需要基于人性化的产品思考，基于用户感受去折叠和省略交互。只要技术复杂同时交互简单，语音助手才有亲和力可言。

至此，不难发现，这条寻找贾维斯之路，似乎可以被总结成这样的公式：智能技术更复杂，产品融合度更强，交互更人性=语音助手更像贾维斯。并且我们有理由相信，所有寻找终归能够抵达终点。