语音交互市场风云际会
2017-06-22毕夫
毕夫
用不着为发短信不会码字而发愁,也用不着独处时无人聊天而郁闷,更用不着驾驶时在显示屏上查询路线图而手忙脚乱,只要一个简单的口令,语音助手就可为你送上贴心而满意的服务,帮你找到需要求解的答案。不仅如此,只要你愿意,这种我们根本看不见的小天使总会跟随与陪伴在自己的身边,并带来意想不到的愉悦体验,点缀出生活与工作的更多乐趣。
贴心的无形助手
“贾维斯,帮我把那个钳子拿一下”
“贾维斯,房间卫生如何?”
“贾维斯,帮下分析一下这个物质”
……
以上口令就是Facebook总裁扎克伯格仿照电影《钢铁侠》里的智能管家贾维斯向自己家中的语音助手“贾维斯”管家发出的口令,而且这个管家从叫醒主人到调节室温,从识别来客到参与家庭娱乐,但凡能想到的场景,几乎无所不能。语音助手正在慢慢地走进我们的生活。
作为一场新技术革命的成果,互联网最大的普世价值就是实现了人机交互,然而,依赖于手指与屏幕的传统交互方式不仅因动作迟缓而带来效率低下,并且也缺乏来自机方的主动反应与交流,同时更将盲人等群体以及反映迟钝的老年人群和文盲人群排斥在外;另外,虽然尚未成熟的图像识别交互方式让交互的界面变得生动起来,可冷冰冰的画面仍然未能释放出可以满足人类情感诉求的元素。但是,建立在人工智能(AI)基础之上的语音交互在实现“去手指”与“去屏幕”并大大提高人机交互效率的同时,更能让机器主动地读懂人类以及人类的世界,从而让人类获得前所未有的极致体验。借助于语音交互的场景,人类只要发出简单的口令,语音助手就能快捷地适配出主人所需要的服务,甚至还可以与人类进行着轻松聊天与情感交流,这种自然度、方便性的交互方式所惠及的人群显然要比指屏互动方式广泛得多。据Gartner預测,到2018年,30%的人机交互将通过自然语言完成。
互联网女皇玛丽·米克尔曾在《互联网趋势》报告中指出,人机语音交互的核心在于自然语言识别及处理技术,如果语音识别准确率从95%上升到99%后,语音交互将迅速普及,甚至将改变现有的游戏规则。现在看来,这种技术正在走向成熟,其中最重要的支撑力量就是人工智能。可以说语音助手被唤醒、听明白、会说话的过程实对应着的就是是机器学习(深度神经网络)过程,借助于AI,语音助手不仅能够听懂与理解人类发出的口令,而且可以进行深度学习与进步,拓展出主题口令之外更多的东西,因此,语音交互的背后体现的就是人工智能对于用户体验上的识别与满足能力。
除了AI这一核心技术支撑外,大数据技术之下的信息集纳与汇总能力、云计算技术之下的精算能力,物联网技术之下的择配能力等都从不同角度对对语音交互形成了重要的撑托;而据麻省理工学院(MIT)的最新研究报告,基于现有手机分给语音识别的电量高达1瓦特的压力,MIT已开发出语音识别电耗仅为0.2-10毫瓦的芯片,语音交互的终端续航能力由此大大提高。另外,伴随着智能手机、穿戴工具等硬件设备的普及,加之微信等各种社交工具对消费者习惯的培养与引导,语音助手由此赢得了十分广阔的落地空间。一个属于智能语音交互的时代也正在迅速开启。
“四大天王”的天下
提及语音助手,很多人便会想起6年前苹果基于 Nuance 的技术推出的Siri,而且Siri已经内置在了iphone手机以及奥迪等多款中高档车的车载系统中,但是,那时的Siri还只是一个小学生,不仅反应慢,而且差错率高,更谈不上交互过程中的服务延展,因此,包括无数“果粉”在内,使用Siri进行交互的屈指可数。但是,从三年前开始,苹果便为Siri 置换了“大脑”,也就是说将原本比较粗糙的技术换成了机器学习机制,让它具备了人工智能特性,这也可以看做是苹果在部署人工智能领域的一步最重要的棋子。也正是凭借着先发优势与升级导航,Siri作为语音交互的元老至今还保存着青春般的本色。
不过,现在的语音交互市场已经不是Siri的独步天下,与其并列甚至大有后来居上气势的还有谷歌的Assistant、亚马逊的Alexa与微软的Cortana,以此为基础,“四大天王”也在各自门下开发与设置出了场景丰富的智能生态系统。不过,姜还是老的辣。目前Siri会说36个国家的21种语言,甚至在苹果即将推出的 iOS 10.3 版本中, Siri 还会说上海话;略逊一筹,Cortana会说13个国家的8种语言,但Assistant仅会说4种语言,而Alexa只能说英语和德语。
当然,掌握与运用交互语言的种类也只是衡量一个语音助手竞争优劣的一个方面,除此之外应当还有更多的维度:一是应用场景的功能,保罗功能的数量、功能的适配性与精确性;二是语义的识别能力,包括识别度的高低与错误率的高低;三是交互界面的丰富度,包括界面的动感性、色彩搭配度以及主题音乐的撑托度;四是语音交互与体验深度,包括语音的全程流畅度、上下问题的延伸能力;五是知识库的构建,包括知识库的规模、响应的颗粒度;六是应用能力的整合,包括第三方的应用者的数量、功能衍生数量以及参与者的变现程等。
按照以上综合标准,著名的语音分析创业公司VoiceLabs对“四大天王”进行了系统性的比较检测,并在《2017语音报告》中发布了如下结果:在信息功能方面,Siri的表现最为优秀,包括功能覆盖广度以及语音全流程交互深度都要强于对手,这得益于iphone手机内置的短息功能的整合与打通;在新闻话题方面,Assistant不仅能保持其精品化的特征,还整合了大量的第三方新闻媒体作为信息源,很好的提升了用户体验;在基础知识问题的解决方面,Alexa对应的知识库最为广泛,能够识别不同领域的基础知识问题,并精准搜索给出答案,这与亚马逊在基础知识库搭建上下了较重的功夫直接有关;在非指向性的生活服务方面,Cortana的表现较为突出,这应当得益于Bing搜索的功能。看得出,“四大天王”门下的语音助手各自的独门绝技,深厚的底蕴还是来源于它们的传统看家本领。
值得注意的是,“四大天王”之外还游离着一些野战劲旅。据悉,三星总共斥资10亿美元用于发展人工智能,而且在收购了Siri之父创立的Viv公司之后,三星已经开发出名为Bixby的智能语音助手,并已经配置在了最新Galaxy S8之中,同时Bixby支持8种语言。另外,IBM日前对外宣布,公司已经打造出一个专注于网络安全的语音助手AI,该AI名为“Project Hayvn”,它能够用于维持用户网络环境的信息安全,每天对成千上万个安全威胁进行梳理,并且筛选出重要的警报信息与用户交流,提醒用户注意,保证家庭或者公司的网络安全。
巨头们的暗战
根据中国工业和信息化部电子科技信息情报研究所数据显示,2017年全球智能语音产业规模将达112.4亿美元,复合年均增长率达35.1%。正是看到了如此巨大的商机,巨头们摆开了抢占市场的强势阵容,在纷纷进行产品迭代创新的同时,将火力重点集中在了硬件载体与智能设备入口之上。
汽车是语音助手最易爆发的消费场景,这不仅是因为许多国家的交通法规不允许在驾车时打电话,而且还由于汽车的封闭环境能够给驾驶员带来最人性化的交互体验,在确保驾驶安全的同时,语音助手用最自然的语言提供打电话、导航、音乐、周边查询、车辆控制等全程周到的脱屏服务。截止目前,Siri已经整合进奥迪、宝马、克莱斯勒等全球九家知名汽车中,Assistant配置在了起亚、雪佛兰、斯柯达等汽车品牌之上,而就在日前,Alexa与福特、大众、现代和沃尔沃等签署了战略合作协议,大有奋起直追之势。
智能家居成为了语音助手落地的另一个火热终端,且在这一领域亚马逊与谷歌已经打得死去活来。据悉,在亚马逊推出了Alexa支持下的智能音箱Echo一年之后,谷歌推出了搭载Assistant的智能音箱Home,二者除了具备家电启动与关闭、视频点播等功能外,还能进行网购服务,尤其是Echo,亚马逊已经为其添设了Voice ID的最新功能,该功能可通过声波纹辨别出主人的声音,继而精准地提供所需服务。只要家庭成员可以在Echo设置一个统一账号,发出口令不需要进行个人帐号的手动切换,就可以同时分享Echo流畅无缝的服务。当然,无论是Echo还是 Home,如此卖力地深耕智能家居系统,无疑就是希望自己能够成为整个智能家居生态的中枢。
攻占智能家居市场的同时,智能手机等其他终端更是科技巨头们分发语音助手更为广阔的载体,而这方面当然最主要的就是Siri与Assistant以及二者分别搭载的iOS系统与Android系统之间展开的对决。据悉,除了从 iPhone 4S到如今的 iPhone 7装配了功能等级不同的Siri之外,苹果的 Mac与iPad设备至今均支持Siri。不过与Siri相比,在进入谷歌自有品牌手机Pixel之中的同时,Assistant前不久也空降到LG推出的最新款智能手机G6的身上,而且谷歌已经公告,Assistant还将配置到今后6.0或者7.0的所有 Android系统中。不仅如此,由于第三方语音助手不能整合到iOS平台,谷歌已针对性地开发了多款应用,未来可能登陆iPhone和iPad等非谷歌设备中。与苹果与谷歌相比,亚马逊虽因没有自己的智能手机而显得有点英雄气短,但却拉来了联想与华为两大重量级合作伙伴。据悉,未来Alexa将会整合到摩托罗拉更多手机中,同时华为已经宣布将在美国发售的Mate9智能手机上使用Alexa。
语音助手的功能也直接决定着其市场竞争力,因此,向第三方开放平台系统就成为科技巨头的一致性行动。据悉,在Siri平台上,开发者可以基于 Siri 提供的智能功能打造自己的 APP,而且用户仅凭语音就能直接与APP互动,进而获取相应的服务。而在Cortana平台上,微软推出了Skills Kit 和Devices SDK等开发工具,重点帮助 OEM 和 ODM 厂商轻松打造第三方智能物联网设备以及相关的应用程序。另外,由于向群體完全开放,Alexa如今的技能增加到了一万种,这一数字在今年1月还是7000种,去年年初只有 130 种;受到影响,仅Echo的用户目前就达到820万,年底可以递增到 1000 万。
值得指出的是,由于智能语音技术的研发周期长、投入大,同时智能语音对人工智能实力以及生态系统广度的要求高,因此最终产品的落地远非一个独立厂商所能全部胜任,基于此,苹果先后吃进了VocalIQ、Turi和RealFace等众多人工智能领域的创新企业,微软也在前不久收购了拿大人工智能初创企业Maluuba,而且谷歌先前掏出4亿英镑的真金白银收购DeepMind近乎路人皆知;至于亚马逊,从吸收了语音辨别公司Nuance开始,就一直没有停止资本并购的脚步,直至将Yap和Evi等语音技术初创公司悉数装入囊中。
中国企业新方阵
由于技术上目前并不足以支持开发出自我语音交互工具,或者说因为本土交互产品的质量不稳定,我国绝大多数的智能终端产品企业都像华为和联想那样只能选择与“四大天王”的合作,不过,这并不等于中国企业未能迈出自我探索的步伐。作为全球与国内领先的手机设备厂商,华为已经成立了一个由100名工程师组成的专业团队,主攻智能语音,目标事基于Assistant与Alexa以及Bixby都还无法在中国使用的现实,力争抢占国内智能手机语音交互中文市场的更多空白。
BAT被认为是在语音交互市场最具研发实力与产品推送能力的国内企业阵容,其中百度的布局轮廓最为清晰,功力积累也最为深厚。由于在图像和语音核心部位占有宽敞的入口,百度如今不仅成为了与谷歌、微软、Facebook相并列的全球四大人工智能巨头,而且在《麻省理工科技评论》公布的2016年十大突破技术中,百度凭借语音交互技术登上了榜单。不仅如此,百度语音已经与海尔、小米、Letv、联想、中兴、比亚迪、索尼、网易游戏、特斯拉建立起了合作关系,足以体现出百度语音在国内市场具备的影响力。
基于软硬结合的人工智能产品这一全新的战略方向,百度请到了全球科技界享有盛誉的杰出管理人才陆奇出任担任集团总裁兼首席运营官,而在上任不久,陆奇并亲自操盘完成了对渡鸦科技的全资收购,标的公司创始人吕骋携团队加盟百度,并出任百度智能家居硬件总经理。下一步,吕骋团队的主要任务是推进百度智能硬件业务,尤其是重点保证语音交互在智能家居领域的落地与拓展,其首先推送的将是智能音箱,并围绕智能音箱打造智能家庭,同时与第三方厂商合作,实现安防、灯光和窗帘等方面的智能化。另一方面,百度的度秘团队已升级为度秘事业部,该事业部的最重要职能就是推进智能软件的研发与升级,与吕骋团队协同打造极致创新体验的语音交互产品。
与百度在智能语音交互领域快行的脚步几乎同速,国内出现了不少聚力赶超的语音交互专业翘楚。资料显示,作为中国智能语音和人工智能领军企业,科大讯飞旗下的讯飞开放平台已成长为全球最具规模的智能交互技术服务平台,该平台以“云+端”的语音识别和语音合成服务只需简单几行代码集成SDK(软件开发工具包)便可让应用具备智能交互能力,释放双手,开启智能交互,且目前应用辐射到智能电视、可穿戴设备、智能车载以及机器人领域,同时为超过6万个App提供智能语音交互服务,并吸引了20多万开发者的入驻。相关数据显示,科大讯飞已占有中文语音技术70%以上的市场份额,为8.9亿终端用户提供语音及人工智能交互服务。
有着如科大讯飞同样丰富语音交互基因的思必驰虽然成立不到10年,但已经成长为国内唯一拥有人机对话技术、国际上极少数拥有自主产权的中英文综合语音技术的公司之一。作为目前国内唯一专注于智能硬件领域的语音公司,思必驰主要面向智能车载、智能家居和智能机器人三个垂直领域提供自然语言交互解决方案,其中思必驰语音在智能车载后装市场占据了60%份额,智能后视镜领域的市场占比达70%,而在智能HUD(平视显示器)领域更是高达80%,除此之外,像小米的互联网音箱等也采用了思必驰语音技术。
除了科大讯飞与思必驰之外,搜狗在语音交互领域也建树不凡。据悉,凭借搜索引擎的优势,搜狗不断在语音交互领域进行拓展,旗下的语音交互引擎“知音”已经应用到了全线产品中,不仅在语音输入上的准确性上可与科大讯飞相比肩,而且还凸显出非常明显的快速识别和纠错功能,未来“知音”将向着物联网、车联网和人工智能等方面延伸。
打通最后几公里
总体上而言,人工智能还只是人类触碰不久的新领域,继续的深耕无疑面临着更多的技术约束,产品的逐级落地自然就有一个不断完善的过程。从目前来看,智能语音交互的商用前景值得期待,但要真正激活未來市场并使需求保持提升,仍然需要在门槛高度、服务功能以及亲情程度等方面进行深度地结构性优化。
首先是用户的黏性问题。就像对待任何新生事物那样,智能语音助手出现后,很多用户可能会出于好奇心会去体验一下,但据VoiceLabs的报告,平均而言,一个语音技能在启用一周后仍然会被使用的概率只有3%,主要原因是技能启动的失败率较高。想要启用一个技能,首先必须记住它的名字,其次还得准确地说出特定的命令语句,这大大提高了用户的使用门槛。另外,VoiceLab的报告还显示,目前最受欢迎的技能种类主要是新闻、游戏、教育、生活方式等几大类别,而其它数不清的技能都偏离了用户的实际需求,大多数人很可能都没听说过,更不要说使用了。以Alexa为例,平台上虽然拥有超过10000项技能,但只有 31%的应用有超过一条评论,其它基本处于“僵尸状态”。
针对以上短板,亚马逊或谷歌今年将通过类似手机上的推送通知来加强新应用的分发,并试图解决用户留存率低的问题,其中亚马逊已经设立了 250 万美元的 Alexa Prize 奖金,资助 12 支大学团队,开发更能读懂“主人”的智能语音,到时智能助手充分了解“主人”需求后,会主动在合适的时间主动提示合适的应用,由此既可提高用户的使用价值,还能解决语音应用的分发留存难题。
其次是语音的丰度问题。由于目前的人工智能技术不可能做到机器自己回答问题,必须得有相应的队伍去负责更新和维护,而且语音交互支持的越多,它在后台所需的写手乃至其他人员也就越多。因此,要让语音助手表现得随意自然,还需要更深入的技术开发,并吸收更多的第三方力量进入平台之中,形成如同三星所言的“让全世界一起来教育语音助手”的众星拱月格局;另外,用户希望从语音助手那里得到的不仅仅是迅速准确的反馈,还有富有个性和感情声音以及与人类交流时的亲切感,因此,丰富语音交互的可视场景、加入更多的人性与绕情元素是语音交互自我完善的重点。不仅如此,作为脱屏化的语音交互平台,如何在不打开手机或者电脑的情况下搜索各种应用也是语音交互需要解决的问题。
再次是价值的外溢问题。综合来看,目前进驻语音交互平台的第三方主要就两类:一类是企业,立足平台所开发出技能对他们来说有很大的营销价值,而且有助于吸引更多的用户;另一类则是纯粹的爱好者,开发对他们来说不是一份工作,而是一种乐趣。显然,这两类开发者都不关注技能所带来的收入多少。但是,要吸引更多第三方或者高级开发者的加入,平台公司就必须解决好变现的路径,也只有这样,才能为语音交互积蓄与笼络更深厚的技术与开发能量。