音箱也疯狂
2017-07-12李蓉慧王杰夫
李蓉慧+王杰夫
一台Amazon Echo智能音箱的定价是179美元,对于搬到西雅图、想为家里添置些新东西的李轶来说,这个价格可以接受。
她曾是住在硅谷的创业者,对各类新潮的电子消费品一点也不陌生,无论是在拉斯维加斯的电子消费展(CES),还是在硅谷遇到的不少做电子消费品的同行,有太多设计感很不错的可穿戴设备,却也从未激发起她的购买欲。直到李轶去了亚马逊的西雅图总部工作,她的想法才有所改变。
李轶并不算是音乐发烧友,所以不需要过于专业的播放设备,作为亚马逊Prime会员,她首先想到的是,Echo可以用来为她播放免费在线音乐。另外,黑色的音箱外观,摆在家里看着也毫无违和感。
令李轶没有想到的是,自从这个小音箱走进她的新家,一段时间以后自己的生活变得和从前有些不一样了。
取代了使用多年的手机闹钟功能,现在李轶会直接告诉Amazon Echo内置的人工智能助手Alexa来设定一个每天叫醒自己的时间;起床后,她已经习惯冲着Echo音箱说:“Alexa,play some morning music.”(Alexa,放一些早晨听的音乐吧。)于是,音乐就会在屋内响起;或者问:“Alexa,whats the news today?”(Alexa,今天有什么新闻?)每次出门前,她都会问一下Alexa当天的天气情况。此外,李轶发现,这台音箱还在不断“学习”各种新本领—预约Uber、叫外卖、查看银行账户……
发生在李轶身上的使用经历,代表的正是亚马逊在数年前就已经看到的一个相当大的新用户需求。根据美国市场调研机构CIRP今年1月末发布的监测数据,已有至少820万用户购买了亚马逊Echo音箱。这意味着亚马逊已经由一台小小的音箱掌握了超过500万个家庭端口,它开始一点一滴学习你的各种生活习惯和消费场景。
市场调研公司eMarketer在2017年4月发布的报告指出,2017年有3560万美国人至少每个月会使用一次人工智能语音助手设备,比2016年增长128.9%。这份报告还指出,在智能语音外设硬件产品中,Amazon Echo以70.6%的市场份额,占据绝对优势;其次是Google在2016年推出的同类产品Google Home,目前在美国市场占有率为23.8%;其余的5.6%被包括LG、联想等其他硬件厂商瓜分。
尽管早在若干年前,技术公司们都已经意识到,智能语音互动将会是下一代技术产品最核心的用户入口,但是从手机到手表,再到其他各种加载语音交互功能的可穿戴设备或者影音硬件,似乎都没有真正打中用户的需求要害,显得不得其法。
现在,数百万级的销量和每月千万次的使用证明了亚马逊的这款智能音箱并非是一个类似Google Glass那样天马行空的概念产品,以它为入口,可能是一片有待开发匹配更多用户需求的蓝海。
于是,不愿意错过机会的大公司们开始纷纷寻找自己的“音箱入口”—Google有了Google Home,微软将Cortana放在了與哈曼卡顿合作推出的Invoke内,在6月闭幕的WWDC大会上,苹果也带来了内置Siri的Apple HomePod。
虽然Amazon Echo看起来简单得就像是给音箱加上了一个麦克风而已,但这款现象级产品的诞生过程并非一帆风顺。
2014年7月,亚马逊发布由CEO杰夫·贝索斯曾亲自介入产品设计的智能手机Fire Phone,但销量惨淡,从最早199美元的上市价格一路下跌仍无法说服消费者购买,这场围绕智能手机入口与iPhone的竞争因此草草收 场。
但贝索斯是一个不甘于失败的人,他擅长学习和从错误中重新找到方向。Echo音箱与Fire Phone其实渊源颇深。据《第一财经周刊》了解,Echo是一个几乎与Fire Phone同时开启的项目。Fire Phone的失败不仅没有磨灭亚马逊继续打开硬件市场的决心,反而让亚马逊变得更加谦虚。Fire Phone的部分成员后来转入亚马逊其他硬件团队,其中也包括Echo团队,这些人的经验为早期Echo的产品研究来了帮助。
亚马逊的语音技术研发开始于2011年。那一年,亚马逊收购了语音识别技术创业公司Yap,从此开始研发自己的智能语音助手。与Fire Phone的高调不同,第一代的Echo音箱选择在2014年11月悄悄上线,亚马逊甚至没有为它举办一场产品发布会。受到Fire Phone惨败的影响,当时市场上正弥漫着关于“亚马逊根本没能力做出颠覆性的硬件产品”的悲观论调。
科技媒体Business Insider在一篇报道中称,在研发Echo期间,亚马逊对这款产品的定位是智能家居的一部分,让用户通过发出声音下达指令。这种新的交互场景对语音识别技术和数据储备提出了更高的要求。
如果从苹果公司在2011秋天发布iPhone 4s时首次引入Siri智能语音助手算起,Alexa并非是最早的语音识别助手产品。无论是微软的Cortana、苹果的Siri,还是Google Assistant,美国技术大公司们在智能语音助手领域较劲已久,例如苹果的Siri除了应用于智能手机,如今也接入了Mac电脑和无线耳机等硬件设备,而智能音箱不过是这些虚拟助手的又一个硬件实体。但是,考虑把一个语音识别助手放在用户的客厅里,这还是第一 次。
很快,人们发现“家庭”其实是使用智能语音助手非常有利的场景。至今我们仍然很少见到有人在公共场合举着一部iPhone手机大声地对Siri发号施令,因为那场面实在有些尴尬。市场调研机构Strategie在2016年发布的一份报告中指出,只有3%的iPhone用户表示愿意在大庭广众下使用Siri。
Echo开辟的家庭场景相对私密,虽然以音箱形式出现会牺牲一定的产品便携性,但这款智能语音助手最大的野心,是要充当用户的“家庭智能管家”。
可是,想当好这个管家,让人机交互的体验能够与真人沟通相媲美,亚马逊的研发团队还是下了一番苦功。
“这里面一个是语音识别的精度问题—你说一句话,它要能准确翻译成文本;另一部分是语义分析,当你说了一句话之后,它从里面能理解你说这句话是想做什么。”一位在亚马逊Alexa部门工作的内部人士对《第一财经周刊》这样描述Echo在识别出用户说了什么并给出反馈这一环所面临的挑战。
贝索斯要求技术人员将Alexa对用户指令的反应时间,从当时相关技术普遍可以实现的2.5到3秒,直接缩短到1秒以内。他所定下的这个“不可能的任务”最终推动团队将反应时间缩短在1.5秒内。
此外Echo团队的工作人员开发了一项测试,用来获知Alexa做出什么样的反应,会是用户最喜欢的。
解决掉智能语音助手的体验问题,接下来就得解决产品商业化的核心问题—要给用户一个购买的理 由。
Echo团队在悄悄发布产品后,持续收集用户的反馈,他们发现,有超过40%的用户反馈说购买Echo是用来听音乐的。于是亚马逊开始训练Alexa如何更好理解用户听音乐的需求。Echo可以免费播放的在线音乐库包括亚马逊自己的音乐服务以及流媒体播放器Spotify。但能享受这项服务的用户,必须是亚马逊或者Spotify的付费会员。
技术与产品化是两件事情。如果说在围棋界打遍天下无敌手的AlphaGo证明了人工智能技术在一个垂直领域里的巨大能量,但AlphaGo的技术至少在目前与普通人的生活基本无关。而Alexa却正好相反。“用户首先要买一个有用的东西。”李轶认为,“Echo以一个音箱做入口,用户会对智能语音助手降低心理门槛。而且家里这个环境很特别,相对安静,用户的指令也会相对集中在几个领域里。”
亚马逊从来没有对外透露过Echo音箱的具体销量。但Echo的一炮走红,据说最初也超出了亚马逊自己的预期。上市早期有员工曾对美国当地媒体透露,Echo在刚推出的两周内接受了超过100万份预订订单。
中國的技术公司试水智能音箱领域,则大约是从2015年开始的。
2015年,京东与科大讯飞合资成立灵隆科技,第一款产品—叮咚音箱于当年5月推出。同年年底,阿里巴巴与飞利浦联合发布了小飞智能音箱。2016年冬天,小米则发布了一款互联网音箱。这些产品的目标一致,都想抢占“中国版Echo”的角色。
毕竟Amazon Echo那时也才刚刚推出不久,所以国内的观望者居多。但是经过整个2016年的进一步孵化,特别是在亚马逊在去年6月发布了Alexa软件开发工具包之后,在2017春天的CES展上,虽然亚马逊并没有布设展台,但是在很多智能交互的硬件设备中,都出现了Alexa的身影,反令亚马逊成为最耀眼的技术公司。
展会主办方美国消费技术协会(CTA)首席经济学家Shawn DuBravac表示:“配备了亚马逊的Alexa语音助手的产品现在大约有1500种。未来4天内如果有700多种(支持Alexa的)产品推出,我不会感到惊讶。”
看到Echo和Alexa所引发的这轮智能语音产品的繁荣,更多的中国的技术公司们在2017年迅速为智能音箱疯狂起来。
2月,百度将对话式人工智能秘书—“度秘”的产品团队升级为事业部,并且与家庭智能陪伴机器人—小鱼在家合作推出视频机器人。
有了Alexa的示范效应,“开放平台”几乎成了最近半年来智能音箱热潮中最频繁听到的一个词汇。
4月,主打语音识别的AI创业公司出门问问,发布了功能与Alexa相似的虚拟语音助理—“问问”,并向开发者和第三方硬件厂商全面开放。同时这家公司也宣布将在几个月内对外推出针对家居场景的智能音箱Tichome。
同月,腾讯推出名为“叮当”的语音助手产品,其项目开发团队隶属于MIG(移动互联网事业群)。有趣的是,仅仅一个月之后,隶属于腾讯SNG(社交网络事业群)的腾讯云团队发布了智能语音解决方案—“小微”。
腾讯云表示,已经与30余家合作伙伴接入了腾讯云小微。家庭智能服务型机器人公司优必选基于其解决方案,发布了一款带有智能语音交互功能的家庭人形机器人Qrobot Alpha。半年前,优必选曾使用亚马逊Alexa解决方案,发布过名为Lynx的人形机器人。这次与腾讯合作,则是看中了后者数亿级的海量用户资源。
6月,喜马拉雅FM发布小雅智能音箱,语音技术方面与AI创业公司猎户星空合作。7月初,据外媒报道称,阿里巴巴也将在近期发布“会讲中文的智能音箱”产 品。
一个公司不可能完成所有的事情,亚马逊也需要借助平台的力量来帮自己横向扩展语音识别的领域。
亚马逊人工智能服务部门在2016年发布智能助手开发工具Polly、Lex和Rekognition。前两个工具的任务分别是负责语音转换为文字和语义分析,它们正是Alexa的技术核心。
2015年开始,亚马逊还为Alexa投入了1亿美元成立Alexa Fund,至今共投资了23个公司,业务与Alexa相关或互补。换一个角度来看,很多创业公司也正是借助Alexa找到了创业灵感。随着智能音箱的出现,一部分原本赋予智能手机的重要功能会被剥离出来。相比于已经非常拥挤的移动智能设备市场,这可能会是一个弯道超车的机会。
曾经在苹果地图部门工作的华人工程师刘宿莽,2015年第一次使用Echo音箱时,马上就感受到它的特别之处。此后他把当时所能找到的所有关于Echo的用户评论逐一阅读了一遍。
“iPad之后,这么好的消费电子产品已经很久没有出现过了。虽然当时用的人很少,网上的评论不到1万条,很多人也会说有些地方不好用。但是出人意料的是,人们对一个语音助手不是抱着一种嘲笑的态度。”刘宿莽说,他相信Alexa会变成一个平台级别的产品。
离开苹果后,刘宿莽想去做一些项目,针对苹果和Siri都还没解决的问题,Alexa帮他锁定了创业的具体方向。他和朋友在旧金山做了一家叫Mosaic的公司,获得了来自真格的种子基金并入选了硅谷有名的创业孵化器Y Combinator的2016年夏季项目。后来,他们做了一件很有名的事情—用Alexa控制了一辆特斯拉。
最早,投资人并不太看好刘宿莽选择亚马逊的智能语音解决方案,认为它并不属于这个领域的“大玩家”。2016年夏天,正是利用Alexa的软件开发工具包,Mosaic通过Alexa发布指令,成功发动了一辆特斯拉,成为Alexa实现的“前20个技能之一”。此后,这家创业公司开始尝试更多可以利用Alexa的使用场景,比如车载信息服务。
人工智能公司KITT,也是获得Alexa Fund投资的公司之一。在Alexa之外,如果人们想用更有个性的唤醒词来叫醒一个智能语音交互设备,对普通厂商来说技术难度大,亚马逊更愿意做底层基础通用技术。KITT联合创始人姚旭晨对《第一财经周刊》解释说,KITT的业务就是帮助厂商来定制唤醒词。
换句说话,现在用户手里的这台“智能语音管家”的名字可以不必叫“Alexa”,他们可以更换成任何自己喜欢的个性化名字。
KITT接待的厂商既有来自欧美的企业,也有国内企业。其中有些缺乏技术背景的厂商会问姚旭晨:“语音交互是不是给设备上增加一个麦克风?”但他更多感受到的是前来谈合作的厂商所怀有的一种“害怕”心态—他们害怕错过下一个技术浪潮。
“以后麦克风会无处不在,不管是在家里、车里还是手机上。这说明语音是一个很好的交互方式。眼下智能交互体验的提升,还需要一些时间。做到那一天的时候,很多传统的设计和交互方式会消失。”姚旭晨说。
喜马拉雅FM副总裁兼硬件事业部总经理李海波对《第一财经周刊》回忆说,两年多以前,接入喜马拉雅INSIDE开放平台的音响产品只有几家,一年后这个数字增长到50多家,到今年则已经接近300家。
不少公司在研发自己的智能音箱产品之初,会想到去寻找亚马逊Echo留下的技术或体验空当。或者,通过结合之前已有的产品背景条件,尽量形成差异化、有自身特色的音箱功能。
比如从内容起家的喜马拉雅FM,据李海波表示,小雅智能音箱在公司内部更多地是被定性为一个“实体播放器App”。它的智能化,首先是体现在“App上有多好玩多顺畅,在音箱上的体验也应该一样”。
这款音箱解决了用户的断点在家续播的需求,其次才是“全链接能力”—把端口开放,接入第三方服务,就像Alexa可实现的那样。
用李海波的话来讲,这款智能音箱只不过“顺便还是一个聪明可成长的系统”,但它并非主要能力。
国内另一个家庭机器人Rokid的创始人祝明铭在不久前的一次小型发布会上对媒体记者们说了这样一番话:“接下来的半年,找你们寻求报道的智能音箱、智能语音助手公司会非常多。但我确定,它们中的绝大部分人并没有想清楚自己要做什么。”
创业之前,祝明铭曾是阿里巴巴负责人工智能技术应用的部门—M工作室的创建者。Rokid于2014年成立,是中国最早做智能语音助手的创业公司之一,目前对外推出的几款机器人产品,也都是以“家”作为应用场景。
为一个普通音箱装上一支麦克风,增加很简单的几项语音控制功能—这是祝明铭对目前很多沿袭Echo产品思路的智能音箱的评价。此外,他觉得中国的技术公司有点过于高估了Amazon Echo的表现,因此才会盲目地选择了类似亚马逊的路线,一股脑地全都在做智能音箱。
“Amazon Echo近千萬的销量很大程度是靠亚马逊平台流量的推动,”祝明铭对《第一财经周刊》指出,“这几年打开亚马逊,首页头条常常被Echo占据,这样的推广力度,没有几家公司可以做到。”
Rokid目前也在做智能音箱,但Rokid产品项目负责人向文杰解释说,“我们更想做的是一个智能助手,而音箱是我们现在最好的落地点。”
亚马逊的平台虽然有超过1.2万项技能,但是用户目前最常用的功能,只集中在前10项左右。祝明铭认为,Echo这个入口还不具备像智能手机应用商店那样的能力,可以最终带活整条长尾需求的能力。
祝明铭表示,Rokid的智能化方向是与Google Home划在同一阵线。
2016的Google I/O开发者大会上曾播放了一段有关Google Home的宣传视频,其中演绎了一个四口之家从早上起床到出门的场景,家庭的每个成员都各自独立地与Google Home对话、安排日程,而这个智能音箱也能够识别不同人的声音,并作出相应的决策。
能服务于不同的家庭成员,对他们分别做数据分析,更精准地迎合专属于每个人的个性化需要—这里面应用的,是一种在人工智能领域里被称为“声纹识别”的技术,它使得机器能够区分不同人下达的指令。此外,祝明铭认为Echo产品表现的“完成任务”的工具感较强,但是看不到与用户“主动交流”的聊天能力。
但事实上,智能音箱界并不存在“向左走、向右走”的技术流派选择问题。虽然Siri和Alexa目前看更像是“任务型”,而微软小冰则属于是“陪聊型”,但未来,这些语音入口会殊途同归,综合多种能力,让它实现更聪明、更人性化的交互体验。
前述受访的那位Alexa的内部人士也对《第一财经周刊》证实,现在Alexa虽然做不到定制化服务,只有用户的Amazon账号信息,无法做到多人语音识别,而设备与设备之间没有对话或者实现信息同步,但“这些功能的确是我们正在努力的一个方向”。
“因为一开始我们是假设Alexa就存在一个Echo音箱里,现在销量上去了之后,就会出现打通多个设备的需求。比如在办公室里让Alexa播放了一段视频,回家想接着看,这种应用场景。”这位内部人士透露,同步互联功能正是亚马逊Alexa想下一步尽快解决的问题。
今年5月,亚马逊推出了一款带7寸触摸屏和一个500万像素摄像头的智能音箱—Echo Show,增加了视频通话功能。当然,它也马上陷入到新的争议—一款音箱增加触屏是否属于刚需。所以总体上,智能音箱类的产品在全球都还处在一个很早期的阶段,眼下竞争才刚刚开始,亚马逊的先发优势可能并没那么強,现在入场的新公司也没那么晚。
任何新产品或者新功能的出现都未必是定型之作,而只是长期进化历程中的阶段性成果,当然,也可能是阶段性走了弯路。
而回到中国市场,应该看到,与美国人的家庭文化不同,绝大多数中国家庭并没有高频使用音箱播放音乐的习惯,大家更喜欢带耳机听歌,哪怕是一个人在家里也很少有人选择打开喇叭听音乐。这个市场可能需要更长的教育期。因此当中国公司们将这个领域看作另一个风口蜂拥而入时,市场饱和的速度肉眼可见。所以在祝明铭看来,国内的智能音箱市场空间可能最多也就几百万台。
“5万台是一个门槛。”祝明铭在今年6月的记者会上讲出这个数字。如果一款智能音箱能卖出5万台,就证明“在若干个产品里面至少有一台是你的了”。