Hi,若琪
2016-07-18华薇薇
华薇薇
两年前,刚刚成立的创业公司芋头科技在参加一次活动时表示,未来其最大的竞争对手将是Google。当时,在场的人都笑了。
无论体量还是技术实力,这家创业公司都远远称不上是Google的对手。芋头科技的言论,显示出了它的野心—当然,狂妄了点。
其主要产品是一款语音助手硬件,名字叫若琪(Rokid)。今年4月,芋头科技卖出了首批500台Rokid机器人,每台价格超过5000元,在天猫和京东上,Rokid机器人第一天的销量就达300台。
芋头科技的CEO Daniel Wong认为,语音助理硬件是一个理想的家庭物联网入口,它比手机更加简单,对外唯一的接口就是人类的语音。Rokid绕开了第三方App终端,通过Wi-Fi就可以控制第三方设备和服务提供商,它像是一个信息处理中心。“你可以对它说,‘若琪,我想听摇滚或是‘若琪,明天天气怎么样,还可以接入外卖、叫车服务等,它就像是一个家庭智能管家。”Wong对《第一财经周刊》说。
这是一种新的交互方式。尽管早在2014年,苹果的语音助手Siri已经面市,但用户使用它的心态更趋于娱乐,也就是说,即便它答非所问,我们仍然可以轻松接受这种失误。
如今的情况发生了一些变化。过去一年,硅谷技术巨头的一系列动作都在传递一个信号:未来几年内,人工智能就会无所不在。而语音技术是其中一个突破口,计算机对语音识别的正确率从2010年的70%,提高到了2016年的90%。亚马逊兼有语音助手功能的无线音箱Echo,售价199美元,去年售出了400万台。5月20日,在人工智能技术上占据领先位置的Google也正式推出了语音助手硬件Google Home。
“我们有一个隐约的边界一直没有被撕开,这个边界就是我们的意识、情感、创造力。而现在,这个边界正在被撕开,人工智能就像一个潘多拉盒子,人们的生活会变得更美好还是更糟糕,作为早期的探索者,你需要思考这一边界在哪里。”芋头科技的联合创始人祝铭明对《第一财经周刊》说。
Wong在自己的职业生涯中接触过不少技术高管,但留着络腮胡、戴着黑框眼镜的祝铭明有点与众不同。这位毕业于加州大学伯克利分校的人工智能技术博士,曾是阿里巴巴集团M工作室的负责人,这个工作室涵盖了阿里巴巴的大部分技术类研发,比如识别技术。
美国华裔Wong和祝铭明第一次见面是在阿里巴巴和三星的一次合作洽谈会上,当时,Wong是三星电子中国区副总裁,穿着摩托车服、总是迫不及待地要分享想法的祝铭明,给他留下了很深的印象。
还没开始Rokid项目之前,祝铭明曾花了一段时间研究人和机器交互中的平衡问题,在他看来,这一点对产品的设计理念很重要。他问了很多人这样一个问题:如果一辆无人驾驶汽车正在路上高速行驶,突然路上出现两个骑自行车的人,骑手A戴着头盔和护甲,而骑手B什么都没有戴,这辆车必须要撞一个人的话,请问它应该撞谁?
答案对于祝铭明来说并不重要,他想知道的是,当人工智能机器人出现在身边时,人们到底愿不愿意把有主动意识的人类的命运交付给机器人去做决定。
而这也是一个关于人和机器人交互的边界线的问题,祝铭明把他的答案投射到了Rokid的产品设计中。Rokid是一款机器人,但并不能四处走动,它的外观像是一个有着圆润弧度、顶部带光的飞碟。祝铭明认为,用户和它沟通时,它需要有透光的色彩变化,正如人类在交流时产生的表情变化。
但要让这种概念落地成产品并不容易。首先是透光的问题,理想情况是,即便在没有交互的情况下,Rokid的外观也可以呈现出白色的暖光,图像会从内部投射到圆弧形外壳上,“这需要在前盖材料的透光度和显示图像的清晰度之间找到一个完美平衡。”Wong说,他在2015年春节之前加入了芋头科技。
芋头科技当时获得了线性资本的200万美元天使轮投资,这能帮助团队更快地推进这一项目。2014年下半年,公司找到一家日本材料厂商,后者调试了20多次,终于解决了前盖的材料问题,这让团队在当年年底生产出了第一个样品。
不过,这个设计在两个月之后就遭到否决。Rokid团队在十几个城市开展了一次早期用户调研。用户反映,Rokid的尺寸放在床头柜上显得太大,放在客厅的桌子上又太小,上下部分的比例也不协调。
在收集完这些针对细节的反馈之后,祝铭明推翻了之前的设计方案,同时,他开始完成一些关键任务—开发自己的语音库,并在硅谷设立一个新的研究室,以便尽早抢夺人才资源。
这一决定实际上意味着很多不确定性。人工智能产品主要以语音控制为主,对于一个创业团队来说,最容易的介入方案就是直接采用第三方语音开源软件,实现硬件产品的快速落地。但这一办法不太适合Rokid。最大的问题在于,第三方语音技术只能解决一米之内的近场识别,但远场声控一般在10米之内,周边任何细微的杂音都会对准确度造成影响。
而Rokid团队成立时,中国几乎没有团队在开发基于远场语音识别的智能家居设备。一旦开发远场识别技术,就意味着软件算法、语音模型都要和硬件捆绑在一起,因为硬件内置的麦克风的设计属于前端设计,必须要做降噪处理。
祝铭明决定,Rokid要采用自己的中英文语音方案,所有的语音素材需在特殊搭建的房间内录制,并在10米距离内实现准确的语意理解。接下来,团队还要针对中文交流做一系列本土化调整,比如,将唤醒设备的三音节语音“Hi,若琪”直接变成“若琪”。最后,Rokid的远场声控准确度一定要达到90%以上。
现在看来,自建语音库的确是一个颇为明智的决策。第三方技术往往只提供算法,无法进一步优化,而自建语音库可以持续调整,并让结果的准确度不断提升。“作为消费者产品,不可能10句话中只有8句话能听懂,用户会觉得这个产品不行。”Wong说。
2016年年初,Rokid获得了国际消费电子展(CES)的创新大奖。3个月后,Google Home发布。后者可以看作是一张连接了Google的搜索、邮箱、视频、日历等一系列服务的人工智能网络,让Google能更容易地掌握用户的各类实时动态信息—你搜索过什么、去过哪里、买过什么,在此基础上,向用户推送更为精准的消息。
目前,Rokid已与喜马拉雅FM、网易新闻等达成合作,但它显然还无法建立像Google那样由大量内容或内容服务商构成的生态系统。Rokid需要足够多的后台数据,才能更聪明地去深度学习。而服务商们愿不愿意与之合作,某种程度上取决于Rokid平台的规模。
核心的问题可能仍然会回归到销售上。Rokid团队的下一步是快速扩充产品线,第一批Rokid是试探早期用户反应的高端产品,接下来,Rokid团队会推出不同价位的产品。
和Google竞争,这还是个有点远的目标。