抢占语音风口
2017-08-31沈玉姗
沈玉姗
7月26日,小米在北京国家会议中心发布首款AI音箱。在演示视频中,小米家居生态“米家”旗下的扫地机器人、智能台灯、空气净化器在“小爱同学”的语音操控下如常运转。这家在诞生之初曾引发中国互联网地震的明星公司,在过去一年逐渐卸下光环,而由小米探索实验室牵头研发的AI音箱,承载着小米布局智能家居版图、重塑硬件生态闭环的使命。
然而,这已是最近两月间,各个公司发布的第N款音箱了。
继谷歌与苹果分别发布音箱产品Google Home和HomePod,7月5日阿里的“天猫精灵”彻底引爆了国内的智能音箱市场。而在此前一天,国内最早入局的京东则再次抢先推出叮咚音箱新品TOP,对标亚马逊的轻量级产品Echo Dot。加上更早亮相的Rokid、喜马拉雅FM,以及即将登场的腾讯,此前每年出货量仅几百万台的音箱单品,已成为当下最火热的网红产品。
表面上,这是一场由Amazon Echo引发的智能音箱热潮。实际上,产品背后基于语音交互技术打造的语音助手和生态体系,才是这场战役的胜负关键。同一时间,腾讯、百度也相继推出基于人机对话、面向软硬件开发者和合作方的智能设备及服务开放平台。
元璟资本合伙人陈洪亮认为,声音作为一种人机交互的无形界面,将成为下一个平台级入口,带来变革性的机会。
“小米系”的顺为资本副总裁段誉表示,家庭、车载等封闭环境下的语音助手路径在业内来看已然清晰。从智能家居到自动驾驶,从前端硬件设备到后端内容服务,语音交互已升级为“风口级赛道”,被普遍视为能够建立全新产业生态的下一代人机交互操作系统。智能音箱是这场人工智能革命席卷消费级场景的首个载体,抢占语音风口的战争刚刚开始。
扎堆音箱
中国音箱的集体大秀源于Echo的偶然成功。
2014年11月,亚马逊上线业界第一款实现全语音交互的智能音箱产品Echo。基于全语音交互开辟的全新用户场景和应用生态,Echo发售后在销量和口碑上逐渐攀高,入口级地位开始显现。亚马逊随后在首页位置进行渠道强推,Echo最终在2015年的美国“黑五”期间迎来第一波销售高峰。
同一时间,竞争对手谷歌、苹果公司囿于各自强大的移动生态,仍将语音助手视为内置于手机、辅助触屏交互的非核心功能。Echo由此获得先发优势,并最终成为亚马逊史上最成功的硬件产品。
多名业内人士评价,Echo本身就是一次集天时地利人和的小概率事件。中国同行想要复制Echo却不容易。
在Rokid创始人兼CEO祝铭明看来,当前基于语音交互的智能音箱,必须在用户体验上超出长期既有、搭载于屏幕的视觉交互,才能完成产品替代和用户迁移。祝铭明此前担任阿里巴巴M工作室负责人,牵头深度学习、视觉和自然语言处理的研发工作,2014年7月创办人工智能公司Rokid,是国内最早研究消费级语音交互场景的先行者之一。
事实上,音箱早已被视为是语音交互的理想终端,只是早期的产品形态大都在体验上不尽如人意。玩家们需要围绕国内用户的使用习惯和场景进行产品的深度打磨,才能完成智能音箱的中国式转身。
首当其冲的是确保音箱在音乐点播场景下的真实可用。Rokid北京A-Lab负责人高鹏告诉《21CBR》记者,对标音乐APP的个性推荐功能,语音交互的优势在于高效直接。无论是“我要听歌”还是“下一首”,底层算法引擎和音乐产品策略,时刻接收用户指令,并综合时间、曲库等外部因素变化以及用户的使用偏好,不断纠正、生成个性化的推荐歌单。除了音乐曲库,通过与喜马拉雅FM合作,儿童故事、小说相声也在Rokid的内容体系之列。
海量内容是各家音箱在这场年中大秀上的亮点,也是喜马拉雅FM涉足音箱硬件的背后逻辑。6月,喜马拉雅FM联合多方发布“小雅”音箱,主打基于“一云多端”的断点续播功能,能够在多台设备上记录并续播此前没有听完的内容。其副总裁李海波向《21CBR》记者解释:“喜马拉雅FM活跃用户日均使用时长已经超过128分钟,(通过手机)已经相当高了,必须用小雅拿下更多的用户时间。”
与欧美国家的音乐消费主流不同,国人在有声读物方面表现出巨大的收听热情。李海波介绍,喜马拉雅FM的激活用户数有3.7亿,有声内容达6000多万条,并且以每天百万条的速度不断增长。音箱成为有声内容向多个生活场景延展的理想载体,但如何让6000多万条音频顺利到达用户?
移动电台的有声读物标题动辄长达二三十字,音箱是每次都把字一个个读下来,还是一旦完成检索、识别就自动停下来开始播放?产品策略人性化与否,常常体现在细微处。团队为此对平台上的音频数据进行前端优化,包括语音搜索引擎的推荐排序以及内容标题的关键信息提炼。小雅音箱的语音技术提供方——猎户星空的投资人傅盛因此感慨:“人工智能,有多少智能,就有多少人工。”
相比基于PC、手机触屏的视觉交互,语音交互一定程度上降低了此前交互效率低的缺点,更适合不擅长使用手机的儿童及老人。各家厂商纷纷将故事儿歌、相声戏曲列为重要内容构成。京东为此联合新东方,于2015年10月推出了内置泡泡少儿英语教材的“叮咚音箱”教育定制版。而在当年5月,京东与科大讯飞组成的合资公司“灵隆科技”才刚刚推出国内首款智能音箱“叮咚”。
教育版“叮咚”很快成為新东方线下课堂的重要教辅工具。学生使用音箱完成教材规定的朗读作业,云端将音频传输至为老师定制的手机APP,再将打分点评的结果自动返回给学生。此前,这样的课后作业环节大多以学生录制微信语音,再由家长代为上传到班级微信群中的方式完成。灵隆科技CEO魏强告诉《21CBR》记者,教育版音箱在新东方全国的主要网点推广试用后,受到了家长的普遍欢迎,学生购买比率超过50%。
2016年,叮咚音箱在中国智能音箱市场占比超过80%,魏强表示今年的销量仍以100%的速度增长。Rokid也宣布,其日活跃度超过50%,用户平均使用时长达1小时以上,为现有公开的音箱品类中最高。然而,中国智能音箱行业的整体出货量仍在百万级别,在消费电子市场并非可观的品类,用户也尚未养成使用语音的习惯,中国智能音箱秀尚需迎接来自更广泛的市场和用户的检阅。
祝铭明说:“现阶段最迫切的问题是,除了內容点播、天气、闹钟等工具类功能之外,语音交互到底还适用于哪些细分场景。”
“唤醒”智能
祝铭明认为,要实现自然的人机语音交互,首先要像对待朋友那样,以两个字的称呼唤醒机器。
业内对于唤醒词的定制规则通常是4-6个汉字,音节覆盖越长,相邻音节差异越大,误唤醒率越低。事实上,为保证实际使用时的唤醒效果,包括谷歌、苹果在内的国内外厂商都将唤醒词设置为3-4个音节,比如“OK,Google”和“Hi,Siri”。
高鹏告诉《21CBR》记者,为了让双音节唤醒词“若琪”达到“可用水平”,Rokid团队耗时近一年,将不断收集的天使用户语料用于唤醒词的算法模型训练,同时调整相关的产品策略,比如在本地和云端添加多道验证,最终将室内环境下10米以内的“若琪”唤醒率提升至90%以上,响应速度控制在500毫秒。
唤醒词门槛的高低对于用户的习惯养成意义重大, 唤醒词的背后实际上是一条完整的语音交互技术链:从远场交互技术、麦克风阵列,到语音识别、理解、合成的相关算法,对应着音箱从“听清”、“听懂”到最终“开口说话”的一系列步骤和相关软硬件生态。阿里巴巴人工智能实验室负责人陈丽娟就将天猫精灵称为“链路最长的产品,任何环节出错都会被乘数级放大”。
Rokid是业内少有的自主研发语音技术及把控产品全程链路的公司,而更多玩家则以组队的方式“打怪升级”,逐个击破。
Echo被视为最重要的硬件革新,主要在于产品顶部的6+1环形麦克风阵列设计,配合降噪处理、声源定位等技术,能够实现360°语音信号采集和5-10米半径内的语音识别效果,大大提升了远场语音交互体验。Echo发售不久,国内语音技术服务商便迅速跟进。科大讯飞为首款叮咚音箱配备了8个麦克风的环形阵列;思必驰则推出国内首个与Echo同源的麦克风阵列,并为天猫精灵、小米提供相应的麦阵软硬件、语音识别等技术方案。
思必驰CMO龙梦竹告诉《21CBR》记者,语音交互产品涉及各方面因素,包括环境、用户和产品本身,“以算法降噪为例,麦克风的距离角度、声源的定位、音箱的选型,从任何一个出发点考虑,都会生成很多情况,是对语音交互能力的综合考察,甚至可能推翻产品原有的工业设计方案”。
语音识别的算法提升,也得益于深度学习近年来在问答式语音场景中的应用。通过收集海量语音数据,采用深度神经网络的端到端训练方法,各家在语音识别的准确率、速度等性能表现日趋逼近,数据石油的开采逐渐从通用领域走向垂直场景。喜马拉雅FM仅针对唤醒识别一项功能就录制了超过8万条“小雅小雅”,阿里巴巴为了让天猫精灵适应家居场景则收集了大量与玻璃、木材、金融等材质相关的噪音。
语音合成也离不开数据准备。音箱能够自然地“开口说话”,背后是大量的语音合成工作。Rokid北京A-Lab科学家孟猛曾表示:“高品质的语音合成需要精心挑选声优,还要专业的录音师、监听员,资源耗费多,产品周期长。语音识别能收集到上万小时的数据,语音合成能有100小时就很不错,需要通过算法把难度降下来。”
不过,多名业内人士向《21CBR》记者解释,数据驱动的深度学习在带有一定识别规则的任务式对话中表现突出。然而,一旦进入自然语言理解环节,尤其多轮对话的应用中,需要机器调动更接近人类思维模式的认知和推理能力,深度学习便威力不再,音箱时常表现出“没有听懂”。距离自主学习、实现真正意义上的“智能”,音箱还有很长一段路要走。
风口来临
尽管现阶段的智能音箱仍需突破技术难关,其背后初具雏形的语音平台已经让众多的科幻电影场景成为现实。人们看到了语音交互在消费级市场的巨大潜力,纷纷布局生态,满城尽是“开放平台”,风口似乎来了。
一位投资人向《21CBR》记者描绘了这样一幅生活场景:“当我问音箱今天什么天气,唤醒的可能是墨迹;要听儿童故事,背后有的是咔哒(一款儿童有声故事App);听歌则是网易云音乐。语音本身成为新的入口,这与移动互联网时期的手机端入口概念是不一样的。”
从硬件到技术,从内容到数据,各家看到了语音交互商业变现的种种可能,实际建立起生态体系时,在方向和逻辑上却不尽相同。
厂商普遍提及的首要任务是搭建语音技能平台。截至目前,Echo销量突破1000万,Alexa平台上的语音技能(Skills)已达1.5万种,布局成果超出众人预期,亚马逊也凭借Echo在硬件市场打了一记翻身仗。后来者纷纷效仿Alexa,加码生态建设,比拼技能数量,试图以更丰富的语音技能应用拉拢更多用户。
不过,根据AI观察机构Voicebot的统计,Alexa平台上拥有最多评论的前10%技能占据了80%的总评论数,包括音乐、教育、资讯等大类技能,其余绝大多数技能则乏人问津。从研发阶段、产品化到开放给第三方开发者,Alexa跑通这条路花了5年时间。祝铭明认为,技能并非越多越好,相比接入大量技能,现阶段专注于核心技能的体验优化更为重要。
思必驰则横向输出技术,定位为人机交互的智能解决方案平台。2015年,思必驰面向硬件合作方推出AIOS人机对话操作系统,封装了核心的语音技术和对话交互逻辑。7月7日,思必驰宣布打造DUI(Dialogue User Interface)開放平台。相比AIOS,DUI更像是解决方案的自选超市,提供可定制的语音技术全链能力,“相当于AIOS的升级版。”龙梦竹称。
与科大讯飞一样,思必驰是国内仅有的两家具有全套语音技术产权的公司之一,专注智能硬件领域的技术输出。
创业公司在垂直领域挖掘平台深度和转身空间,大公司则试图一网打尽、打造航母级生态体系。
2015年9月,李彦宏在百度世界大会上推出基于移动端的语音助手“度秘”。2016年下半年,百度加速语音赛道布局,将度秘改名为DuerOS,成立单独事业部,转型技术输出。今年7月5日,在百度首届开发者大会上,度秘事业部总经理景鲲正式发布DuerOS开放平台,表示DuerOS将是人工智能时代的安卓系统。
京东、阿里、腾讯也先后发布平台计划:开发语音助手,建立硬件和技能平台。与百度的不同之处则是增加了终端的音箱产品。BATJ均表示要以低门槛赋能智能语音设备,似乎都指向了一幅更大的生态图景:智能家居。业内普遍认为,语音交互是智能硬件的关键入口,智能硬件又是语音交互的主要应用,二者天然契合。
魏强告诉《21CBR》记者,通过与京东智能家居接入平台“微联”对接,叮咚音箱后台已接入智能家居设备超过1000款,覆盖灯具、空调、电视、厨具等21个品类,能够进行跨平台、跨品牌的连接控制,“未来,终端与平台的关系不是1:N或N:1,而是N:N。”
更有布局硬件生态三年的小米,欲借此激活新的业务增长点。在6月的米家年度发布会上,小米联合创始人刘德透露,小米硬件生态链平台MIOT已连接6000万台智能设备,米家做的是“明天”的产品。研究机构Statista的统计数据显示,2016年全球智能家居市场规模已达168亿美元,预计到2021年,中国市场比重将从7%上升至17%。
在祝铭明看来,语音交互能够实现的多机协作、个体认知,将带来跨设备、跨场景的状态迁移,“虚拟的若琪是跟着人走,而非跟着设备走,最终将是一个无处不在的AI”。届时,承担语音入口功能的或许也不再是音箱了。龙梦竹认为,Echo只是Alexa生态孵化出的第一个产物,“音箱只是语音的一个载体,核心是对话交互”。
智能音箱承载着人们对人工智能和未来生活的众多想象,但能否成为“爆款”还有待市场的检验。