抢占语音风口

2017-08-31沈玉姗

21世纪商业评论 2017年8期

沈玉姗

7月26日，小米在北京国家会议中心发布首款AI音箱。在演示视频中，小米家居生态“米家”旗下的扫地机器人、智能台灯、空气净化器在“小爱同学”的语音操控下如常运转。这家在诞生之初曾引发中国互联网地震的明星公司，在过去一年逐渐卸下光环，而由小米探索实验室牵头研发的AI音箱，承载着小米布局智能家居版图、重塑硬件生态闭环的使命。

然而，这已是最近两月间，各个公司发布的第N款音箱了。

继谷歌与苹果分别发布音箱产品Google Home和HomePod，7月5日阿里的“天猫精灵”彻底引爆了国内的智能音箱市场。而在此前一天，国内最早入局的京东则再次抢先推出叮咚音箱新品TOP，对标亚马逊的轻量级产品Echo Dot。加上更早亮相的Rokid、喜马拉雅FM，以及即将登场的腾讯，此前每年出货量仅几百万台的音箱单品，已成为当下最火热的网红产品。

表面上，这是一场由Amazon Echo引发的智能音箱热潮。实际上，产品背后基于语音交互技术打造的语音助手和生态体系，才是这场战役的胜负关键。同一时间，腾讯、百度也相继推出基于人机对话、面向软硬件开发者和合作方的智能设备及服务开放平台。

元璟资本合伙人陈洪亮认为，声音作为一种人机交互的无形界面，将成为下一个平台级入口，带来变革性的机会。

“小米系”的顺为资本副总裁段誉表示，家庭、车载等封闭环境下的语音助手路径在业内来看已然清晰。从智能家居到自动驾驶，从前端硬件设备到后端内容服务，语音交互已升级为“风口级赛道”，被普遍视为能够建立全新产业生态的下一代人机交互操作系统。智能音箱是这场人工智能革命席卷消费级场景的首个载体，抢占语音风口的战争刚刚开始。

扎堆音箱

中国音箱的集体大秀源于Echo的偶然成功。

2014年11月，亚马逊上线业界第一款实现全语音交互的智能音箱产品Echo。基于全语音交互开辟的全新用户场景和应用生态，Echo发售后在销量和口碑上逐渐攀高，入口级地位开始显现。亚马逊随后在首页位置进行渠道强推，Echo最终在2015年的美国“黑五”期间迎来第一波销售高峰。

同一时间，竞争对手谷歌、苹果公司囿于各自强大的移动生态，仍将语音助手视为内置于手机、辅助触屏交互的非核心功能。Echo由此获得先发优势，并最终成为亚马逊史上最成功的硬件产品。

多名业内人士评价，Echo本身就是一次集天时地利人和的小概率事件。中国同行想要复制Echo却不容易。

在Rokid创始人兼CEO祝铭明看来，当前基于语音交互的智能音箱，必须在用户体验上超出长期既有、搭载于屏幕的视觉交互，才能完成产品替代和用户迁移。祝铭明此前担任阿里巴巴M工作室负责人，牵头深度学习、视觉和自然语言处理的研发工作，2014年7月创办人工智能公司Rokid，是国内最早研究消费级语音交互场景的先行者之一。

事实上，音箱早已被视为是语音交互的理想终端，只是早期的产品形态大都在体验上不尽如人意。玩家们需要围绕国内用户的使用习惯和场景进行产品的深度打磨，才能完成智能音箱的中国式转身。

首当其冲的是确保音箱在音乐点播场景下的真实可用。Rokid北京A-Lab负责人高鹏告诉《21CBR》记者，对标音乐APP的个性推荐功能，语音交互的优势在于高效直接。无论是“我要听歌”还是“下一首”，底层算法引擎和音乐产品策略，时刻接收用户指令，并综合时间、曲库等外部因素变化以及用户的使用偏好，不断纠正、生成个性化的推荐歌单。除了音乐曲库，通过与喜马拉雅FM合作，儿童故事、小说相声也在Rokid的内容体系之列。

海量内容是各家音箱在这场年中大秀上的亮点，也是喜马拉雅FM涉足音箱硬件的背后逻辑。6月，喜马拉雅FM联合多方发布“小雅”音箱，主打基于“一云多端”的断点续播功能，能够在多台设备上记录并续播此前没有听完的内容。其副总裁李海波向《21CBR》记者解释：“喜马拉雅FM活跃用户日均使用时长已经超过128分钟，（通过手机）已经相当高了，必须用小雅拿下更多的用户时间。”

与欧美国家的音乐消费主流不同，国人在有声读物方面表现出巨大的收听热情。李海波介绍，喜马拉雅FM的激活用户数有3.7亿，有声内容达6000多万条，并且以每天百万条的速度不断增长。音箱成为有声内容向多个生活场景延展的理想载体，但如何让6000多万条音频顺利到达用户？

移动电台的有声读物标题动辄长达二三十字，音箱是每次都把字一个个读下来，还是一旦完成检索、识别就自动停下来开始播放？产品策略人性化与否，常常体现在细微处。团队为此对平台上的音频数据进行前端优化，包括语音搜索引擎的推荐排序以及内容标题的关键信息提炼。小雅音箱的语音技术提供方——猎户星空的投资人傅盛因此感慨：“人工智能，有多少智能，就有多少人工。”

相比基于PC、手机触屏的视觉交互，语音交互一定程度上降低了此前交互效率低的缺点，更适合不擅长使用手机的儿童及老人。各家厂商纷纷将故事儿歌、相声戏曲列为重要内容构成。京东为此联合新东方，于2015年10月推出了内置泡泡少儿英语教材的“叮咚音箱”教育定制版。而在当年5月，京东与科大讯飞组成的合资公司“灵隆科技”才刚刚推出国内首款智能音箱“叮咚”。

教育版“叮咚”很快成為新东方线下课堂的重要教辅工具。学生使用音箱完成教材规定的朗读作业，云端将音频传输至为老师定制的手机APP，再将打分点评的结果自动返回给学生。此前，这样的课后作业环节大多以学生录制微信语音，再由家长代为上传到班级微信群中的方式完成。灵隆科技CEO魏强告诉《21CBR》记者，教育版音箱在新东方全国的主要网点推广试用后，受到了家长的普遍欢迎，学生购买比率超过50%。

2016年，叮咚音箱在中国智能音箱市场占比超过80%，魏强表示今年的销量仍以100%的速度增长。Rokid也宣布，其日活跃度超过50%，用户平均使用时长达1小时以上，为现有公开的音箱品类中最高。然而，中国智能音箱行业的整体出货量仍在百万级别，在消费电子市场并非可观的品类，用户也尚未养成使用语音的习惯，中国智能音箱秀尚需迎接来自更广泛的市场和用户的检阅。

祝铭明说：“现阶段最迫切的问题是，除了內容点播、天气、闹钟等工具类功能之外，语音交互到底还适用于哪些细分场景。”

“唤醒”智能

祝铭明认为，要实现自然的人机语音交互，首先要像对待朋友那样，以两个字的称呼唤醒机器。

业内对于唤醒词的定制规则通常是4-6个汉字，音节覆盖越长，相邻音节差异越大，误唤醒率越低。事实上，为保证实际使用时的唤醒效果，包括谷歌、苹果在内的国内外厂商都将唤醒词设置为3-4个音节，比如“OK，Google”和“Hi，Siri”。

高鹏告诉《21CBR》记者，为了让双音节唤醒词“若琪”达到“可用水平”，Rokid团队耗时近一年，将不断收集的天使用户语料用于唤醒词的算法模型训练，同时调整相关的产品策略，比如在本地和云端添加多道验证，最终将室内环境下10米以内的“若琪”唤醒率提升至90%以上，响应速度控制在500毫秒。

唤醒词门槛的高低对于用户的习惯养成意义重大，唤醒词的背后实际上是一条完整的语音交互技术链：从远场交互技术、麦克风阵列，到语音识别、理解、合成的相关算法，对应着音箱从“听清”、“听懂”到最终“开口说话”的一系列步骤和相关软硬件生态。阿里巴巴人工智能实验室负责人陈丽娟就将天猫精灵称为“链路最长的产品，任何环节出错都会被乘数级放大”。

Rokid是业内少有的自主研发语音技术及把控产品全程链路的公司，而更多玩家则以组队的方式“打怪升级”，逐个击破。

Echo被视为最重要的硬件革新，主要在于产品顶部的6+1环形麦克风阵列设计，配合降噪处理、声源定位等技术，能够实现360°语音信号采集和5-10米半径内的语音识别效果，大大提升了远场语音交互体验。Echo发售不久，国内语音技术服务商便迅速跟进。科大讯飞为首款叮咚音箱配备了8个麦克风的环形阵列；思必驰则推出国内首个与Echo同源的麦克风阵列，并为天猫精灵、小米提供相应的麦阵软硬件、语音识别等技术方案。

思必驰CMO龙梦竹告诉《21CBR》记者，语音交互产品涉及各方面因素，包括环境、用户和产品本身，“以算法降噪为例，麦克风的距离角度、声源的定位、音箱的选型，从任何一个出发点考虑，都会生成很多情况，是对语音交互能力的综合考察，甚至可能推翻产品原有的工业设计方案”。

语音识别的算法提升，也得益于深度学习近年来在问答式语音场景中的应用。通过收集海量语音数据，采用深度神经网络的端到端训练方法，各家在语音识别的准确率、速度等性能表现日趋逼近，数据石油的开采逐渐从通用领域走向垂直场景。喜马拉雅FM仅针对唤醒识别一项功能就录制了超过8万条“小雅小雅”，阿里巴巴为了让天猫精灵适应家居场景则收集了大量与玻璃、木材、金融等材质相关的噪音。

语音合成也离不开数据准备。音箱能够自然地“开口说话”，背后是大量的语音合成工作。Rokid北京A-Lab科学家孟猛曾表示：“高品质的语音合成需要精心挑选声优，还要专业的录音师、监听员，资源耗费多，产品周期长。语音识别能收集到上万小时的数据，语音合成能有100小时就很不错，需要通过算法把难度降下来。”

不过，多名业内人士向《21CBR》记者解释，数据驱动的深度学习在带有一定识别规则的任务式对话中表现突出。然而，一旦进入自然语言理解环节，尤其多轮对话的应用中，需要机器调动更接近人类思维模式的认知和推理能力，深度学习便威力不再，音箱时常表现出“没有听懂”。距离自主学习、实现真正意义上的“智能”，音箱还有很长一段路要走。

风口来临

尽管现阶段的智能音箱仍需突破技术难关，其背后初具雏形的语音平台已经让众多的科幻电影场景成为现实。人们看到了语音交互在消费级市场的巨大潜力，纷纷布局生态，满城尽是“开放平台”，风口似乎来了。

一位投资人向《21CBR》记者描绘了这样一幅生活场景：“当我问音箱今天什么天气，唤醒的可能是墨迹；要听儿童故事，背后有的是咔哒（一款儿童有声故事App）；听歌则是网易云音乐。语音本身成为新的入口，这与移动互联网时期的手机端入口概念是不一样的。”

从硬件到技术，从内容到数据，各家看到了语音交互商业变现的种种可能，实际建立起生态体系时，在方向和逻辑上却不尽相同。

厂商普遍提及的首要任务是搭建语音技能平台。截至目前，Echo销量突破1000万，Alexa平台上的语音技能（Skills）已达1.5万种，布局成果超出众人预期，亚马逊也凭借Echo在硬件市场打了一记翻身仗。后来者纷纷效仿Alexa，加码生态建设，比拼技能数量，试图以更丰富的语音技能应用拉拢更多用户。

不过，根据AI观察机构Voicebot的统计，Alexa平台上拥有最多评论的前10%技能占据了80%的总评论数，包括音乐、教育、资讯等大类技能，其余绝大多数技能则乏人问津。从研发阶段、产品化到开放给第三方开发者，Alexa跑通这条路花了5年时间。祝铭明认为，技能并非越多越好，相比接入大量技能，现阶段专注于核心技能的体验优化更为重要。

思必驰则横向输出技术，定位为人机交互的智能解决方案平台。2015年，思必驰面向硬件合作方推出AIOS人机对话操作系统，封装了核心的语音技术和对话交互逻辑。7月7日，思必驰宣布打造DUI（Dialogue User Interface）開放平台。相比AIOS，DUI更像是解决方案的自选超市，提供可定制的语音技术全链能力，“相当于AIOS的升级版。”龙梦竹称。

与科大讯飞一样，思必驰是国内仅有的两家具有全套语音技术产权的公司之一，专注智能硬件领域的技术输出。

创业公司在垂直领域挖掘平台深度和转身空间，大公司则试图一网打尽、打造航母级生态体系。

2015年9月，李彦宏在百度世界大会上推出基于移动端的语音助手“度秘”。2016年下半年，百度加速语音赛道布局，将度秘改名为DuerOS，成立单独事业部，转型技术输出。今年7月5日，在百度首届开发者大会上，度秘事业部总经理景鲲正式发布DuerOS开放平台，表示DuerOS将是人工智能时代的安卓系统。

京东、阿里、腾讯也先后发布平台计划：开发语音助手，建立硬件和技能平台。与百度的不同之处则是增加了终端的音箱产品。BATJ均表示要以低门槛赋能智能语音设备，似乎都指向了一幅更大的生态图景：智能家居。业内普遍认为，语音交互是智能硬件的关键入口，智能硬件又是语音交互的主要应用，二者天然契合。

魏强告诉《21CBR》记者，通过与京东智能家居接入平台“微联”对接，叮咚音箱后台已接入智能家居设备超过1000款，覆盖灯具、空调、电视、厨具等21个品类，能够进行跨平台、跨品牌的连接控制，“未来，终端与平台的关系不是1：N或N：1，而是N：N。”

更有布局硬件生态三年的小米，欲借此激活新的业务增长点。在6月的米家年度发布会上，小米联合创始人刘德透露，小米硬件生态链平台MIOT已连接6000万台智能设备，米家做的是“明天”的产品。研究机构Statista的统计数据显示，2016年全球智能家居市场规模已达168亿美元，预计到2021年，中国市场比重将从7%上升至17%。

在祝铭明看来，语音交互能够实现的多机协作、个体认知，将带来跨设备、跨场景的状态迁移，“虚拟的若琪是跟着人走，而非跟着设备走，最终将是一个无处不在的AI”。届时，承担语音入口功能的或许也不再是音箱了。龙梦竹认为，Echo只是Alexa生态孵化出的第一个产物，“音箱只是语音的一个载体，核心是对话交互”。

智能音箱承载着人们对人工智能和未来生活的众多想象，但能否成为“爆款”还有待市场的检验。