出门问问:语音交互与场景结合 推动构建全新一代人机交互
2023-06-20郑茂典
郑茂典
很多人出国都用过手机版谷歌离线翻译,大家不知道的是,当年独立做出这个系统的工程师,后来从硅谷回国创立了一家人工智能科技公司,而这家公司还被称为“美国名校收集器”,哈佛、斯坦福、MIT的毕业生纷纷回国投奔。这家公司就是“出门问问”品牌的拥有企业——上海羽扇智信息科技有限公司。
你可以说它出道即巅峰,也可以说它没有存在感。可越来越多人的生活因它而变。在中国,新车占比四分之一的大众汽车集团,搭载着它的车载语音交互系统;在新浪新闻App中,AI虚拟主播每天为用户语音播报当日时讯,背后的技术也是来自于它;疫情期间,你接到的防控登记电话可能是它的语音机器人打来的……
作为科技独角兽企业的“出门问问”做的不是一种简单的工具,而是通过技术与应用去构建全新一代人机交互。
2011年iPhone4s搭载Siri语音助手刚刚推向市场,引发了全球移动互联网尤其是智能语音的创业浪潮。2012年,“出门问问”品牌推出,那时起,“出门问问”就坚信从PC时代到移动互联网时代,会带来人机交互方式巨大变化的理念,并致力于开发基于自然语言处理的下一代移动搜索引擎,也就是语音搜索。
在“出门问问”创始人李志飞的理想中,他希望运用前沿技术,能在中国创造一家像谷歌一样的公司,用技术改变人们的生活方式。
2013年,中文移动语音搜索引擎出门问问App问世,打造出了中国版的GoogleNow。2015年,“出门问问”第一款软硬结合的中国智能手表TicWatch发布。2016年,问问魔镜Ticmirror和问问魔眼Ticeye发布。2017年,“出门问问”发布Tichome问问音箱,进军智能音箱领域。2018年,“出门问问”发布TicPodsFree小问智能耳机。至此,“出门问问”作为一家以语音交互和智能硬件为核心的人工智能公司的产品,在“可穿戴、车载、智能家居”三大领域全面布局。一时间,这家公司成为创投圈竞相追捧的闪耀明星。
用前沿科技推动新時代的到来,往往润物细无声。对于“出门问问”而言,它在消费端保有一定的知名度,却被误以为是智能可穿戴公司。实际上,大众鲜少看到的企业端市场,才是这家技术型公司“技术实力”的真面貌。
“硬技术”为汽车行业赋能
备受巨头青睐
智能车载被公认为是语音交互重要的落地场景之一。“我们认为汽车朝智能化的方向发展,语音交互肯定是构建车辆智能闭环的重要一部分。‘出门问问一直是把技术置于场景之中,因为只有在大场景下推动新交互从初生走向成熟,我们才能在其中成为下一代交互的主要推动者。”“出门问问”首席技术官雷欣说。
车载是“出门问问”在企业端领域开辟的第一个落地场景。看到了智慧出行的趋势后,“出门问问”在2016年开始探索的新业务线,起始于一款带有语音交互功能的智能车载后视镜——问问魔镜。彼时,大众汽车集团正好也在谋求从传统的车辆制造商,向车联网和自动驾驶方面转型。当他们看到问问魔镜背后的语音交互技术,最终向“出门问问”出资1.8亿美元,并促成了更深度的战略合作——车载语音合资企业大众问问的成立。至此,“出门问问”估值超过了10亿美金,跻身中国的科技独角兽企业。
车载交互,冷启动是最难的。车载系统不能按照消费端思路去做,因为消费端产品很容易做到标准化,但车载系统需要跟车企紧密合作,具体的车型对应到技术参数都有不同的要求,所以这给“出门问问”的技术和落地的复杂性带来了巨大考验。“出门问问”团队投入100多人花了近三年的时间,打磨出一套车载语音解决方案,通过离线+在线的结合保证了最佳交互体验。离线方案包括全栈式语音交互模块,特点为CPU及内存占用低,整体小于500MB,并支持可定制唤醒词、多命令词监听、全场景打断和免热词(Always On)等新的交互方式,能够让车载语音交互更加自由高效。达到了车规级的语音交互标准和安全要求。
目前,“出门问问”的车载语音交互系统在大众体系的渗透率达20%,包括奥迪A4L、探岳X、ID系列等20多款车型。预计到2023年,前装量将达到1500万辆。
如今,“出门问问”在智慧出行的趋势下,在嵌入式语音交互领域,已经建立了行业领先的技术优势和壁垒。
“造钉子”让研发依附实体
推动技术迭代
科技公司最容易出现的问题是拿着锤子找钉子,在做技术创新时,不能纯粹只是造锤子,钉子在哪都不管,需要的是“以终为始”的思考。
在消费端用户眼中,“出门问问”跟智能可穿戴可以画等号。因为它做过手表、音箱、耳机在内的一系列消费级产品。但实际上,AI语音技术才是其核心命脉。当然,技术必须要依附于实体产品,才能推动下一代人机交互的到来。
这也就很好解释,“出门问问”在语音APP后,为何把自研的操作系统TicWear刷到Moto360智能手表里面,又为何会一口气推出多款产品,因为技术是离不开产品的。“出门问问”做手表及其它硬件,都是为了更好更快地通向下一代人机交互这个终极目标。
同时,“出门问问”也在越来越聚焦。如果把技术看作锤子,落地场景当成钉子,“出门问问”需要聚焦几个关键赛道,强有力地把“钉子”锤进去。例如在智能可穿戴的场景中,“出门问问”围绕语音交互推出了帮用户代接电话的小问秘书,让语音机器人对所有未接电话进行智能接听并分析来电意图,解决大量骚扰、重复性电话的问题。
升级后的小问秘书,上线了个性化声音制作功能,根据“出门问问”的个性化TTS,支持多层级的定制,用户最少录入15句人声音频内容,即可生成颇像真人的专属合成效果。这样一来,用户就可以用自己的声音代接来电,避免因AI助理产生的熟人社交隔阂。
在改变人机交互的体验上,“出门问问”还基于第四代语音合成系统MeetVoice技术,上线了专业AI音频内容生产一站式解决方案——魔音工坊。用户能够高效便捷地以AI语音技术模拟具有清晰性格特征的真人语音,进行AI音频内容创作,让文字随声音跃出纸面。
目前,用户可通过点击新浪新闻App频道内的音频图标,就能收听海内外各领域的新闻。为了解决配音的专业性问题,“出门问问”对多音字模型进行了升级,多音字整体准确率达到99.52%以上。针对新闻、官方文件、法律条文等,对准确率有着更高要求的文章类型,魔音工坊设计了创新的交互形态,成为AI音频时代的word编辑器。同时“出门问问”在AI配音、公众号音频化、歌唱合成、情感合成等方面也在引领着业界步伐。
“软实力”支撑技术创新
引领业界步伐
“软硬结合”是支撑“出门问问”让创新成果落地的根本。企业创新是需要企业拥有完整的软件算法团队和技术积累,同时还要拥有出色的硬件设计、研发团队,并对供应链具备稳定的把控能力。“出门问问”的技术研发团队现有近300人,以3人为一个开发单位,保持敏捷的开发流程。工程技术方面,也以谷歌规范为标准,保持自由的硅谷工程师氛围。
基于技术硬实力和人才软实力,“出门问问”多年来在已有的成果上坚持迭代优化AI语音技术,不断地提升核心技术壁垒。在不同硬件及不同的场景里参与进去,其实反而让成果在面对企业端的需求的时候,具备了多方面的能力,能够快速地去解决问题,提升生产力。
在雷欣看来,技术人员应该把手插进土里去,推动和促进产业向人机交互的方向发展,所以“敢干、愿意干”是“出门问问”培养人才的重要的条件。
“虽然过去10年道阻且长,但我们收获很多成果。我觉得做技术公司最幸福的,不是拿一个技术直接变现,而是看着我们的技术越来越强,越来越普世化,技术在更多场景和领域得到应用,这是一个满足感不断提升的过程。”雷欣说。