在语音的产业链找位置
2012-04-29张晓洁
张晓洁
大公司争夺入口,小公司找准位置。从苹果发布人机交互语音助手Siri开始,国内创业者就已经意识到,在语音这条产业链中找准位置,完全有机会基于中国语音语言在Siri概念上面分得一杯羹。
要打通语音与应用之间的联系,首先要准确地听懂用户的语言,了解他要表达的意思;其次,要在后台调出相应的生活类资源或者娱乐应用,准确给出应用及数据结果,甚至是用户相关的评价、评测和推荐等;在这两方面都深入理解后,才能将其聚合起来,产生一种超智能的回答结果。另外,语音在不同的终端设备中呈现出的不同体验,语音与图像、体感等技术配合也让硬件的升级变得更加精彩纷呈。
从这个角度看,语音能力提供商、语音应用开发商、垂直应用提供商和设备提供商,都可以围绕语音逐渐形成一条清晰的产业链。而在这四个领域中,语音能力提供商将与微软、谷歌和苹果等大公司直接竞争,对于技术、人工智能、大数据处理和资源整合的能力要求都很高,对创业公司挑战巨大,而另外三个领域则几乎可以涵盖移动互联网的所有应用。
科大讯飞:中文语音深度服务
今年3月,科大讯飞发布了新一代语音云平台,其推出的官方示范应用,就是类似于Siri中文版的讯飞语点。在没有大规模的推广下,讯飞语点依然取得了不错的效果,“现在基于讯飞语音云的账户已经有6000多个,上线的有几百个应用,覆盖了娱乐、虚拟形象搜索等等各个领域都有一些很典型的应用。” 科大副总经理江涛解释说。
与“苹谷微”等国际巨头在语音基础技术上直接竞争,科大讯飞还是有些底气的,而当移动互联网和人机交互概念风靡,如何立足中文寻找与苹果Siri竞合的路线将是公司未来立足的根本。
“我们将致力于中文语音的深度服务”,江涛说,科大讯飞中文语音技术上面有着多年的沉淀,而中国的语言博大精深,在语音的识别率和语音处理上面,提高用户体验,永远有提升的空间。比如,同样的普通话不同人的发音习惯不同也会发出不同的声调,如何建立语音模型掌握用户的发音习惯,更准确地理解用户的话?更复杂的是中国幅员辽阔,不同地区都有自己的方言,建立四川、广东、上海等不同地区方言的语言模型是科大讯飞未来的课题。如此复杂的语音基础数据和模型都并不是一个创业公司能够轻易完成的,因此科大讯飞的目标也是对开发者开放语料和数据,使其能在此基础上进行各种应用开发。目前,包括盘古搜索、腾讯等国内知名公司都在基于科大讯飞的语音平台做开发。
江涛认为,当语音平台整合了越来越多的资源,后面的商业模式也就顺理成章。目前,语点的用户输入语音需求以后,语点将自动转向最适合的应用。虽然目前用户活跃度还不够,但是未来语音平台完全可以通过导航获得收入。
而语音更大的商业价值来自于开发者,科大讯飞提供的语音平台为创业者开发语音特色的应用提供了基础。江涛非常看好语音游戏的开发,比如人们喜欢在打牌时“一个王两个二”的叫牌,完全可以通过IT技术在游戏打牌中表现出来。事实上,微信、唱吧等走红应用也是很好的语音应用开发的例子。
中微通:语音的下一站是语义
中微通严格地说并不是语音技术提供商,其所经营的“语义云”却正好在语音的下一站,帮助机器准确理解用户语音的意思。具体而言,不管用户以任何方式提问,中微通都努力通过“自然语言处理及语义云解析引擎”转化成数据进行解释,帮助机器配对精准的答案。不过,语音业内已经达成这样共识,“未来语音远远不是识别的问题,而是语音的理解,识别不是目的,需要更多创新”,因此,语义与语音挂钩来说绝非偶然而是必然。
“我们是语义内容服务的提供商,不仅提供语义内容,还有对内容进行语义处理和改造服务,以及语音语义产业链上面延伸出来的应用化服务。” 北京中微通信息技术有限公司创始人兼总裁苑雪山告诉记者,他所理解的Siri有三个层次,最基础的层次是语音处理,把语音转化为文字,第二个层次是语义的操作和控制,即把用转化后的文字去调用相应的应用,第三个层面是语义数据业务的融合,后面两个层面都是与中微通现在的业务直接相关的。
与语音行业挂钩,并非是苑雪山最初的计划。2006年,苑雪山就利用北航学生会的资源组织了一些硕士博士共同筹建科研项目,当时设定方向时,只是觉得未来的移动互联网应该是具有更高的智能,用户应该更容易地解决自己的问题。于是,几个伙伴用业余时间进行攻关,经过五六年的时间进行梳理,技术开始成熟后在2010年成立了创业公司。此时,语音语义改造已经成为IBM、苹果、微软等大公司关注的热点,中微通在这个产业链上找到自己的位置,并获得了风险投资的认可。
在苑雪山的设计中,用户可以通过文本、语音、体感动作输入信息,中微通的引擎对字符串进行解释,变成数据之间的交换,之后通过规则与引擎中的本体进行关联,理解出用户所表达的意思。以语音为例,用户用语音提问“我想在附近吃饭?”引擎对声波进行切分,在后台与不同类别的的词进行聚合关系结构,分析出用户的表达在附件找餐馆的意思,调出相应的应用或者直接给出答案。理想的状态下,未来人类与机器进行对话,不再是生硬的而是和人对话一样,表达自然而丰富。
苑雪山与中微通在Siri产业链上的定位和尝试颇具典型性。现在对于大多数用户来说语音助理只是一个供“调戏”的大玩具。Siri之所以给人的印象“趣味”远远多于“实用”。探究其主要原因,除了语音识别率和无线网络环境的不成熟,语音和应用整合的不够多,语义理解相差甚远都大大降低了用户体验。而目前中文自然语音分词是业内最前沿的技术,与国内少数同类企业相比,苑雪山果断地加强在应用层面的优势,对企业进行语义化改造的项目,以及面对个人用户应用服务。
目前,中微通承接了电信天翼空间的应用下载的语义化改造项目,用户只要输入游戏的描述而不是游戏的名称就可以查找到相关的游戏。比如,用户只要输入小鸟或者小猪类的游戏,就可以找到《愤怒的小鸟》或者《坏猪的逆袭》这样的游戏,而输入最近女生喜欢玩的泡泡类游戏,系统就会自动把排名相应高的相关游戏列出来。不仅如此,中微通还为个人用户提供交易信息的撮合服务,比如,用户对着手机输入“我要找某某附近的小时工”,系统就会自动筛选出3条信息发送到用户手机上。
中微通现在的服务仍然以文本为主,这也是语音输入的准确度不成熟和用户习惯并未养成所致,但未来语音语义的理解体验一定会成为用户选择服务的标准。事实上,如果语音的抗噪性和语义理解足够令人满意,那么庞大的呼叫中心将会被自动语音系统所取代,这对于金融、航空、电信等行业绝对是巨大的需求。