示贝科技:致力于高品质语音合成解决方案
2019-08-14宋兹鹏
宋兹鹏
人工智能是当下最為热门、最有市场前景的新兴领域之。2017年12月,工信部印发了《促进新代人工智能产业发展三年行动计划(2018—2020年)》。计划指出,以信息技术与制造技术深度融合为主线,以新一代人工智能技术的产业化和集成应用为重点,推进人工智能和制造业深度融合,加快制造强国和网络强国建设。计划的发布引发了社会各界的广泛关注,为人工智能产业发展指明了方向。去年7月,由清华大学中国科技政策研究中心、清华大学公共管理学院政府文献中心等多家机构发布的《中国人工智能发展报告2018》显示,2017年中国人工智能市场规模达到237亿元,同比增长67%。而智能语音作为人工智能领域的重要板块,增长速度迅猛,有数据显示,2017年中国智能语音市场规模达到了105.7亿元,同比增长69.66%0预计今年中国智能语音市场规模将突破200亿元,未来五年年均复合增长率约为34.32%。
成立于2016年2月的标贝(北京)科技有限公司(以下简称标贝科技)是人工智能领域的一家创业公司,数年来深耕智能语音交互,为用户提供语音合成整体解决方案及数据服务。其从最开始只是十几个人的小团队,发展到现在拥有四五百人的团队,并且除了北京市总部外,还在深圳、天津、长春设有分公司。目前,标贝科技已与百度、阿里巴巴、360等公司展开合作。
声音超市
助力语音合成
我们的社会生活中常会用到语音导航,实际上,在使用过程中听到的语音提示并不是一句一句话去录制的,而都是通过语音合成技术来完成的。语音合成,说直白点就是将文字转换成语音,但是如何使转换成的语音听起来更富有情感、更饱满、更接近人声,这是不容易做到的。
要完成一个声音的语音合成,先要把语音里面所需要的语料基础片段录好,再对声音的音字、韵律和音节音素进行标注,通过机器学习对声音进行建模,然后再经过声码器输出成合成的声音。
需要注意的是,合成一个理想的声音的前提是要有足够多的不同特征的语料,也就是声音样本。标贝科技在成立之初积累了大量优质的语音数据,于是在去年打造了声音超市。标贝科技市场部总监冯海涛告诉中国商界记者,目前,声音超市里面已经有100多款声音。记者了解到,为了扩大数据储备,标贝科技目前还与一些知名度高、声音辨识度高的明星、艺人以及IP进行合作,有当下年轻人喜欢的女团成员比如朱正廷、范成成、罗云熙、魏景、陈意涵,也有深受小朋友热捧的超级飞侠里面的乐迪、小猪佩奇等。对于这些语音数据,用户在声音超市可通过SDK、API技术接口随时调取自己中意的语音数据进行使用,这为用户节省了大量时间和成本。
“未来,我们还会在声音超市加入声音银行的概念,为每个人保留自己的声音,未来可以给自己去听,也可以给自己身边的家人听,可以把它植入到智能家具中,在生活中可以与其实时交互,这才更贴近生活、更有情怀。”冯海涛对记者说。
语音合成定制化
应用场景广阔
目前,市场上做语音合成的公司并不多,比较知名的有科大讯飞、思必驰等,在行业中都具有较大影响力。作为一家专注于做语音合成的创业公司,标贝科技经过数年发展,在团队、技术等方面打下良好基础。冯海涛认为,首先,标贝科技在前几年积累了很多的语音合成数据,使得其有更多的领域可以选择,相对于体量大的公司显得更加灵活。其次,标贝科技技术团队成员基本上都有15年左右的行业经验,其CTO来自百度,并且获得过“百度最高奖”。
在拥有了技术团队力量后,标贝科技从2018年5月正式从语音合成数据方向转到语音合成技术方向后,并为用户提供语音合成解决方案,用户还可以根据自身的需求进行个性化语音定制。比如传统电话客服行业有诸多痛点,例如电话效率低、情绪状态难以把控、容易引发纠纷、人员流动性大、人工成本高,并且培训周期较长,营销效果并不理想。针对这些问题,而智能客服具有明显优点,容易统口径、音色,还具有稳定的情绪,还可以连续不断地工作,做到了提质增效。在竞争激烈的市场环境中,对于些智能家居、导航等企业客户来说,个性化的声音也有助于提高品牌辨识度、增加用户黏性等。
据冯海涛介绍,标贝科技更倾向于为中小客户提供定制化的服务,因为他们可能没有太多资金投入到智能语音方面,而标贝科技会根据用户需求,用最低的成本来给他们做定制化服务,这样也会提高标贝科技的市场占有率。目前,标贝科技语音合成技术落地的领域主要有有声读物、智能客服、新媒体、泛娱乐等。
冯海涛对记者表示:“随着一些行业的发展,比如说智能家居,我们可以根据用户的需求,把智能家居的语音设置为自己想要的声音,比如自己女友的声音、喜欢的艺人的声音等,我觉得这才是个性化。”但冯海涛进步表示,智能语音交互应用的场景其实远远不止这些,首先要得到大行业的认可,并符合行业发展趋势,才会有更好的发展前景。未来,语音合成在应用场景中的体验也会越来越好。
新一代高音质合成系统
更接近真人发音
长期以来,传统的语音合成技术主要围绕着统计参数合成和拼接合成展开,两种方法虽各有利弊,但基本上满足了可懂度的要求,语音合成技术得以在多种场景下都得到应用,尤其是导航播报这样的强需求场景。
在深度学习技术出现之后,语音合成系统中的模型逐步被深度学习模型所替代。记者了解到,尤其是2016年后,随着wavenet技术的问世,将参数合成技术带入了一个全新阶段。神经网络声码器的合成效果,逐步接近拼接合成的音质,而其流畅度明显好于拼接合成。从wavenet、parallel wavenet, 到waveglow、wavernn等,神经网络声码器技术在持续进步的同时,算法复杂度不断下降,逐渐让工程化应用成为可能。
实际上,随着算法门槛的降低以及音质的提升,越来越多新的使用场景开始涌现,公众对于“AI声音”的关注点从最初的“可懂度”逐步转移到赋能场景的能力、对产品体验的提升作用上。所以说,技术的进步一方面也是市场推动的结果,消费群体对语音合成的效果寄予更高的期望。
冯海涛对记者表示,标贝科技一直密切关注语音合成技术的演化以及技术变革所带来的需求场景的变化,并充分结合自身的技术优势,投入到新技术的研发当中,在高音质合成方面做了大量工作。并且一直在用更高的标准要求自己,帮助更多内容方以”声音+”的方式,开发出更多好玩有趣的应用。同时,标贝还在邀请更多艺人参与到这个明星语音计划中来,在更多好玩、有趣的场景上用声音陪伴粉丝。
目前,标贝正在自主研发基于attention机制的、接近真人发音的新一代高音质合成系统,合成效果有了明显提升——更自然的抑扬顿挫、情感起伏,其逼真度也有了进一步提升。“标贝科技的这次技术升级,将会首先应用在明星、IP的声音合成上,然后再逐步扩展到其他领域。”冯海涛对记者说。
未来,标贝科技还将会结合不同的应用场景,通过“声音超市”的模式进行技术的落地,努力为用户带来更好的声音体验。