语音识别技术全球专利布局趋势
2021-12-29杜灵君武晓岛中国电子信息产业发展研究院
■文/杜灵君 武晓岛(中国电子信息产业发展研究院)
语音识别技术已经发展60多年,越来越多的语音识别技术已融入人类的日常生活,尤其是语音拨号、语音导航等已经成为很多设备人机交互的关键技术。语音识别已经发展为人工智能行业具有竞争性的技术之一。本文通过对语音识别技术全球专利竞争态势的分析,了解各国在该领域的技术和应用的专利布局,在一定程度上为企业产业布局和未来发展提供借鉴和指导。
一、语音识别技术概述
语音识别技术最早可以追溯到1952年贝尔实验室实现了针对特定说话人的英语数字孤立词语音识别系统。历经多次沉浮,20世纪80年代,以隐马尔可夫模型(Hidden Markov Model,HMM)方法为代表基于统计模型的技术逐渐发展起来。20世纪90年代前期,许多大公司如IBM、苹果、AT&T和NTT等均对语音识别技术进行了大规模的投入,但识别准确率很难超过90%。2009年,Hinton将DNN应用于语音的声学建模,基于DNN-HMM的建模方式逐渐取代GMM-HMM,识别的精度大大提高,成为主流的语音识别建模方式。
我国在语音识别技术上的研发相对较晚,但是发展迅速。科大讯飞、百度等企业在语音识别的核心技术研发上持续投入大量精力,并将其研究成果快速落地。2021年,科大讯飞提出“语音识别方法及系统”专利,通过“静态+动态”网络空间实时融合路径解码寻优算法解决了面向多领域、多用户、多场景下识别效果差、反应速度慢、系统构建时间长等技术问题,显著地提升了语音识别效果。百度提出基于历史信息抽象的流式截断conformer建模——SMLTA2的全新端到端模型结构,大大降低错误率。
国内外企业在语音识别技术上不断突破,这些企业为保护创新技术也部署了相应专利,下面我们对语音识别技术的全球专利布局进行分析。
二、语音识别技术专利布局
(一)全球语音识别专利申请态势
从语音识别专利申请数量看,如图1所示,从20世纪50年代语音识别首次出现,直到20世纪90年代,语音识别专利的申请数量虽有小幅度的增加,但整体数量都较少。这是因为此时语音识别技术仍处于萌芽阶段,语音识别技术掌握在大型研究机构和公司手中。
图1 专利申请数量变化趋势
从20世纪90年代开始,语音识别相关的专利申请数量显著增加。这主要因为当时提出了基于GMM-HMM声学模型的区分性训练准则和模式自适应方法,让人们看到了语音识别技术的发展潜力和方向,致使许多研究机构和公司巨资投入,掀起了第一次研究和产业应用的小高潮。
此后将近10年的时间里,由于GMM-HMM框架的语音识别系统整体效果还远远达不到实用化水平,语音识别技术的发展相对缓慢,专利申请数量有下降趋势。
从2012年开始,语音识别相关的专利申请数量出现迅猛增长。这主要得益于2011年底DNN技术在大词汇量连续语音识别上获得的成功,大大降低了语音识别错误率,打破了智能语音技术的发展瓶颈,引发了新的研发热潮。
随着国内外对语音识别技术的关注度越来越高,以及作为支撑的硬件技术的不断提升,全球语音识别行业整体技术发展前景看好,预计未来一段时间语音识别技术的专利申请数量仍旧会延续较高的增长率。
(二)全球语音识别专利地域分布
语音识别技术专利权人的地域分布情况如图2所示。从图中可以看出,语音识别技术的专利申请大部分来自于中国公司和美国公司,其中美国专利权人占比32.5%,中国占比24.3%。其次是日本、韩国,两国在语音识别技术方面相关专利分别占22.1%和8.1%。
图2 专利权人地域分布
美国在语音识别技术出现的早期处于垄断地位,因为最早研究语音识别技术的贝尔实验室、卡梅隆大学等都位于美国,同时美国的经济和硬件基础也使得美国在语音识别技术发展前期占据明显优势。近些年来,中国在政府和市场资本的推进下,紧跟语音识别技术的最新发展方向,核心算法不断改进、硬件基础不断完善、产业链不断升级,在科大讯飞、百度、思必驰等科技公司的带头引领下,语音识别技术在迅猛发展。从图中可以看出,中国在专利申请数量上已经超过美国企业,具有较强的语音识别技术市场与研发力量。
(三)全球语音识别专利权人分布
语音识别领域主要专利权人申请数量及年度分布分别如图3和图4所示。从图3可以看出,在语音识别领域,国外开始研究的比较早,纽昂斯通讯公司和微软公司的专利申请数量最多,分别为2711件和2693件。纽昂斯通讯公司是行业领先面向全球企业和消费者的语音和语言解决方案的通讯服务商,他们于20年前创建了语音识别空间,自那时以来一直在医疗保健、金融服务、电信、零售和政府领域建立深厚的领域专业知识,是语音技术领域的行家。微软公司作为全球最大的PC软件公司,在其推出的众多操作系统中,越来越重视语音识别技术的开发和应用,2016年开发出一种机器学习算法,使计算机对指定主题对话的语音识别率提高至94.1%,首次与人类水平相当,极大促进了语音识别技术的进一步竞争和发展。
图3 主要专利权人分布(前10位)
图4 主要专利权人申请趋势
从主要专利权人来看,除纽昂斯和微软之外,国际商业机器公司、谷歌公司等也紧随其后,中国的百度、腾讯、平安科技公司专利申请数量也跻身前十。从事语音识别研究开发的公司、院校遍布全球,没有哪一家结构处于绝对垄断地位,这是因为人工智能技术的迅速发展以及语音识别的市场需求,致使各机构都在加大对语音识别技术的投入,以提高自己的市场竞争力。
从图4的主要专利权人申请趋势来看,全球语音巨头纽昂斯的专利申请数量在近几年呈现明显的下降趋势,这主要归因于2012年深度学习爆发,全球语音市场竞争加剧,再加上纽昂斯公司技术人才流失、管理战略不当等问题,致使其在语音识别领域的发展一路下滑。与之相反的,中国的百度、腾讯、平安科技近几年来的专利申请数量增长迅速,这与中国政府和市场资本的推进密切相关。中国各大企业、院校都努力跟随语音识别技术的最新发展方向,发展势头迅猛,具有很大的发展潜力。
(四)全球语音识别专利寿命分析
图5为全球语音识别领域专利寿命分布。其中,专利寿命大于10年的专利占比达到70%,5~10年的专利和3~5年的专利占比分别为17%、6%。部分专利未达到法定保护期届满就已经失效,是由于专利权人根据自身的实际情况和专利的收益情况,通过不缴费等方式,提前终止了专利权。总体而言,全球语音识别领域的专利寿命水平较高,说明专利的品质较好,技术水平和经济价值普遍较高。
图5 专利寿命分布
(五)全球语音识别专利法律状态分析
从图6的语音识别领域全球专利的法律状态看,截止到2020年6月30日,有32%的专利处于有效状态,另有26%的专利已经失效。失效原因可能是专利已经超过法定保护期限,也可能是专利权人未及时缴纳专利年费而丧失了专利权。而处于审中状态的专利占比高达35%,这主要因为语音识别技术在2011年底进入DNN-HMM时代后,才出现新一波研发热潮,伴随各企业、院校的大量人才和资金投入而快速发展,提出大量发明专利,故很多发明专利仍处于审查状态。
图6 全球语音识别全球专利法律状态分析图
(六)全球语音识别专利IPC分布
全球专利重点技术(排名前10位的IPC小类专利)年度分布情况如图7所示。从最近十年的技术分布情况来看,“在语音识别过程中(例如在人机对话过程中)使用的程序”(G10L15/22)和“语音—正文识别系统”(G10L15/26)始终保持占有较大比重,说明这两个技术领域发展平稳且始终保持较高的热度。而“信息检索;及其数据库结构”(G06F17/30)、“语音识别”(G10L15/00)的所占比重在近几年有明显下降。值得关注的是,“应用电子设备进行识别的方法或装置”(G06K9/62)、“用于阅读或识别印刷或书写字符或者用于识别图形”(G06K9/00)、“体系结构,例如,互连拓扑”(G06N3/04)等几个方向的专利数量从2014年以后开始逐年攀升,总体呈现明显上升趋势,反映出语音识别技术的这些重要研究领域正在快速发展,研发重点也逐步向面向实际生产生活的实用性语音交互产品转移。
图7 全球专利重点技术年度分布
三、全球语音识别专利分析总结和展望
从20世纪50年代语音识别技术萌芽至今,语音识别已经历六十多年的发展。纵观这六十多年的发展史,语音识别技术经历了起始、快速发展、应用开发、重燃热潮四个发展阶段。自2012年以后,得益于DNN技术在大词汇量连续语音识别上的突破,语音识别技术在全球范围内发展迅速,研发团队投入力量大幅增加,语音识别技术进入重燃热潮阶段,专利申请数量持续快速增长。截止到2020年6月底全球专利申请已经超过57万件。
语音识别领域的全球专利申请中,有近八成来自于中国和美国。我国相比国外起步晚,但近些年来由于政府和市场资本的大力推进,以及科大讯飞、百度等科技公司的引领,中国语音识别技术发展迅猛,专利申请数量上已经超过美国企业,有着非常强大的语音识别技术市场与研发力量。纵观全球专利申请,其专利权人数量非常多,纽昂斯、微软、IBM、谷歌等几家国际巨头始终占据知识产权优势,同时中国的百度、腾讯、平安科技等公司也在奋起直追,语音识别技术总体处于群雄逐鹿状态,各机构都在加大技术投入,以提高自己的市场竞争力。
语音识别作为人工智能重点发展方向,不仅为人工智能发展提供了强大的推动力,也在政策、技术和投融资方面受到各界的持续关注。国内外相关机构的研究热情和资金投入持续攀高,大型企业和创新型企业都将语音识别作为重要切入口,已经逐渐凸显出语音识别领域竞争的激烈态势。因而,要想把握住语音识别领域的发展优势,先发企业应充分利用多年技术积累和资源积累,构建自己的产业生态体系;新兴企业应着眼和把握定制特征明显的行业应用领域,努力打造自己独特的核心技术。同时,各企业和研发机构都应提高对知识产权创造、保护和运用的意识,根据产业、技术的不同发展阶段以及自身的优劣势积极进行有效的专利布局。