从专利申请分析欧洲智能语音技术的发展
2019-06-12莫玲
莫 玲
(安徽省科学技术情报研究所,安徽合肥 230011)
语音是人工智能的重要入口[1]。近20年来,随着人工智能算法的突破、大规模语料资源的积累、移动数据网速的提高,智能语音技术快速发展,从实验室走向市场,智能语音产业也随之步入应用的快速增长期,人工智能日益受到产业界和各国政府的重视[2]。欧洲各国对人工智能相关产业的发展高度重视。20世纪80年代,西欧国家制定“尤里卡计划”,在人工智能等领域开展研究与发展合作。瑞典Artificial Solutions软件公司致力为企业和政府机构开发客服机器人,已为欧洲近几十个政府部门提供客服机器人,从而减轻了工作人员的压力[3]。2015年,福特欧洲公司推出新一代车载信息娱乐系统Sync3,提高了触控的灵敏度和语音指令传达的顺畅性,驾驶者可以通过语音对话向系统发布指令。2016年,谷歌在欧洲瑞士苏黎世设立新的研究部门专注研究机器学习、机器智能、机器感知、自然语言处理和理解等,开发了知识图谱使用的引擎以及谷歌Allo消息应用中谷歌助手使用的会话引擎[4]。
本文则从专利申请的角度对欧洲各国智能语音技术的发展态势进行分析研究。
1 数据的来源与处理
智能语音技术涉及语言学、语音学、声学、数字信息处理、模式识别与人工智能等众多相关基础学科,主要包括语音识别、自然语言理解和语音合成3 个环节。通过查阅相关文献,借鉴智能语音领域专家的观点[5-7],制定了智能语音自标引技术分支表(表1)。
依据自标引技术分支表确定检索词(表2),对检索词的同义词、关键词、缩写词、上位词、下位词、相关词等不同表达方式进行扩展,采取分总式检索策略进行专利检索,先对各技术分支展开检索,再将检索结果进行合并,得到总的检索结果[9]。
检索时间为2016年5月,IncoPat专利数据库收录了全球112 个国家、组织、地区的专利信息,数据覆盖全面,更新速度快,同时对全球专利提供了中英双语的标题和摘要,便于专业人员快速掌握专利基本内容。因此,本研究选取IncoPat专利数据库进行专利检索。对专利数据进行检索与下载,经过人工筛选和逐条去噪,对专利申请时间和申请人名称进行简化处理和规范统一,最后按照自标引技术分支表进行四级技术标引。对所有标引结果,由语音领域内专业技术人员进行审核。审核员采用抽样验证的方式,在所有已加工完成的专利数据中,以200 件专利为一组,随机抽取10 件专利,保证加工完成的数据与智能语音技术或者产品相关,对于不相关的及时删除。最终得到全球申请专利12895 件,其中智能语音关键技术欧洲申请专利1865 件。由于在专利申请过程中有18 个月的公开期,因此IncoPat数据库的数据收集和录入会有一定的滞后,2014年后的数据仅供参考。根据专利检索结果,关于欧洲智能语音最早的专利要追溯到1929年,鉴于1929—1990年欧洲申请的智能语音关键技术专利信息总量较少且较为零散,因此本文选取了1990—2015年1647 件相关的专利申请信息进行分析,其中语音识别专利申请量1246 件,语音合成专利申请量350 件,自然语言理解专利申请量51 件。根据得到的数据结果,下面从专利申请趋势、关键技术、主要竞争者、重点专利4 个维度,对欧洲智能语音技术发展现状进行深入分析和初步判断。
2 专利的申请量与技术领域
表1 智能语音自标引技术分支表[8]
自20世纪80年代西欧“尤里卡计划”实施以来,欧洲国家越来越重视在人工智能等领域开展研究与发展合作。从图1可以看出,欧洲智能语音领域专利大致经历了发展、快速增长、迅速下降、缓慢上升和缓慢下降这5 个阶段,反映了欧洲智能语音技术的生命周期。研究显示,2000年之前专利申请量上升较快,在2000—2004年大幅增加,这充分说明了欧洲智能语音专利申请与欧洲国家出台的重要战略和政策密不可分,在此期间研发活动较为活跃,因而申请量较大,在2004年达到峰值(141 件),自2004年后呈下降趋势,在2014—2015年专利申请量下降趋势明显,这与专利发布有18 个月的滞后期有一定的关系。
从欧洲智能语音技术的三大技术类别来看,语音识别专利申请量占总申请量的七成以上,与欧洲智能语音总体发展趋势相一致,语音合成专利申请量占两成以上,自然语言理解专利申请量仅占不到一成。语音识别技术和语音合成技术发展趋势在近年来都有不同程度的下降,这也反映了语音合成技术和语音识别技术发展较为成熟,并开始进入衰退期,企业利润率减少,因此自2002年后专利的申请总量呈下降趋势;而自然语言理解专利在技术发展及应用上有较大的技术发展空间,体现了智能语音的未来发展方向,因而自然语言理解专利申请量变化较为平稳,其专利申请趋势与总体趋势出现了不同的走势,在2013年后呈现平稳上升的态势。
表2 智能语音检索关键词
图1 欧洲智能语音领域专利申请趋势
图2是20世纪90年代以来欧洲在语音合成、语音识别和自然语言理解领域细分技术的分布情况。以每3年一个时间段为节点,将1990—2015年分为9 个时间区间,显示了欧洲智能语音领域10 个细分技术专利申请的发展趋势。语音识别是智能语音领域一项成熟的技术,其产业发展和应用都比较广泛,专利申请总量较多,主要集中在20世纪末21世纪初,但总体上均呈现先上升后下降的态势,其中声学模型是语音识别系统中最关键的部分。该技术欧洲专利申请量最多,增长较快,波动最为明显,于1999-2001年达到了峰值(111 件)。语音合成领域中基于共振峰、LPC和LMA技术是非常有效的语音分析技术,起步较早,应用较为广泛,可以对语音产生模型的参数进行准确推算,因此也不难发现,基于共振峰、LPC和LMA技术的专利申请量较大,趋势波动较为剧烈,于2002—2004年达到了峰值(47 件)。自然语言理解以语言学为基础,内容涉及多门学科,是人工智能领域中的一个重要方向,从图2中明显可以看出,自然语言理解的专利申请总量虽然较少,但技术发展趋势较为平稳,尤其是自然语言理解对计算机实现技术要求的不断提高,人机交互的成果不断出现,从而推进了机器翻译的持续发展,因此有的细分技术发展较为平稳,没有出现大起大落的波动趋势。
3 IPC小类专利与自标引技术
表3显示了20世纪90年代以来欧洲智能语音领域排名前10 位的IPC小类专利申请情况。
图2 欧洲智能语音领域专利技术申请发展分布
表3 欧洲智能语音领域专利的IPC小类(前10 位)
从欧洲专利申请的国际专利分类号(IPC)统计结果来看,1990-2015年,排名前10 名的专利申请总数(798 件),占了总申请量(1647件)近半数。排在首位的是“创建基准模板;训练语音识别系统,例如对说话者声音特征的适应”(G10L15/06),其专利申请量(281)占专利申请总量17.1%,其次是“利用自然语言模型”(G10L15/18)。再次是“语音识别”(G10L15/00),这三大技术领域的专利申请量总和(445 件)占专利申请总量的近三成。从表3分析得出,1990—2015年,欧洲智能语音技术重点在于发展语音识别、信息检索、语音合成、语音增强等技术领域,在这些技术领域纷纷申请专利保护,以获得在该领域的核心竞争力和技术优势。无论是从专利申请量排名前三占比情况,还是从专利申请量排名前十占比情况来看,在智能语音领域的技术发展中,欧洲研发重点和研究成果主要集中在语言识别技术上,相对于其他技术领域最为成熟,具有明显的竞争优势。
从欧洲智能语音的三大技术领域来看,语音识别申请数占申请总量75.7%,语音合成占21.2%,自然语言理解占3.1%。可见,语音识别占了七成以上,语音合成占了两成,这两个领域的技术成熟度较高,应用较为广泛。虽然自然语言理解作为热点技术,成熟度不高,但其发展潜力巨大。
在语音识别技术领域,声学模型占申请总量的28.7%,后端处理占18.3%(其中解码或解码器占14.9%),语言模型占17.1%,前端处理占11.5%(其中降噪处理占11.1%)。可见,从语音识别的流程处理来看,欧洲比较注重于建立声学模型和语言模型,运用核心算法对语音进行识别,通过后端处理进行搜索解码,对于降噪和特征提取等前端处理过程关注度相对不高(图3)。
在语音合成技术领域,基于共振峰、LPC和LMA技术占申请总量的13.7%,基于波形拼接技术占3.9%,基于声学统计建模技术占3.6%。基于共振峰、LPC和LMA技术在欧洲起步较早,这种参数合成方法主要是通过模拟发声机理进行语音合成,可以灵活调整适应不同的合成要求,在欧洲语音合成中的专利申请量比重较大(图4)。
在自然语言理解技术领域,语言学技术占申请总量的1.9%,计算机上实现的占0.9%,语料库占0.3%。自然语言理解是语言学、数据处理、人工智能和认知科学以及语言工程等诸多领域的热门课题,具有广阔的发展前景,欧洲日益重视和加强语言学技术的基础研究和应用,侧重于信息检索和人际交互方向,以真正实现人机自然交互的最终目标(图5)。
4 专利申请公司排名及其技术活动
图6显示了20世纪90年代以来欧洲智能语音领域排名前10 位专利申请人申请专利的情况。
从欧洲智能语音专利申请量排名(图6)分析得知,居于前10 位的公司申请专利总数(571件)占专利总数(1647 件)的34.7%。从图6中可以看出,美国、日本、欧洲企业占据优势,美国企业专利申请量占七成,日本企业占两成,欧洲企业占一成。排名前5 名的申请人分别为微软、AT&T、IBM、飞利浦和高通,竞争优势较为明显,尤其是美国微软公司,其专利申请量为107 件,在排名前10 位的机构中占近两成。可见美国企业和日本企业尤为注重在欧洲的专利权保护,在智能语音领域的创新能力和技术竞争实力较强。
虽然欧洲之外的国家纷纷在欧洲进行专利布局,但作为欧洲本土企业的飞利浦公司在智能语音技术研发中也具有较强的竞争力。飞利浦作为一家生产照明、家庭电器、医疗系统产品的公司,拥有8 万项专利。随着专利数量的上升,其专利布局也日益成熟,越来越注重知识产权的保护和防御,并且近年来在智能语音领域的实力也逐渐增强。2012年,飞利浦推出HUE智能照明系统,使用Siri语音助理控制;2013年,飞利浦采用了Nuance的Dragon TV语音技术推出智能电视,为用户在家庭娱乐控制体验中带来更多选择和便利,用户可通过日常语言与电视机“沟通”,实现从“看电视”到“玩电视”,与电视互动的转变[10];2015年,飞利浦与阿里智能合作推出一款基于阿里智能系统的智能无线音箱——飞利浦小飞阿里智能音箱,在现有资源库整合植入的同时加入了语音交互功能,并能脱离APP独立使用,大大增加了其使用中的便携性[11]。
图3 欧洲语音识别技术专利分布
图4 欧洲语音合成技术专利分布
图5 欧洲自然语言理解技术专利分布
图6 欧洲智能语音专利主要申请公司的专利申请数
从飞利浦公司的欧洲专利布局分析,其申请专利的技术领域集中在IPC的G部(物理),涉及IPC的两个大类:G10(乐器、声学,约占86.3%)和G06(计算、推算、计数,约占13.7%)。排在前3 位的IPC小类分别涉及G10L(语音分析或合成、语音识别、音频分析或处理)、G06F(电数字数据处理)、G06K(数据识别、数据表示、记录载体、记录载体的处理)技术领域,合计约占专利申请量的95%,排名前2位的IPC小组主要为G10L15/06(创建基准模板、训练语音识别系统、例如对说话者声音特征的适应,约占27.3%)和G10L15/18(利用自然语言模型,约占18.2%),合计约占专利申请量的五成,说明飞利浦公司智能语音技术主要集中在语音分析、合成、识别和数据处理等方面,在这些方面技术创新较多,非常注重在欧洲本土进行专利布局,市场竞争力较强。
5 重点专利与主要申请公司
被引次数是判定专利质量的重要指标,在通常情况下,专利越重要,被引证的次数就越多。表4显示了20世纪90年代以来欧洲智能语音领域排名前10 位重点专利被引情况。
从表4分析得出,欧洲智能语音技术领域涉及3 个大类:G10(乐器、声学,约占75.4%)、H04(电通信技术,约占18.5%)和G06(计算、推算、计数,约占6.1%),排在前3 位的IPC小类分别涉及G10L15/06(创建基准模板、训练语音识别系统、例如对说话者声音特征的适应,约占46.8%)、G10L15/22(在语音识别过程中,约占12.4%)、H04M1/27(可以同时存储许多信号的装置,约占11.2%),合计约占专利总被引次数的七成,技术研发主要集中在语音识别的声学模型和语音合成上,其中涉及语音识别的达238次,约占专利总被引次数的近六成;主要申请人包括AT&T、IBM、领英、LG、施乐、佳能信息等公司,除了LG是韩国企业外,其他均为美国公司,这反映了美国非常注重在欧洲的专利布局,处于绝对的垄断地位,在欧洲智能语音领域具有较强的影响力。
图7显示了20世纪90年代以来欧洲智能语音领域被引专利数量排名前10 位申请公司情况。
根据总被引次数分析(图7),在欧洲智能语音专利的前10 位申请人中,AT&T和IBM公司高被引专利量达233 次和172 次,排在前两位,远远领先于其他专利申请人,其研究成果对智能语音的研究和技术开发具有重要的参考和借鉴意义。另外,根据专利的平均被引次数,LG公司专利平均被引次数最高(15.33 次),其专利质量也相对较高,其次是领英公司(12.75 次)。无论从专利总被引次数还是平均被引次数,都不难看出,美国非常注重在欧洲进行专利布局,专利申请数量和质量都呈现稳步上升的态势,拥有绝对的竞争优势。
表4 欧洲智能语音领域重点专利被引情况(前10 位)
图7 欧洲智能语音领域高被引专利数量排名前10 位申请公司
6 结论
本文从专利申请量、关键技术、主要竞争者、重点专利等方面,剖析了欧洲智能语音技术的发展,结果表明。
(1)20世纪90年以来,欧洲智能语音技术专利申请量起伏较大,总体上呈现先上升后下降的趋势,大致经历了发展、快速增长、迅速下降、缓慢上升和缓慢下降5 个阶段,语音合成技术和语音识别技术发展较为成熟,应用较为广泛,自然语言理解作为热点技术,虽然成熟度不高,但发展潜力巨大。
(2)欧洲本土企业的飞利浦公司竞争实力较强,其技术研发主要集中在语音分析、合成、识别和数据处理等领域,但是,美国和日本企业非常注重在欧洲进行专利布局,AT&T和IBM公司在欧洲智能语音领域具有较强的影响力。
(3)近年来,欧洲智能语音产业已经从产业应用发展到深入推广阶段,掌握了相当一部分产业核心技术,凭借新兴产业的支配地位,以新技术研发和新产品营销为发展重点,获得在技术创新方面的竞争优势,在智能家居、智慧教育、智能医疗、汽车智能化、智能机器人等社会发展领域都有着非常重要的应用价值与开发前景。