APP下载

智能语音识别技术的前世今生

2018-12-25曾小会廖婷婷全赵婕贵州大学

数码世界 2018年4期
关键词:语音功能模型

曾小会 廖婷婷 全赵婕 贵州大学

科学家们对语音识别的研究开始于二十世纪五十年代,在这个探索时期人们仅初步了解了语音特征。1952年第一个能识别10个英文数字的识别系统在Bell实验室得到实现。随后科学家们又相继研制出针对特定人的能够识别单音节词的识别系统,直到1959年林肯实验室实现了识别十个元音单元的识别系统,这是第一个针对非特定人的识别系统。

六十年代,计算机的发展给语音识别带来了新的机遇和发展平台,各种计算机算法和理论运营而生,极大地促进了语音识别技术的发展,使其从模拟化逐渐转向数字化研究。

七十年代,科学家们在小量词汇和孤立词识别上加大研究力度,在特定人、孤立词、小量词汇方面取得了一定成就。

八十年代是语音识别技术研究的一个重要转折时期,多项研究取得了巨大的突破,首先,由小量词汇、孤立词进步为大量词汇、连接词和连续语音,并且逐渐脱离特定人转而针对非特定人。其次,语音识别算法从模板匹配转移到了统计模型,实现了统计模型隐马尔可夫模型和神经网络模型,这两大统计模型在今天仍旧在语音识别技术上占据着重要地位。

九十年代以后,由于隐马尔可夫模型的整体框架设计相对完善、模型的自适应性问题得到解决,并且使其具有了并行性、鲁棒性、容错性和学习特性,在参数提取和优化方面也取得了重大进展,语音识别技术开始被应用于实际生活中,语音识别系统逐渐产品化。

进入二十一世纪后,随着移动互联网和手机应用的普及,给语音识别技术带来了更大的发展平台并使其迅猛发展。2010年Google发布了支持语音操作与检索的Voice Action;2011年微软获得在语音搜索技术上的成功;同年,苹果公司的Siri首度出现在公众视野,标志着人机交互取得了巨大突破,人类进入语音识别技术的新纪元。

虽然在九十年代语音识别技术在根本技术上取得了一个质的飞跃,如上面提到的在容错性,及参数提取等方面的优化和进一步完善,语音识别技术已经是逐渐走向成熟的阶段,但是,日常生活中该技术并没有得到广泛的应用,说明现阶段仍存在一些问题,从而其在商业市场上的发展受到了限制。

(1)语种转换方面的技术缺失:消费者在韩国购买了一个具有语音控制功能的电饭煲,却因为语言障碍无法使用,语音识别中的语言模块的相关技术没有得到充分发展,无法实现如韩语到汉语相互间的切换,对比与在计算机领域成熟的文字切换技术,就略低一筹。

(2)识别正确率底且速度慢:要打开语音识别技术在商业上的市场,必须保证其功能的完整性与达到消费者的可接受度,如何在嘈杂的环境下精确捕捉有效的语音信号,怎样能在预设语言如普通话不标准的情况下提取关键的词句指令,保证正确率的基础上提升系统在相关阶段的进程速度,能够灵敏快速地作出反应,则需要在技术层次上做更深一步的研究。

(3)功能过于单一,从而应用领域受到限制:综合市面上在语音识别技术上的应用,如语音控制灯,软件上的语音搜索功能等,因为其在待定语音命令过于单一的缺陷下,不能实现较深程度的人机交互,功能局限,缺少技术支撑,显然极大地限制了语音识别技术的应用范围,同时,这也是现阶段语音识别技术的主要发展方向。

我们应多与国内外在语音转换方面有优势及成熟经验的公司、机构等交流,并在此基础上加入一些创新元素,更加完美的弥补语音转换方面技术的缺失。我国的语音识别的研究工作一直紧跟着国际脚步。在汉语语音识别技术上,我们还有自己的特色,并且已经达到国际先进水平。2017年4月,科大讯飞实现了从听见、收音到翻译,它只需要一到两秒即反应出结果。“听见”系统还为外交部部长当了一次现场的同声翻译,讯飞听见系统除了中文语音的转写,也实现了对英、日、韩、藏、维等多种语种翻译。

由于客观因素及复杂因素等会对识别率造成影响,对语音识别是一大挑战。相比较于智能语音识别软件,使用者更趋向于敲击键盘来表达,这与人们对智能语音助手的传统印象有关——错误率识别速度慢。百度在识别错误率高且速度慢这方面采取了应用Deep CNN(深层卷积神经网络技术)于语音识别的研究,使用了包含Residual连接的深层CNN,以及VGGnet等结构,将基于短时记忆单元和连接时序分类的端对端语音识别技术相结合,使得识别的错误率下降了10%以上。

随着语音识别技术准确率的提高,它的功能不仅不再单一,而且它的应用范围也在不断扩大。对于搜索、购物和发现娱乐内容,及对机器说话等将很快实现。语言交互过程包括语义分析、句子切断、语音识别、算法处理及语言反馈等复杂的过程。要解决这个问题,需要拥有海量、优质的语言交流数据集。事实上,国内外不少公司试图探索语音聊天机器人在心理辅导、抑郁症治疗等项目上的潜力了,语音识别功能不再因为过于单一而受到限制,智能语音识别技术今后的发展趋势值得期待。

[1]刘幺和 宋庭新.语音识别与控制护应用技术.科学出版社,2008

[2]赵力.语音信号处理.机械工业出版社,2003

[3]王炳锡 屈丹 彭煊.实用语音识别基础.国防工业出版社,2005

[4]卢瑞文.自动识别技术.化学工业出版社,2005

猜你喜欢

语音功能模型
适用于BDS-3 PPP的随机模型
99Tcm-MIBI显像在甲状旁腺功能亢进术前诊断中的应用价值
自制空间站模型
基层弄虚作假的“新功能取向”
把党史的功能作用发挥得更加充分有效
奔驰S级香氛功能介绍
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……