APP下载

关于智能语音识别技术的应用与发展研究

2022-09-29许小春

科技风 2022年25期
关键词:语音信号人类

许小春

聊城职业技术学院 山东聊城 252000

智能语音识别技术是语音信号处理领域的一项主要技术,成为信息技术中人类与机器接口方面的关键技术之一。智能语音识别技术可以让机器通过识别、理解,把声音信号转化为相应的文本或命令,让机器能够听懂人类的语言,从而做出正确的操作。智能语音识别技术,涉及模式识别、物理声学、信号处理、计算机科学、心理学和语言学等多个学科,不同的智能语音识别系统的具体实现程序不同,但它们采用的基本技术却是相似的,主要包括特征提取技术、语音信号建模技术和模型训练技术三个基本技术。

1 研究意义

近年来,现代科学技术呈现出高速发展的态势,特别是人工智能技术得到了前所未有的发展,该技术让人类充分体验到了现代科学技术带来的便利优势。随着便利优势的体现,人们开始了对更高生活质量的追求,为了使生活和工作更加便利,智能语音识别技术得到了迅速发展。近年来,智能语音识别技术在人类生活和工作中已经应用得越来越广泛,但是仍然存在许多不易解决的问题,比如计算效率问题、环境问题等。智能语音识别技术是人机交互研究的重要基础,对人工智能的发展有着重要的理论和应用价值。

智能语音识别技术在未来将会是一个热门的领域,国家和企业对智能语音识别技术给予大量资金支持。智能语音技术中的智能语音助手,核心在于人类通过语音信息来实现与机器的交互,让智能语音助手帮忙完成人类指派的任务。基于智能语音识别的人机交互有着很大的发展潜力,所以很多企业都看好这个方向,对人类生活质量的进一步提高有着很大的实用价值。

2 理论基础

智能语音识别的理论技术主要包括如下三方面内容:特征提取技术(语音信号的表示)、语音信号建模(语音识别单元的选取)及模型训练技术。人类语音的多变性和复杂性使得智能语音识别理论技术的研究面临着巨大的挑战。

图1 智能语音识别流程图

2.1 特征提取技术

特征参数提取技术主要是从人类语音信号中提取出相关的参数,来描述人类说话的目的。人类语音信号中含有各种信息,语音信号特征提取是语音信号处理的前提,可以提取出对智能语音识别有用的信息,它可以对语音信号进行分析和处理,去除无关紧要的语言信息,通过提取语音信号本质特征的参数来识别语音信号的主要信息。

LPCC基于声道模型,它是目前进行语音信号分析最流行的分析技术之一。线性预测技术LPC用线性预测法分析出语音信号相邻样值之间的关系,从而得到一组语音信号模型参数。这组语音信号模型参数可以较精确地表征出语音信号频谱幅度。

2.2 语音信号建模

在识别建模阶段主要用的是模式匹配法。语音信号建模单元有单词、音节和音素三种。音节单元主要应用于中小词汇的智能语音识别系统,不适合大词汇的智能语音识别系统。它主要应用于汉语的智能语音识别,不适合英语的智能语音识别,主要原因在于汉语是单音节结构的语言,而英语却是多音节结构的语言。对于中大词汇量汉语智能语音识别系统来说,以音节为识别单元基本是可行的。音素是语音中最小的基本单位,是人类能区别每个单词的基础。在应用中把声母和韵母组合得不一样而构成细化声母,这样虽然增加了模型数目,却可以提高易混淆音节的区分力。

2.3 模型训练技术

模型训练是指按照一定的准则,在大量已知的模式中获取可以表征该模式的本质特征模型参数,使未知的模式与模型库中的某一个模型获得最佳的匹配,从而提高声学模型的准确率。智能语音识别所应用的模型训练技术主要有基于GMM-HMM语音识别声学模型训练方法和人工神经元网络(ANN)模型法。GMM-HMM训练法主要是针对GMM中均值与方差参数进行了调整,语音识别核心在于声学模型,声学模型核心在于GMM参数训练。人工神经元网络(ANN)模型法对应状态的发射概率也是同样原理。

3 发展历程

人类对智能语音识别的研究最早可追溯到20世纪50年代,Davis等人在1952年研制了世界上第一个能识别数字发音的实验系统,虽然只能识别固定的某个人说的英文数字,这次的研究却正式开启了智能语音识别的历史进程。

从技术方向来看,智能语音识别发展至今可以大体分为三个发展阶段。

图2 发展历程图

3.1 起始阶段

20世纪50至70年代,智能语音识别主要集中在单个词和小词汇量识别方面,使用的方法主要有模式匹配方法、动态规划算法和动态因素跟踪法等。以上方法有很大的局限性,比如,模式匹配方法方法对解决单个词识别是有效的,但对于大词汇量的智能语音识别却无能为力。Davis等人在1952年研制的能识别数字的智能语音识别系统,主要依靠度量每个英文数字的元音音段的共振峰。英国的Denes等在1960年研究出了第一个计算机智能语音识别系统,同样也存在一定的局限性。

3.2 发展阶段

20世纪70年代后,小词汇智能语音识别技术越来越成熟。到了80年代,人类就研制出了连续的智能语音识别系统,并且还提出了将神经网络技术引入智能语音识别技术的想法,智能语音识别技术在这个时期得到很大的发展。混合高斯模型被应用到智能语音识别技术中,大大提升了智能语音识别的效果,但智能语音识别的准确率还是很难达到90%以上。

3.3 应用阶段

20世纪90年代以后,人类对智能语音识别的研究得到了突飞猛进的发展。随着深度学习,智能语音识别的精度得到了大幅度的提升,准确率达到90%以上。人机语音交互成为智能语音识别研究的焦点,包括口语的识别、口语对话和多语种的语音同声翻译等。技术取得了突破的同时,人类还依托智能语音识别系统生产出大量的与此相关的产品,如天猫精灵、语音遥控器等。

4 主要应用领域

智能语音识别技术主要解决了让机器听懂人类说话的难题,它的应用十分广泛,目前主要应用在工业、智能家居、车联网、通信、医疗、电子产品等领域。智能语音识别技术在军事、航空领域也得到了突破发展。

图3 主要应用领域

4.1 智能家居方面

人机交互这种沟通方式应用到家居中,能够为居民带来便利,特别是老人和小孩。现在的智能家居系统大多都可以对接语音识别功能,如智能灯、空调、窗帘、电视、门窗、安防与监控等都可以植入语音控制,智能语音识别技术还可应用于智能微波炉、电饭煲、扫地机器人等其他领域。

传统的控制电视交互方式有遥控器、手机APP、键盘鼠标等,随着用户对电视操控越来越复杂,传统的交互方式已经不能满足用户的要求。但是随着智能语音识别系统的加入,电视可以根据用户的语音做出快速响应,这样可以让智能电视的操控性得到大大提高。智能电视主要是通过安装适配的智能语音识别软件,智能语音识别软件连接到互联网并向客户端发送接收到的语音识别信号,通过客户端返回对应的指令,实现对智能电视的操作。智能电视操作系统能够满足用户多样化功能的需求,比如,用户可以说“换台”等直接找到自己想要看的电视节目。

4.2 车联网方面

传统的车载终端系统需要驾驶员驾车的同时进行手动操作,增加了驾驶员分心的风险。驾驶员在驾车的同时操作电子设备导致目光偏离了前方,这是造成交通事故的原因之一。随着智能语音识别技术融入车联网中,很大程度上减轻了驾驶人员眼睛和手的操作压力,特别是在驾驶员负荷驾驶环境下,减少了交通事故的发生,提高了驾驶的安全性。目前,我国已经具备车载语音终端系统的开发技术,特别是基于小词汇量的智能语音识别技术已经很成熟。该系统可以实现驾驶员车辆指令、语音拨号、语音导航目的地输入、车载个人娱乐等功能。比如,在汽车上可以安装声控免提电话,当驾驶员想要拨打电话时,驾驶员只需要说出相应的电话号码,智能语音识别系统就可以根据识别结果自动拨打出相应的电话。基于车辆内部环境温度,智能语音识别率相对较高,这种人机交互方式,不仅可以让驾驶员的手和眼睛得到解放,还可以极大地提升驾驶员的驾驶体验。

4.3 医疗方面

随着医院临床业务总量不断增长,医务工作人员需要将大量精力用在书写检查报告、病程记录、门诊病历等病人信息上面,这些必要的工作占用医务人员大量的工作时间。智能语音识别技术引入医疗系统后,医务人员可以用语音录入代替手写或者键盘输入,极大地提高了医务人员书写病历记录等病人信息的效率,降低了医务人员的工作强度,降低了医疗系统日常的运作成本,突破了传统医疗信息记录模式的局限。比如,在门诊上,医生可以将患者的病状口述下来,录制成语音档案,智能语音识别系统可以将医生口述的语音转换成准确度高的初步文件,通过电脑再进行快速的核对和编辑,不需要医生将病人状况逐字逐句地输入电脑,就能轻松地把病人情况转换成电子病例档案。随着智能语音识别技术在临床上的应用,医务人员大大节约了宝贵时间,缩短病人无效的等待时间,间接地提高医院救治病人的能力。

4.4 军事方面

智能语音识别技术在军事领域也有着极为重要的应用价值。目前,部分智能语音识别技术专门针对军事活动而进行研发,并在识别精度、响应时间、环境影响等方面进一步精细化。在军事指挥和控制自动化方面,智能语音识别技术已经得到广泛应用。在军事指挥模拟训练中,为了增强模拟训练的实战效果,语言是最自然、最符合实际的信息载体。将智能语音识别技术引入军事模拟训练系统,该技术可充分改善人机交互的通信界面,更真实地体现出军人的协同训练。在控制自动化方面,工作人员将智能语音识别技术用于航空飞机的飞行控制,飞行员可以利用语音输入来完成传统的手动操作控制。这样不仅提高了航空作战效率,还减轻了航空飞行员的操作压力。

5 智能语音识别的局限性

智能语音识别技术虽然有了历史性的进展,但依旧存在着一些技术上的不足。智能语音识别技术存在无法区分各地方言,无法对环境中的噪声过滤等问题,这些导致智能语音识别技术进入了一个发展瓶颈期,在技术发展上受到了一定的限制性。

5.1 距离问题

智能语音识别对人机之间的距离有一定的要求,超过一定的距离时,机器将很难识别出讲话人的语言,甚至会停止工作不再进行智能语音识别工作。比如,用天猫精灵控制家电的时候,讲话人和天猫精灵之间的距离超出5~8米时,天猫精灵将不做出反应。

5.2 环境问题

智能语音识别系统的适应性比较差,有很强的环境依赖性。语言识别系统只能在比较安静的环境下,才能得到高精准度的语言识别。在嘈杂的环境中,人类会下意识地提高音量、变慢语速、改变音调等,这些变化会导致音调及共振峰的变化,智能语音识别系统将很难识别出讲话人的语言。

5.3 适应性问题

人类的语音信号有着很大的抽象性、适应性,由于讲话人发音过程中音调、音量、重音和发音速度的不同,会导致讲话人的意思不同。人类可以根据已有的语言背景来对说话者的意思进行分析,但是机器却不具备这样的能力。不同的说话人由于性别、情绪、环境、年龄等因素,相同内容的发音存在着很大的差异,智能语音识别系统的适应性远不如人类,比如,一些智能语音识别系统不能对幼儿的语言进行识别。

5.4 方言问题

不同的地方,总会有一些特殊的方言词语或者奇异的发音,这对于人类来说并不是什么大问题,还会让人类感受到异国风情,但是对智能语音识别系统来说,这却是大难题。口音是各地语言中普遍存在的现象,人类发音极其不规则,比如,在一些方言中,不能很清楚地区分“z”和“zh”“c”和“ch”“s”和“sh”“n”和“l”、前鼻音和后鼻音等,同一个字,音调也不一样。目前,这些问题是智能语音识别技术的一条难以跨越的鸿沟。

6 未来展望

智能语音识别技术涉及多个专业领域,急需有一套标准化的工作系统,从而实现各领域的分工和协作,促进社会经济的进一步发展。随着互联网的快速发展、企业资金的大量投入和国家政策的支持,作为人机交互最为重要的接口之一,智能语音识别技术将会吸引更多研究人员去研究,智能语音识别技术将会很快走出瓶颈期,得到一个质的发展。

猜你喜欢

语音信号人类
人类能否一觉到未来?
微信语音恐惧症
完形填空二则
人类第一杀手
魔力语音
Magic Phonetics魔力语音
1100亿个人类的清明
对方正在输入……
信号
人类正在消灭自然