小i机器人中的智能语音技术分析
2019-04-02王鹏鲲
王鹏鲲
摘 要 智能语音技术应用于自然语言识别与合成处理、语义的分析和理解、知识工程和智能大数据处理的领域。文章结合对一般语音系统处理过程的理解與分析,阐述了人工智能技术(Artificial Intelligence :AI)在语音处理过程中的应用,并结合小i机器人进行了技术应用分析,为进一步理解并揭示智能语音技术与系统奠定基础。
关键词 小i机器人;智能语音处理;语音识别;语音合成
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2019)230-0131-02
新世纪以来,我国的人工智能技术不断的快速发展,人工智能市场也在持续扩大,在智能语音技术方面的专利数量也在持续增加。基于我国庞大的用户基础和优越的互联网基础设施,国内本土的智能语音公司终将占据一定的市场份额[ 1 ]。而智能语音技术作为行业应用中最成熟的技术之一,在智能设备与系统等方面都有了深入的用于与发展。
智能语音技术是人工智能技术中的关键环节,所以研究智能语言技术非常重要。本文针对现实中语音系统,深入阐述一般语音分析过程,并重点分析总结了当前深受人们喜爱的小i机器人中所使用的智能语音处理技术,为智能信息处理技术的进一步应用发展提供参考。
1 一般语音系统分析
1.1 语音系统原理
语音系统[ 2 ]是由两方面组成,一方面是语音识别过程,另一方面语音合成过程。其一般的语音系统处理流程如图1所示。
首先是语音识别过程,是对输入的物理语音进行特征提取,并转换成特定的数字信号。从物理学中,可以知道声音是一种波,也被称为声波。比如MP3此类压缩格式的文件,展开后就变成了不属于压缩的各种纯波形文件,然后通过波形文件对声音进行处理,俗称的有.WAV文件,展开后就成为了一种波形图案,上面有很多个点,每个点就是一个所谓特征,最后通过剪切来截取声音信息。
接着是语音合成过程,语音合成也称为一种文语转换技术,能将许多不同的正确文字随时随地地转化为标准流畅的语音表达出来,这就相当于使机器具有人的语音表达能力。这种表达能力是按照计算机程序规则实现的,难以实现对语言信息进行选择性回答,缺乏一定的自主性。实际上文语转换系统需要经过以下两个步骤完成文语转换过程。
第一步是将文字分开形成一个个的音韵,这样一个文字就有一组音韵。
第二步是根据已有的音韵所组成的序列生成语音波形,这实际上是与语音识别过程相反。
其中,语言处理是非常核心的环节,主要是基于人类本身对自然语言的理解,才能使计算机对语言有特定的理解,并对韵律进行处理和对声学进行处理。通过韵律处理就合成了语言的音段的特征,通过声学处理得到的结果就是实际的输出语音,这样便完成了语音的识别与处理,构成一个完整的语音系统处理过程。
1.2 语音识别技术
语音识别技术,也被称为自动语音识别,语音识别技术应用非常广泛,典型的语音识别应用主要包括语音拨号、语音登陆、设备控制、语音文档检索等功能,与人类自身语言识别功能不同,后者可以尝试识别不同说话人的声音,包括其中说话人所表达的内容。识别的最终目标是将人所表达的内容转化为计算机中的一些二进制编码或者代码或者一些字符序列。而语音识别是属于典型的交叉学科,是一种典型的信息技术,借助语音识别人们可以直接与机器交流,就像与其他人说话一样,直接询问机器人问题,机器人会根据内容选择性提取并给予特定的回答。机器系统可以通过语音识别技术识别到所说话的对象甚至说话的内容,并自动生成了特定的指令,系统在接收到命令后自主完成要求。而语音识别系统不需要人们记住固定的口令也能被识别出来的,系统也不会被一些二次语言(比如录音)所欺骗。实际中有微信中的语言登录功能,根据音韵序列生成语音波形来识别声音。
与机器进行语音交流,让机器明白你说的是什么,然后识别指令达到目的,是语音分析领域所寻找的技术。而语音识别技术就是把说出来的话通过声波特征分析,然后对其提取并进行存储,最后变成文本信息。
1.3 语音合成技术
从1.1的语音过程分析中可以知道,语音合成技术也叫做文语转换技术,就是将计算机程序生成的或者外部输入的类似文字这样的语言信息,比如文本文档内容中的文字信息,按语音处理的方法把它转换成语言进行输出。这里所说的机器表达与传统的声音回放是有很大区别的。传统的声音回放是通过先前录制声音然后放出来,比如录音机,传统的方法在方便性、及时性或者存储、传输等方面都有很大的限制。而现在运用这种语音合成技术有许多好处,可以随时随地的不用看也可以知道文字信息。当然实际的文语转换系统是非常复杂的,文字序列跟音素序列程序进行转换,文字的序列转换成音韵的序列,再由系统根据音韵序列生成语音波形,这一系列转换之前特别复杂,但该技术经过发展已经渐进成熟,合成的错误率已经很低了。该技术主要依赖于应用数字信号处理,而且必须有大量的语言学知识的支持,如图1所示的语音数据库和文本数据库。
2 小i智能语音信息处理技术分析
小i机器人于2001年诞生[ 3 - 4 ],拥有全世界较大的智能机器人云服务平台,它的用户在全球已经超过2亿人,而且它的服务范围也非常大。比如可以在智能客服、智能政务、智能语音等领域进行广泛应用。小i机器人是智能机器人技术的代表,作为智能机器人平台的运营商,专注于智能交互技术的研发,并在大量的商业应用中推动产业化进程。
2.1 智能语音识别技术
小i机器人中所使用的智能语音识别技术采用了特别的算法[ 5 ],能自动对声音的信息进行处理调节,也就是可以直接对信息进行处理,不需要中间特别复杂的转换,所以其处理速度十分惊人,这样才能给用户提供良好服务体验。
智能语音识别技术主要是对人类声音的特征进行分析,只有得到该声音特征的样本才能很好地进行分析处理,才能使这门技术有一定的准确性,从而大大提高了声音识别的正确率。运用了智能技术使得语音识别速度得到一个质的提高,非常适合大规模商业化应用。语音识别技术只要说话,即可轻松完成对电子产品的控制以及搜索的功能,当前一些智能手机中也提供实际可用的语音控制功能。
2.2 智能语音合成技术
小i机器人智能语音合成技术是将文本状态的文字信息转换为可闻其声的语音信息处理技术[ 6 ],涉及数字信号处理技术、语言学等多个学科技术。典型的是在小i机器人中采用了极限元语音合成引擎,利用精心设计的语音语料库进行声学模型和文本处理模型的训练,得到的模型对自然语音和语言的特性进行深度挖,从而能够合成清晰、自然的语音,接近真人发音。此系统实际上可以看作是一个人工智能系统。为了合成出准确无误的语言,除了依赖于各种语义、词汇、语音学外,还必须对文字的内容有很好的理解,这也涉及到系统对自然语言理解的问题。
2.3 小i智能机器人关键技术
小i智能机器人自身就是一个完整的人工智能系统,其关键技术包括领先的自然语义认知、深度语义交互、语音识别、业界独创的智能知识模型、图像识别、先进的人机协作学习体系、机器学习和大数据等技术,为小i机器人可以直接与人对话,甚至可以与其他智能机器人对话奠定了技术基础。因此小i机器人的用途是非常廣泛的,比如一些人工智能客服,在线电话客服、智能语音导航等。
3 结论
智能语音技术为人机交互带来了新的发展,把人工智能应用于语言处理技术上,大大提高了人们生产生活的方便。可以通过智能语言识别技术利用语音命令进行操作,只要说话便可控制机器按照特定目的完成任务。可以通过智能语言合成技术把文字换成语音,人们也可以使自己适应各种各样的语言识别系统。但是在短期内实现智能机器人的自我意识是很难的,同样智能机器人的自我意识该不该存在一直是个很大的问题,也是该领域研究的挑战性问题之一,智能语音专家将会持续改进语音识别系统。相信快速发展的信息科技技术将会推动人工智能技术的发展,智能语音识别技术的应用也将更加广泛。
参考文献
[1]刘占军.计算机语音系统软件的研究和开发[J].计算机应用,2001,21(5):67-68.
[2]陈芳,袁保宗.具有文本生成功能的智能语音生成系统[J].电子学报,1997(10):5-8.
[3]史鹤幸.小i机器人——全球顶尖AI提供商[J].上海企业,2018(5).
[4]呼涛.解密“中国智造”小i机器人[J].半月谈,2016(5):71-73.
[5]周璐璐,邓江洪.一种机器人智能语音识别算法研究[J].计算机测量与控制,2014,22(10):3267-3269.
[6]曾谁飞,王仁波.语音合成技术在智能语音播报系统中的应用探析[J].电信科学,2010,26(3):64-68.