人工智能识别与生成人类语言的研究综述
2019-04-07林筱松
林筱松
摘要:人工智能识别与生成人类语言是人工智能研究的一大领域,这是一门将计算机科学与语言学结合的技术。本文对其技术要求分为语音识别与合成、自然语言的识别与生成两大类。语音识别与合成又分别从语音识别、转换与合成三点进行详细阐述;自然语言的识别与生成详细介绍了自然语言处理和生成两大技术。最后将各项技术有机结合并简单地介绍了它的应用,同时对这一项技术在电子游戏领域进行了展望。
关键词:人工智能;语言识别;语言生成
1 引言
人类在这颗蔚蓝的星球上已经发展了25万年了,人们通过自然语言进行交流、合作,人类的发展史也是各式各样的自然语言的发展史。20世纪以后,随着计算机和互联网的出现、人工智能的快速发展,人们开始产生了与人工智能也用自然语言进行交流的想法。随着人们的不断探索,人工智能不仅学会了识别自然语言,人工智能的自然語言合成技术也逐渐走向成熟。
人工智能要能满足与人类交流的需求,语音识别是必不可少的,尤其是自然语言,人工智能需要准确地处理自然语言,并能够理解自然语言中所包含的意思,因此自然语言处理技术也应运而生。人工智能学会识别后便要进行转换与合成,通过语音转换和语音合成能够很好地创造出新的声音。如果将自然语言合成的技术应用进去,那么人工智能也能够使用自然语言,成功实现与人类交流的目的。
2 人工智能概述
人工智能是一门以研究人类智慧为主,同时开发用于模拟、延伸及发展人类智慧的新兴学科。人工智能从发展阶段来说分为两大类:强人工智能和弱人工智能。强人工智能可分为类人的人工智能和非类人的人工智能[1]。“类人”顾名思义就是完全和人类生活方式相同,和人一样有自我的推理和判断意识。而“非类人”即与人类生活方式不同,也是有自主意识。这两者不需要人类控制,只需根据先前已设定的指令进行自我调控。弱人工智能就是没有自我意识,不能进行自我思考,需要人类来进行控制。人工智能是20世纪才出现的新兴学科,但发展速度却快得惊人。从1936年数学家图灵提出人工智能,到20世纪五六十年代科研人员们进一步对人工智能这一陌生领域研究,再到1997年IBM公司研制的计算机“更深的蓝”战胜国际象棋冠军,直至到2017年 AlphaGo以3:0完胜终结围棋冠军柯洁。虽然人工智能发展历程快接近百年,但是我们仍旧处于弱人工智能时代。人工智能的迅速发展已运用于智能检索、模式识别、智能推理、交通运输、医疗服务等多种领域。人工智能已越来越贴近我们的生活[2]。
3 语音识别与合成
语音识别与合成是人工智能运用的一大领域,可以将其分为语音识别、语音转换和语音合成等三个领域。
3.1 语音识别
语音识别是一项帮助计算机听懂人类语言的技术。而它实际上是通过对人类所发出的声音先进行接受,再根据本来就已设定好的程序进行分析识别。语音识别始于20世纪50年代初期。1952年,贝尔实验室开发的Audry系统可识别0~9的发音;1956年普林斯顿大学RCA实验室开发了单音节识别系统;1971年CMU打破了单音节识别的模式,成功研发了能识别一句话的系统Harpy并成功实现了隐马尔科夫模型与人工神经网络的运用;90年代语音识别进入市场逐渐开始普及;21世纪,语音识别嵌入芯片,各式各样的语音识别软件层出不穷,语音识别技术走向成熟。但语音识别仍旧有一些不尽如人意的地方。环境依赖性强,在嘈杂的环境中,根本无法准确识别;在语气词这些细节词上还有所欠缺;识别速度也是一大急需被克服的难点。面对这些困难,应该进行更深入的研究,并从中探索奥秘,让语音识别更好地服务于人类[3]。
3.2 语音转换
语音转换是一项保留原说话人语意信息,改变其个性化特征,使之具有另一个人个性化特征的技术。个性化特征并不是简单地指人类语言的音色音调,它可以分成三类:音段特征,指共振峰的位置、共振峰的带宽、频谱倾斜、基音频率、能量等;超音段特征,指音素的时长、基音频率(就是音调)、能量等;语言特征,这个就是指各种方言、口语、口音等。语音识别还有多种应用领域:在电影电视剧中,经常会发现演员的声音与现实生活中不一样,但是没差多少,这是因为配音将声音录制好后通过VC语音转换使声音具有演员的个性化特征。通过语音转换将个性化特征改变,可以对说话人进行保密。对于声道受损的人,语音转换在很大程度上的改善了他的语音可懂度。当然,要实现语音转换就需要经过训练和转换两个阶段。在训练阶段计算机对原说话人的语音和目标说话人的语音进行分析特征提取,再对他们的结果进行对齐,接着再进行训练,最后按照语音转换规则进行语音转换进入转换阶段。在转换阶段中对原语音进行分析特征提取,再对训练阶段所产生的结果进行语音转换,而后进行语音合成,最后转换语音。现在语音转换功能并非十全十美,还是以音段转换为主,对于超音段的研究甚至语言特征还不够深入,所进行的语音转换会引入一定的杂音,引起失真。但是目前的语音转换对于人类的作用依旧举足轻重,计算机可以对所识别到的语音进行更多样式的处理与变化,使语音的功能与魅力大大增强。如果语音识别技术完善后,语音的未来会更加妙不可言[4]。
3.3 语音合成
语音合成是通过机械的、电子的方法产生人造语音的技术。语音合成已经有两百多年的历史了,它使计算机有像人一样说话的能力。语音合成是TTS结构,主要是语言处理、韵律处理和声学处理三部分。语言处理主要是对所接收到的语音信息进行词句字义分析处理,同时为后两部分作发音提示。韵律处理则是在旋律方面做修正,使语音能够更好地展现它所要表达的意思。而声学处理主要是输出语音。计算机的语音合成就使用了输出的功能[5]。
4 自然语言识别与生成
自然语言是指一种自然地随着文化演化的语言,例如英语、汉语、法语等,是相对于C语言、Java语言等人造语言而言的。而要使人工智能能够识别与生成人类语言,就要涉及到自然语言的处理与生成了。
4.1 自然语言处理
自然语言处理涉及到多种学科,也是计算机科学与人工智能这两大领域的主要研究方向。它是让人类能够用自然语言与计算机进行通信的一门科学。自然语言又可以分为自然语言处理资源和技术。所谓资源就是计算机可以识别自然语言的词典,就好比我们使用的各种字典。而技术还可以根据复杂程度和难度或自然语言处理层次和深度分成基本和高级两种。基本的自然语言处理就是指去除词根、去除停止词、词性标注、分词。而高级自然语言处理就实际到词句了,例如短语识别、词义消除、指代消除、概念抽取等。从1949年起,美国人威弗提出的机器翻译设计方案到现如今自然语言处理系统能处理大规模的真实文本,能从自然语言文本中抽取有用的信息[6]。這整整70年的发展时间,自然语言处理仍有还未解决的难点:对于一些多义的词,要能准确的识别它在这句话中所表达的意思;每种自然语言都有各自的语法,要在一篇文章中准确地剖析这句话;遇到方言或口音,甚至语法错误要能够纠正并能识别出[7]。可见自然语言处理这一大科学未来仍旧有很长的一条路要走,要继续深入研究与试验。
4.2 自然语言生成
自然语言生成是指使计算机能够像人一样拥有表达语言的能力的一门科学[9]。它是人工智能与计算机语言学的分支,相应的语言生成系统是基于语言信息处理的计算机模型,其工作过程与自然语言分析相反,是从抽象的概念层次开始,通过选择并执行一定的语义和语法规则来生成文本。有了自然语言生成,计算机便拥有了“嘴巴”,可以用人类的语言和人类进行交流[10]。
5 总结与展望
人工智能识别与生成人类语音首先人工智能需要具有语音识别和合成技术。语音识别与合成中可分为语音识别、语音转换和语音合成三部分。语音识别就相当于计算机的耳朵,就是计算机接受外界所传递给它的声音信号,计算机对其进行处理、识别,明白声音中所含信息。语音转换就是将“耳朵”所接受到的信息进行分析特征,保留原有意思而改变个性化特征,让声音呈现出更多不一样的精彩。至于语音合成,这就好比计算机的嘴巴,计算机通过计算与数据处理,将所要表达的信息通过语音的方式向外界输出。这三项技术相辅相成,就像是构成了一个人[11]。
而人工智能为了满足与人类交流的需求,自然语言的识别与生成这项技术便变得尤为重要,自然语言的识别与生成包括自然语言处理和自然语言生成两大内容。自然语言处理技术的加入便相当于计算机又多学了一门语言,计算机可以经过数据的处理分析,来“理解”所接收的自然语言所要表达的意思。而自然语言生成技术,计算机可以通过它来合成自然语言,然后再向外界表达,与语音合成如出一辙。计算机有这两项技术便可以直接与人类用自然语言进行交流。
在这高速发展的背景下,人工智能的发展也不例外,有了自然语言的识别与生成这一项伟大而又跨时代的技术,人类的生活会更加便利。而等到这一技术真正成熟后,可以将这一项技术放入客户端电子游戏中去,这不仅可以使玩家们更加身临其境,与NPC“面对面”交流,还可以使他们体验高科技所带来的便利,若在游戏中加入知识体系,还有一定的教育意义。当然,不仅仅是游戏,还可以应用于家用、医疗服务、环境保护等领域,有了自然语言的识别与生成这门技术,人类社会会变得更加神奇与精彩。
参考文献:
[1]邹蕾,张先锋.人工智能及其发展应用[J].信息网络安全,2012 (02):11-13.
[2]本刊编辑部.人工智能概述[J].保密科学技术,2017 (11):8-9.
[3]王敏妲.语音识别技术的研究与发展[J].微型机与应用,2009,28 (23):1-2+6.
[4]李波,王成友,蔡宣平,等.语音转换及相关技术综述[J].通信学报,2004 (05):109-118.
[5]李葵,徐海青,吴立刚,等.基于多情感说话人自适应的情感语音合成研究[J].湘潭大学自然科学学报,2018,40(04):39-44.
[6]王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007 (02):35-45.
[7]徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34 (08):1423-1436.
[8]张建华,陈家骏.自然语言生成综述[J].计算机应用研究,2006 (08):1-3+13.
[9]于振龙.基于LSTM的自然语言生成技术研究与实现[D].北京邮电大学,2018.
[10]蒋茜谦.人工智能已经掌握人类语言了吗[J].计算机与网络,2018,44 (24):16-17.
[11]李佐文,严玲.什么是计算话语学[J/OL].山东外语教学,2018 (06):24-32.