APP下载

机器学习应用于语言智能的研究综述*

2018-02-27王连柱

现代教育技术 2018年9期
关键词:小冰语料库机器

王连柱



机器学习应用于语言智能的研究综述*

王连柱1,2

(1.北京外国语大学 中国外语与教育研究中心,北京 100089;2.新乡医学院 外语学院,河南新乡 453003)

文章首先对机器学习和语言智能进行了概念界定,随后将机器学习应用于语言智能的研究分为萌芽时期、发展时期、繁荣时期等三个阶段,并综述了各历史阶段中机器学习在语言智能中的应用情况。为了探讨语言智能机器人背后的技术原理,文章以微软“小冰”为例,论述了机器学习理论和算法在情感聊天、智能作诗、智能新闻写作中的作用。最后,文章从机器学习方式、算法、语言智能水平和产业规模等四个方面,就机器学习应用于语言智能的未来趋势进行了展望,以期为未来的机器学习研究和语言智能产业发展提供参考。

机器学习;语言智能;人工智能;机器翻译

自1946年世界上第一台计算机诞生至今的70余年间,人们不断地思索如何利用计算机服务于人类各项事业。时至今日,计算机已被广泛地应用于科学计算、数据处理、过程控制、生产自动化、人工智能等领域。随着计算机软硬件设备的迭代升级,以及数理统计等基础科学的跨越式发展,人们已不再满足于仅让计算机从事程序执行、数据运算之类的简单工作,而是设法让计算机自行推理、自主学习。计算机的自主学习即机器学习(Machine Learning),已在若干学科前沿发挥革命性的作用。如天文学方面,美国国家航空航天局于2017年12月15日发布声明,谷歌人工智能工程师Shallue等利用机器学习,从开普勒望远镜项目对外公布的海量数据中成功发现第8颗行星——开普勒-90i(Kepler-90i)。当然,机器学习的“主阵地”——自然语言处理,也并没有被遗忘。随着机器学习理论、算法的发展和语料库、知识库的健全,自然语言处理这个“主业”日臻完善,正不断朝着规模化和智能化的方向发展。而语言智能机器人,如美国的“索菲亚”(Sophia)、中国的“佳佳”、日本的“安苏娜”(Asuna)等,已经具备一定的智能语音交互功能,语言智能的新时代正在快步走来[1]。

一 概念界定

1 机器学习

机器学习的核心问题是学习。Simon认为:“学习是系统中的任何改进,这种改进使得系统在重复同样的工作或进行类似的工作时,能完成得更好。”[2]机器学习不同于人类学习,具体表现为:①学习依靠的资源不同。人类学习依靠的是人类对整个世界的经验,即人类的所听、所见、所读、所想等;而机器学习依靠的是各种可获得的标记(Labeled)或者非标记(Unlabeled)的历史数据。②做出预测的依据不同。人类做出预测或者进行演绎推理,依据的是归纳出来的各种原理和规律;而机器做出预测或判断,依据的是各种算法模型。③学习效率不同。人类学习过程缓慢,抗干扰性差,且效率较低;而机器学习可以更加迅速、高效地获取知识和技能。可以说,机器学习是包括语言智能在内的人工智能的核心[3]。

针对机器学习的重点,学者们提出了各自不同的观点,如Samuel[4]强调机器学习过程中的去程序化,Mitchell[5]和Mooney[6]强调学习经验使计算机程序自身的性能得以改善,而Carbonell等[7]强调机器学习的策略以及知识或技能表征的方式。综合上述观点,本研究认为机器学习是指计算机模拟人类的学习行为,通过识别现有知识,以获取新知识或新技能,或者重组已有的知识结构,不断改善性能和实现自身完善的过程、原理和方法[8][9],其主要目标是建立学习模型、发展学习理论、设计数理算法和建立应用系统[10]。其中,建立应用系统是指把机器学习的成果应用于包括语言智能在内的各种人工智能,以更好地服务于人类社会。

2 语言智能

研究机器学习贵在应用,即把研究成果应用于学科领域。机器学习的应用领域十分广泛,Carbonell等[11]总结出19个应用领域——其中,与语言智能有关的有3个:语音识别/合成、自然语言处理和计算机编程。这三个领域涉及的问题各不相同,以自然语言处理领域为例,机器学习侧重于解决该领域中的词性标注、句法标注、语义标注、词义消歧、指代消解、信息抽取等问题[12],以达到提升信息处理效率和效度的目标。

机器学习技术的大量应用,使机器更善于听懂人类的语言,并使用人类的语言与人类交流。机器与人类的实时语言交互体现了语言智能的内涵,即利用机器学习算法、知识库和语音识别/合成技术,智能化地理解、生成语言,实现人机交互。如今,人机智能交互已进入生产、生活领域,诞生了许多种类的语言智能机器人,如自动翻译机器人、新闻写作机器人、作诗机器人、情感陪护机器人、社交机器人、客服机器人等。

二 机器学习应用于语言智能的研究历程

为解答“机器能否思考”(Can Machines Think?)的疑问,英国数学家Turing[13]例举了一个由三方参与的“模拟游戏”,采用“问答”形式来检测学习机器的智商,这就是后来的“图灵测试”——当时,Turing使用的名称还是“学习机器”。

“机器学习”这一术语由西洋跳棋程序的研制者Samuel于1956年首次提出,他将这一新术语定义为“不显式编程地赋予计算机能力的研究领域”[14]。机器学习应用于语言智能的研究大致可分为萌芽时期、发展时期和繁荣时期等三个阶段,这三个阶段见证了语言智能从单纯语言翻译向复杂人机对话、智能写作等多领域应用的转变。

1 萌芽时期(1980年以前)

上个世纪80年代以前,语言智能的研究尚处于低级阶段,研究的主要内容是机器翻译、自然语言理解和相关的算法。

(1)机器学习与机器翻译

1954年,美国乔治敦大学利用国际商业机器(International Business Machines,IBM)公司生产的IBM-701型计算机,在世界首次进行了俄英机器翻译实验,获得巨大成功。苏联、意大利、英国、德国、日本、中国等不甘示弱,也纷纷进行机器翻译实验。1959年,我国在104型电子计算机上首次进行了俄汉机器翻译实验[15]。但是语言远比人们想象的要复杂,早期翻译主要采用查字典的方法,没有考虑句法分析等,译文可读性差,难以产生效益。1966年,美国自动语言处理咨询委员会发布《语言与机器》()报告,否定了机器翻译[16],因为机器翻译难以攻克“语义障碍”。随后,机器翻译研究陷入低潮。

60年代末开始,机器翻译研究开始重视句法和语义,同时把句法和算法分开。这一时期诞生的较为典型的机器翻译系统是美国乔治敦大学的俄英机器翻译系统SYSTRAN[17]和法国格勒诺布尔医科大学的俄法机器翻译系统ARIANE-78[18]。此外,加拿大的实用翻译系统TAUM-METEO也具有里程碑意义[19],它可以每天翻译1500~2000篇天气预报。由于此时期的机器翻译采用了基于逻辑表示的“连接主义”学习系统、基于决策理论的学习技术和基于统计学的学习算法(如Earley算法、Beyesian算法),外加应用了词典和语料库,故使句法成功率得到显著提升,词义消歧、多义词选择也得到明显改善。

(2)机器学习与自然语言理解

70年代,自然语言理解研究取得突破,出现了多个利用程序推演进行语义、语用和语境分析的系统,如PAM系统和SHRDLU系统[20]。其中,SHRDLU系统是1972年由美国麻省理工学院的Winograd[21]设计的,该系统较好地把句法、语义分析与逻辑推理结合起来,可以实现用自然语言指挥机器人摆弄积木[22]。

2 发展时期(1980~2000年)

80年代初至20世纪末是机器学习和语言智能快速发展的时期,学习理论、算法、语料库、知识库等新概念、新事物在这一时期不断兴起。其中,影响较大的机器学习理论和算法有:80年代的归纳学习(Inductive Learning)和决策树(Decision Tree)算法、归纳逻辑程序设计(Inductive Logic Programming,ILP)算法、神经网络反向传播(Back Propagation,BP)算法[23]等;90年代的统计学习(Statistical Learning)和支持向量机(Support Vector Machine,SVM)算法[24]、集成学习(Ensemble Learning)和Boosting、Bagging算法等。机器学习理论和算法的快速发展,推动了自然语言处理、机器翻译和人机对话等研究逐步走向成熟。

(1)机器学习与自然语言处理

在自然语言处理方面,亿词级的英国国家语料库(British National Corpus,BNC)实现了自动词性标注,为词典编制、自然语言理解、机器翻译奠定了基础。BNC的自动词性标注是基于概率统计进行的标注,准确率能达到96%~97%。此外,世界上许多大学和研究机构在90年代建立了不同语种的树库,其中建设最早、影响力最大的当属宾州树库(The Penn Treebank)。目前,树库实现了在线检索和共享,谷歌和斯坦福大学等更是发起并建设了通用依存树库共享平台①。

(2)机器学习与机器翻译

统计方法除了可以应用于词性标注、句法标注,还可以应用于机器翻译。正如Hutchins所言,自1989年以来,基于规则、统计、实例、语料库、知识库的方法已经把机器翻译带入了一个新纪元②。90年代初,IBM工程师Brown等[25]在不借助翻译规则、术语库的情况下,仅仅依靠平行语料库和统计算法,短短几年内就构建出了一个与SYSTRAN媲美的翻译系统。

(3)机器学习与人机对话

90年代,语言智能方面取得的成功还包括自动问答系统和自动语音识别系统。1993年,美国麻省理工学院的Katz及其同事开发了世界上首个基于网页的问答系统START——目前,该系统可以回答几百万个关于地点、影片、人物、字典上的定义等英语问题。另外一个比较成熟的问答系统是AnswerBus,这是一种多语种、多引擎的句级信息抽取系统,支持5种语言和5种搜索引擎。但是,START和AnswerBus这两个问答系统需要手工输入,而自动语音识别技术的发展可以有效解决手工输入的问题。1997年,IBM推出语音识别软件ViaVoice,使用者可自行短时训练该软件,使其适应个体语音和语调。

3 繁荣时期(2000年至今)

在机器学习理论、算法等蓬勃发展的新世纪,语言智能进入了前所未有的繁荣时期。进入21世纪,学习理论从统计学习向集成学习、深度学习(Deep Learning)转变,Adaboost、随机森林(Random Forests)、卷积神经网络(Convulsion Neural Networks)、深度信念网络(Deep Belief Networks)等算法应运而生并不断迭代升级。2006年,加拿大多伦多大学的Hinton等[26]在《科学》()杂志上发表关于运用神经网络削减数据维度的文章,给出了训练深层网络的新思路,从而拉开了深度学习的大幕。如今,深度学习越来越火热,常被应用于工程实践,如机器翻译、自然语言理解和智能语音交互等。

(1)机器学习与机器翻译

2012年11月,微软在第十四届“二十一世纪的计算”学术研讨会上,公开演示了全自动同声传译系统——演讲者用英文发言,后台的计算机即时自动完成语音识别、英中机器翻译和中文语音合成,运行非常流畅,其中的关键支撑技术就是深度学习[27]。2016年9月,谷歌公布基于网页和APP的神经网络机器翻译(Google Neural Machine Translation,GNMT),结束了始于1989年的IBM基于短语的机器翻译(Phrase-Based Machine Translation,PBMT)模式。与谷歌先前基于短语的机器翻译相比,基于神经网络的机器翻译将错误率减少约60%[28]。

(2)机器学习与自然语言理解

2018年1月,在斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)机器阅读理解挑战赛中,由微软亚洲研究院和阿里巴巴iDST自然语言处理部提交的智能模型分别实现了82.650%、82.440%的精准匹配,首次超越了人类于2016年创造的82.304%的精准率。

(3)机器学习与智能语音交互

语音识别/合成、自然语音理解、知识库检索等技术的快速发展,使机器人已经具备一定的智能语音交互功能。以美国的“索菲亚”为例,她不仅可以“逼真地”做出各种动作与表情,还可以“幽默地”与人类交流与沟通,故自2015年4月诞生起就引起了人们的高度关注。

三 机器学习应用于语言智能的典型案例

微软的“小冰”是目前全球最大的交互式人工智能系统之一。该系统不仅实现了智能情感聊天,而且做到了智能作诗、智能新闻写作。从2014年5月29日首次亮相,到2017年8月22日第五版发布,“小冰”已成为流量规模最大、应用范围最广的情感社交聊天机器人。丰富的实战经验和良好的业绩表现,为“小冰”在更多语言场景中的应用奠定了基础。目前,“小冰”已成功登陆微信、微博、Facebook、中国东方航空、东方卫视、Window 10等应用平台。此外,微软还开发了“小娜”(Cortana)、日本版的“小冰凛菜”(Rinna)和美国版的“Zo”等聊天机器人。“小冰”等之所以能实现智能情感聊天,离不开专门用途语料库的建设、深度学习理论的支撑和深度神经网络技术的应用。

在智能作诗方面,由“小冰”创作的现代诗集《阳光失了玻璃窗》于2017年5月19日正式出版。该诗集共收录139首诗,精选自“小冰”创作的70,928首诗。这是人类历史上第一部100%人工智能诗集,运用的正是深度神经网络等算法。在模拟人类作诗过程的基础上,经过上万次的训练,“小冰”才具有了诗歌创作的能力。除“小冰”外,由清华大学语音和语言技术中心开发的“薇薇”也具有这种作诗能力。2016年3月20日,该中心宣布,他们的作诗机器人“薇薇”通过了中国社会科学院唐诗专家的评定和“图灵测试”,即“薇薇”创作的古诗词中,有30%以上(31%)被认为是人创作而非机器创作的。

而在智能新闻写作方面,“小冰”自2016年12月起正式入职《钱江晚报》,成为该报的一名特约记者。与人类记者相比,机器记者虽然存在问题思考不够深刻、情感投入不够丰富等弱点,但在速度和准度方面却颇有优势。正因为如此,研究者纷纷进行了写作机器人的研发。2009年10月11日,美国西北大学研发的StatsMonkey系统曾撰写了一篇关于棒球比赛的新闻稿。此后,世界上诞生了多款写作机器人,如国外《洛杉矶时报》的Quakebot、美国联合通讯社(简称“美联社”)的Wordsmith和《纽约时报》的Blossombot等,国内腾讯的Dreamwriter、新华社的“快笔小新”和人民日报的“小融”等。这些机器人之所以能够撰写稿件,其背后的技术支撑就是大数据和机器学习算法。

四 机器学习应用于语言智能的研究展望

随着计算机硬件尤其是神经网络处理单元(Neural-network Processing Unit,NPU)的研发与改进,机器学习会变得更加强大,并触发包括语言智能在内的人工智能领域的更大变革。基于对计算机硬件、机器学习理论和算法等发展态势的分析与研判,本研究将机器学习应用于语言智能的未来趋势总结如下:

①机器学习方式的升级——监督学习、半监督学习将向无监督学习、预测学习(Predictive Learning)转变。2017年5月,谷歌发布自动机器学习(Auto Machine Learning,AutoML)系统。该系统的独特之处在于,机器成了独立于人类之外的另一架构师,它可以自主选择算法模型、模型参数,并自动评估模型质量,以获得更好的结果。目前,该系统设计的模型与专业研发工程师设计的模型不分伯仲,可以预计,该系统将逐步取代部分机器学习研发工程师。此外,由美国纽约大学LeCun提出的预测学习③让机器拥有了“共识”,通过使用机器,给可以获得的任意信息建模,来预测感知对象的未来,从而实现推理和规划的结合。总之,未来的机器学习将开启以自主学习为主、以人工干预为补充的新局面。

②算法的换代——机器学习算法将改变原来单行、单任务的做法,逐步朝着并行化、层次化、模块化的方向发展。算法系统会将复杂的任务拆分成若干简单的子任务,交由不同的算法模块来执行,这样既可发挥每个模块的专长,也可进行任务的并行化运算,减少任务响应时间。此外,根据神经元理论,建立深层神经网络算法,可以实现对成千上万互联互通神经元的监测。

③语言智能水平的提升——当机器学习理论、算法的进步映射到语言智能上时,就会提升语言智能的水平。李宇明[29]列举了机器给人类语言生活带来变革的九大职业,其中包括讲解员、引导员、后台客服、翻译、秘书、记者等,而这些职业中90%的工作在未来十年将被机器代替。以新闻记者的工作为例,未来的机器不仅能够组稿、写稿,还可以帮助处理假新闻。

④产业规模的扩大——语言智能的应用场景将不再局限于机器翻译、人机对话等,而是不断向智能家具、语音导航、可穿戴设备、教育等蔓延。《新一代人工智能发展白皮书(2017)》显示:2017年,全球人工智能核心产业规模已超过370亿美元,预计2020年将超过1300亿美元[30]。可以预见,包括语言智能在内的智能产业将成为未来企业巨头竞争的制高点,也将引领世界经济迈向新征程。

五 结语

通过以蒸汽机、电力和计算机为技术标志的三次工业革命,人类社会已相继完成了机械化、电气化和信息化。而在创新工场董事长、微软前全球副总裁李开复等[31]看来,人工智能极有可能成为下一次工业革命的核心驱动力。归根结底,人工智能就是让计算机模拟人类的智能行为,来完成以往需要人类智力才能完成的工作。目前,人工智能已被应用于自动驾驶、疾病诊断、艺术创作、智能金融等领域,Turing[32]更是预言:机器最终会与人在所有智能领域里竞争。

在语言生活领域,机器正与语言工作者一起参与人类的生产、生活,并已凸显其速度快、抗干扰强等优势。机器可以成为人类语言生活的助手,并为缩小人类沟通的鸿沟、减少人际间的隔阂作出贡献。当然,机器能够辅助人类完成一定的交际任务,离不开数据科学家、工程师、统计学家等专家的集体智慧。语言智能技术的不断发展,对这些专家提出了更高的要求。未来,专家们要做的不仅仅是改进和升级机器学习理论、算法,还要让未来的语言智能更富灵性、更具感染力。尽管语言智能发展之路还很漫长,遇到的阻力也不少,但我们有理由相信:语言智能的明天肯定会更好!

[1][29]李宇明.迎接与机器人共处的时代[N].光明日报,2017-8-6(12).

[2]Simon H A. Why should machines learn?[A]. Michalski R S, Carbonell J G, Mitchell T M. Machine learning: An artificial intelligence approach[C]. Berlin: Springer-Verlag, 1983:28.

[3][14]周志华.机器学习[M].北京:清华大学出版社,2016:18、22.

[4]Samuel A L. Some studies in machine learning using the game of checkers[J]. IBM Journal on Research and Development, 1959,(3):210-229.

[5](美)Mitchell T M著.曾华军,张银奎,等译.机器学习[M].北京:机械工业出版社,2003:2-3.

[6][12]Mooney R J. Machine learning[A]. Mitkov R. The Oxford handbook of computational linguistics[C]. Oxford: Oxford University Press, 2003:376、386-392.

[7][11]Carbonell J G, Michalski R S, Mitchell T M. An overview of machine learning[A]. Michalski R S, Carbonell J G, Mitchell T M. Machine learning: An artificial intelligence approach[C]. Berlin: Springer-Verlag, 1983:7、13.

[8]陈文伟,陈晟.知识工程与知识管理[M].北京:清华大学出版社,2010:166.

[9]刘润清.外语教学中的科研方法(修订版)[M].北京:外语教学与研究出版社,2015:492.

[10]杨忠祥.机器学习研究的发展现状与动向[J].信息与控制,1987,(1):34-37.

[13][32]Turing A M. Computing machinery and intelligence[J]. Mind, 1950,(236):433-460.

[15]刘涌泉.计算语言学在我国的发展[J].现代语文:高中版,2002,(7):44-45.

[16]ALPAC. Languages and machines: Computers in translation and linguistics[R]. Washington, D. C.: National Academy of Sciences, 1966:32.

[17][18]刘颖.计算语言学(修订版)[M].北京:清华大学出版社,2014:11、12.

[19]冯志伟.机器翻译与语言研究(上)[J].术语标准化与信息技术,2007,(3):39-43.

[20]冯志伟.计算语言学的历史回顾与现状分析[J].外国语,2011,(1):9-17.

[21]Winograd T. Understanding natural language[J]. Cognitive Psychology, 1972,(1):1-191.

[22](美)Jurafsky D, Martin J H著.冯志伟,孙乐译.自然语言处理综论[M].北京:电子工业出版社,2005:9.

[23]Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation[A]. Rumelhart D E, McClelland J L. Parallel distributed processing: Explorations in the microstructure of cognition[C]. Cambridge, MA: The MIT Press, 1986:318-362.

[24]Cortes C, Vapnik V N. Support-vector networks[J]. Machine Learning, 1995,(3):273-297.

[25]Brown P F, Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: Parameter estimation[J]. Computational Linguistics, 1993,(2):263-311.

[26]Hinton G, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science, 2006,(5786):504-507.

[27]卢鸫翔.DNN与微软同声传译系统背后的故事[J].程序员,2013,(6):30-33.

[28]Wu Y H, Schuster M, Chen Z F, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation[OL].

[30]李颋,周珉峰,马良,等.新一代人工智能发展白皮书(2017)[R].北京:中国电子学会,2018:30-31.

[31]李开复,王咏刚.人工智能[M].北京:文化发展出版社,2017:146.

①通用依存树库共享平台的访问网址:http://universaldependencies.org/。

②此观点源自1993年7月英国学者Hutchins在日本神户召开的第四届机器翻译高层会议上所作的报告。

③2016年12月,在西班牙巴塞罗那举办的神经信息处理系统(Neural Information Processing Systems,NIPS)年会上,LeCun受邀发表主旨演讲,并在演讲中提出用“预测学习”代替“无监督学习”这一传统分类。

A Review on the Application of Machine Learning in Language Intelligence

WANG Lian-zhu1,2

Firstly, this paper defined the concept of Machine Learning (ML) and Language Intelligence (LI). Then, this paper divided the research of the application of ML in LI into three periods of budding period, progressive period and flourishing period, and further summarized the application situations of ML in LI at different history stages. In order to discuss the technical principle behind LI robot, this paper took the Microsoft’s “Xiaobing” as an example to analyze the role of ML theory and algorithm in emotional chat, intelligent poetry and intelligent news writing. Finally, the future development of applying ML in LI was presented from four perspectives of ML mode, algorithm, LI level and industry scale, expecting to provide reference for the future ML research and the LI industry development.

machine learning; language intelligence; artificial intelligence; machine translation

G40-057

A

1009—8097(2018)09—0066—07

10.3969/j.issn.1009-8097.2018.09.010

本文为教育部人文社会科学研究青年基金项目“基于历时英汉平行语料库的医学文献翻译研究”(项目编号:14YJC740084)、河南省哲学社会科学规划项目“医学文献历时英汉平行语料库的创建、加工及应用研究”(项目编号:2016BYY011)的阶段性研究成果。

王连柱,北京外国语大学在读博士,新乡医学院讲师,研究方向为语料库语言学、计算语言学等,邮箱为lianzhuwang@126.com。

2018年3月31日

编辑:小米

猜你喜欢

小冰语料库机器
机器狗
机器狗
《语料库翻译文体学》评介
未来机器城
第六代微软“小冰”正式发布
第六代微软小冰正式发布
小冰在“浙江24 小时”干了些什么活
钱江晚报来了“小冰”——一张都市报在“Al+新闻”上的探索和突破
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入