朝鲜语自然语言处理研究现状分析
2020-04-25华英楠
华 英 楠
(安徽外国语学院,合肥 231201)
一、引言
在最近二三十年中,随着计算机技术,特别是网络技术的迅速发展和普及,自然语言处理得到了长足的发展和前所未有的关注,目前自然语言处理已发展成为一门相对独立的学科,进入到了一个发展的繁荣期。
自然语言处理虽然已有几十年的发展历史,但目前国内绝大多数的研究对象仍旧以汉语和英语为主,相比之下,朝鲜语自然语言处理的研究起步较晚,基础研究相对薄弱,而且目前国内从事朝鲜语自然语言处理的研究人员和团队较少,相关的研究团队主要集中在东北三省(东三省朝鲜语文工作小组、延边电子信息中心、朝鲜语信息协会),其研究深度和广度还有很大的发展空间和更大的可能性。
本文介绍了自然语言处理的概念和“超学科”的本质,并从自然语言处理方法上介绍了其两个大的发展历程,然后重点针对研究起步较晚的朝鲜语自然语言处理的现状进行了详细的分析介绍,并对后期朝鲜语自然语言处理的研究方向和重点进行了展望。
二、自然语言处理的概念及发展历程
(一)自然语言处理概念及“超学科”本质
自然语言处理(Natural Language Processing, NLP)作为计算机科学技术的三级学科, 可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理过程中以计算机为研究工具,试图找出自然语言的规律,建立运算模型,从而实现自然语言的自动分析与生成,在人-机之间实现自然语言的交互。从上面的定义可知,计算机在对自然语言进行处理时至少包含语言形式化模型、语言模型的算法求解、算法求解过程的系统实用化和使用系统评测技术四个过程[1]。
计算机在处理自然语言过程中根据不同的专业和研究侧重点还可以划分为:计量语言学、数理语言学、计算语言学等。计算语言学是语言学的三级学科,与自然语言处理并没有本质上的区别。如果非要找出两者的区别来,计算语言学更倾向于理论研究,它为自然语言处理系统提供理论模型,实现算法和工程方案。而自然语言处理技术更加注重应用研究,以构造自然语言处理系统为目标。不严格说明的话,一般可以认为计算语言学等同于自然语言处理[2][3]。
自然语言处理经过半个多世纪的发展,已成为一门多边缘的交叉学科,冯志伟先生认为自然语言处理形式化模型求解的本质是一个“强不适定”问题(strongly ill-posed problem)。在用形式模型建立算法来求解自然语言处理的问题时, 往往难以满足问题解的“存在性”“唯一性”和“稳定性”的要求,对问题求解时需要在计算机科学、语言学、数学、哲学、人工智能等学科中寻求“约束条件”,将对“强不适定”问题的转化为“准适定”问题,从而完成对形式化模型的求解,这也是有人认为自然语言处理不仅是一门多边缘的交叉学科而且是一门“超学科”的本质原因[4]。
(二)自然语言处理的发展历程
自然语言处理的发展过程如果从处理方法上来区分的话,大体上经过了两个大的研究阶段:基于规则的理性主义研究阶段和基于统计的经验主义研究阶段。
上世纪九十年代以前,大部分的自然语言处理专家研究的领域相对狭窄,对语言知识和规律的获取主要依靠自己的观察和积累,采用的主要是基于规则的理性主义分析方法。这种基于规则的理性主义分析方法主要是受到了乔姆斯基(Chomsky)的深刻影响,乔姆斯基认为人对语言的获取和认知是先天存在的,语言学研究中应当遵从“伽利略-牛顿风格”,他们认为世界是复杂的,我们应当构建可解释的理论而不是去关注世界的可解释性。在此认知的基础上,乔姆斯基将语言看成是一个由符号串组成的有限集,并将语法看成是对程序设计语言的详细说明, 而把符号串看成是程序,这样就把人类的自然语言同计算机的编程语言进行了统一,形成了后来对自然语言处理产生深远影响的“形式语言理论”[5]。
受乔姆斯基“形式语言理论”的影响,大家认为构建语言的“形式化模型”是自然语言能够被计算机处理的基础与本质,在自然语言处理中, 具体算法取决于构建的形式模型。冯志伟将早期基于规则的形式化模型分为七类:基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于格语法的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、语用自动处理的形式模型。早期对自然语言处理的理性主义分析研究也主要是围绕着这些形式化模型展开。
自然语言处理的诞生来源于人类对机器翻译的实际需求。“机器翻译之父”-Warren Weaver,在关于翻译思想的《备忘录》中提出了关于机器翻译的主要思想有:1.应充分认识到上下文的语义在解决词汇歧义中的重要作用;2.将翻译看成是一种编码过程,书面文本是逻辑性质的表达,可进行结构化分析。
基于规则的理性主义分析方法,从本质上是一种依靠人工观察和内省的分析方法。对语言知识的获取主要依靠语言学家的归纳总结,研究的对象是生造的“第一人称数据”或者调查问卷式的具有“诱导性”的“第二人称数据”,带有浓烈的主观色彩。该方法更加注重对语言知识的结构化分析,而忽略了上下文语义在文本理解中的关键性作用。基于规则的分析方法在处理小规模和特定领域的语料时能起到很好的效果,但是随着计算机存储和计算能力的提升以及大规模真实语料库的建设,人类语言的复杂性和“语义屏障”问题,让基于规则的理性主义分析方法很难从浩如烟海的语料库中准确地获取知识。这些无法克服的本质问题,让基于规则的理性主义分析方法受到越来越多人的质疑[6]。
1990年在芬兰赫尔辛基召开的第13届国际计算语言学大会提出了处理大规模真实文本的战略任务,人们开始认识到大规模真实文本才是语言知识获取的最理想来源。这时对自然语言处理的研究面临从传统的“基于规则的理性主义分析方法”向“基于统计的经验主义分析方法”的战略转移[7]。
与理性主义不同,经验主义认为人脑对外界的认知是不完全的,能力是不充分的,需要后天的学习掌握与强化来获得语言的生成能力,经验主义关注更多的是如何刻画真实的语言本身[8]。
机器翻译作为自然语言处理最为重要的应用领域,几乎涵盖了自然语言处理的所有技术,历史上自然语言处理的发展历程与机器翻译的演进过程几乎是一致的[9][10]。理性主义的重新崛起跟机器翻译领域先后推出的两次技术革新密切相关。第一次技术革新是IBM的研究人员提出的统计机器翻译模型及推出的Candide翻译系统[11]。该翻译系统基于噪声信道模型,以英法双语语料作为训练基础,系统的流畅度和正确率在当时引起了轰动。统计机器翻译相较于传统的理性主义机器翻译优势明显,但是随着计算机网络的不断更新发展,人们对机器翻译实用化需求日益迫切,统计机器翻译的不足也慢慢暴露出来了。其中主要包括:统计机器翻译的翻译规则(双语短语或同步文法规则)结构复杂性,仅依靠专家系统难以将全部的知识特征表征完全,即便是使用大规模训练数据,仍然存在着严重的数据稀疏问题;此外,统计机器翻译在应对复杂的高维线性不可分数据时显得捉襟见肘。为了克服统计机器翻译的这些缺点,人们开始考虑将当前发展火热的深度学习引入到机器翻译中来,研究方略大体分为两类:一种是将深度学习用来改进统计机器翻译的关键模块,提出了基于深度学习改进的统计机器翻译模型;另一种是直接利用神经网络实现源语言文本到目标语言文本的映射,提出了一种端到端神经机器翻译模型。特别是端到端的神经机器翻译模型具有与统计机器翻译完全不同的作用机理,前者采用语言模型的分布式表示有效缓解了数据的稀疏问题,且该模型不再有人工设计的词语对齐、短语切分、句法树等隐结构,不再需要人工设计特征,端到端神经机器翻译仅使用一个非线性的神经网络便能直接实现自然语言文本的转换,能有效处理复杂的高维线性不可分数据[12]。2016年9月27日,谷歌公司推出了全新的神经机器翻译系统GNMT,并将该系统的详细工作机制发表在arXiv上[25].该翻译系统将传统统计机器翻译的翻译错误率降低了50%以上,掀起了机器翻译领域的第二次技术冲击[10]。
三、朝鲜语自然语言处理研究现状分析
朝鲜语是中、朝、韩三国使用的跨境语言,在中国和朝鲜称作朝鲜语,在韩国称作韩国语。本文在介绍朝鲜语自然语言处理研究现状时没有严格区分朝鲜语和韩国语,看到时可以认为两者等同。
朝鲜语自然语言处理也像其他学科一样,有基础研究与应用研究两个层次[13]。本节从朝鲜语语料库和知识库的建立、朝鲜语自然语言处理的主要内容和层次、朝鲜语自然语言处理的基本方法以及朝鲜语自然语言处理应用系统研究四个方面来对朝鲜语自然语言处理的研究现状进行详细分析。
(一)朝鲜语语料库和知识库的建立
语料库(Corpus base)是经科学取样和加工的大规模真实语言样本的集合,借助计算机分析工具,研究者可开展相关的语言理论及应用研究。语料库和知识库作为自然语言处理最基本的数据资源,任何一个语言信息处理系统都离不开数据和知识库的支持,想要开展朝鲜语自然语言处理的研究必须要从朝鲜语语料库和知识库的建立开始。
在朝鲜语语料库建设方面,中韩两国都在为推动朝鲜语语料库的建设发挥着重要的作用。韩国政府自1998年开始着手推进国家级语料库的建设,经过10年的建设,于2007年终建成了“21世纪世宗计划”标注语料库。该语料库的内容涵盖了韩国的政治、经济、历史、文化等诸多方面,包含了韩国语的最为普遍的特征,为朝鲜语的语言学理论研究和自然语言处理系统开发提供了基础资源。目前国内关于朝鲜语自然语言处理的研究也多是基于韩国“世宗计划”标注语料库开展的。
国内在教育部重点项目支持下,延边大学朝鲜韩国学院建立了我国第一个“中国朝鲜语语料库”。该语料库主要由三个库组成:文本资料库,平行语料库和病句、中介语语料库。在语料库加工和规范方面,制定了统一的数据格式和编码标准,并根据中国朝鲜语的特点开发了词汇自动标注,实现了文本语料库的词性标注加工[13]。
在朝鲜语语言知识库的研究和建立方面,经过国内外众多朝鲜语语言学家和自然语言处理专家长期以来的不懈努力,已经取得了一批优秀成果。韩国科学技术院(KAIST)语义Web技术研究中心在构建大规模通用双语词典和专业领域术语双语词典的基础上,构建了韩-中-日多语种概念词网(Corenet)。同时,国内毕玉德教授所带领的朝鲜语信息处理研究团队,通过深入挖掘、分析朝鲜语内在规律,构建了规模达5000个朝鲜语形态动词的“现代朝鲜语动词句法语义信息词典”,该框架以动词为核心,整合了句法、语义等信息,实现了句法语义的一体化描写,该项研究极大了推进了国内朝鲜语自然语言处理的进程。此后,该团队还利用中文概念词典(CCD)以及英韩、汉韩等双语词典资源,采用半自动方式构建了“基于Wordnet的英中韩多语种词汇语义网”,该语义网的构建有效提高了多语种信息检索、文本分类以及机器翻译的精确度[24]。
(二)朝鲜语自然语言处理的主要内容研究
自然语言处理的内容涵盖广泛,根据其处理流程,自然语言处理的内容一般会涉及自然语言的形态学、句法学、语义学等。
1.形态学
形态学作为语言学的一个分支,研究的是词的内部结构,主要包括曲折变化和构词法两个部分。在面向自然语言处理的形态学研究方面,国内几乎没有开展该方面的研究,形成鲜明对比的是,韩国国内很早便开始针对形态素的分析研究。高丽大学自然语言处理研究实验室通过构建词缀词典和制定词缀规则体制来进行形态素分析,构建了韩国语形态分析模型。延世大学、梨花女子大学均开发了形态素分析器。另外,釜山大学和浦项工业大学等许多机构和学者也开展了相关的研究。
2.句法学
句法学研究的是语言中不同成分组成句子的规则和句子结构中各成分之间的相互关系。韩国语是小语种,受限于技术和资源,朝鲜语自然语言处理整体的研究发展相对滞后。但是近几年,关于朝鲜语句法学的研究仍在稳步推进,并取得了一定的成果。
国内当前主要开展了对朝鲜语复句的研究,目前面向自然语言处理的朝鲜语复句研究主要分为两个方面:一是复句的自动识别、提取;另一个是对复句的句法结构、语义结构的相似度计算。
在复句的自动识别、提取方面。文献[15]借助一阶谓词逻辑表示法与框架表示法,构建了韩国语连接语尾语法属性的框架,为后续的复句识别研究提供了借鉴,不足之处是该种方法是基于规则的,需由人工进行形式化编码,工作量大、耗时长;文献[16]通过借助连接副词对复句进行“解构化”处理,解决了机器翻译的逻辑语义处理问题,但是该方法主要是针对韩国语单重复句,对于句子结构复杂的长句和多重复句并不适用。在韩国语中,三重以上的复句占整个韩国语复句的67.6%[14],因此该方法难以得到推广实用。文献[17]结合韩国语复句语法特点和标注特征,归纳了130余类连接语尾使用语境和4类潜在关系标记,构建了详细的复句识别特征集,实验结果表明复句的识别率能达到87%以上,为韩国语的复句处理提供了基础资源,存在的不足是数据样本的规模较小,特征集还有待进一步完善,多重复句的识别准确率不高。
目前针对复句的相似度研究主要集中在两方面:一种是基于表层特征的词法、句法的相似度计算,这种方法注重对句子形式等一些外部特征的研究;另一种方法是深层的基于语义的相似度计算。第二种方法中语义相似的衡量机制对语义相似度计算起着重要的作用,目前主要存在三个不同的衡量机制:(1)把句子简单地看成词语的集合,其主要原理是比较两个句子中相同词的数目与词的总数目之间的比例;(2)只利用词频和词性等信息,把句子看成是线性序列,基于词类串的汉语语句相似度计算方法和基于向量空间的TF-IDF方法是其代表性的算法;(3)利用依存结构来计算句子的相似度,通过对两个句子的依存树进行分析和合并,可以得到两个测试句子的有效匹配对,再通过有效匹配对进行统计计算出相似度。目前对韩国语句子相似度的研究成果较少[23]。
3.语义学
语义学是一门研究语言意义的学科。对于不同的语言单位,语义分析的任务各不相同。在词的层次上,语义分析主要是进行词义消歧(WSD),在句子层面上,主要任务是语义角色标注,而在篇章层面上,指代消歧、篇章语义分析则是目前研究的重点。
国内关于朝鲜语语义分析的研究主要集中在词汇上以及句子层面上的语义角色标注、语义知识库建立。文献[18]对朝鲜语可能存在的语义结构进行了全面系统的总结,最终构拟出朝鲜语事件语义结构的层次推演系统,初步建立了现代朝鲜语的语义角色清单,该语义角色清单共包含了35个具体的语义角色,比韩国“世宗计划”之语言分科中的14个语义角色还多了21个,具体、详尽地描述了朝鲜语的语义角色分类,为之后开展的语义角色系统建立以及语义角色标注提供了强有力的基础。在此研究基础上,文献[19]在对谓词进行了词义分类后,再对谓词义项进行详细的句法语义一体化描述,采用结构体的方式将谓词的句法、语义属性整合在一起,建立了面向朝鲜语自然语言处理的“朝鲜语句法语义知识库”,该研究有助于发展朝鲜语的语义理解技术,推进了我国朝鲜语自然语言处理的发展进程。之后毕玉德教授带领团队以朝鲜语动词句法语义层次框架为理论基础,辅之以基于特征向量的方法,并结合指称类概念分类标注库,以韩国世宗计划完成的1000万短语标注语料库为试验对象,进行了语义角色标注的研究[20]。在韩国国内,Kim Byourg-soo等采用非指导方法对朝鲜语副词格进行了语义角色标注研究,并采用boot strapping对朝鲜语格助词进行了语义标注研究。
(三)朝鲜语自然语言处理的基本方法
(四)朝鲜语自然语言处理应用系统的研究
受实际应用的驱动,自然语言处理技术不断与新的相关技术相结合,研究和开发了越来越多的实用技术。自然语言处理应用领域主要涉及机器翻译、信息检索、语音识别、自动问答、自动文摘、信息抽取等。目前朝鲜语自然语言处理应用系统开发较少,且主要集中在机器翻译和语音识别方面。
在机器翻译方面,毕玉德教授所带领的朝鲜语信息处理研究团队,在完成大规模朝汉双语词典的基础上,基于实例、片段翻译以及翻译词汇记忆技术开发了面向领域的朝汉辅助翻译系统[13]。1995-2000年东北大学自然语言处理实验室,与韩国浦项工业大学合作开发了中韩多国语种机器翻译系统。2000年东北大学自然语言处理实验室与韩国科学技术部合作开发了汉韩翻译系统,中英韩多国机译系统的设计与实现等。
在语音识别方面,讯飞开放平台开发了多语种语音识别的翻译系统,该系统在前期研究基础上,增加了日、韩、俄、法、西五大语种,语音识别迅速,准确率高达90%以上。
四、朝鲜语自然语言处理未来的发展趋势
从以上自然语言处理的发展历程来看,未来自然语言处理的发展趋势主要有:
第一,真实语料库的建设已经成为当前自然语言处理研究的基石,语料库的规模和质量最终决定着自然语言处理应用系统的性能高低,当前国内在朝鲜语语料库和知识库的建设及相关理论研究方面虽然取得了一定成绩,但相对于英语和汉语语言资源的建设差距巨大。此外,在以应用为牵引的朝鲜语语言资源建设方面尚未得到开发。国家层面应加大对语料库建设的资金投入,为更深层次的朝鲜语自然语言处理提供强有力的保障。
第二,自然语言处理包括语言知识获取(输入)和语言表达(输出)两部分,如何让机器在和人的智能交互中更好地理解和表达人类意图,语义分析是跨不过去的坎。在未完全弄清楚人类是如何组织语言和认知世界的情况下,语义知识库的建立应当先从特定应用领域做起,通过对高频词与核心词的提取,识别出词语的应用领域,先从整体上对语境进行理解和把握,再通过对具体语句的语义分析,纠正并完善整个篇章内容在具体应用领域下语义的理解。今后朝鲜语语义分析的研究方向应侧重于句子、篇章,特别是朝鲜语复句语义分析以及篇章语义分析。在目前基于语义的句子相似度计算方法并没有太多的突破的情况下,可通过换一种思路从韩国语句子语义相似度来进一步提高机器翻译的精确度。
第三,随着计算机存储和运算速度的提升,当前主要依靠机器学习来获取海量数据中的语言知识。在对朝鲜语自然语言处理研究中,一方面要注重借鉴汉语和英语自然语言处理方法和成果;另一方面考虑到当前大数据,机器学习为自然语言处理领域带来了颠覆性影响,在对朝鲜语自然语言处理研究中应当抓住此次战略机遇期,开展面智能化的朝鲜语自然语言处理研究,争取实现弯道超车。
五、 结 论
本文在介绍了自然语言处理发展历程基础上,重点对起步较晚的朝鲜语自然语言处理的现状进行了详细的分析介绍。从研究现状来看,我国在朝鲜语自然语言处理领域方面还处于发展阶段,朝鲜语自然语言处理的人才或团队较少,资金支持较少,研究重点主要集中在基础理论研究,而对于面向自然语言处理的朝鲜语语义分析和语用分析方面的研究很少有人涉及。因此,在今后的发展中,应当以语用系统的开发为导向,以内在需求来带动朝鲜语自然语言处理基础理论的发展。此外,还应呼吁国家和科研单位加大对朝鲜语自然语言处理研究的资金和人才投入,一方面能更好地保护和了解我们的少数民族语言,另一方面是为了加快我国自然语言处理能更好地走在世界的前列。