APP下载

蒙古语语言知识库的建立与应用

2011-02-17那顺乌日图

中文信息学报 2011年6期
关键词:蒙古文蒙古语知识库

那顺乌日图

(内蒙古大学 蒙古学学院,内蒙 呼和浩特 010021)

1 引言

建立一个较为完整的、能够为自然语言处理系统提供知识支撑的语言知识库是蒙古文信息处理当务之急。其具体内容包括: (1)整理和完善现有资源。将蒙古文信息处理字、词处理阶段所建立的较为零乱的、面向某一个具体应用系统的知识资源整合成一个完整的体系,即系统化的知识资源;(2)根据机器翻译、语料库加工等工作的实际需求,构建包括蒙古语语法知识、语义知识和语用知识的综合性语言知识库,同时制定面向信息处理的蒙古语各类规范、标准;(3)建立知识资源管理平台,将已有的知

识资源用统一规格集成在一个平台上,使之更有效地为语言信息处理服务。

近几年我们把现有知识库和规范、标准应用在语料库加工、文字识别、机器翻译等具体系统上,通过运行、调试,不断进行调整和完善。例如,“现代蒙古语文数据库”的词性标注和词法标注;“蒙古语语法信息词典”的扩充和完善以及管理平台的设计与实现;对蒙古语词语进行语义分类并制定相关标记集;“蒙古语语义信息词典”的框架设计及部分分库的构建;“蒙古语谜语数据库”、“蒙古语熟语数据库”的构建及其管理软件的研发;面向信息处理的蒙古语词语短语和语义标记集的制定;蒙古语树库的构建等工作。

2 蒙古语语言知识库的主要结构和内容

2.1 语法知识库

(1) “蒙古语语法信息词典”的建立。我们构建了包括传统蒙古文正字法,蒙古语常用词语的词性、形态、功能,蒙古语构形附加成分的功能和用法,蒙古文标点符号的使用规则等文字学、语法学知识的,结构较为完整、信息较为翔实的一个语法知识库—“蒙古语语法信息词典”。目前该词典已基本成形,建成包括一个总库和19个分库的词典数据库,并开发了其管理平台,制定了相关规范。目前“总库”词条达到38 000余个,总信息量达到270多万条。该词典在蒙古文机器翻译、蒙古文文档识别、蒙古语语料库标注与对齐、蒙古文农业专家系统等应用系统中发挥着重要作用。

(2) “现代蒙古语固定短语语法信息词典”的构建。针对自动处理固定短语的类型、意义、属性等特征,已构建了包含12 000余条常用固定短语的“固定短语语法信息词典”。该词典数据库设置了17项语法属性字段,详细描述了其各种语法属性,并研制了蒙古语固定短语自动识别系统。

(3) 词法分析系统、生成规则库的构建。1)通过开发汉蒙机器翻译系统,研制了“蒙古语语言模型”、“蒙古语生成规则库”、“汉语-蒙古语转换规则库”和双语机器词典等,详细描述了蒙古语词语、短语的语法属性和各种语法形式的生成规则等。2)为了解决蒙古语词语标注和编码转换等问题,我们采用基于规则和基于统计的方法研发了具有蒙古文编码转换和切分还原、词性标注等功能的词法分析器。该软件能够切分蒙古文词语、还原词干和识别附加成分,分析词干词性和附加成分归类,从而确定整词的词性。并且实现了各种蒙古文编码的相互转换,将非标准编码文本转换成符合蒙古文编码国际标准的文本。3)在构建汉蒙双语平行语料库时,汉蒙词语对齐的基本框架中需要蒙古语文本的词法分析和标注。针对这种需求,我们研发了基于词典和规则的蒙古语词法分析系统。该系统的词典部分是“蒙古语语法信息词典”的“总库”和“构形附加成分分库”,规则部分是蒙古语词语切分还原规则。目前,在汉蒙词语对齐技术研究中充分发挥了该词法分析器的作用。

(4) 不论从蒙古语句子的自动分析,还是从蒙古语短语和句子的结构关系看,提供蒙古语短语结构规则是进行蒙古语句法分析不可缺少的必要条件。为了满足这种需求,我们研发了“现代蒙古语名词、动词短语结构规则库”。蒙古语名词、动词短语作为蒙古语短语的两大重要类型,其结构规则库的构建会促进整个蒙古语句法分析研究的深化。

2.2 语义知识库

(1) “蒙古语语义信息词典”的研发

我们正在构建详细描述蒙古语常用词语的语义分类、语义搭配、价质价量等信息的语义知识库—“蒙古语语义信息词典”,初步完成了词典的框架设计和名词、形容词语义信息库。

(2) “蒙古语格框架综合知识库”的研发

为了充分利用蒙古语格框架知识资源,我们在语料分析的基础上初步构建了包含“格框架ID”、“格框架类型”、“语义格”、“格标”、“谓语部分”主要信息的“蒙古语格框架综合知识库”。它对蒙古语词语的语义分析,句法分析等自动处理中提供语义格框架与模型。

(3) “蒙古文同形词知识库”的构建

为解决自然语言的歧义问题,我们研制了“蒙古文同形词知识库”及相关软件: 包括“同形词信息词典”,100万词现代蒙古语同形词标注语料库,“同形词搭配库”、“共现库”、“类语库”及“‘同形词信息词典’管理与维护工具”,“共现成分统计工具”,“同形同音同类词识别与标注工具”等。

(4) “蒙古语多义词词典”的研发

我们针对蒙古文信息处理中文本校对、词法、句法消歧等需求,研发了按蒙古语常用词语的义项作为词条的“面向信息处理的蒙古语多义词词典”。目前,该词典的规模已达到18 223词条,涵盖蒙古语多义名词、多义形容词、多义副词等9个词类。

(5) “蒙古语连接形式知识库”的构建

为自动识别自然语言句子中连接形式及其结构、功能和位置等特征,开发了详细描述蒙古语连接形式词法、句法和语义特征的《蒙古语连接形式信息词典》,并在此基础上构建了“蒙古语连接形式规则库”,实现了“蒙古语连接形式自动识别程序”。

2.3 语言规范标准

(1) 词语分类及其标记集的制定

通过十几年的知识积累和自然语言处理经验,已制定“信息技术 信息处理用蒙古文词语标记集”,同时,把它应用到100万词“现代蒙古语文数据库”的词性标注,20万“现代蒙古语文数据库”的词法标注,“蒙古语语法信息词典”的分类标注等研究领域,这个标记集目前已颁布成国家标准(GB/T 26235—2010)。

(2) 语义分类及其标记集的制定

为了顺利进行“蒙古语语义信息词典”的开发和满足语义分析、生成的需求,我们初步研制了蒙古语词语语义分类体系及其标记集。目前已完成蒙古语名词、形容词、动词“语义分类体系及其标记集”的研制工作,已应用到“蒙古语语义信息词典”的“名词、形容词、动词分库”中。

(3) 短语分类及其标记集的制定

这是一个由蒙古语各类短语的边界划分规则和统计模型组成的知识库。它不仅对一般短语标注提供基本信息,而且对解决短语划分中的歧义问题起决定性的作用。目前,将蒙古语短语分类及其标记集集成到“信息技术 信息处理用蒙古文词语标记”的同时以此作为基准进行蒙古语语料库短语标注。短语标注语料库已达到100万词规模。

2.4 蒙古语标注语料库

我们已对100万词级“现代蒙古语文数据库”进行词性标注和词法标注,这个语料库已经从原来单纯的数据资源逐步过渡到知识资源。

2.5 各类电子词典

(1) 我们已输入了近3 000条的“蒙古语人名词典”,1 500条的“蒙古语地名词典”,1 300余组类语的“蒙古语类语词典”,正在输入30 000余词条的“蒙古语熟语词典”。下一步我们将这些词典填加到数据库中,并设置一些属性字段进行词义描述。这些资源将对蒙古语语料库的深层加工起到很大的推进作用。

(2) 为了更加系统地了解词语的各种义项,我们以内蒙古大学《蒙汉词典》为蓝本,在原词典数据库的基础上扩充了西里尔蒙古文属性字段,编制成词条总量达53 660条,约119万字的传统蒙古文、西里尔蒙古文与汉文对照的综合性电子词典,词典由词典数据库及用户界面组成。词典可以显示传统蒙古文、西里尔蒙古文及汉文释义、同时实现了蒙古文模糊查询和例句自动抽取功能。

(3) 为使蒙古族儿童在寓教于乐中掌握母语知识,帮助开发他们的智力,同时将已建知识资源在不同领域发挥更大的作用,我们构建了“达日罕谜语数据库”。数据库中收录了1 120个谜语,编写了《达日罕谜语系统》专门程序,使它成为游戏型的问答系统。目前,该问答系统正准备通过网络平台,投入应用。

2.6 管理平台

在已建立蒙古语语言知识库的基础上开发相应的管理平台是有必要的。蒙古语语言知识库管理平台是扩充、管理和共享知识库的技术基础。该数据库管理软件是在Visual Studio 2005 的编程环境中用Visual C#.NET语言设计实现的。为了更好地管理并补充和完善蒙古语语言知识库中的词法、句法、语义信息的统一性和完整性,管理平台对各个资源库设计了若干个MDI 子节点窗体,分别实现了添加、修改、删除、查询、浏览和校对等功能。与此同时为了保证各个知识库之间的一致性,实现了一系列连贯操作。

3 蒙古语语言知识库的应用

这些知识库作为蒙古自然语言处理的主要知识资源,正在或即将在蒙古文各种应用系统中发挥重要作用。

(1) 将语言知识资源建设与工程技术研发有机结合,是本知识库的主要宗旨。无论是蒙古语“语法信息词典”、“语义信息词典”和规则库,并不仅仅是一些理论性基础研究的成果,而是与资源建设及系统开发相辅相成的、重要的基础工程。例如,语料库深层标注、语言模型的研制、OCR的编码转换等都得益于该知识库。

(2) 在语言资源建设中制定和应用一系列规范、标准,使得各个知识库之间的属性设置互相对应,是各类资源统一管理和实现共享的基本保障。譬如,蒙古语词语标记集作为蒙古语语料库建设的基础标准,贯穿于整个知识体系和数据资源,向不同的应用系统提供规范、可信的语言知识。

(3) 知识库管理平台将有效解决语法知识、语义知识和语用知识的融合,提高语料库建设和应用系统开发的速度与质量。

(4) 随着电子词典、机器翻译系统趋于实用化,为各级政府部门、企事业单位的翻译人员和广大用户提供文字翻译的便利,这将对民族文字电子政务、电子商务、移动通信、网络媒体等相关产业的发展起到积极作用。而各种语料库、谜语数据库、熟语数据库……将对中小学教育提供知识资源,使教育教学的现代化和数字化具有实际意义。所以这项工作对保持我国在蒙古语语言资源开发和构建方面的主导地位有深远意义,同时会带来很大的社会效益和潜在的经济效益。

(5) “蒙古语语法信息词典”已得到一定程度上的应用,并向国内外的一些公司和研究机构转让使用权许可,取得了显著的经济效益和社会效益。100万词现代蒙古语语料库、6万句对汉蒙平行语料库、“CWMT2009”汉蒙翻译评测的开发集和测试集已放在CLDC(中文语言资源联盟)上,为广大用户提供资源共享。中央民族语文翻译局等专业翻译部门、不少个人用户都在试用我们研发的机器翻译系统,而电子词典的用户更多。蒙古国有关研究机构、教学单位对蒙古文机器翻译技术和汉蒙双语对照语料库建设非常关注,已提出合作开发或技术转让的意愿。除此之外,与国内外诸多单位合作开展的一系列工作,例如,“农业专家系统”的开发,“多字体印刷蒙古文(混排汉英)文档识别系统”的开发,能够充分体现出这些成果的实际应用价值和所带来的直接经济效益。

(6) 在研制该知识库十几年的过程中的我们培养了近十名博士生、20余名硕士生,并形成了一个由语言学专家和计算机专家组成的科研团队。北京大学、中国科学院计算技术研究所、内蒙古大学的20余名博士、硕士生都以蒙古语语言资源开发与建设的理论研究和技术设计作为学位论文,获得博士、硕士学位。

内蒙古大学与中国科学院、北京大学、清华大学等单位在蒙古语语言知识库、机器翻译、语料库加工等方面有了一个较为默契的、既有分工又有互补的合作机制。

4 尚待解决的问题

(1) 语法知识资源方面,虽然“蒙古语语法信息词典”已初具规模,并向国内外用户进行转让,取得一定的经济效益,但尚待进行扩充、完善,实现产品化。

(2) 语义知识资源方面,在“蒙古语语义信息词典”现有框架的基础上,需要逐步扩充和完善各个分库,同时把它们集成在统一管理平台上,拓展其应用范围。

(3) 语用知识资源方面,目前在词语搭配词典、语用规则库的建设方面只有一些前期积累,仍需要进一步的实质性开发。

(4) 语言规范标准方面,目前所制定的规范、标准尚未实现系统化,与全方位国际接轨相差甚远,所以在制定标准方面需要不懈的努力。

[1] 俞士汶. 计算语言学概论[M].北京: 商务印书馆,2003.

[2] 冯志伟.计算语言学探索[M].哈尔滨: 黑龙江教育出版社,2001.

[3] 詹卫东.面向中文信息处理的现代汉语短语结构规则研究[M].北京: 清华大学出版社,南宁: 广西科学技术出版社,2000.

[4] 那顺乌日图.蒙古语语言资源平台架构设想,中国语言资源论丛(一)[M].北京: 商务印书馆,2009, 236-248.

[5] 平沢洋一,電脳意味論[M].おうふう,東京,2001.

[6] 児玉徳見,意味論の対象と方法[M],くろしお出版,2002.

[7] N.Kwon,M.Fleischman,E.Hovy.Senseval automatic labeling of semantic roles using Maximum Entropy models[C]//R.Mihalcea,P.Edmond(Editor),Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, Barcelona, Spain: Association for Computational Linguistics, 2004: 129-132.

[8] 那顺乌日图.关于面向信息处理的蒙古语语义研究[J].内蒙古大学学报,2002,(5): 16-23.

[9] 那顺乌日图.在编制“蒙古语语法信息词典”时遇到的理论与实践问题[J].内蒙古大学学报(蒙古文版),2002,(4): 18-22.

[10] Nasun-urt.Mongolian Knowledge base and Mongolian Information Processing[C]//The 17th International Conference KOREA and MONGOLIA, Seoul, 2004, 51-58.

[11] New requirement and tendency of Mongolian semantic research[C]//Works in research, Volume Ⅹ(238),Ulaanbaatar,2004: 93-102.

[12] Nasun-urt.Exploitation and application of the Mongolian linguistic Knowledge Resource[C]//Proceeding of the International conference of Chinese Computing 2005 (ICCC2005), Published by COLIPS Publication,2005.3,Singapore: 213-218.

[13] Hai yin-hua Nasun-urt Wang Sirguleng. New progress of “Mongolian Grammatical Information Dictionary” [C]//Proceedings of Mongolian Academy of Sciences,2008, (4): 75-84.

猜你喜欢

蒙古文蒙古语知识库
基于端到端的蒙古语异形同音词声学建模方法
敖汉旗万寿白塔蒙古文碑文新释
提高翻译水平对年轻一代蒙古语广播工作者的重要性
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
部分海外藏蒙古文文献及其目录
首届蒙古语RAP专场演唱会——“无线内蒙古MONGOL RAP之夜”
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
蒙古语-哈萨克语部分词同源关系研究
三田渡汉文满文蒙古文碑文对比研究