基于语料库的蒙古人名知识库建设与实践
2016-01-19通拉嘎李佳正泉州师范学院图书馆福建泉州6000中国科学院计算技术研究所北京0090中国移动北京分公司北京00007
●通拉嘎,刘 凯,李佳正(.泉州师范学院 图书馆,福建 泉州 6000;.中国科学院计算技术研究所,北京 0090;.中国移动北京分公司,北京 00007)
基于语料库的蒙古人名知识库建设与实践
●通拉嘎1,刘凯2,李佳正3
(1.泉州师范学院图书馆,福建泉州362000;2.中国科学院计算技术研究所,北京100190;3.中国移动北京分公司,北京100007)
[关键词]语料库;人名;蒙古人名;最大熵;特征选择;实验
[摘要]为提取较为完备的蒙古人名特征,以内蒙古大学语料库及网页人名句为基础,采用量化分析的方法,建立普通人名知识库及兼类人名知识库,将知识库归并为14个特征,进行特征选择实验,在直接保留“汉语姓氏映射表”及“汉语人名映射表”等特征集后,鉴于对正确率和召回率的贡献,去除了地名词典、地名后缀词典、机构名后缀词典等3个特征集,保留了9个作为最大熵模型的特征集,从实验结果看,予以保留的特征影响并不相同。
1 引言
命名实体往往包含了文章的主要内容,是正确理解文本的基础。人名等命名实体在文本中有很高的使用频率,是开放的集合,无法穷举,在未登录词中占有相当大的比例,郑家恒[1]统计出人名在未登录词中的比例是30.24%。人名等命名实体的识别(NER)是信息抽取的子任务,是自然语言处理的基础工作,是词法分析与标注的重点及难点之一。要取得更高的正确率,必须解决人名等命名实体的识别问题。人名可以分为普通人名及兼类人名,人名识别的主要难点是兼类人名的识别,因为命名实体之间、人名和普通词之间存在大量的歧义和冲突。为实现蒙古文人名识别,本文建立了人名知识库,并对知识库进行特征选择实验,以期寻找出更有利于统计模型的知识。
最大熵模型(ME)是一个通用的机器学习框架,最早由E.T.Jaynes于1957年提出,在自然语言处理方面的应用非常广泛,已经成功应用于不同的研究领域,如词法分析、组块分析、短语识别、词义消歧、指代消解、文本分类、句子的边界检测等,并且表现良好。最大熵的两个基本任务是特征选择和参数估计。特征选择,就是选能表达这个随机过程的特征集合,使系统的特定指标最优化。特征空间很大,并不是每一个特征都是可靠的,所以选择特征就是很关键的问题,对模型的训练和使用都十分重要,最大熵通过特征选择可以减少计算量,降低噪声,对识别的正确率及解码的效率都有很大影响。
为提取较为完备的蒙古文人名特征,本文以蒙古文语料库为基础,建立了普通人名知识库及兼类人名知识库,并以最大熵的统计模型,对人名知识库中的各类特征进行选择实验,从中提取了更为有效的人名特征,为进一步的人名识别工作做好准备。
2 语料库的应用
语料库是统计建模的知识来源,是蒙古文人名识别的基础与前提,用以提取人名前后词、规则及训练最大熵模型。
2.1内蒙古大学词法标注语料库
26万词规模词法标注语料库是内蒙古大学蒙学院词法标注语料库的局部,一词一行,切分与标注出词干及附加成分,格式为蒙古文拉丁形式。语料来源是中小学蒙古语课本共12册,《内蒙古日报》1988年7月1~3日,《实践》月刊1988年1~3期,含264000
词(包含标点符号)。[2]有3522个人名句可以提取人名的前后词规则,但由于标注格式问题,提取到的是2570个人名句。
2.2网页蒙古人名句
自建的5千人名句用作最大熵模型训练,共5773句。人名句从蒙科立编码的中国蒙古语新闻网、人民网(蒙古文版)、蒙古文化网等9个网站人工抓取。网站选取原则为统一的蒙科立编码,句子选取原则为人名句,尽量为兼类人名句。从上述网站上抓取人名句,以蒙科立转拉丁的编码转换工具转换为内蒙古大学拉丁格式,并着重对人名及前后两词进行校对。
2.3测试集的选取
训练及测试所用的句子共为8343句,共11583个人名。封闭测试集是训练集的子集,开放测试集与训练集不存在包含与被包含关系。使用的训练集、测试集的各项数据如表1。
表1 训练集、测试集数据统计表
3 人名知识库的建立
3.1普通人名知识库的构建
蒙古文语料库规模偏小,形态变化众多,建设相关的知识库,以此提取人名识别的各类特征,保证识别的指导性。相对于中文人名识别中较为常见的姓氏、名字用字概率信息的使用,蒙古文人名识别更加侧重运用形态特征及上下文信息。因此,构建的普通人名知识库包括以下10个知识库:姓氏辞典(汉语姓氏、蒙古姓氏),汉语姓氏拉丁映射表,梵、藏、满人名词典,地名词典,人名指示词库(左边界词典、右边界词典、有距离边界词典),机构名后缀词典,蒙古族普通人名词典,汉语名拉丁映射表,著名人物词典,地名后缀词典。
(1)姓氏词典。中文文本中的姓氏根据是否可以独立成词,分为绝对封闭的姓氏、相对封闭的姓氏、开放姓氏等。[3]蒙古文本中的姓氏很多是绝对封闭姓氏,与其他词无法构词,也不易独立成词,所以,蒙古文本中姓氏是识别人名的重要知识来源,收集的姓氏包括汉语姓氏及蒙古姓氏。①蒙古姓氏词典。以曹纳木的《蒙古族姓氏集》[4]列举的蒙古族姓氏1133个为基础,辅之拉丁转写,建立了蒙古族蒙古姓氏词典,如“ANGCIN安、ABAHANAR安”等。②汉语姓氏词典。蒙古族汉语姓氏库的建立以曹纳木的《蒙古族姓氏集》为数据基础,汉语姓氏共419个,除去重复姓氏9个,共包含蒙古族汉语姓氏410个,辅之拉丁转写,如“B0V包薄宝保鲍暴爆”、BI鼻毕、DONG东冬董栋”。汉语姓氏词典的建立以《姓氏人名用字分析统计》[5]为依据,共有734个姓氏,按拉丁转写顺序重新排序录入,如“SI郗奚席溪司思郗习洗喜”等。不过汉语姓氏在语料库中与其他词发生兼类的现象较难排除,所以,在实际实验中,仅选取了蒙古姓氏词典为特征。
(2)人名词典。人名词典对有效识别人名很有意义,有助于提高系统的执行速度及效率,建立人名词典是必要的。不过蒙古文网站有很多不同的编码格式,无法直接像汉语人名一样从浩瀚网络抓取,因而本文的人名词典建立只能以学生名为主,辅之语料库人名及某刊物作者名的搜集;蒙古国人名与中国蒙古族人名相比也有其不同分布特点,因而也收集了一定的蒙古国人名,这些人名被整理归入“普通人名词典”。
14世纪至17世纪,蒙古族十分盛行以梵、藏、满文字为人名,这些正逐渐退出蒙古族人名历史舞台的名字,可用列举的方法予以识别,本文建立了有“YVNDVN(云敦)、SURUNG(苏荣)”等582个词条的“梵、藏、满人名词典”。著名人物名在文本中出现频率较高,文章还建立了包括“TEMUJIN(铁木真)、SONG=GING=LING(宋庆龄)”等244个名字的“著名人物词典”。
(3)汉语姓氏、人名拉丁映射表。汉语名在蒙古文本中占有很高比例,所以,汉语人名知识库的建立也是研究的重点之一。然而,人名是无法穷举的命名实体,研究者在姓氏与人名词典的基础上,提炼出汉语姓氏拉丁映射表、汉语名拉丁映射表,以姓氏及人名的搭配争取识别更多的汉语人名。
汉语姓氏拉丁映射表即以“汉族汉语姓氏词典”为基础,将其转写为蒙古文拉丁形式,如“BU卜补布步佈、LU卢芦鲁陆鹿逯路”等;共有301词条;汉语人名拉丁映射表即以汉语人名为基础,将人名归结为不同拉丁转写形式。声调对拉丁转写并无影响,因而,将声调不同、拼音相同的汉语人名用词,如“杨、洋、阳、扬”都转写为“YANG”,共含记录190条。
(4)指示词库的建立。指示词指在人名句中出现频率较高,与人名有语义或语法联系,对人名的存在与识别有指示作用的词。蒙古文人名的指示词有亲属称谓词、人体词、称谓词、职务词、职称词、特定行
为动词等。文章将指示词分为左边界词、右边界词、有距离边界词,将其作为最大熵模型的上下文边界特征。人名左边界词分别为称谓词、亲属称谓词、职务词、职业词、部分的形容词、数词;人名右边界词分别为称谓词、亲属称谓词、人体词、职务词、职业词、部分连词、副词、形容词、语气词;特定行为动词与人名距离较远,被称为有距离边界词。具体的数据量见表2。
表2 指示词库词汇量统计
(5)地名词典。蒙古族历来注重人与自然的和谐共处,崇尚以山川、河流、国名、城市为人名,喜欢以地名作人名,如“H0RCIN(科尔沁)、ENEDHEG(印度)”都是人名、地名的兼类词。地名对人名有一定的指示作用,鉴于地名对人名识别的重要性,本文建立了“地名词典”,包括“$ANDUiNG(山东)、ALA$A(阿拉善)”等中外地名词共558个。
(6)地名后缀词典及机构名后缀词典。地名后缀词典及机构名后缀词典有助于识别地名及机构名,进而有利于确定人名的位置。本文建立了包括“YEHE ASAR(大楼)”等130个词的“地名后缀词典”,包括“ARIHIN MVHVLAG(酒馆)、0RD0N(殿、宫)”等83个词的“机构名后缀词典”。
3.2兼类人名知识库的建立
兼类人名指一个词兼属人名及其他词类。如“BOHE”(布赫),既是人名,也是普通名词及形容词。笔者随机统计了中央民族大学蒙古语言文学系1953~1997级,2004~2011级蒙古族907个学生人名。其中,可以充当兼类人名的词共有205个,占人名总数的22.60%。从上述数据可以看出,兼类人名在人名当中有相当高的比例。兼类人名不仅出现频率较高,而且较难识别,为识别兼类人名,需要建立专门的兼类人名知识库。
以往的兼类词识别方法较多使用词语的词性信息,词性信息对兼类人名的识别有重要的辅助作用,但鉴于蒙古文现有的切分与词性标注系统在命名实体识别上较为薄弱,如果运用词性信息识别人名,会出现将人名词误切分或标注为更小颗粒的情况,导致歧义或误差,因而在本研究中未使用兼类人名的词性信息。
兼类人名词典的建立依赖于内蒙古大学语料库、5千网页人名句及蒙古人名词典,从上述数据中提取到未重复兼类人名共968个。蒙古人名中复合人名占很大比例,因而,只依靠人名词典而不考虑人名的复合情况是不完整的。为此还建立了蒙古人名词干词典,包含“YEHE(耶和)”等1336个可以充当人名的蒙古人名词干词典,用以识别任何与词典中的词复合产生的蒙古人名。具体应用中发现“兼类人名词典”及“蒙古人名词干词典”有大部分的重合,因而,将其合并为“兼类人名词典”。
兼类词搭配词典指列举兼类人名的固定搭配词,遇到兼类人名,以兼类词搭配词典进行匹配,这对兼类人名词的判断起着重要的辅助作用。基于内蒙古大学语料库及德·青格乐图的《现代蒙古语固定短语语法信息词典详解》[6]收集了2383个兼类词搭配词,以兼类人名为中心,提取前后2位的搭配词,制作成excel表格,每行为一条兼类信息。
4 最大熵特征选择实验
4.1实施方案
最大熵模型的关键在于如何用特定的任务为模型选取特征集合。特征可以分为基本特征和语言学特征,语言学特征包括上下文特征、词典特征等知识。
在最大熵模型中使用的特征集={地名词典,蒙古族蒙古姓氏词典,著名人物词典,地名后缀词典,机构名后缀词典,汉语姓氏映射表,汉语人名映射表,有距离边界词典,左边界词词典,右边界词词典,梵藏满人名词典,兼类人名词典,蒙古人名词典,兼类搭配词典},共包含14个特征。虽然最大熵可以不用设定规则的优先集来避免规则的冲突,但是所使用的特征集中哪些特征是有效的,哪些特征有副作用。为验证特征集中各个特征的效果,设计了以下方案。
(1)令特征集=简单上下文特征集,在特征集的基础上训练最大熵模型,然后进行测试。
(2)在原始的简单上下文特征集的基础上,逐次加入某一项新特征,在新特征集的基础上训练最大熵模型,然后进行测试,参考开放测试的结果,如果某特征集导致正确率和召回率都下降,说明该特征是无效特征,予以去除;如果正确率和召回率都有一定提升,表明该特征的有效性,则保留该特征,直至每个特征集都实验过。需要指出的是,鉴于汉语人名在语
料库中出现较多,形式与蒙古人名又有较大区别,汉语姓氏映射表与汉语人名拉丁映射表能覆盖大多数人名,因此,本文直接选取“汉语姓氏映射表”、“汉语人名映射表”为最大熵的特征,未经过特征选取的步骤。
4.2特征选择实验
在制定具体实施方案后,以最大熵计算了简单上下文特征集的正确率及召回率,以此为基础,逐步加入各语言学特征,进行特征选择实验,实验结果如表3所示。
表3 特征选择实验
建立地名词典、地名后缀词典是因为人名与地名兼类的现象在蒙古文中出现较多,语料库中地名对人名有一定的指称作用,因而,希望以此来排除与地名的兼类现象,但能满足这些特征的情况还是较少,而且地名及地名后缀与人名的距离有时过远,运用这些特征后不仅正确率和召回率都有一定程度下降,也影响了系统的运行速度。因而,经过考虑,本文去除了上述两个特征。机构名后缀特征的建立也是因为机构名对人名有一定的指称作用,机构名后也有出现人名的现象,但在特征选择中通过实验发现,机构名特征的运用未能使正确率、召回率有提升,反而有了较为明显的下降。因而,经过考虑,本文去除了机构名后缀特征。经过上述实验,去除了机构名后缀词典、地名后缀词典、地名词典等3个特征,保留了9个特征集作为最大熵统计模型的特征集。
从实验结果看,各个保留的特征对识别结果的影响并不相同,具体表现在:有些特征的贡献仅是单方面的,如“兼类人名词典”虽然使召回率有所提升,但正确率却出现了下降;各个特征对结果影响的大小也不相同,如“梵藏满人名词典”及“蒙古人名词典”对正确率和召回率的影响比较明显,而“蒙古族蒙古姓氏词典”的影响并不十分明显。
蒙古文人名识别遇到很多难题,主要表现在:人名是开放集合,无法穷举,蒙古人名兼类现象较为严重,越普通的词,成为人名的现象也越普遍,给人名识别带来很大困难。蒙古文深加工语料库规模比起中英文规模尚小,本文使用的语料库规模仅有30万词,必定影响了统计模型的规则提取与自动学习。但是,本文的创新和贡献主要体现在:首次建立了蒙古文人名识别语料库,与内蒙古大学的语料库一同训练数学模型,测试自动识别的结果,有效补充了语料库缺乏带来的缺憾;首次建立了蒙古文普通人名知识库及兼类人名知识库,对人名及其他命名实体的识别有重要意义;知识库整理为14个特征,进行了特征选择实验,更科学地鉴定了知识库的有效性及针对性;在以传统的规则为主的研究基础上,将最大熵的数学模型成功应用于蒙古文命名实体的识别当中,是统计模型应用于蒙古文命名实体研究的较早成果。
[参考文献]
[1]郑家恒.智能信息处理——汉语语料库加工技术及应用[M].北京:科学出版社,2010:41.
[2]牧仁高娃.蒙古语语料库标注及相关对策研究[D].内蒙古:内蒙古大学,2008:41.
[3]乔永波.规则与统计相结合的中文命名实体识别[D].山东:山东大学,2007:8.
[4]曹纳木.蒙古族姓氏集[M].呼和浩特:内蒙古人民出版社,2007:1-256.
[5]中国社会科学院语言文字应用研究所整理研究室编.姓氏人名用字分析统计[M].北京:语文出版社,1991:747-757.
[6]德·青格乐图.现代蒙古语固定短语语法信息词典详解[M].呼和浩特:内蒙古教育出版社,2005:31-188.
[收稿日期]2014-08-28 [责任编辑]菊秋芳
[作者简介]通拉嘎(1976-),女,内蒙古科尔沁右翼中旗人,中央民族大学博士,泉州师范学院图书馆馆员,中国社科院闽南文化研究基地成员,研究方向:计算语言学、方言及情报学;刘凯(1987-),男,福建龙岩人,中科院计算所博士毕业,研究方向:机器翻译及自然语言处理;李佳正(1988-),女,中科院计算所硕士毕业,研究方向:机器翻译。
[基金项目]本文系国家自然科学基金重点项目“跨语言社会舆情分析基础理论与关键技术”(项目编号:61331013)的系列成果之一。
[文章编号]1005-8214(2014)12-0109-04
[文献标志码]A
[中图分类号]TP391.1;G250.74