CRF与规则相结合的藏文人名识别方法
2016-12-20加羊吉李亚超于洪志
加羊吉,李亚超,于洪志
(西北民族大学 中国民族语言文字信息技术重点实验室,甘肃 兰州730030)
CRF与规则相结合的藏文人名识别方法
加羊吉,李亚超,于洪志
(西北民族大学 中国民族语言文字信息技术重点实验室,甘肃 兰州730030)
文章就藏文人名本身的特性分析了人名识别的难点,提出了CRF与规则相结合的藏文人名识别方法.该方法首先以CRF作为机器学习模型,充分利用藏文人名的各类特征,然后针对人名不能全面召回的问题,利用规则方法进行后处理,最终建立了一种优势互补的识别模型.实验结果表明,该文提出的方法具有较好的性能,F-值可达91.55.
藏文人名识别;命名实体;CRF模型;规则
0 引言
命名实体(Named Entity)是文本中具有特定意义的名词或名词短语,包括人名、地名、组织机构名、时间、日期等实体.命名实体识别是将准确发现并标注文本序列中的命名实体,是机器翻译、信息检索、问答系统等许多自然语言处理的基础工作.人名是藏文命名实体的重要组成部分,它的识别结果会影响藏文未登录词识别的效果,因此藏文人名识别是藏文文本分析和理解的重点和关键.
目前,英文与中文命名实体识别的文献较多,主要有基于语料库统计和规则[1-2]的识别方法、基于统计的识别以及统计与规则相结合的识别:在统计方法中如隐马尔可夫模型[3-4](Hidden Markov Model,HMM)、条件随机场[6-7](Conditional Random Fields,CRF)、最大熵[8-9](Maximum Entropy,ME)、支持向量机[10](Support Vector Machines,SVM)等都被用于人名识别中,取得了较高的召回率.
藏文命名实体识别工作比较落后,华却才让等[11]通过对命名实体构词规律及分词歧义进行分析,提出基于音节特征感知机训练模型的藏文命名实体识别方案.加羊吉等[12]分析藏文人名构成规律和特点,提出了一种最大熵和条件随机场相融合的藏文人名识别方法.康才畯等[13]提出基于条件随机场的藏文人名识别方法.另外,《常见藏语人名地名词典》[14]中收录10470个人名、地名、寺庙、旅游景点等实体名称,为藏文命名实体识别任务提供了基础工具.
近几年来,CRF模型成为自然语言处理领域最常见的机器学习方法之一.由于该方法简便易行,而且可以获得较好的性能,因此受到很多学者的青睐,已被广泛地应用于人名、地名、组织机构名等各种类型命名实体的识别,并在具体的应用中不断得到改进,可以说是命名实体识别中最成功的方法[15].本文充分利用人名用词特征,采用CRF模型进行藏文人名识别,并通过规则方法进行后处理,得到了较好的准确率和召回率,证明了方法的可行性.
本文其余部分按如下方式组织:第1部分介绍藏文人名的特点;第2部分介绍基于CRF的藏语人名识别方法;第3部分介绍基于规则的后处理方法;第5部分为实验;第6部分为结论.
1 藏文人名的特点
2 基于CRF的藏文人名识别方法
2.1 CRF简介
CRF模型是由Lafferty于2001年提出,是一种新的分类方法,也是目前比较先进的机器学习模型之一[17].CRF是一种无向图模型或者马尔可夫随机域,它采用一阶链式无向图结构计算给定观察值条件下输出状态的条件概率.如图1所示:
CRF在观测序列的基础上对目标序列进行建模,定义{O=O1,O1,…OT}为被观察的输入数据序列,S={S1,S2,…,ST}为被预测的状态序列,那么,在给定一个输入数据序列的情况下,参数为A={λ1,λ2,…,λT}的线性连CRF,其输出的状态序列的条件概率为:
图1
其中,fk(St-1,St,O,t)是一个任意的特征函数,λk是对应于每个特征函数的权值,Z0是归一化因子,定义为:
2.2 藏文人名特征抽取
根据藏文人名的构成特点,本文使用了以下5个特征进行人名识别.
表1 藏文人名CRF模型特征描述
在CRF模型中所说的“上下文”指的是包含当前词在内的及其前后若干个词所组成的观察窗口.理论上来说,窗口越大,能够利用的上下文信息就越丰富,但是窗口开的过大所选择的特征就会急剧增加,除了会严重影响运行效率,也会产生过拟合现象;而窗口过小,特征利用的就不够充分,会由于过于简单而丢失重要的上下文信息,进而影响识别的效果[18].针对藏语人名的特点,我们选取边界窗口大小为± 1,即观察包含当前词在内以及其前后各一个词.
1)词形特征(TWord(wi)),即词本身.TWord(wi-1)表示左边界词,TWord(wi)表示当前词,TWord(wi+1)表示右边界词.
2)词性特征(TPOS(wi)):TPOS(wi-1)表示左边界词词性,TPOS(wi)表示当前词词性,TPOS(wi)表示右边界词词性.
3)位置特征(TSentp(wi)),藏语是属于SOV型语序结构,在一个完整的藏语句子中,谓语动词始终位于句子的结尾部分.因此,藏文中人名位置相对固定,一般可以出现在句首或句中,但不能出现在句尾.
4)词长特征(TLen(wi)):藏文人名最少只有一个音节(如:),最长的有20几个音节.但是,我们统计《西藏日报》2007年1月的语料,发现双音节、三音节和四音节的人名约占人名总数的95%.因此,本文抽取的词长特征注重考虑双音节、三音节和四音节人名.
3 基于规则的后处理方法
藏文人名识别的目的是要得到较好的准确率和召回率,通过条件随机场模型进行人名识别能够获得较好的准确率,但是当实体特征不是很明显或不具备上述特征时,人名识别就会有困难,召回率也随之降低.然而,规则的方法可以有效地弥补条件随机场模型的这一不足,从而提高整个系统的性能.我们认为,利用规则对机器模型的识别结果进行后处理是很有必要的.
设地名字串wi-1wiwi+1中,wi表示候选地名,wi-1表示候选地名的左边界词,wi+1表示候选地名的右边界词.根据藏语语言学及藏文地名本身的特性,我们将定义以下集合:
4 实验
4.1 实验结果
本文的实验采用了《西藏日报》2007年1月的语料(大小约3.5MB),用做训练语料,《西藏日报》2007年2月1日至10日的语料(大小约1.3MB)用作开放测试.测试中我们采取了以下三个评测指标:
1)准确率(Precision)
2)召回率(Recall)
3)F测试值(F-measure)
在实验中我们分别测试了CRF模型识别方法和CRF+规则的方法两种情况下的藏文人名识别性能,实验结果如表2所示:
表2 识别结果
从表2可以看出,用CRF模型能够获得较好的识别结果,但是,加上规则后处理的方法,不但系统的准确率有所提高,而且许多由模型不能被召回的人名也得以召回,从而整个系统F-值也比单一模型提高了1.55%.实验结果表明,我们提出的CRF模型与规则相结合的藏文人名识别方法是很有效的.
4.2 实验分析
通过整个实验数据的分析,藏文人名识别错误主要归纳为如下4类:
2)边界特征不明显.人名无左边界,右边界又没有明显的边界特征时,识别错误率较高,这时需要扩充边界信息库.
4)译名识别错误.由于译名用词库较小,译名用字比较分散,训练语料很难覆盖,对于这种错误,一方面,充分利用边界信息;另一方面,扩大译名用词库.
5 结论
本文针对藏文人名本身的特性,分析了人名识别的难点,提出了CRF与规则相结合的藏语人名识别方法.本文的主要贡献在于:首次将CRF与规则相结合的方法应用于藏文人名识别工作中,首先采用CRF作为机器学习模型,然后针对人名不能全面召回的问题,利用规则方法进行后处理,建立了一种优势互补的识别模型.实验结果表明,本文提出的方法获得了较好的识别效果.
[1]郑家恒,李鑫,谭红叶.基于语料库的中文姓名识别方法研究[J].中文信息学报,2000,14(1):7-12.
[2]Li Jianhua,Wang X.L.An Effective Method on Automatic Identification of Chinese Name[J].High Technology Letters.2000,10(2):46-49.
[3]王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009(1):143-145.
[4]Guo Yimo,Gao Huanping.A Chinese person name recognition system based o n agent-based HMM position tagging model[C]//Proceedings of the 6th Word Congress on Intelligent Control and Automation.Dalian,2006:4069-4072.
[5]张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报(理学版),2009,41(2):40-43.
[6]王志强.基于条件随机域的中文命名实体识别研究[D].南京:南京理工大学,2006.8.
[7]Mao Xinnian,He Saike,Bao Sencheng,et al.Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields[C]//Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing,Hyderabad,India,2008:90-93.
[8]钱晶,张玥杰,张涛.基于最大熵的汉语人名地名研究[J].小型微型计算机系统,2006,27(9):1701-1765.
[9]贾宁,张全.基于最大熵模型和规则的中文姓名识别[J].计算机工程与应用,2007,43(45):1-4.
[10]李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20.
[11]陈观胜,安才旦.常见藏语人名地名词典[Z].北京:外文出版社,2004.
[12]华却才让,姜文斌,赵海兴,等.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15):172-176.
[13]加羊吉,李亚超,宗成庆,等.最大熵和条件随机场模型相融合的藏文人名识别[J].中文信息学报,2014,28(1):107-112.
[14]康才畯,龙从军,江荻.基于条件随机场的藏文人名识别研究[J].计算机工程与应用,2015,51(3):109-111.
[15]宗成庆,统计自然语言处理[M].北京:清华大学出版社,2008.
[16]王贵.藏族人名研究[M].北京:民族出版社,1991.
[17]J.Lafferty,A.McCallum,F.Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceeding of ICML-2001,2001:282-289.
[18]张佳宝基于条件随机场的中文命名实体识别研究[D].长沙:国防科学技术大学研究生院,2010,10
TP391
A
1009-2102(2016)03-0041-05
2016-06-02
国家社科青年基金项目(15CYY043);国家自然基金地区基金项目(61363057).
加羊吉(1985—),女,副教授,博士,主要从事藏文信息处理方面的研究.