基于条件随机场的地名识别
2018-02-22田婧李玉森
田婧 李玉森
摘 要:地名是自然语言文本中最基本的命名实体。地名作为文本中描述空间位置信息的重要组成部分,在空间关系描述、水利工程等領域具有广泛应用。地名语义解析通过利用自然语言处理、机器学习等手段,实现文本中地名自动识别及其空间位置语义的智能化判断。文章在综述国内外相关研究进展的基础上,通过分析汉语中地名描述的语言特点,探讨了较为有效的地名识别、语义判断及其可视化方法。
关键词:语义判断;地名识别;可视化
作为一种大众化的信息载体,文本是最常用的一种自然语言,其中蕴含着丰富的地名信息。从文本中获取未分析的(non-analytical)、非显示的(non-explicit)空间知识已成为当前地理信息科学迫切需要解决的问题[1]。
Rou[2]在1991年IEEE Conference on Artificial Intelligence Applications发表了第一篇关于命名实体识别的研究文章。该文采用启发式和人工规则的方法从文本中识别公司名称。从语言方面来看,大多数命名实体识别研究集中于英文,之后德语、法语、西班牙语、丹麦语、中文和阿拉伯语。从文本类型来看,目前只有极少部分研究针对特定领域的文本进行信息抽取,比如EMAIL。从实体类型来看,早期的信息抽取主要针对人名、地名、组织机构名称,时间、金钱和百分比等数字型实体。近年来的研究开始关注生物信息的抽取,比如蛋白质、DNA、RNA和细胞类型等,而且范围越来越广,包括产品、事件、动物和宗教等[3]。
目前,在中文命名实体识别已有的研究成果中,有很多是针对人名、地名、组织名等单项命名实体进行识别的[4-6]。2004年举行的863命名实体识别评测,国内共有8家单位参加。在对简体中文文本的测试中,命名实体识别系统的准确率、召回率和F-值已经达到81.10%,83.69%,82.38%,其中人名、地名、组织名各项的F-值最高分别为85.51%,82.51%,60.81%。
本文首先通过调整训练语料颗粒度,实现基于层叠条件随机场地名识别系统,并在此基础上增加地名语义判断。通过实验验证增加语义判断后,能大大提高地名实际应用价值。
1 基于层叠条件随机场的地名识别
近些年来,机器学习方法在地名识别领域的应用研究受到了广泛关注[7-8],特别是基于各种统计模型的地名识别研究更是热点。本文采用层叠条件随机场(CCRFS)完成地名解析。
1.1 基于CCRFS的地名识别模型
中文文本中地名主要以简单地名、复杂地名及简称等形式存在。不同类型的地名有着不同的内部构成规律和上下文语言环境,因而应分别对每一类地名构造相应的识别算法。相对于简单地名和复杂地名来说,地名简称相对简单,文本中地名识别主要探讨简单地名和复杂地名的识别方法,在地名简称的处理上,采用简单地名的处理方式。
本文借鉴层叠条件随机场在机构名识别研究过程中的应用,按层叠加条件随机场模型完成文本中地名的自动识别任务,如图1所示。
在CCRFS模型中,低层的条件随机场模型仅以观察值为条件,用于简单地名的识别,识别的结果再传递到高层模型,这样高层模型的输入变量将不仅包含观察值,而且包含了来自低层模型的识别结果,从而为高层条件随机场模型对复杂地名的识别提供了决策支持。采用按层叠加方式使内嵌在复杂地名中的简单地名获得了与非内嵌地名一致的处理方式,有助于缓解由数据稀疏可能带来的问题;而且这种方式可以利用复杂地名一般都包含简单地名这一事实,在进行复杂地名识别时利用简单地名的识别结果。
1.2 语义判断算法
语义判断算法的本质就是从所有的候选地名中求得一个认知显著度最高的地名作为地名所指。我们可以利用公式在给定的语言单元中计算认知显著度。篇章要完成其作为语言交际基本单位的功能,“必须具备语篇特征,它所表达的是整体意义。语篇中各成分是连贯的,而不是彼此无关的。”在一个篇章中,地名之间必然存在某种联系,且这种联系是联系篇章中其他内容的主要纽带之一。在处理过程中将语言单位分为句子级、段落级及篇章级3种。
语义判断算法描述如下:
PROCEDURE REFERENCE-DISAMBIGUATION
REFERENT-COUNT(A1_D,A2_D,A3_D,A4_D,D)
For each paragraph P in D
RERERENT-COUNT(A1_P,A2_P,A3_P,A4_P,P)
For each sentence S in P
RERERENT-COUNT(A1_S,A2_S,A3_S,A4_S,S)
For each toponym T in S
Obtain all potential referents R
For each in R
←ComputeSalience(A1_S,A2_S,A3_S,A4_S, )
If > 0
store max( ) and move to the next toponym;
Else
←ComputeSalience(A1_P,A2_P,A3_P,A4_P, )
If >0
store max( ) and move to the next toponym;
Else
←ComputeSalience(A1_D,A2_D,A3_D,A4_D, )
Store max( ) and move to the next toponym;
END
PROCEDURE REFERENT-COUNT
For each toponym in Scope X
Obtain referents R for , each of form ;
Add to A1_X, to A2_X, to A3_X, and to A4_X;
END
其中A1_X,A2_X,A3_X,A4_X分别表示省、市、县、乡在篇章、段落以及句子中的频率向量。
2 实验评估与分析
实验结果评估参考《2004年度命名实体识别评测大纲》中关于地名的评测规范。评测采用3个指标:正确率、召回率、F值。
简单地名识别实验结果(见表1)。通过人工修正,在简单地名识别完全正确的情况下进行复杂地名识别实验(见表2)。表3给出了简单地名和复杂地名复合后获得的最终地名识别结果。
简单地名识别阶段,完成了两个识别模型的训练任务。一个是以人民日报1~5月份语料为训练数据,另一个以微软训练语料为训练数据。两种语料规模比例大约为5∶1,其中微软语料为6.74 M。由于两种语料标注方式以及語料规模的差异,从表1可以看出实验1、2可以取得很好的识别效果,但实验3、5、6的实验结果较差。实验4训练语料和测试语料规模比例为3∶1,可以认为该实验结果能够比较客观地反映出简单地名识别系统的性能。
3 结语
本文基于层叠条件随机场完成地名识别模型,并在地名语义判断方面做了尝试性研究,从而实现地名的可视化表达。实验过程中还发现,条件随机场模型在训练时间及识别效率方面较差,训练同等规模的语料,条件随机场模型所需要的训练时间明显高于隐马尔科夫、支持向量机等模型。缩短训练时间、提高识别效率及增量语料训练等方面将会是本文进一步努力的方向。
[参考文献]
[1]GOODCHILD M F. Citizens as sensors:the world of volunteered geography[J]. Geo Journal,2007(54):211-221.
[2]RAU L F,JACOBS P S. Creating segmented databases from free text for text retrieval [C]. Chicago:ACM,1991:337-346.
[3]NADEAU D,SEKINE S. A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1): 3-26.
[4]郑家恒,刘开瑛.汉语姓名自动辨识初探[J].语言文字应用,1994(2):65-68.
[5]张跃,姚天顺.基于结合性自动识别中文姓名[J].小型微型计算机系统,1997(10):43-48.
[6]刘秉伟,黄萱箐,郭以昆. 基于统计方法的中文姓名识别[J].中文信息学报,1999(3):16-24.
[7]FREITAG D. Machine learning for information extraction in informal domains[D]. Pittsburgh:Carnegie Mellon University,1998.
[8]MILLER S,CRYSTAL M,FOX H,et al. Algorithms that learn to extract information – BBN:Description of the SIFT system as used for MUC-7,1998[C]. Baltimore:In Proceedings of the Seventh Message Understanding Conference,1998.
[9]KIMLER M. Geo-Coding: Recognition of geographical references in unstructured text,and their visualisation[D]. Hof:University of Applied Sciences Hof,2004.
Abstract:Place names are the most basic named entities in natural language texts. As an important part of the description of spatial location information in the text, geographical names are widely used in the fields of spatial relationship description and hydraulic engineering. Semantic analysis of place names realizes the automatic identification of place names in texts and the intelligent judgment of spatial position semantics by means of natural language processing and machine learning. On the basis of reviewing the relevant research progress at home and abroad, this paper explores the more effective geographical name recognition, semantic judgment and visualization methods by analyzing the language characteristics of Chinese place names.
Key words:semantic judgment; place name recognition; visualization