基于CRF的互联网文本命名实体识别研究

2016-05-23郑秋生刘守喜

中原工学院学报 2016年1期

关键词：特征

郑秋生，刘守喜

(中原工学院, 郑州 450007)

基于CRF的互联网文本命名实体识别研究

郑秋生，刘守喜

(中原工学院, 郑州 450007)

摘要：针对互联网文本形式多样化造成的有效信息提取难度增加(尤其是命名实体识别方面)的问题，提出了一种统计和规则相结合的互联网文本命名实体识别方法。首先进行文本规范化，然后使用CRF模型，以词及词性作为特征进行训练，结合互联网文本的日常性、随意性和娱乐性等特点，以及若干匹配规则对文本进行命名实体识别。实验结果表明，该方法的准确率、召回率和F值分别达到了94.76%、85.34%、89.80%，能够有效地进行命名实体识别。

关键词：命名实体识别；CRF；互联网文本；匹配规则；特征

随着互联网的快速发展，人们的沟通方式已经慢慢转变，尤为显著的是越来越依赖于互联网应用。微博、网络新闻、评论等纷纷出现，对网民的生活影响非常大(由于信息量很大，提取这些文本中的重要信息非常关键)。命名实体识别(Named Entity Recognition)就是一种对文本分析并从文本中获取有效信息的方式。

命名实体识别的任务主要是识别文本中的人名、地名、机构名等专有名词[1]。命名实体识别是自然语言处理技术中信息抽取、句法分析、机器翻译、问答系统等的重要基础。

本文在分析获取互联网文本特点的基础上，采用统计和规则相结合的方法[2]进行命名实体识别研究，通过统计和规则结合，减少规则方法的复杂性与盲目性，降低统计方法对语料库规模的要求。

命名实体识别研究至今已经有近20年的发展历史，最初主要基于规则的方法进行命名实体识别，目前，基于统计的方法已经成为自然语言处理领域的一项重要技术。不同的方法有不同效果，也都存在着一些缺陷。如何达到最好效果，学界至今仍在不断研究。

对于命名实体识别的研究，国外先于国内。1991年，Rau在第七届IEEE人工智能应用会议上发表有关实体识别的研究文章，1996年国内开始将命名实体识别作为一项评测任务，在MUC(Message Understanding Conference)会议上提出。

以中文和英文进行命名实体识别存在着很大的差异。就英文而言，基于规则的命名实体识别评测系统有谢菲尔德大学的LaSIE-II系统[3]、 NTU系统[4]等；基于统计的研究方面，Borthwich A[5]使用最大熵模型进行命名实体识别，以段落、词汇、字典信息等作为所需要的特征。

在中文方面，王昊利用规则进行命名实体识别，从文本提取需要的表达式，尝试构建完整的模式集[6]；王宁等基于规则对金融领域的公司名进行识别，通过对公司名的结构特征以及文本的上下文信息进行分析，构建公司名知识库，对文本进行两次扫描来获取识别结果[7]；冯元勇以单字提示特征进行命名实体识别，以机构名和地名尾字作为小规模单字提示特征，仅使用了少量的字元组和词性特征[8]。单独基于统计或者规则的方法都有一些缺陷。基于规则的命名实体识别系统开发昂贵，覆盖度差，不便于移植；基于统计的机器学习方法利用人工的标注语料进行训练，对语言依赖小，代价小，可移植性好；但也有其相应缺点，如对人工标注的语料要求高，花费较大。

至今，命名实体识别对正规文本处理效果较好，但是在互联网文本的研究方面仍然有待提高。互联网文本较口语化，非常不规范，无法使用和正规文本相同的方法。因此，首先要对互联网文本进行处理，得到处理结果后才能够进一步分析，使识别的难度相应增加。

1命名实体识别方法

1.1文本规范化

因为互联网文本内容不够规范，其中一些字符对于文本分析来说并没有实际意义，而且有可能造成对命名实体识别的干扰，所以，对其进行规范化非常重要。文本规范化的目的是为消除干扰、去噪，以便进一步有效地对命名实体识别[9]。

(1)分词。利用nlpir分词系统进行分词，获取文本的词及词性，了解每种词性所对应的词是否对实体识别有用。词性主要包含名词、副词、形容词等20多种。

(2)去除干扰。根据分词所分的词及词性，对文本进行去噪处理，主要是根据词性对其进行处理。对于命名实体识别出的人名、地名、组织名，除保留名词和形容词外，去除其他词汇。表1为文本规范化的前后对比。

表1　文本规范化的对比

1.2条件随机场(CRF模型)

条件随机场(Conditional Random Fields，CRF)集合了最大熵模型[10]和HMM(Hidden Markov Model)模型[11]两种模型的特点，是一种条件概率模型，由Lafferty J[12]等人在2001年提出，由分析最大熵模型得到，可以看作无向图模型。

首先从文本中获取特征，设置相关参数，选取特征模板；然后对训练语料进行训练，得到一个model；再通过model对测试语料进行预测，得到所需结果。

(1)参数设置。有4个主要参数可以进行调整：

-aCRF-L2 规范化算法选择；

-cfloat 参数用于调整拟合度，拟合度c值大小对应于拟合训练数据程度的高低；

-fNUM 训练数据中特征出现的次数，使用至少NUM次；

-pNUM 提高训练速度，主要使用多线程方法。

(2)特征模板。特征方面主要选取的是词和词性，一般选取一组模板(见表2)。

表2　特征模板

word[0,0]、pos[0,1]分别表示当前词及其词性。词及其词性以数列为表现形式。其中，行数有正负之分：正表示在当前词下方；负表示在当前词上方。

(3)语料集。语料集选取首先选已标注好的，还有对格式的要求，必须按照CRF模型训练格式进行调整。

传统的标记语料集形式都是把实体分开进行标记。例如：刘/nf德/nc华/ne，其中nf、nc、ne分别表示实体的开始词、中间词和结束词。

本文提出一种新的标记方法。例如，上面提到的刘德华是一个人名，用新的标记方法处理后为：刘德华/n。对分开的实体进行处理，然后再标记，地名及机构名也一样进行整体标记。这样能够有效提高标记的正确率。

1.3匹配规则

基于CRF模型的统计方法存在许多不足，因此，本文利用若干匹配规则对识别出的结果进行再次修正。通过对命名实体的构成结构和文本上下文信息分析，提取所需的结果。命名实体的构成结构主要包括内部关键词、后缀特征词、词性序列等，局部上下文信息的分析主要是结合实体前后的用词特点判断出命名实体，用前后词的作用来提高命名实体的准确性。

对于不同类型的实体，可选取不同的规则来建立规则库。对训练语料进行分析后，获得若干个匹配规则，从中提取出规律性较强的规则。本文用到的规则主要有3大类：选择规则、合并规则、边界修正规则[13]。为了避免规则之间发生冲突，同时对规则的优先级进行调整，这样可达到最好的规划库建立结果。表3所示为3大类规则的举例。

表3　对3大类规则举例

2实验结果及分析

2.1实验语料

本文使用的实验语料由哈尔滨工业大学智能技术与自然语言处理研究室提供，主要来源于2013年5月的报纸新闻和网络新闻，总计160万个词，该语料已有标注。为了排除新闻发布时间造成所选取的实体重复出现频率过高，从而导致其他实体出现概率小的问题，实验选取了8 000篇作为实验语料。

2.2评价标准

以准确率P(Precision)、召回率R(Recall)和F(F-measure)值[14]作为评价指标，具体定义如下：

2.3实验结果

2.3.1与SEGTAG系统比较实体识别效果

对于已标注好的语料，分别用SEGTAG系统[15]和本文的方法进行命名实体识别，比较两种方法的差异(见表4)。

表4　与SEGTAG系统进行实验结果比较　%

比较上面两种方法可看出，在命名实体识别的效果上，本文方法在准确率、召回率和F值上比使用SEGTAG系统都有相应提高。

2.3.2文本规范化对本文方法的影响

文本规范化对命名实体识别有很大的影响。对文本语料进行规范化的命名实体识别效果如表5所示。

表5　文本规范化后的识别效果　%

实验结果表明，规范化对命名实体识别很重要。对命名实体识别的任务分析后，发现其中的人名、地名、组织名均由名词或者形容词组成，理论上，去除其他词性能够提高识别的效果，实验结果也表明，去除其他词性后识别效果有很大提高。

2.3.3加入规则后的影响

匹配规则的加入可进一步精确实验结果。对使用CRF模型得到的实验结果，加入上述提到的匹配规则，进行结果修正，所得结果如表6所示。

实验表明，加入规则后，准确率、召回率和F值都有相应提高。对文本进行的分词，在效果上获得的结果与预期的结果存在差异，尤其是在组织名上，分词所得的结果可能会把组织名分开变成两个词，这样很容易降低识别的准确率。

表6　加入规则后的识别效果　%

规则的引入主要是对第一次识别后得到的结果进行修正，获取更加准确的结果。使用中可结合互联网文本的特点，引入上述规则。

由于分词是命名实体识别的基础，分词的正确与否对识别十分重要。第一次识别使用CRF模型，识别出的数据存在一些错误；加入匹配规则，对结果进行二次修正，所得结果的准确率有了相应提高。

3结语

本文提出使用条件随机场(CRF)并结合匹配规则的方法对互联网文本进行命名实体识别。通过分析互联网文本特点，对文本进行规范化，利用统计和规则相结合的方法进行识别。实验获得了良好效果，但仍然存在缺陷，识别效果有待提高。下一步要进行的工作包括扩大训练语料规模、获取更加简单有效的规则以及对上下文信息的处理等。

参考文献：

[1]Zhang X Y, Wang T, Chen H W. Research on Named Entity Recognition[J]. Computer Science, 2005,32(4): 44-48.

[2]何炎详,罗楚威,胡彬尧.基于CRF和规则相结合的地理命名实体识别方法[J].计算机应用与软件,2015,32(1):179-185.

[3]Humphreys K, Gaizauskas R, Azzam S,et al. NYU:Description of the LaSIE-II system As Used for MUC-7[C]//Proceeding of the 7th Message Understanding Conference(MUC-7). Washington：IEEE, 1998:145-150.

[4]Chen H H, Ding Y W, Cai S, et al.Description of the NTU System Used for MET2[C]//Proceeding of the 7th Message Understanding Conference(MUC-7). Washington: IEEE,1998:121-129.

[5]Borthwich A.Maximum Entropy Approach to Named Entity Recognition[D].NewYork:New York University,1999:18-25.

[6]王昊.基于层次模式匹配的命名实体识别模型[J].现代图书情报技术,2007(5):62-68.

[7]王宁,葛瑞芳,苑春法,等.中文金融新闻中公司名的识别[J].中文信息学报,2002,16(2):1-6.

[8]冯元勇, 孙乐, 李文波,等. 基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110.

[9]Wang D, Fan X H. Named Entity Recognition for Short Text[J]. Journal of Computer Applications,2009,29(1): 143-145.

[10]杨华. 基于最大熵模型的中文命名实体识别方法研究[D].哈尔滨：哈尔滨工程大学, 2008.

[11]Le J, Zhao X. Algorithm of Beijing Opera Organization Names Entity RecognitionBased on HMM[J].Computer Engineering, 2013,39(6):266-271.

[12]Lafferty J，Mccallum A，Pereira F.Conditional Random fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 8th International Conference of Machine Learning.New York: ACM,2001:282-289

[13]Jiang R H, Wang T, Tang J T. Named Entity Recognition For Micro-blog[J]. Computer & Digital Engineering, 2014,42(4): 647-651.

[14]Qiu Q Q,Miao D Q, Zhang Z F. Named Entity Recognition on Chinese Microblog[J]. Computer Science,2013,40(6):196-198.

[15]Xiang X W,Shi X D,Zeng H L. Chinese Named Entity Recognition System Using Statistics-based and Rules-based method[J]. Computer Applications, 2005, 25(10): 2404-2406.

(责任编辑：王长通)

Research of Web Text Named Entity Recognition Based on CRF

ZHENG Qiu-sheng， LIU Shou-xi

(Zhongyuan University of Technology, Zhengzhou 450007, China)

Abstract：Because of the form diversification of the web text, name entity is difficult. A method for the named entity recognition based on the combining of statistic and rules is put forward. First, the text is standardized, then using CRF model, words and part of speech as features are trained. Combined with the daily, random and entertainment of web text and a number of matching rules, text named entity recognition is carried out. The experimental results show that the method can effectively improve the named entity recognition and the precision, recall and F-score reach 94.76%,85.34% and 89.80%.

Key words：named entity; CRF; web text; match rule; feature

中图分类号：TP391

文献标志码：A

DOI:10.3969/j.issn.1671-6906.2016.01.017

文章编号：1671-6906(2016)06-0070-04

作者简介：郑秋生(1965—)，男，河南辉县人，教授，硕士，主要研究方向为信息安全、数据资源管理、网络安全。

基金项目：国家自然科学基金项目(U1304611)；国家社会科学基金项目(15BTQ022)；河南省教育厅科技资助项目(14A520-015)

收稿日期：2015-11-27