APP下载

基于新词的新闻命名实体识别研究

2018-11-26李娟虞金中

电脑知识与技术 2018年22期

李娟 虞金中

摘要:近年来,由于网络新闻数据的快速增长,新闻文本中出现了很多新意的词语,如何能够准确识别实体,并提出了基于新词的新闻命名实体识别方法。该方法首先利用网络资源来获得含有新词的词典,并与条件随机场相结合构建实体识别模型,然后提取新闻实体。实验结果表明,该方法在提取新闻实体方面取得较好的效果。

关键词:中文命名实体识别;词性标注;特征模板;条件随机场

分类号:TP391.1 文献标识码:A 文章编號:1009-3044(2018)22-0153-02

Abstract: In recent years, due to the rapid growth of online news data, there have been many new words in news texts, how to accurately identify entities, and news named entity recognition method based on new words has been proposed. The method first uses the network resources to obtain a dictionary containing new words, and constructs entity recognition model combined with conditional random fields, and then extracts news entities. The experimental results show that this method achieves better results in extracting news entities.

Key words: Chinese Name Entity Recognition; POS tagging; Feature Template; CRF

1引言

近年来,随着互联网的快速发展,网络上的新闻信息呈指数级增加,网络新闻信息不仅面临着凌乱无序、过多冗余的困境,而且文本中出现很多流行词语以及新意的词语,这些词语不具有语法规范,描述随意,对识别新闻信息实体方面存在一些挑战。从大量且繁杂的数据中挖掘出新闻重要的实体信息,有利于相关部门对新闻事件的监测及分析。

命名实体识别是文本信息处理的重要基础,同时命名实体识别作为信息抽取的子任务,深受信息科研者的重视。孙茂松等[1] 在国内比较早开始进行国语姓名识别,他们主要采取统计的方式计算姓氏和姓名用字概率。张小衡等[2]对中文组织名称进行识别与分析,主要采取人工制定的规则对高等校名进行了实验分析。张华平[3]等提出了一个随机模型解决中文命名实体识别的方法,把识别实体转换为角色标注的问题,取得了良好的结果,使用1998年人民日报数据作为测试语料,人名识别的F值、召回率和准确率、召回率分别为95.40%95.23%,95.57%。CRF是概率无向图模型,适用于分区序列和序列标注等问题。McCallum等[4]将CRF模型应用于文本实体识别中,并在CONLL 2003测评中取得F值、准确率、召回率分别为88.96%、89.84%、88.10%的效果。

通过对新闻文本数据分析与研究,本文提出了一种基于新词的新闻命名实体识别方法,识别新闻中的时间、地点、人物和机构组织实体。首先训练CRF模型,进行候选新词的提取,包含新词的词典与识别实体模型相结合识别出新闻中的实体。

2新词发现、实体识别

2.1新词发现

新词的识别,对于候选新词的获取,目前主要有两类方法[5],一是在大规模训练语料基础上,使用统计方法确定新的单词边界,从而获得候选的新单词;二是在缺乏大规模训练语料,对实验数据文本中的字串进行频率统计,词频高于阈值的词语作为候选新词。

关于新词的识别,本文基于Qiu[6]等提出一种中文未知单词自动POS(词性)猜测的方法建模。首先,准备训练数据,训练数据是通过使用现有工具(如ICTCLAS)在字典中对每个单词的POS进行分段和标记而形成的,然后构建学习中文单词的结构规则的CRFs模型。利用训练好的 CRF 进行词性猜测, 然后给出每条规则的可信度分数, 对于那些可信度分数低的标注结果, 根据这些单词的全局上下文信息校正。

2.2构建识别实体模型

近年来 CRF[7-9]模型在新闻事件命名实体任务中得到了广泛的应用,取得了良好的效果。因此,本文联合新词规则与命名实体识别抽取新闻实体,首先在获取新词的基础上,把新词放入自定义的词典,然后与条件随机场模型(CRF)相结合实现了新闻实体的识别。

2.2.1条件随机场

条件随机场[10](Conditional Random Field,CRF)是一种概率无向图模型,不仅可以解决MEMM标记偏置的问题,而且在给定一个观察序列x的条件下能够获取标记序列y的条件概率P(Y|X),并且属于判别模型。

对于任意的v都可以,条件概率P(Y|X)被称为条件随机场,其中w ~ v表示结点v的所有相邻结点w,w≠v表示除结点v外的所有结点w,YV和YW表示对应结点v和w的随机变量。换句话说,对于结点v,给定其所有邻居w,它独立于所有其他节点。

很多科研者一般使用自然语言分析处理文本,但是大部分文本处理任务都是关于序列问题,这些问题的结构可以用一个链状结构来表示,相应的模型是线性链条件随机场,其图模型如下图1所示:

2.2.2基于条件随机场的提取实体方法

首先基于命名实体规则挖掘的相关概念、过程和方法,使用了工具CRF++(CRF++是一个CRFs模型的实现)抽取新闻文本中的实体。

特征模板包括token,词性,边界,前缀和后缀以及前后指导等功能。 考虑到一些有名的实体词可以在不同的语境中引用不同的实体,例如“山峰”不仅可以代表一个旅游景点,而且也可以是一个普通词。 如果您想更好地观察令牌和上下文之间的关系,则需要分析文本中较长的依赖关系。 然而,窗口的增加将增加模型的训练时间,这可能导致过度拟合。

使用训练数据和特征模板训练词性标注模型,对测试数据进行测试;通过分析测试结果的F值,不断调整生成模型参数,最终生成一个整体性能良好的模型。

3 实验结果及分析

3.1 实验语料

构建命名实体识别模型的训练语料是1998年的人民日报语料库,测试数据是网络爬虫抓取的新闻数据。网络爬虫抓取的数据来源包括:微博、头条、搜狐新闻,该数据有20170篇。

3.2 实验结果分析

以网络爬虫抓取的新闻语料作为实验测试数据,多次随机选取200条实验结果进行分析与统计,实验结果如表 1所示。

第一组是基于统计方法生成的CRF 模型,结合jieba在训练集上训练,测试集测试。第二组是在第一组的 CRF 模型上加入新词词典特征,在训练集上训练,测试集测试。

实验结果表明,基于新词的CRF模型在识别新闻實体取得较好的效果。识别效率提高的原因是,一些没有明显特征的新词也可以由CRF与自定义词典结合准确识别。 单个CRF模型根据特征区分实体和非实体,因此很难捕获那些具有不重要特征的实体。 与没有纳入网络新词词典的CRF模型相比,新闻词典提供了更多的语义信息,增强了CRF模型的识别效果。

4 结论

在本文中,我们使用jieba结合网络新词来对新闻文档进行分词,然后推断出这些词的语境特征,使用CRF进行训练,最终识别实体,并取得更好的效果。如何提高模型的性能并保证提取新闻实体的效果,这是未来的工作之一,另外,通过添加现代新闻的数据来扩充训练语料库,在新闻领域内也是一个好的方法。

参考文献:

[1] 孙茂松,黄昌宁,高海燕,等.中文姓名的自动辨识[J] .中文信息学报, 1995, 9(2):16 -27.

[2] 张小衡,王玲玲.中文机构名称的识别与分析 [J] .中文信息学报, 1997, 11(4):21 -32.

[3] Zhang H P,Liu Q,Yu H K,et a1.Chinese named entity recognition using role model[J].Cornputational Linguistics and Chinese Language Processing,2003,8(2):29-60.

[4] McCallum A,Li W.Early results for named entity recognition with conditional random fields,feature induction and web.enhanced lexicons[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4.Association for Computational Linguistics,2003:188-191.

[5] 张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(03):6-10+16.

[6] Qiu L, Hu C,Zhao K . A method for automatic POS guessing of Chinese unknown words[C].Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008).Manchester,2008: 705-712

[7] 龙光宇,徐云.CRF与词典相结合的疾病命名实体识别[J].微型机与应用,2017,36(21):51-53.

[8] 邱泉清,苗夺谦,张志飞.中文微博命名实体识别[J].计算机科学,2013,40(06):196-198.

[9] 孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(06):42-47.

[10] 谢志宁.中文命名实体识别算法研究[D].浙江大学,2017.

【通联编辑:光文玲】