刘宇鹏 栗冬冬
摘 要:传统的命名实体识别方法依赖大量的人工选择的特征和专业领域的外部知识,针对这一问题,提出了一种新颖的神经网络结构,该算法结合了双向LSTM,CNN和CRF可以同时自动获取到基于字符级别和词语级别的表示,是一种真正意义上的端到端的结构,不再需要人工选择特征和数据的预处理,可以应用到各个领域的命名实体识别任务中去。最后,通过实验证明该算法在医疗领域和新闻领域的F1值分别达到了90-97%和92-19%。
Abstract:Traditional algorithms of named entity recognition rely on a large number of artificial features and external knowledgeTo solve this problem, we propose a novel neural network structure which combines the bidirectional LSTM(Long Short-Term Memory), CNN(Convolution Neural Network) and CRF(Conditional Random Field)This algorithm can also automatically get both character-level and word-level representationsIt is a truly end-to-end system, requiring no feature engineering and data processingThus, it can be easily applied to various fields of named entity recognition taskFinally, the experimental results show that the F1 measure of the algorithm in the medical and news field is 90-97% and 92-19%, respectively-Keywords:named entity recognition; long short-term memory; convolution neural network; conditional random field
0 引 言
命名实体识别(named entity recognition, NER)作为自然语言处理的一项基础任务,在自然语言处理领域有着很重要的作用[1-2],分为在不同语言上的命名实体识别[3-4],微博上的命名实体识别[5]和Twitter上的命名实体识别[6-8]等。在机器对话、问答系统、机器翻译等任务中都有着重要的应用。传统方法中表现最优的就是基于统计的模型,例如隐
马尔可夫模型(hidden markov models HMM)、条件随机场模型(conditional random fields, CRF)[9],这些方法需要大量的人工选择的特征和外部知识信息,例如字典信息,很难直接解决一个全新领域的命名实体识别问题。近年来,利用神经网络获取词语表示作为模型的输入(例如词向量)在自然语言处理领域取得了巨大的成功[10-12]。循环神经网络以及其变形长短期记忆网络(long-short term memory, LSTM)在解决序列标注任务中表现优异[13-15]。
本文提出了一种结合双向LSTM、卷积神经网络(convolutional neural network, CNN)、CRF的方法,首先利用CNN获取词语基于字符的表示,然后结合词向量加入到双向LSTM中,最后利用线性CRF联合解码标签。该模型不需要外部知识和手工选择特征,在不同领域的数据上进行实验验证了其可行性和有效性。
1 问题描述
2 神经网络结构
2-1 CNN提取字符级别的表示
之前的研究表明卷积神经网络(convolutional neural network, CNN)在提取局部特征方面十分有效[18],因此在本系统中先利用CNN提取出词语基于字符的特征将其编码到神经网络中。其结构表示图如图1所示,CNN的输入为字符的embedding,图1中虚线部分为dropout層。
4-3 实验结果分析
5 结 论
