基于Deep Belief Nets方法的中文名实体分类研究?
2014-04-29陈宇郑德权赵铁军
陈宇 郑德权 赵铁军
摘 要:DBN是一种快速全局最优的神经网络分类方法,它包含数层无监督学习网络和一层有监督学习网络。本文验证了DBN方法很好的适用于中文名实体分类任务。首先,采用多层RBM方法无监督地从字特征向量提取结构信息,得到更具有表征能力的特征;然后,利用BP方法微调网络参数并对提取后的特征向量进行分类,以此构成分类器进行名实体分类。通过对ACE 04的中文名实体进行的分类测试,准确率达到91.45%,明显高于支持向量机和反向传播神经网络等传统分类算法。
关键词:名实体分类; 神经网络; DBN; 字特征
中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2014)02-
Study on Chinese Named Entity Categorization based on Deep Belief Nets
CHEN Yu, ZHENG Dequan, ZHAO Tiejun
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: DBN is a classification of fast and global optimum neural network. It contains several layers of unsupervised networks and one layer of supervised network. The paper approves this novelty machine learning approach is suitable to the domain of named entity categorization. The paper applies RBM,an unsupervised learning method, to reconstruct more representative features from character-based features. Subsequently, the paper utilizes BP, a supervised learning method, to fine-tune parameters in whole network and accomplish the categorization task. In the end, the paper tests DBN on ACE 04 Chinese corpus and achieve 91.45% precision, which is much better than Support Vector Machine and Back-propagation neural network.
Key words: Named Entities Categorization; Neural Network; DBN; Character-based Feature
0引 言
传统的信息抽取任务包括名实体抽取、关系抽取和事件抽取,而名实体抽取又可分为两个子任务:一是识别消息文本中的名实体,二是将已识别的名实体进行分类,本文主要关注名实体抽取的第二个子任务。名实体是一个事物或事物集合的名称,在消息文本中,往往是信息的主要载体,所以名实体抽取是信息抽取的基础任务。名实体分类对名实体的语义表述具有重要指示意义,是名实体抽取准确与否的标准之一。按照Automatic Context Extraction (ACE)大会的定义,名实体一般分为人名、地名和机构名等。早期,研究主要聚焦于利用基于模式匹配的方法进行名实体分类,并取得了较高的准确率。Mcdonald[1]利用名词的内外部信息组成的模式对名词进行分类,Wacholder[2]则利用对不同名词类别进行聚类的方式辅助人工撰写的模式实现名词分类。但是上述方法都需要大量人工统计的模式,而一旦名实体抽取范围或者对象语言变化,即要费时费力地修改甚至重写相应的模式。此后,基于统计的机器学习方法显示了所具备的强大自学习能力,克服了基于模式方法的缺点。同时,支持向量机和反向传播神经网络是传统的机器学习分类器,可通过利用足够大量的实例进行自训练,并用训练好的模型未知实例进行分类。Zhou和Su[3]提取了4种不同的词性和句法特征表示名词的语义特征,再用隐马尔科夫模型进行分类,Isozaki[4]利用5-gram结合3种词法特征组成特征向量用于支持向量机训练模型并对名实体分类。此外,对于名词分类的研究大多只是集中于英文语料,对中文语料的研究仍相对较少,其名词分类的难度要远大于英文,主要原因是[5]:
(1词语之间没有明显的分割标志;
(2)汉语中的词存在更多歧义现象;
(3)汉语词语由字组合而成,组合的复杂度高;
(4)汉语的词法语态信息不如英语丰富[6]。例如:汉语词语没有时态、字母大小写的特征等。在已有研究中,Jing[7]提出了利用基于字的特征表征名词信息,结果表明,基于字的特征结果要优于基于词的特征,且克服了以上大部分的汉语难点。
本文提出一种基于字特征提取名词特征向量,并利用Deep Belief Nets(DBN)神经网络构造分类器进行名实体分类的方法。方法中,首先对直接反映名实体的字特征向量进行特征提取,得到更加复杂、更具表征能力的特征,再利用有监督过程对这些特征向量进行分类,获得了较直接对字特征向量进行分类更好的效果。实验结果表明,DBN方法分类效果明显优于其他传统的机器学习算法。
1 Deep Belief Nets 神经网络的介绍
DBN神经网络是一种全局最优的快速神经网络分类方法,由若干层RBM网络(Restricted Boltzmann machine)和一层反向传递网络(Back-Propagation,简称BP网络)组成,因而是一种多层神经网络[8]。DBN结合了无监督学习方法的特征提取能力和有监督学习方法的分类能力。总体来说,DBN具有以下如下几点优势:
(1)无监督的RBM方法提取输入特征向量的结构化信息,组成表征能力更好的特征向量;
(2)有监督的BP方法将错误信息反向传播到整个网络以修改网络的参数,使特征向量映射到其他空间时更为准确;
(3)DBN的多层网络结构能够自我弱化学习过程中产生的错误信息,并对特征向量在各个相异空间的重要特征信息实行优化组合,使无监督过程产生的信息更加结构化;
(4)DBN是一个快速的学习算法,RBM将整个网络的参数快速定位到最优参数的邻域,与传统的BP算法相比,收敛速度更快。
DBN的结构如图1所示,在训练模型的过程中主要可分为两步。第一步,分别单独、且无监督地训练每一层RBM,确保特征向量映射到不同特征空间时,可最多地保留特征信息。RBM网络只能确保层内的权值对该层特征向量映射达到最优,而非对整个DBN的特征向量映射均能达到最优。第二步,利用反向传播网络有监督地微调整个DBN网络,克服RBM仅能保证层间参数只对该层最优化的弊端,并对特征向量进行分类。RBM训练模型的过程可以看作是初始化BP的权值参数,使DBN方法克服了传统反向传播神经网络容易陷入局部最优和训练时间长的缺点。
图1 DBN结构图
Fig.1 The structure of a DBN
DBN方法是一种多层神经网络,底层的神经网络接收直接表示(多数为二元值)的特征向量值,在自底向上的传递过程中,从具体的特征向量逐渐转化为抽象的特征向量,在顶层的神经网络形成更易于分类的组合特征向量,增加网络层数能够将特征向量更加抽象化。而且,虽然RBM确保训练后的层内参数对特征向量映射达到最优,但是不能完全消除映射过程中产生的错误和不重要的特征信息。尤其是,多层神经网络的每一层网络均会弱化上一层网络产生的错误特征信息和次要特征信息,因此多层网络较单层网络精确度更高。在名实体分类问题中,基于特征方法的一个重要特性是特征向量的稀疏问题,DBN方法对特征的提取与结构化对稀疏特征向量具有很好的辨别能力,能很好地解决这类问题[9,10]。
2 特征选取
基于字的特征非常适用于中文信息抽取领域,因其避免了汉语词语没有边界信息等的缺点,将字与字如何组合成词语,交由机器学习模型去决定。例如:“老”与“李”组合成“老李”,并被分类为人名;“老”与“挝”组合成“老挝”,并被分类为国家。即使是在小规模的语料中,这种组合方式是极其复杂的,表示名词的特征向量的维数高。本文将语料中名词出现的字组成字典 ,将每一个名词e的基于字的特征向量表示为 ,特征向量与字典具有相同的维数,其中 的值满足等式(1),可具体表示为:
(1)
除了基于字的特征外,本文也加入了ACE语料里标注的名实体的指称信息作为特征。名实体的指称分三类,分别是命名性指称、名词性指称和代词性指称。最后,本文将名词的基于字特征和指称信息特征结合,作为名实体的特征向量。虽然名实体还有其他词法及句法特征,但是本文重在验证DBN方法在自然语言处理领域的适用性,故未涉及更多特征信息。
3 实验与分析
本文选用ACE 04的语料作为测试数据,按照语料标注说明,名实体可分为五类,每一个名词属于且只属于一类,分别为人名(Person)、组织机构名(Organization)、行政区名(Geo-political entity)、地名(Location)和设施名(Facility)。对名实体分类,即是对名实体指代进行分类。名实体指代是名实体在文档中的表述,每一个名实体指代包含主体(head)和扩展(extent)两部分,指代主体包含名实体主要信息。虽然指代的扩展部分能提供更多信息,但是也扩大了字符字典的规模,带来噪音。相关文献证明,只利用指代的主体部分的效果优于结合扩展部分[9]。
本文从语料中提取出10 228个名实体指代,利用4折交叉验证法训练模型,也就是说,7 746个指代作为训练语料用于训练模型,2 482个指代作为测试语料用于测试模型,其分布如表1所示。字符字典的维数为1 185,测试语料在本文中使用了准确率评价模型,由于本文的实验是对已识别的名实体分类,其召回率等于准确率。
本文共进行了三组不同的实验,第一组实验用于验证DBN分类器的效果,第二组实验用于验证RBM的层数对DBN提取特征的作用,第三组实验用于比较层内节点数对DBN网络效果的影响。
在第一组实验中,本文将DBN、SVM和传统的反向传播算法的名实体分类效果进行了比较,其中,DBN的网络结构是3层RBM加一层反向传播网络,进行了多组实验,选取最好的DBN模型结构,每层RBM的节点数由下至上依次为900,600,300;SVM利用的是线性核函数,惩罚系数为1,其余参数为默认值,这种结构的SVM分类效果也是比其他结构的SVM更优;反向传播算法的网络结构与DBN相同,利于与DBN的结果相比较,结果如表2所示。实验证明,DBN的效果较其他两种模型具有明显的提高,说明DBN能从基于字特征向量中对字与字之间的关系进行正确的组合与识别,提取出更具代表性的特征用于分类。
在第二组实验中,本文比较了一层、两层和三层RBM的效果,一层RBM层内节点为900,两层RBM层内节点分别为900和600,三层RBM的层内节点分别为900,600和300,结果如表3所示[10]。实验结果证明,随着层数的增加效果越来越好,说明更多的层数能够提取出更多准确的特征。另一方面,三层RBM比两层RBM的效果提高不明显,说明两层RBM对于名实体分类已经提取足够的分类特征,Hinton[8]也在其相关研究中指出,三层RBM网络已经能提取足够的特征用于分类。
在第三组实验中,本文利用一层RBM网络结合BP的模型,改变RBM层内节点数,结果如表4所示。实验结果表明,第一层RBM层内节点数为900的分类器效果最好,因为900接近输入特征向量的维数,说明神经网络节点数应对输入特征向量降维,且不宜下降过快,导致震荡和难以收敛,并且,只包含一层RBM的DBN的效果依然优于SVM和反向传播算法。
本文最后观察了每一个类别的分类效果,并用准确率,召回率和F系数去衡量,结果如表5所示。结果表明,人名、行政区名和组织结构名的效果最好,因为语料中这三个类别的实例比例较大,地名和设施名的效果较差,因为语料中这两个类别的实例比例较小,每一类别的分类的效果与此类别的实例在语料中比例成正比。
4 结论及将来的工作
DBN对于名实体分类是一种全新的机器学习算法,对高维特征向量具有很强的提取特征和进行特征分类能力。本文将基于字特征和指称特征作为表述名实体指代的特征向量,并用DBN对其进行分类,实验结果表明,DBN的分类效果要明显好于SVM和反向传播算法,是一种在信息抽取领域具有良好实用性的优秀算法。将来的工作拟在以下几个方面展开:(1) 将本文提出的方法在其它数据集上测试,以进一步验证方法的有效性;(2) 将该方法应用于关系识别方面;(3) 利用该方法多任务地进行名实体抽取与关系抽取。
参考文献:
[1] MACDONALD D. Internal and external evidence in the identification and semantic categorization of proper names[M]. Corpus Processing for Lexical Acquisition, MIT Press. 1993:61-76.
[2] WACHOLDER N, RAVIN Y, CHOI M. Disambiguation of proper names in text[C]// Proceedings of the Fifth Conference on Applied Natural Language Processing,1997.
[3] ZHOU GuoDong, SU Jian. Named entity recognition using an hmm-based chunk tagger[C]//proceedings of ACL,2002:473-480.
[4] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]//proceedings of IJCNLP,2002:1-7.
[5] ZHAO Jian, WANG Xiaolong, GUAN Yi. Comparing features combination with features fusion in Chinese named entity recognition[J]. Computer Applications. 2005, 25(11).
[6] ZHAO Jun. A survey on named entity recognition, disambiguation and cross-lingual coreferences resolution. Journal of Chinese Information Processing[J]. 2009, 23(2).
[7] JING Hongyan, FLORIAN R, LUO Xiaoqiang, et al. How to get a Chinese name (entity): Segmentation and combination issues[C]//proceedings of EMNLP. 2003:200-207.
[8] HINTON G, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation. 2006,18:1527–1554.
[9] LI Wenjie, QIAN Donglei. Detecting, Categorizing and Clustering Entity Mentions in Chinese[C]//Text, in Proceedings of the 30th Annual International ACM SIGIR Conference (SIGIR07),2007:647-654.
[10] CHEN Yu, ZHENG Dequan, ZHAO Tiejun. Chinese relation extraction based on Deep Belief Nets[J].Journal of Softeare,2012, 23(10):2572-2585.