基于Tri—training的柬埔寨语组织机构名识别

2018-06-21谢俊严馨王若兰周枫李思远

软件导刊 2018年5期

谢俊严馨王若兰周枫李思远

摘要：随着我国与柬埔寨的交流合作日益频繁，柬埔寨语的自然语言处理工作变得更为重要，针对柬埔寨语语料库资源有限、柬埔寨语组织机构名标注语料稀缺的问题，提出了一种基于半监督Tri-training的柬埔寨语组织机构名识别方法。该方法利用改进的Tri-training算法，结合柬埔寨语的语言特点进行实验。实验结果显示，准确率和召回率分别达到了65.68%、67.83%，表明该方法能有效利用大量未标注语料得到准确率较高的标注语料。

关键词：半监督学习；三体训练法；标注语料；特征选择

DOI：10.11907/rjdk.172833

中图分类号：TP319

文献标识码：A 文章编号：1672-7800（2018）005-0127-05

Abstract：With the increasingly frequent exchanges and cooperation between China and Cambodia， natural language processing of Cambodian becomes more and more important. Due to the scarcity of corpus resources of Cambodian， the tagging corpus of the names of Cambodian organizations are also rare.A new method based on semi supervised Tri-training and combined with the Cambodian characteristics was suggested； it was confirmed that the accuracy and recall rate reached 65.68% and 67.83% respectively， which indicated that the method could effectively use a large number of untagged data to get a higher accuracy.

Key Words：semi-supervised learning； Tri-training； tagged corpus； feature selection

0 引言

作為现今自然语言处理工作的重要组成部分，命名实体识别技术是对文本语料理解、处理的基础，而其中对组织机构名的识别是较为困难的部分。组织机构名分为简单组织机构名和复杂组织机构名。简单组织机构名是由一个词组成的；一个复杂组织的名称由组织的一个或多个前言加上组织的名字组成。

针对组织机构名的研究，周波等[2]提出一种基于条件随机场的字词模型相结合的组织机构名识别方法，针对组织机构名的特点利用知网进行字、词两方面的特征选择，结果表明字词模型之间存在互补差异性，相结合后取得了比单一模型更好的效果；冯丽萍等[3]提出基于最大熵模型的中文组织机构名识别方法，在大规模数据集上对比了不同特征选择方法对模型的影响，结果表明改变其特征选择方法以及采用不同的参数估计方法虽然会在一定程度上影响模型的大小和训练速度，但对模型预测效果影响不大；胡万亭等[4]提出一种基于词频统计的组织机构名识别方法，主要是在百度词条名的基础上对组织机构名进行词频统计，识别结果与实际情况无大差距，可以满足一定的科学研究和实际应用；Ling、Yang等[5]提出基于多特征的中文组织机构名识别，使用核心特征词库和左边界规则集提取候选中文组织机构名，然后根据中文组织机构名的行为特征和调试结构模式对候选中文组织机构名进行评估和完善，结果表明很好地完成了对中文组织机构名的识别，特别是对嵌套组织机构名的识别。这些研究者提出的方法都是基于大规模的标注语料，在一定程度上对组织机构名的识别达到了较好的效果。

对于柬埔寨语组织机构名识别的研究较少，潘华山等[6]提出了融合实体特性的柬埔寨语命名实体识别方法，利用条件随机场学习算法，采用词形、词性及其组合等特征以及融入柬语实体的特性进行命名实体的识别；黄淑慧[7]提出了一种融入柬埔寨语实体特征的约束条件随机场的命名实体识别方法，利用整数线性规划的方法结合柬埔寨语实体词上下文逻辑关系约束，计算得到最短路径的标注序列，从而实现命名实体的识别。上述研究方法对于组织机构名的识别效果都不是很好，因此本文针对柬埔寨语组织机构名进行研究。

由于柬埔寨语组织机构名的标注语料匮乏，虽然可以轻易获取大量未标注语料，但对这些语料进行标注需要耗费大量人力和物力，如何有效利用大量未标注语料改善学习性能成为目前研究中最为关注的问题。半监督学习[8-10]试图让学习器自动地对大量未标记数据进行利用以辅助少量的有标记数据进行学习。Blum和Mitchell[11]提出的协同训练法（Co-training）在使用时，存在着要使数据集上有两个充分冗余视图的前提，而充分的含义是所给出的每个属性集都可以说明这个问题，且如若给出的训练例子很大，那么对于每一个属性集是一个强学习器；冗余的含义在于对所转储的标记文件，每两个属性集之间都是相互独立的，然而在现实问题中充分冗余视图的要求很难满足。基于上述方法的不足，Zhou Z H和Li M[12]提出了三体训练法（Tri-training），不同于前文算法中的要求该算法适用3个分类器，实现了简便处理标记置信度估计，还解决了对未标记例子的预测问题，同时将此算法与集成学习结合在一起能够实现泛化能力的提高。李心磊等[13]提出关于Tri-training算法中分类器组合的改进方法，由原先单一的分类器换成两个不同分类器的组合作为Tri-training算法中的3个分类器构成分类器模型，结果表明使用分类效果较为接近，且分类算法不同的分类器，以获得较高的分类准确率；Cai Y H、Cheng X Y[14]提出了基于Tri-training的生物医学命名实体识别方法；Chou C L和Chang C H[15]提出一种通过自动标注、利用未标注数据和含有已知命名实体结构化资源的半监督Tri-training学习算法的命名实体识别方法；陈霄[16]等提出了利用支持向量机结合主动学习策略的中文组织机构名识别方法；钟志农[17]等提出了基于条件随机将主动学习与自学习相结合的中文命名实体识别方法。上述研究表明，利用Tri-training算法不仅能有效利用大量未标注语料和少量标注语料提高算法的泛化能力，还可以利用不同分类器各自的优点，达到更好的识别效果。

针对柬埔寨语组织机构名研究中存在的问题，本文提出一种基于半监督学习的Tri-training算法的柬埔寨语组织机构名识别方法。利用Tri-training学习算法使用条件随机场（Conditional Random Fields，CRFs）、支持向量机（Support Vector Machines，SVMs）和最大熵模型（Maximum Entropy Model，ME）3个分类器组合成一个分类体系，并依据最优化样本选择策略对新加入的样本进行选择，结合柬埔寨语的语言特点，利用少量标注语料和大量未标注语料进行研究。

1 基于Tri-training的算法

Tri-training算法是在Co-training算法基础上改进的半监督学习算法。通过使用3个分类器解决柬埔寨组织名称的识别，还有未标注的学习和其它问题的例子。该算法通过对标记样本集的可重复采样（bootstrap sampling）启动，以获得3个已进行标记的训练集，并训练来自每个训练集的分类器。在协同训练过程中，每个分类器获得的新标签样本由两个其它分类器提供，若这两个分类器对于同一未标记的样本是相同的预测，则这个样本就会被标记为较高的置信水平，且在被标记之后会将其加到第三个分类器上的已被标记的训练文本当中。另外在处理未被标记的文本时，此算法采用的是少数服从多数的方法，将3个分类器组成一个组进行算法应用。

1.1 三个基分类器简单介绍

条件随机场是由Lafferty J等[18]于2001年提出，是一个概率化的结构模型，主要作用是用来标注和划分序列结构数据，同时，也可以将条件随机场看作为一个无向图模型或者马尔科夫随机场。由于条件随机场的条件随机性，只需考虑当前已经出现的观测状态，所以能够非常有效地避免其它模型中所存在的标记偏差的问题，因此近几年在自然语言处理领域得到了很好的应用并取得到了较为满意的结果。

支持向量机由Cortes和Vapnik[19]在1995年提出，作为一种机器学习的方法，它是在统计学的理论基础之上产生的。作为一种二类分类模型，支持向量机最初应用于处理二值分类等问题。对于柬埔寨文本中组织机构名的识别问题，需采用多值分类的思想，有必要对支持向量机进行改进，建议采用Hideki提出的将多值问题转化为二值问题的思想。为了解决支持向量机二值分类器仅接受数字化的值的限制，将词及词性特征等非数字化特征转化为数字特征。这种方法在自然语言处理、图像识别等很多领域得到了成功应用。

最大熵原理由Jaynes[20]于1957年最早提出，1996年被应用于自然语言处理[21]。最大熵模型基本原理是：对于未知信息，在只学习了其中一部分的前提下，跟已知知识相符的概率分布可能不止一个，此时有一个概率分布的熵值最大，那么这个概率分布最接近原有事件所反映的真实分布情况。由于熵在只掌握关于未知分布的部分信息的情况下，符合已知知识的概率分布可能有多个，但使熵最大的概率分布最真实地反映了事件的分布情况，因为熵定义了随机变量的不确定性。当熵最大时，随机变量最不确定，最难准确地预测其行为，即在已知部分信息的前提下，关于未知分布最合理的推断应该是符合已知信息最不確定或最大随机的推断。最大熵模型的一个最为显著的特点是不要求选用的特征相互独立，因此可以选用对分类效果好的任意特征而忽略各个特征之间是否相互影响。

1.2 改进的Tri-training算法流程

因为最开始的Tri-training算法是运用可重复采样的方法给予最开始处于相同状态的3个分类器不同的初始样本进行处理，从而使得3个分类器不同，但这种算法的弊端在于它无法实现分类器的多样性，使得分类器在进行协同训练时有可能会被减化为单分类器的自训练（self-training），因此本文采用3个不同的分类器实现Tri-training算法分类器的差异性。

1.3 标注方法

本文标注方法采用BISO标注法，组织机构名的开始用大写字母B表示；组织机构名的中间用大写字母I表示；组织机构名的结束用大写字母S表示；用O表示词语不属于组织机构名。此时组织机构名的识别问题便能转成序列化的标注问题。标注类型分为{B_ORG，I_ORG，S_ORG，ORG，PER，LOC，O}，其中ORG代表该词为单个组织机构名，PER代表该词为人名，LOC代表该词为地名。

1.4 特征选择

根据条件随机场和最大熵模型依据对特征模板的构建进行实验，根据柬埔寨语的以下特点：在柬埔寨语中组织机构名书写的顺序跟汉语是相反的，如“昆明理工大学”对应的柬语为“大学理工昆明”；柬埔寨语的组织机构名一般是定中结构，且定语为后置，前缀表明组织机构所属类型，绝大多数的机构名指示词均以前缀的形式出现在机构名中；根据柬埔寨语组织机构名的特点，左边界为机构名指示词，人工收集实体指示词并构建实体指示词库如：（公司）、（党）、（组织）、（队）、（教堂）、（寺庙）、（医院）、（大学）、（部）等，因此识别的重点放在右边界，能否正确识别出右边界对构造实体特征模块具有重要意义。其中基本特征模板描述了当前词及其上下文中若干个词的词性如表1所示。

复合特征模板就是将基本特征模板中的特征进行组合，利用依存关系和丰富的上下文信息，本文采用由两个基本特征模板构成的复合特征模板，在表2中列出的是本文符合特征模板的一部分。

根据柬埔寨语言的特点，结合实体指示词库，提取出的实体特征模板如表3所示。

1.5 最优化样本选择策略

2 实验描述与分析

2.1 实验语料

本文实验语料从柬埔寨新闻网站上爬取。首先将爬取的新闻篇章语料切分为句子，由于柬埔寨语和中文一样是连续书写的，一般词与词之间没有明显的分隔符，因此应先对柬埔寨语进行分词。在本文中，为实现柬埔寨语的分词以及词性标注，采用了潘华山[23]提出的基于层叠条件随机的柬埔寨语分词及词性标注方法，该方法最终以词语为粒度，结合上下文信息与柬埔寨语的构词特点、柬埔寨语中命名实体的构成特点以及柬埔寨语丰富的词缀信息构建特征模板，实现对柬埔寨语中句子的分词和词性标注；然后通过人工校对提高句子分词和词性标注的准确率，得到的语料规模为5 000句，含有2 863个组织机构名，其中通过人工标注获得2 000句的标注语料，1 000句用于训练语料，另外1 000句用于测试语料，其余3 000句为未标注语料用于Tri-training训练。

2.2 评测方法

衡量命名实体识别系统性能的主要性能指标包括准确率P、召回率R以及综合反映两者的综合指标F值。具体定义为：

2.3 实验结果及分析

在运用Tri-training算法时，首先需要建立3个初始分类器，为了使初始的分类器具有一定的差异性，本实验在Tri-training中采用的分类器分别是CRF++（v0.58）、MaxEnt及SVM-light。本文采用两组对比实验，第一组实验进行3个基分类器的识别结果与Co-training算法和Tri-training算法通过10轮迭代后的识别结果的比较，第二组实验对比经过Tri-training算法10轮迭代的识别结果，实验结果如表4、5所示。

从表4可以发现利用Tri-training算法的识别结果相比3个基分类器的效果有明显提升，相比Co-training算法识别效果也要一定的提升，但由于Co-training算法要求数据具有两个充分冗余且满足条件独立性的视图，此要求在现实情况下很难达到，所以实验效果不是很好，因此证明采用该方法进行柬埔寨语组织机构名的识别达到了更好的效果。其中3个基分类器的识别效果中，条件随机的准确率和召回率最高，因此F值最高的是条件随机模型。由于3个基分类器的识别效果不同，表明不同特征对3个基分类器的影响各不同。

表5显示了Tri-training算法在每轮迭代后的结果，在第一轮训练结束后，准确率最高，与基分类器的准确率较高有关，召回率相对较低，通过多轮的训练，准确率有所下降，召回率逐渐提升，F值一直在增加，但随着迭代次数的增加，F值增加的幅度逐渐减小，趋于一致。实验表明能有效地识别出组织机构名的左边界，对于复杂组织机构名的右边界的识别效果有待进一步提高。

3 结束语

本文提出了一种基于半监督Tri-training的柬埔寨语组织机构名识别方法，选取3个基分类器，即CRFs、ME及SVMs，通过N轮迭代对未标注语料进行标注以扩充语料库，减轻了人工标注大量语料的工作，对于命名实体识别研究具有重要影响，但整体识别效果不太理想，对于基分类器的识别效果也可以进一步提高。希望在下一步工作中，继续扩大组织机构名语料库，通过本实验扩展到对柬埔寨语命名实体识别的研究，扩充实体指示词库，结合柬埔寨语言的特点，更有效地识别实体的左右边界，以达到更高的准确率和召回率；也可以利用中柬双语对齐的句子，通过中文组织机构名来识别柬埔寨组织机构名。

参考文献：

[1] 黄德根，李泽中，万如.基于SVM和CRF的双层模型中文机构名识别[J].大连理工大学学报，2010，50（5）：782-787.

[2] 周波，蔡东风.基于条件随机场的中文组织机构名识别研究[J].沈阳航空航天大学学报，2009，26（1）：49-52.

[3] 冯丽萍，焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程，2010，38（12）.

[4] 胡萬亭，杨燕，尹红风，等.一种基于词频统计的组织机构名识别方法[J].计算机应用研究，2013，30（7）：2014-2016.

[5] LING Y J， YANG J， HE L. Chinese organization name recognition based on multiple features[M]. Intelligence and Security Informatics. Springer Berlin Heidelberg，2012：136-144.

[6] 潘华山，严馨，余正涛，等.融合实体特性的柬埔寨语命名实体识别方法[C].第26届中国控制与决策会议论文集.2014.

[7] 黄淑慧.基于约束条件随机场的柬埔寨语命名实体识别研究[D].昆明：昆明理工大学，2015.

[8] CHAPELLE O， SCHOLKOPF B， ZIEN A. Semi-supervised learning[M].Cambridge， MA： MIT Press，2006.

[9] ZHOU Z H， LI M.Semi-supervised learning by disagreement.[J]. Knowledge & Information Systems，2010，24（3）：415-439.

[10] 周志华.基于分歧的半监督学习[J].自动化学报，2013，39（11）：1871-1878.

[11] BLUM A， MITCHELL T. Combining labeled and unlabeled data with co-training[C]. Proceedings of the eleventh annual conference on Computational learning theory. ACM，2000：92-100.

[12] ZHOU Z H， LI M. Tri-training： exploiting unlabeled data using three classifiers[J]. Knowledge & Data Engineering IEEE Transactions on，2005，17（11）：1529-1541.

[13] 李心磊，杨思春，彭月娥.Tri-training算法中分类器组合的改进[J].苏州科技学院学报：自然科学版，2014（2）：52-56.

[14] CAI Y H， CHENG X Y. Biomedical named entity recognition with tri-training learning[C]. Biomedical Engineering and Informatics， 2009. BMEI '09. 2nd International Conference on IEEE，2009：1-5.

[15] CHOU C L， CHANG C H. Named entity extraction via automatic labeling and tri-training： comparison of selection methods[M]. Information Retrieval Technology. Springer International Publishing，2014：244-255.

[16] 陈霄，刘慧，陈玉泉.基于支持向量机方法的中文组织机构名的识别[J].计算机应用研究，2008，25（2）：362-364.

[17] 钟志农，刘方驰，吴烨，等.主动学习与自学习的中文命名实体识别[J].国防科技大学学报，2014（4）：82-88.

[18] LAFFERTY J， MCCALLUM A， PEREIRA F. Conditional random fields： probabilistic models for segmenting and labeling sequence data[C].Proceedings of the eighteenth international conference on machine learning， ICML.2001（1）：282-289.

[19] CORTES C， VAPNIK V. Support-vector networks[J]. Machine Learning，1995，20（3）：273-297.

[20] JAYNES E T. Information theory and statistical mechanics[J]. Physical Review，1957，106（4）：620.

[21] BERGER A L， PIETRA V J D， PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational Linguistics，1996，22（1）：39-71.

[22] STEEDMAN M， HWA R， CLARK S， et al. Example selection for bootstrapping statistical parsers[C]. Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology， Association for Computational Linguistics，2004.

[23] 潘華山.基于条件随机场的柬埔寨语词法分析方法研究[D].昆明：昆明理工大学，2014.

（责任编辑：江艳）