基于BP神经网络的藏语实体关系抽取

2019-06-06郭莉莉孙媛

软件导刊 2019年3期

郭莉莉孙媛

摘要：随着藏文信息开始与现代化接轨，藏文信息数量在网络上迅速增加。面对海量的网络信息，如何从中挖掘人们所需的信息成为目前关注的热点。目前中文实体关系抽取研究已取得较多成果，而在藏语人物属性抽取研究方面还有很大的提升空间。实验选取实体位置关系、实体间距离关系、实体及周围词特征进行特征向量化。通过BP神经网络模型进行分类抽取，并且取得了较好效果。研究成果可在搜索引擎、信息安全、机器翻译等许多应用领域发挥重要作用。

关键词：藏语;实体关系抽取;BP神经网络

DOI：10. 11907/rjdk. 181807

中图分类号：TP301文献标识码：A文章编号：1672-7800（2019）003-0007-03

0 引言

随着互联网的迅速发展，电子文本信息资源数量越来越多，网民的增长速度也不斷加快，其中藏族网民近年来的增长幅度达到86%，远高于全国的平均增长速度[1]。如今自然语言处理技术已成为计算机领域的重要研究方向之一，其研究成果也为社会带来了巨大价值。如何对庞大的电子文本信息资源进行有效利用，并从中快速、准确地获取人们所需的信息，已成为当前关注的热点问题。

由于互联网数据的爆炸式增长，使研究热点更多地转向Web内容结构化分析[2]，在自然语言处理研究中，知识图谱开始得到人们的重点关注。由于少数民族语言知识图谱的构建才刚刚起步，所有藏文信息以文本形式显示为主，而缺少知识的结构化表示。如果将藏文知识以实体方式表示，并通过实体与实体之间的链接表征知识之间的关系，将有利于藏文知识的结构化分析与深度挖掘。

80年代初期，中国社会科学院民族所张连生尝试用计算机进行藏文词汇排序，开启了藏文文本处理的先河。但由于藏语形式与英语及汉语有着很大不同，在计算机操作系统平台上对其进行开发十分困难。截至目前，在藏语文本资源及文献分类、文本统计[3]与嫡值计算[4]、文本资源建设与词典构建等方面研究已取得较大进展，从而为本文的藏语实体关系抽取研究打下了良好基础。

1 研究现状

实体关系抽取是信息处理技术中的重要环节。由于藏语人物属性抽取工作尚处于起步阶段，还有大量工作有待完成。在英文研究方面提出了基于特征向量[5-6]与基于核函数的方法[7-8]，在中文研究方面也有针对这两种方法的具体应用研究[9-10]。在使用模式匹配技术的基础上，邓擘等[11]引入词汇语义匹配技术对汉语实体关系进行抽取;张苇如等[12]提出一种基于维基百科与模式聚类的方法，从开放文本中抽取高准确率的中文关系实体对;Culotta[13]利用一些转换规则，定义基于依存树的核函数，并使用SVM分类器进行关系抽取;Zhang等[14]设计了一种复合卷积树核函数进行关系抽取。

藏语自然语言处理[15]研究目前存在最大的困难是藏语语料的缺乏。在藏语实体关系抽取方面，现有研究成虹非常少。在文献[16]中提出基于泛化模板与SVM相结合的方法抽取实体关系;在文献[17]中提出基于SVM的方法进行藏语人名属性抽取研究，并且已取得一定成果。

2 方法描述

BP神经网络的实体关系抽取是将实体关系的判别问题转化为分类问题。本文首先从许多藏文网站爬取得到具有实体关系的文本;然后从文本中筛选出具有实体关系的句子进行预处理，如分词、词性标注等;对于标注好的语料，选取相关实体位置关系、实体之间距离、实体及实体周围词特征进行向量化，作为输入数据;最后利用构建好的神经网络模型进行判别分类。整体抽取过程如图1所示。

2.1 特征向量化

本文对需要处理的语料进行向量化。本文特征选取主要采用实体词位置关系、实体词距离关系、实体词周围特征以及实体本身特征。假设实体关系中的两个实体分别为E1、E2。

（1）实体位置关系。两个实体在藏文句子中出现的顺序是决定其关系的重要因素之一。在非包含关系的实体位置特征中考虑的情况有两种：一种情况是实体E1在实体E2之前，表示为EP12;另一种情况是实体E1在实体E2之后，表示为EP21。

（2）实体距离关系。两个实体在藏文句子中会产生一定距离。两个实体词之间距离不同，表达的两个实体词之间的信息也不同。将两个实体之间的距离特征表示为Ed。

（3）实体及周围词特征。实体词周围特征以及实体本身特征包含词特征以及词性特征。藏语与汉语、英语有很大不同，比如藏语句型是谓语后置，其中的动词是句子的关键。在藏文实体关系抽取工作中，格标记同样起着关键作用。

本文选择实体周围窗口Windows大小为2，也即是实体前后两个词的词性特征，选取格助词（/k）、动词（/v）、形容词（/a）、数词（/m）、连词（/c）作为实体周围词的词性特征。本文研究中实体E2为出生地、出生日期、逝世日期、父亲、母亲、国籍、职业、有关人物、性别等。实体E2词性特征E2pog可以表示为/ng、/nt、/ns、/nh、/nz 共5种。实体E1全部为人名，其词性都为人物名词，没有显著区别，所以在本文中忽略不计。[EWi]表示词汇特征，i=1，2，[Epog]表示词汇词性特征，分别如式（1）、式（2）所示。

2.2 BP神经网络

隐藏层可以有任意多个，本文使用两层隐藏层对实体关系进行判别。隐藏层节点数一般根据前人设计所得经验与自己试验进行确定。另外，隐藏层节点数太多会导致学习时间过长，而节点数太少，识别未经学习的样本能力差。隐藏层节点数L的初始值可先由以下两个公式中的其中之一确定：

3 实验

3.1 语料预处理

本文的藏语语料是通过配置的爬虫系统从多个藏文网站爬取的，如维基百科（藏语版）、康巴传媒网、中国藏族中学网等。然后从中筛选出关于藏族人物介绍的文章，并对这些句子作一些预处理，如人工分词、词性语料标注等，其中筛选包含人物属性的句子4 216句，采用3 000句作为训练数据，1 216句作为测试数据。

3.2 评价指标

实体关系抽取的性能评价使用信息检索中的评价方法，召回率（R）可被粗略看成是测量被正确抽取的信息比例，而准确率（P）用来测量抽取的信息中有多少是正确的。一般召回率与准确率存在反比关系，也即准确率增大会导致召回率减小，反之亦然。本文采用F值对最终的系统性能进行评价，F值越接近1，表示结果越好。

3.3 实验参数设置

本文隐藏层选用Sigmoid函数，输出层选用线性函数。训练函数有trainlm算法、trainrp算法、trainbfg算法、traingdx算法等。本文选用了适合模拟分类的traingdx算法。选择的学习速度参数不能太大，否则会出现算法不收敛的情况，也不能太小，否则会使训练时间太长。一般选择0.01～0.1之间的值，本文选用0.01，训练目标误差为0.01。

3.4 实验结果及分析

在同样语料的情况下，本文采用支持向量机方法进行实验，实验结果如表1所示。

从表1可以直观地看出，在选取相同特征及相同语料的基础上，使用BP神经网络模型比使用SVM模型的实验结果在正确率、召回率以及F值上都有更好效果，其中F值提高了1%。

实验采用MATLAB对结果作进一步分析，如图3所示为训练结果，随着迭代次数增加，检验参数的值不断减少。在迭代106次时，最佳的检验参数是0.653。

图4是BP神经网络模型的实际与预测分类对比结果。黑色表示预测类别的标签，灰色表示测试之前标注好的标签。

4 结语

本文介绍了使用BP神经网络模型对藏语实体关系进行抽取的方法。实验结果表明，BP神经网络相比于SVM分类器，在正确率、召回率以及F值上都有更好效果。目前，藏语语料还不够丰富，与汉语测试数据相比，实验中藏语数据相对比较单一，而且标注数量有限，对语料的收集与检验工作还需进一步完善。因此，在藏语实体关系抽取研究上仍有很大的提升空间。该研究在搜索引擎、网络信息过滤与信息安全、机器翻译等许多应用领域可发挥重要的作用。

参考文献：

[1] 李光，钟雅琼. 大陆研拟藏维文网络舆情监测系统监控分裂风险[EB/OL]. http：//news.ifeng.com/.

[2] BIZER C，HEATH T，BERNERS-LEE T. Linked data-the story so far [J]. International Journal on Semantic Web and Information Systems （IJSWIS），2009，5（3）：1-22.

[3] 梁金宝. 藏语历史文献词汇统计[D]. 北京：中国社会科学院民族学与人类学研究所，2013.

[4] 祁坤钰. 信息处理用藏文自动分词研究[J]. 西北民族大学学报：哲学社会科学版，2006，26（4）： 92-97.

[5] ZHOU G D，ZHANG M. Extracting relation information from text documents by exploring various types of knowledge[J]. Information Processing and Management，2007（43）： 969-982.

[6] NANDA KAMBHATLA. Combining lexical， syntactic and semantic features with Maximum Entropy models for extracting relations[C]. Proceedings of ACL， 2004： 178-181.

[7] QIAN L H，ZHOU G G，KONG F， et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]. Proceedings of COLING， 2008： 697-704.

[8] ZHOU G D，ZHANG M，JI D H， et al. Tree kernel-based relation extraction with context-sensitive structured parse tree information [C]. Proceedings of EMNLP/CONLL，2007：728-736.

[9] CHE W X，JIANG J M， ZHONG SU，et al. Improved-Edit-Distance kernel for Chinese relation extraction[C]. Proceedings of IJCNLP， 2005：132-137.

[10] 莊成龙，钱龙华，周国栋. 基于树核函数的实体语义关系抽取方法研究[J]. 中文信息学报，2009，23（1）：3.

[11] 邓擘，樊孝忠，杨立公. 用语义模式提取实体关系的方法[J]. 计算机工程，2007，33（10）：212-214.

[12] 张苇如，孙乐，韩先培. 基于维基百科和模式聚类的实体关系抽取方法[J]. 中文信息学报，2012，26（2）： 75-81.

[13] CULOTTA A， SORENSEN J. Dependency tree kernels for relation extraction [C]. Proceedings of ACL， 2004： 423-429.

[14] ZHANG M， ZHANG J， SU J， et al. A compo site kernel to extract relations between entities with both flat and structured features [C]. Proceedings of ACL， 2006： 825-832.

[15] SUN Y， YAN X， ZHAO X， et al. Research on automatic recognition of Tibetan personal names based on multi-features[C]. International Conference on Natural Language Processing and Knowledge Engineering. IEEE， 2010：1-5.

[16] 朱臻，孙媛. 基于SVM和泛化模版协作的藏文人物属性抽取[J]. 中文信息学报，29（6）： 220-227.

[17] 兰义涌. 藏文人名属性抽取及消歧研究[D]. 北京：中央民族大学， 2016.

（责任编辑：黄健）