APP下载

基于知识反馈的藏文词性标注研究

2018-09-17洛桑嘎登仁增多杰

计算机时代 2018年7期
关键词:藏文

洛桑嘎登 仁增多杰

摘 要: 藏文词性标注是藏文信息处理的首要问题。以条件随机场模型为基本框架,首先构建398万词条(78.5M)的词性标注模型,然后对条件随机场模型的标注结果进行修正,归纳总结基于藏文自身语言特征的标注规则,形成词性标注规则知识库。详细分析模型构建过程中所选取的每个特征项对标注结果的影响,最终确定最优特征模板。实验结果表明,本文提出的基于知识反馈的藏文词性标注方法可以显著提高词性标注效果,准确率达到98.75%,已基本满足实际使用。

关键词: 藏文; 词性标注; 知识反馈; 条件随机场

中图分类号:N34 文献标志码:A 文章编号:1006-8228(2018)07-73-03

Abstract: Tibetan part-of-speech tagging is the the most important problem in Tibetan information processing. In this paper, based on the basic framework of Conditional random fields (CRFs), a part-of-speech model with 3.8 million entries is constructed. The model is modified according to the Tibetan grammar characteristics. The optimal characteristic template is finally determined by analyzing the influence of each characteristic selected in the construction of the model. Experimental results show that the method proposed in this paper can significantly improve the effect of Tibetan part-of-speech tagging. The accuracy reaches 98.75%.

Key words: Tibetan; part-of-speech tagging; knowledge feedback; CRFs

0 引言

詞性标注(part-of-speech,POS)是根据句子的上下文信息确定词的类型,是自然语言处理中一项非常重要的基础性工作,被广泛应用于信息检索、机器翻译、语义理解等领域[1]。汉语、英语等语言的词性标注研究较为成熟,其准确率基本达到实用程度。藏文词性标注研究基础相对薄弱,且由于藏文自身的语言特征,也给藏文词性标注研究带来了困难[2-3]。比起藏文自动分词研究,藏文词性标注的研究起步相对较晚[4]。苏俊峰[6]、史晓东[7]、扎西多杰[8]、于洪志[9]、华却才让[5];康才畯[10]、龙从军[11]等人采用不同的方法对藏文的词性标注进行研究。这些研究无疑对藏语文本词性自动标注做出了重要的贡献,但是也存在较多的问题。一是用于词性标注的训练语料、测试语料规模较小,二是研究直接使用现成的统计模型,未结合藏文自身的语言规则对词性标注模型的结果进行修正,三是词性标注规范不一致。

本文提出基于知识融合的藏文词性标注方法,以条件随机场模型为基本框架,构建大规模训练语料,对基于条件随机场的标注结果中的错误进行校正,归纳总结的藏文词性标注规则,形成词性标注规则知识库,最终反馈到CRFs模型中以提高词性标注效果。其次,计算每个特征项对藏文词性标注效果的影响,最终得到最优特征模板组合,并利用最优特征组合作为特征模板实现藏文词性自动标注,正确率达到98.75%,已基本满足实用条件。

本文的结构安排如下:第1节为绪论部分,第2节介绍了基于知识反馈的藏文词性标注具体研究内容,第3节阐述了词性标注的实验及分析,第4节为总结。

1 基于知识反馈的藏文词性标注

1.1 词类标记集的选择

本文采用的词类标记遵循2015年6月国家语言文字工作委员会发布的《信息处理用现代藏语词类标记集规范(草案)》的规范[12]。该分类规范制定了多级标注体系,本文考虑到藏文信息处理系统的实用性,除名词标注到二级类目外,其余词类只标注到一级类目。

1.2 特征模板的选择

特征函数主要有两部分组成,即原子特征和复合特征两部分。原子特征主要考虑一个观察单元,本文所使用的原子特征有当前音节和前后各两个位置的音节。

为了分析不同种类特征的词性标注性能,挑选出标注效果最优的特征模板组合,本文对训练语料进行封闭测试来比较各类特征的标注效果。为了便于表示,本文使用英文字母表示不同的特征组合。例如:A表示“中心词特征”,用“U03:%x[0,0]”模板表示;B表示“藏文中心词的前1个词”和“藏文中心词”,用“U02:%x[-1,0]”、“U03:%x[0,0]”两个特征模板表示;C表示“藏文中心词的前1个词”、“藏文中心词”、“藏文中心词的后1个词”,用“U02:%x[-1,0]”、“U03:%x[0,0]”、“U04:%x[1,0]”三个特征模板表示。以此类推,从中心词不断往外扩展。特征项组合如表1所示。

利用表1中的特征项做实验,结果如图1。可以看出,在中心词特征基础上,每增加一种特征模板,词性标注的准确率就有所提高,直至K模板时达到最优值,K模板之后准确率、召回率和F值均开始下降。因此,本文采用K模板作为训练词性标注的CRFs特征模板。

1.3 对词性标注统计模型结果的知识反馈

本文首先使用CRFs统计模型对藏文文本训练,得出藏文词性标注模型。然后对基于条件随机场的词性标注错误结果进行了统计分析。CRFs词性标注结果中动词(v)、形容词(a)标注错误的比例较高,但是也有类似数词(m)、标点符号(w)等的错误,而对于藏文文本而言,数词和标点符号是相对完备的一个集合。因此,本文通过整理藏文语料中出现的数词、标点符号以及在分词阶段整理的知识库形成词性标注知识库,然后通过设计规则算法,对CRFs词性标注结果进行校正,以此来提高藏文词性标注准确率。

本文主要构建了非藏文字符知识库,黏着词知识库,高频常用词知识库以及未登录词库等,标记其词类标记。数词和标点符号包括以下几类:

1.3.1 对非藏文字符的识别错误修正

导致该类错误的原因有两种,一是语料中存在一定量的非藏文字符,而本文所采用的基于CRFs的方法是对藏文音节序列的标注。二是训练集中已存在藏文字符和非藏文字符的组合当成一个藏文音节的现象。

针对该类错误本文定义如下规则:设S表示待切分的藏文句子,表示每一个音节。用U表示非藏文字符集合,U={D,E,C,P},其中D是时间和数字的集合,例如:“123”,“3.14”,“30%”等,E、C分别表示英文和汉文字符,P表示标点符号,包括中英文标点符号、半全角标点符号。

规则1:

如果,则将wi单独从集合S中切分出来。

该规则可以避免将语料交给CRFs模型参数去识别时,把藏文字符和其他文字当成一个藏文音节而导致的错误。

1.3.2 对黏着词的识别错误修正

导致该类错误的原因是对藏文中黏着词的识别不准确,针对这类错误本文首次引入了词频的信息。首先统计了在大规模的训练语料中出现的所有包含黏着词的音节的出现频次,发现在训练集中共出现了101265条包含黏着词的音节,其中仅有305条不重复的包含黏着词的音节。分别计算每个包含黏着词的音节在训练语料中所占的比例fc。fc的计算方法如下:

以前十个出现频次最高的包含黏着词的音节作为例子,如表2所示。

从表2可以看出,比如第一个藏文词汇“????”在98%的情况语料中都以黏着形式出现,对于这类的词汇本文对fc限定一个阈值,来推断该词是否是黏着词。因此,定义如下规则。

规则2:

如果且fc>f,则将wi判断为带有黏着形式的藏文音节。

1.3.3 对高频常用词的错误修正

本文所指的高频常用词包括如下内容:

针对这类错误本文整理了藏语高频常用词表。并如下规则:设SW(stop words)表示高频常用词集合。

规则3:

如果:,则将wi单独从集合S中分出来。

2 词性标注实验及结果

2.1 实验准备

本文的实验语料来源除了西藏新闻网、人民网藏语频道、青海藏语广播网和新华网等主流媒体的藏语网站外,还包括了一至九年级藏文教材的内容,语料涉及領域较全面。本文中的词类分布都来源于真实的藏文语料,这种基于真实语料的统计模型,有利于解决兼类词的标注错误问题。训练语料、测试语料分配如表3所示。

2.2 系统性能

分别对仅使用CRFs进行藏文词性标注结果和利用知识融合的方式校正之后两次实验的对比情况如表4所示。

3 结论

本文主要介绍了基于知识融合的藏文词性标注系统,通过对每个特征模板的测试实验,观察分析之后得到最优的特征模板组合,利用该特征模板组合训练出标注模板,之后分析介绍了CRFs分词标注的错误类型,并针对一些特定错误利用知识融合的策略对CRFs标注错误进行校正。在开放测试中,本文的藏文词性标注系统的准确率达到了98.75%。

参考文献(References):

[1] 洪铭材,张阔,唐杰.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006.

[2] 洛桑嘎登.藏文自动分词与词性标注研究[D].中央民族大学,2016

[3] 洛桑嘎登,赵小兵.藏文词级处理研究现状及热点方法[J].电脑知识与技术,2015.32.

[4] 洛桑嘎登,杨媛媛,赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报,2015.6.

[5] 华却才让,刘群,赵海兴.判别式藏语文本词性标注研究[J].中文信息学报,2014.28(3).

[6] 苏俊峰.基于HMM的藏语语料库词性自动标注研究[D].西北民族大学硕士学位论文,2010.

[7] 史晓东,卢亚军.央金藏文分词统[J].中文信息学报,2011.25(4):54-56

[8] 扎西多杰,安见才让.基于HMM藏文词性标注的研究与实现[J].计算机光盘软件与应用,2012.12:100-101

[9] 于洪志,李亚超,汪昆等.融合音节特征的最大熵藏文词性标注研究[J].中文信息学报,2013.27(5):160-165

[10] 康才畯.康才藏语分词与词性标注研究[D].上海师范大学博士学位论文,2014.

[11] 龙从军,刘汇丹.基于藏语字性标注的词性预测研究[J].中文信息学报,2015.28(5).

[12] 国家语言文字工作委员会.信息处理用现代藏语词类标记集规范(草案),2015.6.

[13] J Lafferty, A McCallum, F Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]. Proceedings of ICML,2011:282-289

猜你喜欢

藏文
敦煌本藏文算书九九表再探
西藏大批珍贵藏文古籍实现“云阅读”
黑水城和额济纳出土藏文文献简介
基于条件随机场的藏文人名识别研究
谈编译出版《西藏七大艺术集成志书》藏文版的必要性
现代藏文基字识别的算法设计
藏文音节字的频次统计
现代语境下的藏文报刊
新发现藏文史籍《王统日月宝串》评述
藏文古籍版本研究——以藏文古籍印本为中心