基于藏语字性标注的词性预测研究

2015-04-21龙从军刘汇丹诺明花

中文信息学报 2015年5期

关键词：藏语分词语料

龙从军，刘汇丹，诺明花，吴健

(1. 中国科学院软件研究所，北京 100190；2. 中国社会科学院民族学与人类学研究所，北京 100081)

基于藏语字性标注的词性预测研究

龙从军1,2，刘汇丹1，诺明花1，吴健1

(1. 中国科学院软件研究所，北京 100190；2. 中国社会科学院民族学与人类学研究所，北京 100081)

该文选取了藏语文中小学教材的部分语料，构建了带有藏语字性标记、词边界标记和词性标记的语料库，通过比较不同的分词、标注方法，证明分词、词性标注一体化效果比分步进行的效果好，准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此，作者提出可以利用字性和字构词的规律预测合成词的词性，既可以融入语言学知识又可以减少由未登录词导致的标注错误，实验结果证明，作为词性标注的后处理模块，基于字性标注的词性预测准确率提高到了0.916，这个结果已经比分词标注一体化结果好，说明字性标注对纠正词性错误标注有明显的效果。

藏语；语字标注；分词；词性标注

1 藏语词性标注的现状和问题

词性标注研究指为给定句子中的每个词确定一个合适的词性的过程。词性标注研究是自然语言处理基础研究内容之一，在语音识别、信息检索等很多领域发挥着重要的作用。

藏语词性标注研究已经取得了一些成果，文献[1]采用隐马尔科夫模型，实现分词和词性标注一体化，最终词性标注的F值达到79.494%；文献[2]采用了融合语言特征的最大熵词性标注模型，标注准确率达到90.94%；文献[3]提出了利用感知机训练模型的判别式词性标注方法，经测试，准确率达98.26%；文献[4]采用了最大熵和条件随机场相结合的标注方法，最终在开放测试中，标注准确率达到89.12%。这些研究无疑对藏语文本词性自动标注做出了重要的贡献，但是同样也存在较多的问题，一是各家的词性标注规范不一致；二是词性标注的训练、测试语料不一致；三是都没有公开各自的标注系统，因此难以对各家的系统进行客观评价。这些研究都采用了统计模型进行词性标注，但可供统计训练的藏语标注文本数量不多，过多的未登录词也影响了标注准确率的提高。

本文作者提出基于藏语字性标注的合成词词性预测策略，主要思路是可通过标注藏语字性，根据字构词的规律，预测词的词性。藏字字性可以作为特征融入统计模型中，也可以加入到后处理模块对未登录词或者标注错误校正；文章第二部分比较了几种标注方法，说明多特征融合可以提高标注准确率，但对未登录词作用不大；第三部分讨论藏语字性和词性的关系；第四部分描述了基于字性的词性预测实验及结果。

2 基于词的词性标注

在进行基于词的词性标注研究中，我们分别训练了几个不同的模型，独立分词模型，独立标注模型和分词标注一体化模型。训练分词、标注和分词标注一体化模型时，都采用了条件随机场工具包*本文中使用的CRF工具包是CRF++ 0.58版，下载地址：http://taku910.github.io/crfpp/.，训练语料选自语素标注库(见3.1节介绍)，按照1:4的比例，随机抽取3 987句作为测试语料，其余15 952句作为训练语料。

2.1 独立分词模型

以采用多种方法，文献[5-8]分别做了阐述。本文在对黏写形式切分时，采用了把疑似黏写形式的音节全部切开，然后再根据上下文对非黏写形式进行合并，例如，中、、、几个音节为疑似黏写形式，音节切分结果为：；然后采用四词位标注法对切分后的音节进行标注，其结果为：；最后进行训练获得分词切分模型。表1中数据为利用独立分词模型切分测试结果。

表1 独立分词实验结果*本测试结果三项评测指标数据相同，纯属偶然，测试语料词有48 073个，受测试的词有48 099个。

2.2 独立标注模型

在独立分词的基础上进行单独标注实验时，为了比较分词结果对标注的影响，我们进行了两轮实验：分词后直接标注和对分词结果校正后再进行标注。两个实验的结果如表2所示。

表2 独立标注实验结果

从表2可以看出，分词的准确率对标注的效果影响明显，在分词未校正的情况下，标注准确率为0.832、召回率为0.830、F值为0.831。当对分词结果进行校对之后，各项测试指标分别提高到了0.876，0.875和0.876，每项指标分别提高了0.044、0.045、0.045，这说明分词的准确率影响标注的准确率。

2.3 分词标注一体化模型

在分词标注一体化模型训练中，由于分词和标注组合标签比较多，训练的时间比较长(10天左右)，表3列出了本实验的测试结果。

表3 分词标注一体化测试结果

正如我们所料，分词标注一体化模型的标注结果与独立分词、独立标注的结果相比，各项测试指标分别提高了0.067、0.073和0.07；与校对分词后的标注结果相比，各项测试指标分别提高了0.023、0.028、0.025。详细情况如图1所示。

图1 标注结果比较图

这说明，在分词和标注一体化时，分词和标注之间相互影响，相辅相成，既可以避免一部分分词的错误，也可以避免部分标注错误，分词和标注实现了两者之间的优化组合。为了进一步考察分词标注一体化中分词的准确性，我们对分词标注一体化测试结果中的分词结果进行测试，发现一体化分词结果的准确率、召回率和F值分别提高到0.943、0.948、0.945，与单独分词结果相比，各项测试指标分别提高0.003，0.008，0.005。

3 字性与词性的关系

3.1 字性标记

在藏字字性标注过程中，对人名、地名、音译名的藏字统一标注为k，根据不同的专有名词类别，对k赋予区分标记，区分标记为词性标注符号的二级符号，构成人名的藏字标注为kh，如nh，构成地名的藏字标注为kq(由于ks，已经做为其他标注符号，为了区分，这里采用kq)，如ns，构成其他专有名词的藏字标注为kz，如nz等。

3.2 合成词词性特点

4 词性预测实验及结果

4.1 实验设计

我们原本设想，联合利用字性、分词标记和词性标记训练一个模型，以此考查标注效果，但由于训练时间过长而中断。因此采用了另一种方案，利用藏字字性标记和词边界标记两个特征，训练了一个能同时给出藏字字性标注和分词标记的模型，然后利用藏字构词的规则来对基于词的标注模型的错误例子进行校正。整个过程如图2所示。

图2 实验流程

4.2 词性预测结果及分析

如果采用分词、标注一体化模型，在错误标注结果中区分不开是分词还是标注导致的错误，因此我们采用了分词校正后独立标注模型进行实验，然后提取标注错误例子，对错误例子进行字性标注和利用字构词的规则对复合词或结构进行预测。

从评测结果中提取出了约5 900个错误例子，通过分析发现标注错误包括：在语料中，存在同一个词的相同用法却标注不一致的现象，一些特殊符号未给出正确标注，这种错误占比约20%，这种问题可以通过进一步调节语料，提高训练和测试语料的一致性，对特殊符号进行统一处理等方法来解决。在其余错误标注中，两个藏字及以上的复合词或者短语标注错误和单字词标注错误各占约40%。利用藏字字性和构词规则，有1 888个标注错误得到修正，标注准确率提高了约0.04，这个标注结果已经高于分词标注一体化的效果。几种标注结果如图 3所示。

图 3 几种标注实验结果对比

表4列出了部分标注错误能够通过规则预测得到正确的标注结果。

表4 藏字字性校正合成词标注错误示例

5 结论

字的概念在汉藏语研究中有着独特的地位，以字(基本上叫语素)为单位进行研究是语言学家长期关注的对象，但是近几年在文本信息处理、语音识别、语音合成研究中，字的概念(Sub-Word,Sub-Syllable)也得到广泛关注。本文比较多种标注方法，尽管复合特征能够提高标注准确率，但是不能根本解决未登录词等问题。为此，我们利用藏字字性，通过字构词的规律预测合成词或短语的标注问题，经过测试，标注准确率提高到0.916。尽管语料规模有限，加工精度有待提高，但这个研究策略值得进一步探究。

[1] 史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56.

[2] 于洪志,李亚超,汪昆等.融合音节特征的最大熵藏文词性标注研究[J].中文信息学报,2013, 27(5):160-165.

[3] 华却才让,刘群,赵海兴等.判别式藏语文本词性标注研究[J].中文信息学报, 2014, 28(2): 56-60.

[4] 康才畯.藏语分词与词性标注研究[D].上海师范大学博士学位论文,2014.

[5] 康才畯,龙从军,江荻.基于词位的藏文黏写形式的切分[J].计算机工程与应用,2014,(11): 218-222.

[6] 才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37.

[7] 巴桑杰布,羊毛卓玛,欧珠等.藏文分词系统中紧缩格识别和藏字复原的算法研究[J].西藏科技,2012,(2):73-75,79.

[8] 李亚超,加羊吉,宗成庆等.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58.

[9] Tomáš Mikolov, IlyaSutskever,Hai-Son Leetc.Subword Language Modeling with Neural Networks[DB/OL], www.fit.vutbr.cz/～imikolov/rnnlm/char.pdf.

[10] 龙从军,刘汇丹,吴健.藏语字性标注研究[C], 第十五届中国少数民族语言文字信息处理学术研讨会,延边,2015.

[11] 赵小兵,孙媛,龙从军等.藏文拉丁转写、分词和词性分类规范-信息处理用现代藏语分词规范(草案)[M],北京：商务印书馆, 2015.

[12] 赵小兵,孙媛,龙从军等.藏文拉丁转写、分词和词性分类规范-信息处理用现代藏语词性标注规范(草案)[M],北京：商务印书馆，2015.

Tibetan POS Tagging Based on Syllable Tagging

LONG Congjun1，2， LIU Huidan1， NUO Minghua1， WU Jian1

(1. Institute of software Chinese Academy of Sciences, Beijing 100190, China;2. Institute of Ethnology and Anthropology Chinese Academy of Social Sciences, Beijing 100081, China)

A Tibetan corpus is constructed and annotated for the syllable markers, the word boundary markers and the part-of-speech(POS) tags, with texts selected from Tibetan textbooks of Primary and middle school. Then an empirical study reveals that the training data with the multi-level annotation can enhance the effects of POS tagging. Due to the strong relation between the POS tags of words and the tags Tibetan syllables, a method of Tibetan POS tagging by the Tibetan syllables is presented. The results of experiments show that syllable tags can correct certain errors caused in POS tagging.

Tibetan language； tagging of Tibetan syllables； word segmentation；POS

龙从军(1978—),博士,主要研究领域为藏语语法、藏语信息处理。E-mail:longcj@cass.org.cn刘汇丹(1982—)博士,高级工程师,主要研究领域为藏语信息处理。E-mail:huidan@iscas.ac.cn诺明花(1982—)博士,高级工程师,主要研究领域为藏语信息处理。E-mail:nuominghua@163.com

1003-0077(2015)05-0211-05

2015-09-01 定稿日期： 2015-09-12

国家自然科学基金(61202219，61303165，61132009);中国科学院信息化专项经费资助(XXH12504-1-10);中国社科院创新工程项目

TP391