SSD模型及其在汉语词性标注中的应用
2010-06-05邢富坤罗智勇
邢富坤,宋 柔,罗智勇
(1. 北京语言大学 语言信息处理研究所,北京 100083; 2. 解放军外国语学院,河南 洛阳 471003)
1 引言
该式可以进一步转化为下式:
(1)
HMM存在一个重要假设,称为输出独立性假设,其基本内容是当前可能状态到当前观察值的发射概率只与当前观察值有关,而与其他观察值无关。这种假设在解决某些特定问题时是基本成立的,但是在自然语言中,这种假设与现实差别很大。例如:
例(1) 领导/n 强调/v 深入/v a 细致/a 的/u 工作/vn 作风/n
例(2) 领导/n 要/v 深入/v a 困难/a 的/u 群众/n 中间/f
假定在这两句中,只有“深入”是兼类词,有动词v和形容词a两个可能词性,需要进行词性排歧,而其他词只有唯一词性。当利用一阶HMM模型估计例(1)中“深入”的词性X时,根据上述公式有:
X)p(u|a)p(vn|u)p(n|vn)p(领导|
n)p(强调|v)p(深入|X)p(细致|
a)p(的|a)p(工作|vn)p(作风|n)
由于除了“深入”以外,其他词性均唯一且确定,因此可以得到
(深入|X)
同理,我们也可以求出例(2)中“深入”的词性为
(深入|X)
本文提出了一种模型,称为SSD(Symbol-and-Statistics Decoding)模型,该模型以n元词序列为观察单元,并在相邻观察单元间具有n-1元搭接关系,较好地克服了HMM模型的不足。
本文的结构安排是:第1部分对HMM进行介绍及分析;第2部分是对SSD模型的形式化描述及与HMM的对比分析;第3部分介绍SSD模型的参数估计及稀疏数据处理方法;第4部分介绍评价方法;第5部分介绍词性标注实验并与最大熵模型进行比较。
2 SSD模型介绍
n元SSD模型的观察单元是由n个词组成的序列,而不是单个词。我们这里给出二元SSD模型的形式化描述,n大于2的模型可由此类推。
利用二元SSD模型求解S=w1w2...wh的最优状态序列的过程可以表示为:
(2)
为了便于计算,我们在序列S的起始位置统一加入起始标记序列“*开始*-*开始*”,其状态记为B-B,结束标记序列“*结束*-*结束*”,其状态记为E-E,则公式(2)可以进一步表示为:
(3)
(4)
通过以上公式求解出由h+2个二元状态序列组成的最优状态序列:
,,,...,,∈Q)
显然,它们唯一地确定了每个观察所对应的状态。
SSD模型与HMM模型主要有3点不同:
首先,在n阶HMM中,与t时刻的可能状态qt相关联的观察,只考虑了ot;但在n元SSD模型中,则要考虑包含ot的n个基元(词性标注中为词)所构成的序列。每一个可能状态序列的集合由于受到n个观察值共现的约束,其规模会大大减小,从而模型的搜索范围大大压缩。
第二,n阶HMM中,涉及t时刻的状态qt和观察值ot的概率只有P(ot|qt);而在n元SSD模型中,则有n个发射概率:P(ot-n+1...ot|qt-n+1...qt),...,P(ot...ot+n-1|qt...qt+n-1)。如此,观察值的前后联系将对状态的判断形成约束。
第三,n阶HMM中计算n个状态的序列到下一个状态的转移概率P(qi|qi-n,...qi-1);n元SSD模型则计算的是相邻且搭接的两个n元状态序列之间的转移概率。当搭接部分相同时,即满足搭接约束条件时,这个概率同n阶HMM中的概率是相同的;当不满足约束条件时,转移概率无定义。这一约束条件剪裁掉了大量的搜索路径,进一步提高了解码的速度。
下面通过实例说明二元SSD模型求解最优状态序列的过程,从中可以发现,该句通过符号解码,不必进行概率计算就可以得到最终的最优词性序列,如下表所示:
表1 SSD模型解码结果
表1中阴影部分的节点是由于不满足前后搭接约束条件而被剪裁掉的节点,当这些节点剪裁掉后,剩下的只有唯一一条可能路径,这也是最终所要求解的最优路径。
在实际标注过程中,并不一定每次都能够通过符号解码获得唯一可能路径。当符号解码后的可能路径不唯一时就需要进行数值计算,利用Viterbi算法进行数值解码,然后得到最优状态路径。
3 参数估计及稀疏数据处理策略
SSD模型需要估计的参数有两个:(1)状态转移参数Pt;(2)状态发射参数Po。我们采用最大似然法估计相关参数,篇幅所限不给出具体过程。
SSD模型采用回退策略解决数据稀疏问题,设某个n元词序列wj-n+1...wj未在词表中出现,则根据回退策略取wj-n+1...wj的后n-1个词组成n-1元词序列wj-n+2...wj作为替代序列,如果该序列仍然未在词表中出现,则继续回退,直至成为二元词序列。回退到s元词序列时,就使用s元词表中给出的词性序列。但如果wj-1wj仍未在二元词表中出现,则不再回退到单个词,而将词wj-1与词wj的所有可能词性组合作为wj-1wj的词性序列。
4 评价方法
(1) 总体标注正确率
(2) 兼类词标注正确率
(3) 优化幅度
优化幅度=
×100%
5 实验设计及结果
5.1 语料与预处理
训练语料与测试语料均来自北京大学标注的1998年上半年《人民日报》,具体划分为如下:
表2 语料划分
实验采用两种方法,一种方法是利用二阶HMM进行标注,另一种方法是利用二元SSD模型进行标注,然后对结果进行对比分析。
在标注之前首先根据标注语料的标注结果对训练语料与测试语料进行了预处理,将姓名、地名、机构名、数字、时间等进行了归并,所有姓名(不区分姓与名)以“*姓名*”表示,地名以“*地名*”表示,机构名以“*机构名*”表示,数字以“*数字*”表示,时间以“*时间*”表示,这样处理后可以排除专名识别对于比较不同模型标注性能的影响。
5.2 实验结果
表3 封闭测试结果
表4 不同规模训练语料的开放测试总体正确率结果
表5 不同规模训练语料的兼类词标注正确率结果
对于n-gram数据来说,随着n的增大数据稀疏问题会越来越严重。但从n元SSD模型处理数据稀疏的回退方法容易看出,n的增大不会降低n元SSD模型的标注准确性。我们的实验验证了这一点。我们利用1998年2~3月《人民日报》语料作为训练语料,以1998年1月《人民日报》语料作为测试语料, 检验SSD模型在完全稀疏条件下的标注性能。所谓完全稀疏,是指在利用n元SSD模型标注时,不使用n元词表,而只使用1元至n-1元词表,这使得测试语料中出现的所有n元词序列都成为稀疏词序列,这是n元SSD模型可能遇到的最稀疏情况,这时的标注性能可以认为是n元SSD模型的性能底线,测试结果如下:
表6 小规模训练大规模测试的结果
表7 完全稀疏条件下的SSD模型标注结果对比
从上表结果及错误分析发现,完全稀疏的二元SSD模型标注正确率与二阶HMM的标注正确率等同且错误完全一样;完全稀疏的三元SSD模型的标注正确率与二元SSD模型的标注正确率等同且错误完全一样。这验证了,n元SSD模型对于稀疏数据的处理策略保证了当n增长的情况下,模型不会因为数据稀疏问题而造成性能的降低,反而会随着n的增长,模型的语境观察范围得到扩大,其性能会得到不同程度的提高。
为了与判别模型在词性标注上的性能进行对比分析,我们选用最大熵模型进行实验,实验工具使用的是Standford最大熵标注器(http://nlp.stanford.edu/software/tagger.shtml),训练语料是1998年1月《人民日报》标注语料,测试语料是2月《人民日报》的前5 000句语料,使用的模板是该标注器自带的汉语词性标注模板(取当前词及其左右各一个词的词形以及某些类信息(如数字、字母等)为特征,具体参见文献[9])。结果如下表:
表8 最大熵模型标注结果比较
上述结果说明,在当前的训练规模条件下,最大熵模型的标注正确率要高于SSD模型和HMM模型,显示出判别模型在利用语境信息方面的优势。但是最大熵模型的训练时间远高于其他两种模型,而SSD模型的训练时间虽多于HMM模型,但是二者相差不过20秒左右,基本在同一个数量级上,且SSD模型的标注正确率高于HMM,尽管低于最大熵模型,但其保持了HMM简单快捷的优势,又较HMM的标注正确率有较大幅度提高,具有一定的实用价值。
6 讨论与展望
SSD模型训练复杂度较判别模型要低,解码速度较快,因此能够更灵活方便地根据实际需求,迅速训练并提供所需语言模型,同时,SSD模型还克服了HMM模型的强独立性假设的不足,能够利用更多的观察信息,保证较高的标注正确率。同时,SSD模型也并非绝对不能够利用语境中的其他特征信息进行状态判断,而是有可能将其他有用信息也集成到模型之中,因此,我们下一步的工作重点将研究如何将丰富的语境信息合理地集成到SSD模型之中,使其性能得到进一步提高。
[1] Daniel Jurafsky, James H. Martin. Speech and Languge Processing:An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition[M]. USA:Prentice Hall,2000.
[2] Doug Cutting, Julian Kupiec, Jan Pedersen, Penelope Sibun. A Practical Part-of-Speech Tagger [C]//Proceedings of the Third Conference on Applied Natural Language Processing, 1992:133-140.
[3] Adwait Ratnaparkhi. A maximum entropy model for Part-of-speech Tagging[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1996:133-141.
[4] 俞士汶,段慧明,朱学锋,等. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报,2002,16(6): 58-65.
[5] 梁以敏,黄德根. 基于完全二阶隐马尔可夫模型的汉语词性标注[J]. 计算机工程, 2005, 31(10):177-179.
[6] 屈刚,陆汝占 一个改进的汉语词性标注系统[J]. 上海交通大学学报,2003,37(6):897-900.
[7] 洪铭材,张阔,唐杰,等. 基于条件随机场(CRFs)的中文词性标注方法[J]. 计算机科学, 2006, 33(10):148-155.
[8] 姜维,关毅,王晓龙. 基于条件随机域的词性标注模型[J]. 计算机工程与应用,2006, 21:13-16.
[9] Kristina Toutanova, Dan Klein, Christopher Manning, and Yoram Singer. Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network[C]//Proceedings of HLT-NAACL, 2003: 252-259.