基于CFRs模型的交集型歧义消解研究
2018-11-01尤慧丽
尤慧丽
摘要:中文自动分词是中文信息处理的基础,交集型歧义字段的消解又是中文自动分词中的重点。本文将CRFs模型用于交集型歧义字段的歧义消解中。该算法将交集型歧义字段的消解任务由二值分类的问题转化为序列标注的问题,这样不仅能处理任意链长的交集型歧义字串,而且能够充分利用上下文环境的信息,在不同的上下文环境中对真歧义字串进行正确的切分。
关键词:中文自动分词;交集型歧义;CRFs模型;序列标注
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)18-0263-02
1引言
汉语词语的切分往往存在歧义,歧义切分是自动分词中一个比较棘手的问题。歧义切分字段从构成形式上可以划分为交集型歧义切分字段、组合型歧义切分字段和混合型歧义切分字段三种类型。交集型歧义切分字段是中文自动分词系统中的主要歧义类型,据相关统计,交集型歧义切分字段占所有歧义切分字段的85%以上[1],一直以来是人们研究的重点,本文主要讨论交集型歧义字段。
对消解交集型歧义字段,现阶段主要的方法有:基于词概率模型的歧义消解方法和基于最大熵模型的歧义消解方法等。文献[2]中提及的方法在一元概率语法模型中简单易行,但参与计算的只有歧义字段内每个词的出现概率,和上下文环境没有关系。而在二元概率语法模型中虽然能够利用上下文环境信息,但是它存在的最大困难是数据稀疏的问题。文献[4]将最大熵模型应用于交集型歧义字段的消解任务中,但其消歧准确率不是特别理想。本文在对现有方法进行深入分析的基础上,采用基于条件随机场模型的算法来解决交集型歧义字段的切分问题。
2预备知识
2.1交集型歧义字段的定义
定义1:交集型歧义字段:设汉字字符串[S=c1c2...cn],其中S不是词,[ci(i=1,2......n)]为单个汉字,如果存在整数[i1],[i2],...,[im], [j1],[j2]…[jm]([m≥2])满足:(1) [w1=ci1...cj1],[w2=ci2...cj2],[wm=cim...cjm]分别构成词,并且S中不存在包含[w1]、[w2]、…、[wm]的词;(2) [w1]、[w2]、…、[wm]相互交叉,即[ik 例如: A、资助/的/女童/已/从/小学/毕业/ B、从小/学/书法 汉字字符串“从小学”为交集型切分歧义,这里“从小”、“小学”均为词,并构成交叉,所以“从小学”是一个交集型歧义切分字段。 定义2:链长:一个交集型切分歧义字段所包含的交集串的集合称为交集串链,它的个数称为链长。 例如,在交集型歧义切分字段“提高产品质量”中、“提高”、“高产”、“产品”、“品质”、“质量”均为词,交集串的集合为“国,“产”,“品”,“质”,链长为4。 2.2条件随机场模型 条件随机场模型(简称CRFs模型)是Lafferty等人在2001年提出的,是一种优秀的统计机器学习方法。CRFs是一种以给定的输入节点值为条件预测输出节点值概率的无向图模型。用于模拟序列标注的CRFs模型是个简单的链式图,图1所示的图形结构为线链CRFs。 3 基于条件随机场的歧义消解方法 笔者将CRFs模型应用到交集型歧义字段的消解工作中,将交集型歧义的消解任务由传统二值分类的问题转化为序列标注的相关问题。 3.1观察序列和标注序列的表示 笔者以三字长交集型歧义切分字段[W=c1c2c3]为例,[w-1]和[w+1]分别表代表歧义字串W的上下文语境的前一个词和后一个词。那么,待标注的观察序列为:[w-1],[c1],[c2],[c3],[w+1]。序列标注的任务就是对每一个观察单元赋予一个标注符号,以确定该观察单元的状态信息。这些状态信息用四种方式来表示,即:位于歧义字串W之外、位于歧义字串内词语之首字、位于歧义字串内非词语首字、位于歧义字串内且该字为单字词,分别用字母“O”、“B”、“I”、“S”来表示。 为了更加清楚地说明观察序列和标注序列的含义,用“资助/的/女童/已/从/小学/毕业/”這一例句进行说明,观察序列为“已 从 小 学 毕业”,对应的标注序列为“O S B I O”。 3.2特征模板 作为交集型歧义字串W的上下文环境信息,词语[w-1]和[w+1]也为字串W提供了边界信息。即所有的标注序列均用符号“O”开始,并以此来结束。因此,歧义字串W的边界信息也是重要的特征之一。例如:对观察序列[w-1],[c1],[c2],[c3],[w+1]而言,[w-1]和[w+1]的边界特征为Is-Boundary,而[c1],[c2],[c3]的边界特征为Not-Boundary。 特征采用文献[4]所描述的表达方式。 [f(yi-1,yi,x,i)=p(x,i)q(yi-1,yi)] (2) 其中,[p(x,i)]表示观察序列x在i位置所对应的观察特征函数,[q(yi-1,yi)]表示状态转移函数,特征模板的具体表述如表1。 4实验与分析 4.1实验设计 为了对算法的消歧性能进行有效的评估,做了两个实验:(1)用二元词概率模型作为基线,依次对ME模型和CFRs模型的消歧性能做以对比; (2) 考察训练样本数目对标注正确率的影响。 实验中所采用的数据是由富士通研究开发中心有限公司和北京大学计算语言学研究所共同标注的具有1000万字以上的1998年上半年《人民日报》语料。其中,1-5月份为训练语料,6月份为测试语料。第一步:将已切分好的语料还原成未切分的原始生语料;第二步:用包含大约42425条词条的词典对训练语料和测试语料用最长词次长词算法进行匹配;第三步:将切分好的语料与第二步的匹配结果进行校对,得到交集型歧义切分字段。在本文的实验中主要考察三字长、四字长两种类型的歧义字串。对于三字长歧义字串,重点考虑频率大于1的字串。训练集数目和测试集数目的详细信息如下表2所示。
4.2实验结果与分析
4.2.1 三种模型的比较
为了测试基于CRFs模型算法的性能,笔者采用二元词概率模型作为基线,依次对ME模型和CFRs模型的消歧性能做以对比。由于在整个实验中训练语料的规模比较大,选择二元语法模型作为词概率模型的具体实例,其中数据稀疏的问题用文献[2]中所述的方法来进行平滑。采用文献[3]所述的前三种模板类型作为ME模型的特征模板,然后使用maxent工具包进行训练。实验结果如表3所示:
为了使实验结果更加直观地呈现出来,我们用柱状图来表示:
从实验结果中可以看到,CRFs模型得到的综合指标F值为95.96%,正确率为98.79%,两个值較ME模型和WBM模型都要略高。
4.2.2 训练样本数目对标注正确率的影响
在实验中,笔者将训练样本数目从10000个词条连续不断地增加至61523个词条,来考察训练样本数目对标注正确率的影响。最后分别测试了词概率模型(WBM)、最大熵模型(ME)和条件随机场模型(CFRs)对标注正确率的变化规律 。实验的测试结果如图3所示:
从图3的测试结果中我们看出,WBM模型的标注正确率一直没有改变。主要原因经过分析是因为WBM模型的性能只与训练数据的大小有关,不受训练样本数目的影响。条件随机场模型和最大熵模型的消歧正确率均随着训练样本数目的增加而增加,而且在整个过程中条件随机场模型的正确率相对于最大熵模型的正确率都要略高。当训练样本的数目低于25000的时候,CRFs模型和ME模型两种模型的标注正确率均低于词概率模型。对于ME模型来讲,只有当训练样本的数目高于40000时,该模型的标注正确率才能超过词概率模型。而CRFs模型,只需大约25100左右的训练样本,其性能就能超过词概率模型。可见,在小样本数据的情况下,CRFs模型同样具有优越的表现。
5结束语
笔者针对当前大链长交集型歧义字段处理较为烦琐的情况,将条件随机场模型应用到交集型歧义字段的消解任务中。最后做了大量实验,实验结果证明这种算法不仅能处理任意链长的交集型歧义字串,而且能够充分利用上下文环境信息,在不同的上下文环境中对真歧义字串能够进行正确的切分。取得了较为理想的效果,在很大程度上为解决中文自动分词歧义问题提供了一种可行的途径。但实现的结果是以序列标注为前提的,而且没有考虑句子中的未登录词和混合型歧义字段等问题,这正是下一步需要研究和改进的.
参考文献:
[1] 孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34.
[2] 陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报,2004,11(6):109-1126.
[3] 任惠,林鸿飞,杨志豪 融合字特征的平滑最大熵模型消解交集型歧义[J].中文信息学报,2010.