APP下载

基于语义信息的中文分词研究

2018-11-26张生杰霍丹

电脑知识与技术 2018年22期
关键词:语境

张生杰 霍丹

摘要:中文分词在自然语言处理中是一个关键基础性研究。针对中文分词歧义问题,该文建立在词法和句法基础上,提出了一种基于语义信息的二元汉语分词器,是通过语境的切分理论和二元切词的相结合进行歧义消解。然后,用分词校正器从整个句子的语法角度上检测中文分词结果的正确性。最后,从语境角度分析歧义字段,以此提高分词的准确率。

关键词:语境;中文分词;切分理论;歧义消解

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)22-0184-03

1 引言

中文分词的主要技术有:基于频度统计的分词方法、基于字符串匹配的分词方法和基于理解的分词方法。虽然针对特定领域也能提高切分精度,但没有考虑过两个词语间的语义问题、歧义消解处理问题等,本文在广泛研究现有的分词基础之上,通过分析中文切分过程中具备的性质,根据语义切分理论,提出一种基于语义信息的算法进行分词,然后执行该算法以后对切分出的中文歧义字段进行进一步的消解歧义处理,利用递归转移网络的语法规则来分析检测分词结果的正确性,最后通过实验评估其准确性。

2 分词技术

现有的分词技术主要分为3大类:1)基于字符串的分词法,主要是按一定的策略将待分析的汉字串与词典进行匹配;2)基于频度统计的分词法,它是基于字典及词库匹配技术;3)基于理解的分词方法,通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象,最终达到识别文本语义并准确切词的目的。

中文是一种十分复杂的语言,虽然国内对中文分词的研究取得了一定的成绩,但中文分词技术中的问题并没有得到很大的提高和改善,让计算机理解中文语言更是困难。当前,就有两大难题一直没有完全突破。

(1)歧义问题,是指同样的一句话,可能有两种或者更多的切分方法,汉语中存在大量的歧义现象;

(2)未登录词识别问题,该问题的解决依赖于人们对分词技术和汉语语言结构的进一步认识。

所以,本文通过语义语境切分理论,结合语义信息这一新角度去研究中文分词,是解决歧义分词的一种新的方法。具有语义信息的中文分词算法不仅可以考虑词法的构成,还从语境的角度出发分析歧义字段内部蕴涵信息和上下文关联信息,进而提高中文分词的准确率。

3 切分过程

3.1 语义切分理论

中文分词不僅具有很强的规律性,而且还具有特殊性,所以,考虑采用几步处理步骤,对规律性和特殊性分别进行切分。分词的过程使用基于词典规范基础上的全切分,即输出结果是一个句子的所有满足中文分词基本原则的可能切分的形式,任何出现的词典中的词都放入全切分列表。例如,对于汉语句子“全切分的结果是一个有向图”,其全切分结果如图1所示。

图1是一个有向图,图中的每条弧可表示一个切分结果,即词典中存在的词。但是对于某些包含歧义概率极低的词语组合,没有必要进行全切分,这样不仅会影响切分的速度,而且也会使后面对正确切分的判定的复杂程度变得不可想象。于是,就出现了语义切分理论。

设p,q是词中中文语句中切分词的两个总体平均概率,q是词中首字母处的可切分总体平均概率,而p是词中非首字母处的可切分总体平均概率。它们不但能反映中文词的构词方法,也能体现词在语句中的使用频度。因此p、q的值受到词法和词的上下文语义信息的约束,且具有上界,是收敛的两个概率值。

这种词的切分方式,一方面,具有差别性,具体体现在词中不同部分的成词方法的总体平均概率p、q,受到词法和词的上下文语义信息的约束;另一方面,具有一致性,都反映了词在文章中具有可分割概率,表现出词的文章语义信息(即局部语义)。因此,要想正确和快速地进行中文词串的有效切分,就必须从词法、词的上下文语义信息和文章语义信息上出发。其中词法是处理无歧义划分的基础,词的上下文语义信息和文章语义信息是处理歧义划分的依据。故可以将两个总体平均概率p、q作为语义切分算法中信息函数的输入概率。

3.2 二元切分算法

首先,建立一个有向无环图,图中的结点为任意一个可能的候选词语,图中的边代表相邻两个词语的续接关系。二元切分词图的每一条边的权值表示二元词语转移概率P(Wi|Wi-1)。 任何一种切分的方式可以表示为二元切分词图上的一条起始结点到结束结点的路径。路径上所有边的概率之积就是该切分结果对应的二元语法模型概率。

3.3 首字二分查找

主要采用首字hash二分查找的思想,其中使用的汉字词典由两层结构构成,第一层结构是hash表的映射,期初可找出以C为词首且有i个汉字词组成的位置区域;第二层结构采用二分查词方法,找到词的准确位置。

设以C为首字的词统计共有Nc个,词中包含汉字数最多的为Kc,并假定在Nc个词中由i个汉字构成的词有Nci个,则[Nc=i=1KcNci].对首字为C且汉字数为i的词w,若按顺序进行查找,时间复杂度为O(Nc);若采用首字Hash二分查词方法,时间复杂度O(log(Nci))。可见O(log(Nci))< O(Nc),首字Hash二分查词方法较优越。

4 系统分词流程

4.1 语义信息函数

由信息论的知识可知,两个词语之间的紧密与疏离关系可以用互信息量来衡量的,互信息量比相同出现概率值更能体现结合紧密程度。设w为文章i中出现的词语,其构成该词的首字设为x,首字以后的汉字设为y.词w的文章语义信息就可用汉字x和y之间的互信息量来表示。如式(4)所示。

4.2 汉字串切分

本小节在语义切分理论基础上,根据语义信息函数的计算方法,从词法和语境两方面上进行歧义的消减。如图2所示,该框架由四层结构组成,第一层取当前处理汉字及其后续三个汉字,构成wordleft,即经过对汉字串A1…Ai-1分词处理后剩下还不能成词的结构;第二层从词法上对wordleft、x、y、z和u 的部分组合运用首字hash 二分查词步骤,将汉字搭配成组合词并用a1 ,… ,ak (其中a1始终设定为wordleft+x)来表示;第三层将多个组合词语,使用语境信息函数I(ai )来计算ai的分词可信度;第四层采用竞争机制,与上一层的结构相比较,如果I(a1 )最大,则yi = 1,表明wordleft+ x 可分词,否则yi = 0,表明wordleft+ x不适合分词。

4.3 分词校正

图3中给出分析句子、名词短语、前置词短语的3个递归转移网络,其中每个网络的起始节点标号代表网络中对语法类问题要进行的分析,实际上这个标号也代表语法分析程序的名称。每条有向弧线上的标号可以表示成词或词组,带双圈的节点代表接收状态。因此,递归转移网络的过程可以说是具有非确定的因素[10],对这种非确定性的处理方法就需要采用前一节提出的语境函数I(x:y)来回溯处理,从统计函数角度来检测分词结果,若不符合规则,就调整语境信息函数的参数,即将I(x:y)的值置为0,并返回分词器重新分词,以此来得到比较准确的分词结果。

5 语境切分算法

6 实验例证与分析

选取语料库来自搜狗新闻语料的精简版,其中涉及要闻,体育,娱乐,科技和其他5个类别的新闻文章集合,可以获取语义语境信息。从中选取600篇新闻语料,然后提取出1230个含有歧义字段的中文语句,进行歧义切分测试.取比例参数α= 0. 7,用逆向最大匹配法、无校正的语境分词方法和校正的语境分词方法(分别为方法A,B和C)对这些中文语句分词,得到的实验结果如表1所示。

比较方法A和C的分词结果,后者比前者提高了近30%,可见,逆向最大匹配法的效率较低,不适合解决歧义问题。

比较方法B和C的分词结果,尽管后者比前者高,但提高也只有1.4%。可见,引入句法校正机制,确实可以提高准确率。但是提高的幅度很小,该方法还有的改进。

通过对上面切分词算法的实验对比研究,语义信息方法在准确率上有较大的提高,可以作为分词的方法之一。

7 总结

本文将语义信息用于汉语的分词处理,发挥语义信息在文本分析中的作用,在理解的基础上来对分词结果进行检验,有效地提高了歧义消除的能力,由于语义信息函数的采用,在分词的同时,还得出了基于语境的分词结构模式,这对于进一步的中文信息处理是非常有价值的。在目前的实验阶段,还有不少地方通过人工干预来进行分词,但是在后面的工作中通过加入深度的网络层次方法来实现分词,这样可以大大减少人工干预并得到更加适合信息分析的结果,这种方法的发展空间仍然十分广阔。这也正是我下一步工作的重点,继续将分词的结果进行向量化处理。

参考文献:

[1] Guohong Fu. Chinese Word Wegmentation as Morpheme-based LexicalChunking[J]. Information Sciences, 2008(178) :2282-2296.

[2] 張素智,刘放美.基于矩阵约束法的中文分词研究[J].计算机工程,2007,33(15):97-98.

[3] Aamoddt A,Plazza E. Case Based Reasoning:Foundational Issues,Methodological Variations and System Approaches[J].AI Communications,1994,7(1):39-59.

【通联编辑:代影】

猜你喜欢

语境
创作与做梦:精神分析语境下的“植田调”解读
多维语境顺应与法律文本翻译
主题语境八:语言学习(1)
主题语境九:个人信息(1)
老区发展进入更高语境
语言学习中语境化的输入与输出
马克思三种语境下的自由概念
跟踪导练(三)2
论幽默语境中的预设触发语
试论当代语境下段维的旧体诗