中文分词算法及改进研究

2017-12-11申琳

电脑知识与技术 2017年31期

申琳

摘要：该文主要对中文分词算法过程中的歧义字段的发现和消解进行研究。首先，通过双向最大匹配检索算法和逐词扫描最大匹配法等方法实现中文文本的分词处理，并针对其中所存在的歧义字段，通过计算其互信息和[t-]信息来实现中文分词歧义的消除。该文所研究的中文分词算法，不仅可以在多个中文分词方案中选择更优的分词方案，消解中文分词歧义；同时，还可以在已有分词方案的基础上，发现更加符合实际情况的分词方案，以提高中文分词的准确性和适用性。

关键词：中文分词；歧义发现；歧义消解；互信息；[t-]信息

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2017）31-0199-02

1 概述

信息技术的不断发展，提高了信息的搜集和传输效率；而信息技术的广泛应用，直接导致了信息的爆炸式增长。海量信息的增长，促使人们需要更加自动化的方法来对海量信息进行处理的新需求。信息的了解是海量信息自动化处理的基础，对于中文信息而言，如何通过中文分词进行中文文本信息的切分，理解中文文本信息的具体内容，就是海量中文文本信息就是自动化处理的基础。

2 中文分词歧义消解研究

2.1 中文分詞歧义消解概述

中文分词最大的问题就在于中文分词歧义的消除，例如在词句“”的分词中“他说的确实在理”文本的分词时，“的确”、“是在”、“确实”、“在理”等词语都是生活中常见的词组方法。因此按照不同的分词方法会产生歧义：①正向优化最大匹配方法（FMM）的分词结果为：“他/说/的确/实在/理”；②算法进和逆向优化最大匹配方法（RMM）的分词结果为“他/说/的/确实/在理”。而对于文本“老师教你马上去”而言，使用FMM和RMM算法的处理结果分别为“老师/叫/你/马上/去”（FMM）和“老师/叫/你/马/上去”（RMM）。除FMM算法和RMM算法以外，在进行具体的中文文本分词时，都有可能因为中文文本的特殊性，导致分词结果不正确，即中文分词的歧义。

2.2 中文分词歧义消解难点

歧义的处理是进行中文文本自动分词，进而理解中文文本信息时所遇到的主要困难之一，而由于如下的各种原因，导致中文分词歧义的处理存在诸多难点。

（1）歧义字段类型多种多样

歧义字段的类型丰富，而歧义消解策略也多种多样，例如通过增加语义、语用知识等外部条件来消解歧义，例如“他说的确实在理”等文本的分词，就可以通过外部知识条件来消解分词时存在的歧义；或者依靠上下文语义信息来消解歧义，例如“乒乓球拍卖完了”文本，可以分为“乒乓球拍/卖完/了”（FMM）和“乒乓球/拍卖/完了”（RMM），就可以通过上下文来消解歧义；甚至在生活中还存在，借助上下文内容，人为也无法消解的歧义。

（2）未登录词的分词歧义

由于信息的爆发式增长，中文词语本身也在不断发展，例如网络上每年就有大量网络流行语出现，这些词库中为存储的未登录词的存在，也为中文分词歧义的处理带来了很大的困难。

由于中文分词歧义的类型多样，而且中文词语本身也在不断变化发展过程中，为此想要准确、完整的解决所有中文分词歧义难以实现。而且让计算机完全理解文本的信息，通过上下文的语义来消除部分中文分词歧义，也会导致中文分词效率急剧下降。为此，在本文的研究中主要对可以借助语用知识消解的中文分词歧义进行研究。

3 中文分词歧义发现算法分析

当前，中文分词歧义发现算法的研究成果较多。

（1）双向最大匹配检索算法

通过采用FMM算法和RMM算法对中文文本分词结果的对比，来发现中文分词过程中所存在的歧义。例如在““他说的确实在理””的分词过程中，发现“的确实在理”为歧义字段。

（2）逐词扫描最大匹配法

通过FMM和逐词扫描相结合以发现中文分词中的歧义字段，其原理为从文本起点取不超过最大长度的汉字符进行匹配，若在字典库中有该匹配字段，则且反一条分词，并通过与最近的分词进行比较，对存在的歧义字段进行标记；若在字典库中没有找到该匹配字段，则去掉匹配字段的最后一个汉字，重新进行匹配，直到匹配字段的长度为零为止，并文本中的下一个字进行同样处理，直到文本中的汉字全部处理完毕为止。

（3）正向最大匹配结合回退一字法

FMM和逐词扫描相结合以发现中文分词中歧义字段的新算法，其原理与逐词扫描最大匹配法类似，若匹配字段在词典库中匹配成果，则将匹配字段回退一字，进行重新匹配，如果回退一字的匹配字段在词典库中依然匹配成果，则认为中文文本中存在歧义字段。

与中文分词歧义消解的研究类似，由于中文分词歧义类型众多，以及中文词语的不断发展，使得中文分词歧义发现算法同样存在诸多难点。在本文中使用算法原理简单的FMM和RMM结合的中文分词歧义算法进行研究。

4 中文分词歧义消解算法设计

4.1 算法原理

通过构建语料库来计算不同中文词语的次频度，然后通过计算词语的互信息和[t-]信息来消解中文分词歧义。

（1）互信息

待分词的汉字串为[xy]，则词组[x]和词组[y]的互信息定义如式（1）所示。

[Ix，y=px，ypxpy] （1）

其中，[px]、[py]、[px，y]分别表示词语[x]、[y]、[xy]在语料库中出现的概率。

若[Ix，y=0]，表示词语[xy]未在语料库中出现过，在极限状况下，[px=0]或[py=0]，则表示[x]或[y]未在语料库中，则[xy]必然成词（在当前语料库环境下）。因此，[Ixy]越大，则[xy]成词概率越高。

（2） [t-]信息

待分词的汉字串为[xyz]，相对于汉字[x]和[z]，汉字[y]的[t-]信息定义如式（2）所示。

[tx，zy=pzy-pyxp2zy-p2yx]

其中，[pyx]、[pzy]表示两个汉字词组的条件概率。

若[tx，zy<0]，表示[xy]成詞概率比[yz]成词概率要高，而且，[tx，zy]越大，表示[xy]成词概率越大；若[tx，zy=0]，则表示[xy]和[yz]成词的概率相同，难以确定；若[tx，zy>0]，表示[yz]成词概率比[xy]成词概率要高，而且，[tx，zy]越大，表示[yz]成词概率越大。

4.2 应用示例

在一个中文词条为64231条，总次频度为12638035的词典库中，部分中文词的频度如表1所示。

中文词串“他说的确实在理”有“他/说/的确/实在/理”（FMM）和“他/说/的/确实/在理”（RMM）两种分词方法，即中文词串存在分词歧义。

在对“他说的确实在理”歧义中文字段进行处理时，计算互信息分别为“的确”（45.45）、“确实”（289.69）、“实在”（47.04）、“在理”（189），根据互信息，“实在”和“在理”的成词概率更高；计算和[t-]信息分别为“的确实”（0.86）、“确实在”（0.29）、“实在理”（-0.98）根据[t-]信息，可以看出“的确”的成词概率比“确实”成词概率更高，“确实”的成词概率比“实在”的成词概率更高，“实在”比“在理”的成词概率更高。为此，结合歧义中文字段的互信息和[t-]信息，将“他说的确实在理”歧义中文字段分词为“他/说/的/确实/在理”。

同样，中文词串“结合成分子时有”有“结合/成分/子时/有”（FMM）和“结/合成/分子/时有”（RMM）两种分词方法，即中文词串存在分词歧义。

在对“结合成分子时有”歧义中文字段进行处理时，计算互信息分别为“结合”（172.53）、“合成”（11.27）、“成分”（4.51）、“分子”（45.53）、“子时”（0.058）、“时有”（0.002），根据互信息，“结合”和“分子”的成词概率更高；计算和[t-]信息分别为“结合成”（-4.53）、“合成分”（-0.725）、“成分子”（0.741）、“分子时”（-0.98）、“子时有”（-0.93），根据[t-]信息，虽然“结合”、“合成”、“分子”的成词概率都很高，但是结合互信息，可以看出“结合”的互信息非常大，即“结合”应该单独成词，而“成分子”的[t-]信息为0.741，即“分子”成词概率更大，为此，结合歧义中文字段的互信息和[t-]信息，将“结合成分子时有”歧义中文字段分词为与FMM和RMM算法都不同的分词结果“结合/成/分子/时有”。

如上的分析所示，本文所研究的中文分词歧义消解算法，不仅可以在多个中文分词方案中选择更优的分词方案，同时还可以在已有分词方案的基础上，发现更加符合实际情况的分词方案。

5 结束语

中文文本分词是中文信息自动化处理的基础，同时由于汉语的特点，在中文分词过程中，中文分词的歧义字段处理就成为了人们研究和关注的重点。当前，已经有众多的中文分词歧义字段的发现和消解算法，但是这些算法都无法完全、正确的解决中文分词歧义字段问题。而且，随着汉语本身的不断发展，中文分词算法的研究必然是一个长期、艰巨的任务。

参考文献：

[1] 郑家恒，张剑锋，谭红叶.中文分词中歧义切分处理策略[J].山西大学学报：自然科学版，2007（2）.

[2] 魏莎莎，熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息，2010（3）.

[3] 袁鼎荣，李新友，邵延振.用于中文分词的组合型歧义消解算法[J].计算机应用与软件，2011（6）.