中文文本未登录词识别的研究

2019-09-19方玉萍万荣方达

电脑知识与技术 2019年20期

方玉萍万荣方达

摘要：未登录词作为一类特殊词出现，在中文文本处理中常常带来识别歧义，未登录词的识别好坏往往会影响到文本处理系统的整体性能。未登录词识别方法各有千秋，但对于识别未登录词都没有最有效的方法，研究发现利用未登录各类别的特点和难点进行方法的组合使用，可以提高其歧义的处理能力。本文研究中文文本未登录词的识别，以期能在各文本处理中能减少歧义达到提高识别的正确率和召回率。

关键词：词;方法;名;识别

中图分类号：TP18 文献标识码：A

文章编号：1009-3044（2019）20-0203-02

开放科学（资源服务）标识码（OSID）：

Abstract： Unlogged words appear as a kind of special words， which brings the ambiguity of recognition in Chinese text processing. The recognition of unlogged words often affects the overall performance of text processing system. Unlogged word recognition methods are different， but there is no most effective method for identifying unlogged words. The combination of methods is used using the characteristics and difficulties of unlogged categories. This paper studies the recognition of unlogged words in Chinese text in order to reduce ambiguity in each text processing to improve the correct rate and recall rate of recognition.

Key words： Words; Methodology; Name; recognition

中文文本处理涵盖了字、词、句、段和篇章等多层面信息来处理，在研究过程中发现中文的词更能精准表达句子的含义，所以现在的研究重点都放在词语的处理上，而词的识别是文本处理工作中最基本的工作，也是影响整个文本信息最突出的地方。未登录词对词法分析影响最大，在处理过程中，未登录词往往会被错误识别，给后续的句法与语法分析带来很大困难，有时会造成文本处理技术的一个瓶颈。

1 未登录词

未登录词即没有被收录在分词词表中但必须切分出来的词，包括各类专有名词（人名、地名、机构名等）、缩写词、新增词汇等等 [1] 。

现有文本识别面临的基本问题有：歧义词和未登录词的识别。研究发现，未登录词识别所造成的错分数量远远大于歧义切分的错分数量，所以研究未登录词可以提高文本分词的效率。当前把未登录词分为以下三大类：（1）专用名词即命名实体，一般指人名、地名、机构名等，有时也包含时间或数值表达式。（2）网络新词，随着网络技术的发展而出现的一些非正式语言，如“蓝瘦”“手游”等。（3）专业术语：包含一些专业上的缩略词。由各行各业涌现出的特定领域内的术语称谓。

2 未登录词识别方法

目前，未登录词的识别方法主要有以下三大類：

2.1基于统计的文本识别方法

基于统计的文本识别方法是在给定大量的训练文本集的前提下，利用机器学习模型的统计知识来学习词语识别的规律，从而实现对未知文本的识别。这种方法只需统计语料中的字词频率，而不需要词典，因而又叫作无词典分词法。随着大规模语料库的建立，统计机器学习方法的研究和发展，基于统计的中文识别方法渐渐成了主流方法。主要的统计模型有：N元文法模型，隐马尔可夫模型，最大熵模型，条件随机场模型等。

在实际的应用中，基于统计的文本识别系统都需要使用分词词典来进行字符串匹配分词，同时使用统计方法识别一些新词，即将字符串频率统计和字符串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

2.2基于词典的文本识别方法

该方法是建立一个词典，然后按照一定的策略进行文本扫描，若在词典扫描到某个字符串，则识别出字符串为词，将其从文本中切分出来。所以该方法也称为机械的文本识别方法。按照扫描方向的不同，基于文本识别方法分为正向匹配法和逆向匹配法;按照字符串长度优先匹配，可以分为最大字符串匹配法和最小字符串匹配法。由于中文文本每个字都可以成词，而最小字符串匹配法识别出的文本太多，不提倡使用。所以基于词典的文本识别方法一般使用正向最大字符串匹配法和逆向最大字符串匹配法或者是双向（正向和逆向）匹配法。对于词典的文本识别方法的改进方法主要还有设立切分标志法和结合词性标注法。

2.3基于理解的文本识别方法

基于理解的文本识别方法是试图通过模拟人类的大脑思维来理解句子，达到识别词的目的。在识别文本的时候进行句子的句法、语法分析，然后利用大量的词语信息来处理歧义内容。由于中文构成的复杂性，难以将语言信息组织成机器可直接读取的形式，因此基于理解的文本识别方法目前仍处于实验阶段。基于理解分词的方法包括专家系统分词法和神经网络分词法。

基于词典的文本识别方法是最早使用的，算法简单易行，在各个领域均有应用，但消除歧义信息基于无法执行，所以准确率不高。基于统计的文本识别方法在消除歧义中有较好的处理能力，但它需要大量的语料库作为基础，耗时较大。现在研究方法都是把两者的优缺点综合考虑后进行组合来处理文本识别。