一种基于中文分词的应用研究

2017-11-12侯垚

神州·中旬刊 2017年11期

侯垚

摘要：词语是句子组成的基本单元，与英文中根据空格进行分词不同，汉语本身的特点是以单字为基本单位，连续的字串组成句子，句子和段落间才有标点符号和换行进行界限的划分。在句子中词语是紧密相接的，这给中文的分词工作造成一定的困难。

关键词：命名实体；词性标注；语义倾向性分析

1词语的正确切分

中文分词的基本处理过程为：针对输入的字串进行分词、过滤无关信息，输出含有单词与数字串等一系列分隔号的字符串。目前汉语分词中存在的主要难点包含识别词典中的未登录词语和切分时产生的分歧，既降低了汉语分词的准确度，又提高了关键词的判别难度，在切分歧义和未登录词识别问题叠加在一起时会进一步增加中文信息处理的难度。

所以根据中文词语之间的这种特征，在进行分词的处理时要注意的问题在于：①词语的正确切分，以保证避免歧义；②未定义词语或新的命名实体的识别与提取工作；③词性的注释。常见的分词方法主要有：①基于字符串匹配的分词方法；②基于理解的分词方法；③基于统计以及机器学习的分词方法。

基于字符串匹配的分词方法：这种方法又被称为机械分词法，其是根据一定的策略将准备分析的汉字字符串与一个较大的机器词典中的所有词条进行匹配，若其字符串与词典中的某个字符串相符，则表示成功进行一次字符串的匹配。几种常见的机械分词方法为：①正向最大匹配法（沿字符串方向从左至右，以字符串长度最高词的优先）；②逆向最大匹配法（从右至左的方向）；③最少切分法（从每一句中切分出的词语数最少）。其优点在于速度较快、算法简单；然而其也暴露出难以处理歧义词语的问题并且很难对词典之外的词进行处理。

基于理解的分词方法：这种分词方法是使计算机模拟人大脑对句子的理解方式，从而达到切分并识别词语的目的。其基本思想是在分时的过程中同时进行句法、语义分析，利用句法和语义信息来处理歧义现象。其主要包含3个部分：总控部分、句法语义子系统、分词子系统。因为汉语语言文本知识的复杂性，很难将各种语言用信息组织成机器可以直接读取的方式，所以目前基于理解的分词系统的研究还处在起步阶段。

基于统计以及机器学习的分词方法：从表现形式来看，词是字的稳定组合，所以一组相邻的字共现的次数越多，其被确定为一个词的可能性就越大，字和字之间共现的频率就能够比较好的反应构成词语的可信度。这种方法是基于词性标注和统计特征，对中文词语进行建模，即利用观测得到的数据（已经标注好的语料）对模型参数进行估计，即参数训练。随后在分词阶段再使用模型计算多种分词结果出现的概率，将出现概率最大的分词结果视作最后结果。其优点在于不受被处理领域的文本约束，能较好地处理歧义词语和词典外词语的问题，其效果比基于字符串匹配效果更出色。然而其需要大量的人工标注数据，其分词速度也比较慢，计算量大。基于统计的分词方法只需对语料中字符串的共现概率进行统计，不需要设置切分词典，较为方便。这种方法会使用例如条件随机场模型、支持向量机、最大熵模型和隐马尔科夫模型等统计模型。一般是利用大量的语料资源，依靠统计学习和机器学习的方法来建立语言的统计模型，对语言进行一定的处理。隐马尔科夫模型在其中有较为广泛的应用，其方便于将模型的参数与具体的实际意义相对应。

计算语言学家在近些年以来更加对基于语料库分析的自然语言处理方法越来越重视。随着语料库语言学的发展，数理统计知识的应用计算语言学家来说也显得越来越重要，更何况规则方法的适用性越来越窄的情况。即使过去的语言学为我们带来了大量的语言范本与实例，但是人类还是难以掌握语言计算的具体规律。数理统计的方法呼之欲出，其发展也逐渐成熟，其利用采取处理的大量文本的语料库，对其中的文本进行统计分析，便可把握该类文本的共性与规律。进一步来讲，为了充分利用这些规律，便可以建立出一定的统计学的算法。统计学算法近年来在随机过程领域集中较多。

2命名实体的识别

命名实体的识别是位于自然语言处理中的一项基础性工作，其在文本分类、信息抽取、信息检索等方面具有较为重要的作用。其识别的效果会对分词精度和词性标注有较大影响，解决好命名实体的识别是提高分词精度的一个较为主要的原因。命名实体主要被分成人名、机构名、地名、时间、日期、百分数和货币等七类。基于隐马尔科夫模型的命名实体识别过程本质为将命名实体识别任务视作为序列标注问题，即解码问题，利用训练参数为输入的字符串标注最佳的状态序列。

相比于英文命名实体的研究，中文在这方面研究开始较晚，且存在有一定难度的分词问题，所以对中文命名实体的识别率和召回率要低于英文。其难点集中体现在：

（1）命名实体在不同语境下具有歧义。例如“联想”既可以表达其本来的词义，有时又可以表达出一个企业的名称。

（2）命名实体数量众多，很难全部收录字典中。

（3）某些命名实体的表达方式种类较多，一个意思可以同时用多个词语代替，或者出现命名实体的改写与缩写。

常见的命名实体识别方法主要有：①基于规则的方法；②基于统计的方法；③基于规则与基于统计相结合。

基于规则的方法：是在命名实体上应用主要是指通过对命名实体的特征进行分析，人工设定规则的具体方面然后使用规则匹配来识别不同的命名实体。这种方法的特点在于规则测试准确率高，速度快，但是规则对实体的覆盖程度有限，所以可移植性较差；另一方面，由于规则的制定需要只能在深入理解语言学基础的水平上才能制定和构造，因此规则制定的门槛较高。

基于统计的方法：是在命名實体上的应用主要是使用标注语料库来对某个字进行训练，得到该命名实体组成的概率，并用他们计算某候选字段作为该命名实体的概率，若大于设定的阈值，则被识别为该命名实体。与基于规则的方法相比，基于统计的方法更具有灵活性和鲁棒性，而且所需的代价较小，比较方便。许多如隐马尔科夫模型、支持向量机、最大熵模型等统计模型已被用于命名实体的识别。

基于规则与基于统计相结合的方法：既可以通过规则的设定来降低统计方法对大量语料库的需求，又可以使用概率计算来降低规则的复杂性，所以该方法在实际应用中较为常用。

3词性标注

在中文自然语言处理的领域，词性标注属于较为基础的问题。词性标注的含义是指结合上下文信息给句子中的词都标注上它在这个句子中的词性。其目的是给每一个词给予满足语法的词性，也就是确定每个词是动词、名词还是其他词性的过程。正确的词性标注能为名词短语识别、句法分析、机器翻译等工作打下良好的基础。

某些词在不同的环境下属于不同的词性，但是结合具体的上下文，其所属词性应该是确定的，词性标注的难点之一在于因为词语兼类产生的词性歧义，词语兼类是指一个词语有多重词性的现象，其存在也较为普遍，词性的选择往往取决于上下文的含义，这些也需要由机器进行判读。在HMM模型中，词义标注问题就是在已知模型参数和观察值序列O=o1o2...ot的情况下，计算出与观察值序列对应的最可能的状态序列Q=q1q2...qt，即是一个利用观察值求状态值的过程。

词性标注的方法也分为基于规则与基于统计的方法。基于统计的方法较为普遍，常用的词性标注模型主要有最大熵模型、N元模型、隐马尔科夫模型、基于缓存的模型和条件随机域等。若根据训练语料库的选择，词性标注又可以分成有监督的、半监督的和无监督的训练方式。有监督的训练方式需要大量的标记语料，耗费的时间和人力比较大，但是又具有简单和易于操作的特点，能够确保较高的准确率；无监督的训练方式不需要训练的语料，灵活程度高，但是精确率较低；半监督的训练则部分利用训练语料，得到的准确率处于前两者之间。

4语义倾向性分析

语义倾向性分析可以分为两个步骤：第一步为识别词语的语义倾向性，第二步是利用一定的方法根据一定数量的词语倾向性来对整个文本进行语义倾向性分析。具体研究方法有：①对所有词语的倾向性评分进行统计求和，根据结果来判断倾向性；②可以使用机器学习的方法词语的倾向性训练出语义倾向的分类器，目前比较流行，但是国内还没有公开的文本倾向语料库；③基于“格语法”的分析方法，不过难以全面反映样本的倾向性。endprint

神州·中旬刊

2017年11期

一种基于中文分词的应用研究

杂志排行

神州·中旬刊的其它文章