基于SVM和特征相关性的微博新词发现研究

2018-02-03韩修龙

电脑知识与技术 2018年2期

韩修龙

摘要：为了对微博语料中的新词进行有效的识别，针对微博语料独有的文本特性，该文提出基于SVM和特征相关性的微博新词发现方法。采用N元递增模型得到候选词集合以及每个候选词的基础特征向量，并结合已有的词典和部分人工标注进行正负样本的标注。通过相关性分析构造新的候选词特征，并构造新的特征向量。然后利用SVM模型训练得到最大间隔分离超平面并对测试集中的语料进行新词判定。通过对比实验验证了该方法的有效性。

关键词：自然语言处理；新词识别；支持向量机

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2018）02-0174-03

1 概述

由于微博用户的广泛性和多层次性的特点，许多的新词[1]会被不断的创造出来，这些新词不存在已有的词典中，在中文分词等其他的自然语言处理任务中会造成一定的影响。在新词发现领域，常用的方法分为以下三种：基于规则的方法，基于统计的方法以及规则和统计相互融合的方法[2]。

在基于规则的方法中，利用构词原理，结合词的语义等信息构造模板，通过将候选词匹配模板来发现新词。如李明等[3]利用改进后的Apriori算法对实验数据进行处理并生成关联规则，然后利用关联规则抽取新的专业词汇，达到了很好的效果。

基于统计的方法[4]则是通过不同的方法对语料进行切分，得到候选词，然后统计候选词的多种维度的特征，然后基于相关的阀值对候选词进行筛选，得出新词。陈飞等[7]人利用条件随机场模型，解决面向开放领域的新词发现问题。现在大多数的研究者采用将二者结合的方法，发挥各自的优点，从而提高新词发现的准确率。

2 相关工作

2.1 候选词的选取

传统的新词发现算法往往首先利用相关的中文分词工具对语料进行分词，然后对分词后的散串进行统计分析，从其中挖掘出新词。但是由于微博构词的新颖性、无规则性等特点，有些新词是之前存在的词的对应组合，比如“王者农药”，使用分词工具进行分词的时候会被分成“王者”和“农药”两个毫无联系的词语，但是这个词实际上是在微博里流行度很广的词。为了避免这种问题，本文不使用现有的分词工具对语料进行分词。

本文采用的抽取候选词的方法是常用的N元递增模型，崔世起通过对大量的语料进行研究分析，发现新词主要由二到四个汉字组成，所以本文取N的最大值为4，从候选的语料中抽取长度不超过N的连续字串作为候选词串。

2.2 候选词特征选取与计算

本文选取的新词特征有：

1）互信息（PMI）：Pecina等[13]人的实验结果表明PMI能够很好的衡量字符串之间的结合程度，本文选取PMI作为候选词的一个特征。

2）词频（TF）：在判断一个词是否是新词时，词频也是需要考虑的一个量。一个词只有在出现达到一定的次数后，它才有可能被称为新词，所以词频也是要考虑的一个特征。

3）邻接信息熵（BE）：PMI衡量的是词语内部之间的相关性，即结合的紧密性，其中邻接信息熵又分为左邻接信息熵（LBE）和右邻接熵（RBE）两种。

4）邻接类别（AV）：本文不仅考虑了邻接信息熵，而且还考虑了候选词的邻接类别，其中邻接类别又分为左领接类别（LAV）和右邻接类别（RAV）。

除了以上的所说的特征，候选词的长度（TL）即包含的字的个数也是一个基本特征。

2.3 语料预处理

1）实验数据：

通过爬虫爬取新浪微博2017年5月份的10万条热门微博，这些微博涉及不同的版块，包括社会、科技、教育等，本文不做细粒度的划分。

2）数据清洗及候选词提取：

相比于常规的中文文本语料，微博预料的文本内容极其的杂乱无章。除了正常的中文内容外，还有大量的不相关的干扰项，如表情符号等。

3）正负样本标注：

当获取候选词后，需要对这些词进行标注，判定新词与非新词。然后对标注的结果进行训练集和测试集的划分。

3 实验结果

3.1 评价指标

对于新词发现，一般采用准确率、召回率、F1值3个指标来衡量最终的结果。

3.2 特征相关性分析及特征组合的选取

首先针对提取出来9个单独特征，分析其在新词识别中与类别的相关性，然后分析两两特征之间的相关性，选取的是Pearson相关系数。图2展示的是各个单独特征与类别的相关性，表1则展示的是各个特征之间的相关性。

从图1中可以看出，互信息与是否是新词的相关性最大，其次就是词频。

从表1中可以看到，各基础特征之间的相关性大小有很大的差异。

首先基于以上的基础特征，比较在不同的核函数下的分类效果，同时比效基于多种阀值过滤规则的效果。结果如图2所示。通过调整不同特征下的阀值，得出基于规则的最好成绩，准确率为0.671，召回率为0.667，F1值为0.669。在使用SVM模型的时候，选取不同的核函数观察在不同核函数下的变化。选用的核函数是常用的三种，径向基函数、多项式函数、sigmoid函数，从图2中可以看出，当核函数为RBF的时候，分类的效果表现的最好。但是三种基函数在准确率、召回率、F1值上面都表现的比基于统计的好。

其次基于图1的相关性分析，逐步的增加特征数量，观察特征数量的增加对实验结果的影响。以RBE和LBE为基线（SVM（B））通過训练得到基础的结果以此作为后续的比较。之后依次增加相关性强的同类特征，并训练相应的模型得出结果。表2展示的该比较的结果。从表中可以看到随着特征的不断增加，实验的各种指标都在不断增加，并且增加的比例与相关性是相关的，与类别的相关性越大的特征，提升的性能就越好。endprint

最后，基于表1中特征之间的相关性分析，本文接下来人工构造组合特征。构造的特征如下：

（1）内部特征和外部特征的组合（IEF）

上面选择的特征当中，AV类和BE类的属于外部特征，二者描述的是候选词的上下文特征，而PMI描述的是词候选词的内部特征，描述的是词的凝结程度，因此将这两类特征结合在一起作为一个特征，其构造方式如公式（1）：

[IEF= AV+BEPMI] （1）

其中AV为LAV和RAV之间的最小值，BE也是LBE和RBE之间的最小值，PMI为PMI_MIN。这样构造的目的是为了衡量外部特征和内部特征的相关性。

（2）候选词的平均邻接类别（AAV）

从表1中可以得出，候选词的词频与AV的相关性最高，将这两者结合在一起用AAV描述两者之间的关系。其表达式为（2）：

[AAV= AVTF] （2）

其中AV为LAV和RAV之间的最小值，TF为词频。

将上述的两个特征加进候选词的特征空间，得到的结果在表2中。通过试验对比可以看到，SVM在新词发现的问题上比传统的基于规则的方法在准确率上提升了5.3%，召回率上提升了11%，F1值上提升了8.1%，当加入了IEF和AAV这两个特征，相比于没有加入的时候，准确率、召回率、F1值分别提升了2.75%、2.8%、2.77%。说明基于特征相关性构造的特征可以在一定程度上提升新词的识别率。

4 结束语

本文基于微博数据，提出一种基于SVM和特征相关性的微博新词识别方法。通过不同的对比实验，基于特征相关性的方法在一定程度上可以提升新词识别的准确率、召回率和F1值，但是此种方法只验证了候选词在“1+1”、“2+1”、“2+2”等这些构词模式下的效果，没有涉及“1+1+1”、“1+2+1”等这些模式，所以下一步的工作是研究本文提出的方法在这些构词模式下的效果。除此之外，在接下来的工作中还会研究本方法在大规模语料库上的效果。

参考文献：

[1] Chen K J， Bai M H. Unknown word detection forChinese by a corpus-based learning method[J]. International Journal of Computational Linguistics and Chinese Language Processing， 1998， 3（1）：27-44.

[2] 宗成庆. 统计自然语言处理[M]. 清华大学出版社， 2008.

[3] 李明. 针对特定领域的中文新词发现技术研究[D]. 南京：南京航空航天大学， 2012.

[4] Pecina P， Schlesinger P. Combining association measures for collocation extraction[C]//Proceedings of the COLING/ACL on Main conference poster sessions. Association for Computational Linguistics， 2006： 651-658.

[5] 丁溪源. 基于大規模语料的中文新词抽取算法的设计与实现[D]. 南京理工大学， 2011.

[6] 李文坤，张仰森，陈若愚. 基于词内部结合度和边界自由度的新词发现[J]. 计算机应用研究， 2015， 32（8）：2302-2304.

[7] 陈飞，刘奕群，魏超等. 基于条件随机场方法的开放领域新词发现[J]. 软件学报， 2013， 24（5）：1051-1060.

[8] 荀恩东，李晟. 采用术语定义模式和多特征的新术语及定义识别方法[J]. 计算机研究与发展， 2009， 46（1）：62-69.

[9] Pecina P， Schlesinger P. Combining Association Measures for Collocation Extraction[C].// ACL 2006， International Conference on Computational Linguistics and， Meeting of the Association for Computational Linguistics， Proceedings of the Conference， Sydney， Australia， 17-21 July. DBLP， 2006：651-658.

[10] Adankon， Mathias M.， and M. Cheriet. Support Vector Machine. Springer US， 2015.endprint

猜你喜欢

基于SVM和特征相关性的微博新词发现研究

猜你喜欢

杂志排行

电脑知识与技术的其它文章