APP下载

一种基于词汇相关度的网络文本分类算法研究

2012-10-17邱前智刘忠

网络安全技术与应用 2012年5期
关键词:特征选择分词类别

邱前智 刘忠

桂林理工大学 广西 541004

0 引言

随着信息技术的飞速发展特别是互联网的广泛普及,网络文本以指数级别增长,网络文本成为人们进行信息交流的重要方式。如何对浩如烟海的文档、资料和数据进行自动分类、组织、挖掘和管理,已经成为一个具有重要用途的研究课题。文本分类是在预定义的体系下与一个或者多个类别相关联的过程。文本分类作为信息检索和数据挖掘的基础技术和研究热点,从上个世纪50年代至今,已经取得长足发展。广泛应用于邮件分类、自动文摘、信息过滤、电话会议等。特征选择(Feature Selection,FC)作为文本分类的关键一步,具有降低向量空间维数、简化计算、以及去除噪声等作用,征提取的好坏将直接影响着文本分类的准确率和效率。特征选择一般是通过构造一个特征评分函数,把测量空间的数据投影到特征空间,得到在特征空间的值,然后根据特征空间中的值对每个特征进行评估,特征选择就成了选择值最高的若干个特征。常用的特征选择方法(如信息增益、互信息)采用统计方法处理词语与类别,忽略特征词之间的语义关系。本文提出一种基于上下文的词汇相关度的特征选择方法,通过计算词语与类别关键词词汇相关度,设定相关度阀值,进行特征取舍,降低特征空间的高维性,并有效减少噪声,得出最优特征空间,从而提高了分类精度和算法效率。

1 网络文本分类流程及相关技术

网络文本作为一种结构化的特殊文本,除了文本信息之外,还有其他描述信息,如标题、页面描述和超链接等标签(tag)。所以文本分类具有特殊性。一般包含如下几个重要的步骤,每个步骤都涉及各自相关技术。

预处理包括两个具体步骤:第一步将网络文本的所有标签(tag)去除,转化为一般文本;第二步去除停用词,既去除高频词和情感词。

预处理之后,进行中文分词。中文文本不像英语等,中文词与词之间没有显示标志。因此中文分词成为处理计算机处理中文时面临的首要基础性工作。常用的分词工具有很多,比如:中科院的 ICTCLAS中文分词工具、IK Analyzer等。

文本表示模型常用的是向量空间模型(VSM),其他常用模型还有词组表示法、概念特征表示法。

传统的特征选择方法主要有:基于文档频率(document frequency, DF)法、信息增益(information gain, IG)法、互信息(mutual information, MI)法。

特征权重是衡量某个特征项在文档表示中的重要程度。权重计算方法一般有绝对词频(TF)、倒排序文档频率(IDF)、TF-IDF等。

分类器是相当重要的一个步骤,常用的分类算法包括:朴素贝叶斯分类法、基于支持向量机、k-最近邻法、神经网络法、决策树法、Rocchio分类法和Boosting算法。

图1 分类流程图

2 基于词汇相关度的分类算法

2.1 词汇相关度计算

词汇相关性计算在很多领域中都有广泛应用,例如信息检索、信息抽取、文本分类等等。词汇相关性计算的两种基本方法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于上下文统计的方法。这两种方法各有优缺点。

基于上下文统计的方法计算词汇相关度假设:两个词经常共同出现在文档的同一窗口单元(如一句话、一个自然段等),则认为这两个词在意义上是相互关联的,并且,共现的概率越高,其相互关联越紧密。

本文采用的 Jaccard系数计算两个词语的词汇相关度是一种基于上下文统计的方法。

Jaccard系数计算公式如下:

P和Q是代表文档中的两个词汇;H(P)代表P在窗口出现的次数,H(Q)代表Q在窗口出现的次数,H(P∩Q)则代表P和Q一起出现的次数。

2.2 改进后的文本分类算法

详细步骤如下:

(1) 确定领域,确定需要分类文本的所属领域,经济、政治、等等。既是语料库所包含的文本的类别;

(2) 自定义一个语义范围,根据《知网》对每个领域确定好类别关键词,建立1-10的相关度。例如:经济领域,我们选取出资人、收入、股票、货物、商人、贸易、公司、商业、金融、经济;

(3) 对文本进行预处理;

(4) 分词;

(5) 将训练文本中的词汇与类别关键词用 1式进行相关计算。形式如下:Jaccard(类别关键词,待选词汇);设定阀值,进行特征选择,得出最终特征集合;

(6) 选择文本表示模型;

(7) 选择文本分类器;

(8) 对测试文本,用特征集,进行文本表示;

(9) 测试评估,动态调整算法。

3 实验结果

我们在Weka平台上,进行对比试验(如表1)。在特征权重选用TF-IDF,分类器用KNN算法,朴素贝叶斯算法。用搜狗2008迷你版语料库分为训练文本和测试文本,其包含军事、文化等十个为本类别,每个类别分别有100篇文档,是一个平衡语料库。将本方法与信息增益、互信息法进行比较。我们采用了查准率(Precision,p)和算法时间(Time,T)作为评价指标。

表1 实验结果

经过实验结果,我们得出基于词汇相关性的特征选择比传统的特征选择方法在分类精度和算法运行时间均有稳定的提高。

4 结论

文本分类是信息检索、信息过滤和搜索引擎工作的技术基础。文本特征的高维性是影响分类精度和效率的一个重要因素,如何进行有效的特征降维成为文本分类的一个研究热点。本文采用词汇相似度进行特征选择改进文本分类算法,有效地提高了分类精度和算法效率。

[1]宗成庆.统计自然语言处理[M].北京:清华大学出版社.2008.

[2]申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真.2006.

[3]刘群,李素建.基于《知网》的词汇语义相似度算[J].Computational Linguistics and Chinese Language Processing.2002.

[4]张燕平,史科,徐庆鹏,谢飞.基于词共现模型的垃圾邮件过滤方法研究[J].中文信息学报.2009.

[5]Boll gala,D.,Matsuo,Y.,and Ishizuka,M.(20-07) Measuring.semantic similarity between words using web search engines.In Proc.2007.

猜你喜欢

特征选择分词类别
结巴分词在词云中的应用
Kmeans 应用与特征选择
值得重视的分词的特殊用法
联合互信息水下目标特征选择算法
服务类别
论类别股东会
中医类别全科医师培养模式的探讨
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于二元搭配词的微博情感特征选择
高考分词作状语考点归纳与疑难解析