中文文本分类方法研究
2019-05-24李凯
李凯
摘要:由于现实生活中大多数信息被存储为文本,因此文本挖掘具有在商业上的高潜在价值。实际应用中可以从许多信息来源中挖掘知识,然而,非结构化文本仍然是最容易获得的知识来源。该文介绍了文本分类的过程以及对三种分类器的概述,并在最后对三种分类器分别实验,以及对实验结果分析得知本实验环境下支持向量机分类器的分类效果要好于另外两种分类器。
关键词:文本分类;文本表示;特征选择;权重;文本分类器
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)04-0242-03
Abstract: Since most of the information in real life is stored as text, text mining has high commercial potential. In practice, knowledge can be mined from many sources of information, however, unstructured text is still the most accessible source of knowledge.This paper introduces the process of text classification and the overview of the three classifiers. Finally, the experiments of the three classifiers and the analysis of the experimental results show that the classification effect of the support vector machine classifier is better than the other two classifiers.
Key words: text classification;text representation;feature selection;weightstext classifier
自數字文档开始以来,自动文本分类一直是一个重要的应用和研究课题。文本分类(text categorization)是数据挖掘、机器学习、模式识别这三个学科在某一具体领域应用的结合。由于我们每天都要处理大量的文本文档,因此,对文本分类的研究是十分有必要的。
1文本分类的一般过程
文本分类的任务可以近似为一个未知的目标函数Φ:D×C→{T, F},其中,D={[d1],[d2],…,[d|D|]}是一个文档的领域,C={[c1],[c2],…,[c|C|]}是一组预定义的类别。对于<[dj],[ci]>来说T值与F值分别表示文档[dj]是否属于类[ci][1]。
2文本预处理
文本预处理的主要任务是首先对中文文本进行分词处理,然后再删除停用词。由于中文中的单词之间没有像英文单词间可以利用空格作为明显的分割标记,因此首先要对文本进行分词处理[2]。
中文分词方法主要方法以及分词方法之间的比较如表1表示。
3文本表示
5文本分类算法
5.1朴素贝叶斯分类器
朴素贝叶斯分类器(NB)是一种基于贝叶斯定理的概率分类器,具有强大的独立性假设。它被认为是最基本的文本分类技术之一,在垃圾邮件检测、个人邮件分类、文档分类、语言检测和情感检测等方面有着广泛的应用。贝叶斯分类器计算量小,训练数据量小,是一种高效的分类器[4]。
5.2基于支持向量机的分类器
基于支持向量机(SVM)是一种基于统计学习理论和结构风险最小化原理的有监督学习的机器学习算法。SVM通常被用于解决线性约束凸二次规划问题(QP),并且该解决方案具有唯一的最优超平面,它的最终目标是找到这样的最优的高维分类超平面。
5.3 k-最近邻法
k-最近邻法(KNN)是一种有监督的机器学习算法,它预先存储所有可用的样本,并基于相似性度量(如距离函数)对新的样本进行分类。KNN算法是基于空间中接近的点(文档)属于同一类的原则。
6文本分类性能评测
常用的文本分类器性能评价方法有召回率(Recall),准确率(Precision),F-度量值等。
7 实验结果与分析
本实验的数据采用搜狗新闻数据集,该数据集一共有10类新闻,每类新闻60000条文本数据,其中训练集取90%,测试集取10%。本实验文档都是以空间向量的形式表示并且采用信息增益法与TF-IDF权值法来进行特征选择与特征权重的计算。我们从预处理好的文本中提取80%作为训练文本集,20%作为测试文本集, 分别将文本集投入朴素贝叶斯分类器(NB)、支持向量机分类器(SVM)、k-最近邻分类器(KNN)三种分类器中进行三组实验。为了评估短文本分类系统的性能,评估方法选择了传统的评估标准:准确率P、召回率 R ,以及两者的综合评价 F-度量值。实验结果如表2:
从上表来看, 准确率在整体上是要明显高于召回率。KNN分类器的准确率最高, SVM分类器的召回率最高。从宏平均F-度量值上看, 朴素贝叶斯分类器和K-最近邻分类器在分类效果上相差较小。支持向量机分类器在分类效果上较优于另外两种分类器。文本分类的过程中在数据预处理时采取的分词方法和特征选择方法对分类效果是有直接影响的,因此上述结论不是绝对的。
8结语
本文主要分析了文本分类的过程并在最后描述了分类器性能评价并从实验上进行比较。通常情况下,不能将单个文本表示方法和分类器作为任何通用的模型。应根据数据的特征,选择相应的文本表示方法和分类器,以此来确保分类结果达到预期的效果。
参考文献:
[1] 宗成庆.统计自然语言处理[M].清华大学出版社,2013.
[2] 林少波.中文文本分类特征提取方法的研究与实现[D].重庆大学,2011.
[3] 奉国和.文本分类性能评价研究[J].情报杂志,2011,30(8):66-70.
[4] YAN Rui, CAO Xian-bin, LI Kai, Dynamic Assembly Classification Algorithm for Short Text[J].ACTA ELECTRONICA SINICA,2009,37(5):1019-1024.
[5] 申红,吕宝粮,内山将夫,等.文本分类的特征提取方法比较与改进[J].计算机仿真,2006(3):222-224.
【通联编辑:唐一东】