改进朴素贝叶斯算法在文本分类中的应用
2019-03-13黄勇罗文辉张瑞舒
黄勇 罗文辉 张瑞舒
摘 要:朴素贝叶斯算法是一种基于概率统计的分类算法,广泛应用于机器学习中分类问题的求解中。文本分类是自然语言处理和数据挖掘领域中的研究热点有着广泛的应用前景。朴素贝叶斯算法已经在文本分类中取得了较好的分类效果,但是由于文本词向量的特征向量维度高,很多分类算法的求解效率和准确率都不高。文章提出一种基于词向量间余弦相似度的改进朴素贝叶斯算法,有效的降低了特征向量的数据冗余和计算复杂性。
关键词:文本分类;朴素贝叶斯算法;特征向量;余弦相似度
中图分类号:TP391 文献标志码:A 文章编号:2095-2945(2019)05-0024-02
1 概述
在文本分类任务中,目前采用的主要方法是将文本分词,通过词向量技术进行特征提取文本被表示成一个高维度的文本向量集合。然后通过分类器进行文本类别的学习。目前很多主流的机器学习分类算法都取得了较好的分类效果。但是由于文本数据特征表示复杂,分类效率和精度还没有取得较大的提高,朴素贝叶斯算法是在传统贝叶斯算法上假定待分类特征的分量之间相互独立,这使得贝叶斯这种分类方法的工程化应用得以实现[1]。但是文本中的数据由于上下文的语义关系,各个词组的特征向量之间并不都是相互独立的,这给分类器增加了很大的計算和求解负担,参数学习效率低数据特征冗余度大,如果考虑到利用各个上下文词组之间的概率相关性,利用词向量[2]之间的相似度有选择的剔除一些语义近似的词向量将大大简化分类过程。余弦相似度就能够很好的度量特征词向量之间的相关性程度,很好的表征了上下文词组之间的相似程度,可以利用这一相似性指数简化文本特征表示集合的大小,简化分类器的学习过程,提高分类效率。
3 文本分类实验
在此使用谷歌训练好的开源词向量模型,利用开源IMDB、文本数据集来对改进模型进行分类实验和效果评估。IMDB数据集包含来自互联网的50000条严重两极分化的评论[3],该数据被分为用于训练分类模型的25000条评论文本和用于测试分类效果的25000条评论文本,训练集和测试集都包含50%的正面评价和50%的负面评价。实验利用开源的深度学习框架TensorFlow和Keras。实验过程为文本数据导入、文本预处理、文本特征转换、分类器实现、参数初始化、参数迭代、结果输出,利用Keras提供的朴素贝叶斯分类器[4],在此基础上实现了改进的分类算法模型。同时也在传统朴素贝叶斯模型上进行实验过程,实验在测试集上得到分类效果如下表所示:
比较传统朴素贝叶斯分类算法和改进朴素贝叶斯分类算法模型在实验中的结果可以发现,基于文本词向量余弦相似度的改进朴素贝叶斯文本分类算法有着更好的分类精度和更低的迭代时间,大大降低了文本高维度的特征带来的计算复杂度。
4 结束语
本文分析了传统朴素贝叶斯算法在文本分类问题上存在的问题,针对传统文本分类中存在的数据冗余度大、特征表示复杂、分类效率低下的问题提出了基于上下文词向量之间余弦相似度的改进朴素贝叶斯算法,有效降低了文本特征向量的数据冗余度和模型计算复杂性通过实验验证了该改进算法的有效性,分类效果得到极大提升。
参考文献:
[1]赵文涛,孟令军,赵好好,等.朴素贝叶斯算法的改进与应用[J].测控技术,2016(02).
[2]唐明,朱磊,邹显春.基于Word2Vector的一种文档向量表示[J].计算机科学,2016,43(6):14-217.
[3]林士敏,田凤占,陆玉吕.贝叶斯学习、贝叶斯网络与数据采掘[J].计算机科学,2005,27(10):69-72.
[4]Y.-L. Boureau, J. Ponce, and Y. LeCun. A theoretical analysis of feature pooling in visual recognition.In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 111-118,2010.