基于改进朴素贝叶斯算法的文本分类研究
2023-04-29辛梓铭王芳
辛梓铭 王芳
摘 要:朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。
关键词:朴素贝叶斯;文本分类;模糊聚类;特征权重;独立性假设
中图分类号: TP391 文献标识码: A DOI:10.3969/j.issn.1007-791X.2023.01.009
0 引言
随着互联网技术的迅猛发展以及大数据时代的到来,文本信息量呈爆炸式增长。如何更快更准确地进行信息检索与数据分类成为重要的问题。文本分类算法是数据挖掘领域的核心内容之一,它根据分类器将数据集中的数据项划分到某一个固定的类别,基本步骤为:文本预处理、索引和词频统计、特征抽取、构造分类器以及对分类结果的评价。文本分类算法包含多种,如支持向量机算法[1]、决策树算法[2]、K近邻算法[3]、神经网络算法[4]、贝叶斯分类算法[5]等等。
朴素贝叶斯算法先计算各个样本的先验概率,再利用贝叶斯公式计算各样本属于每一个类的后验概率。该算法高效稳定,常被应用于数据分析:张付志等[6]利用贝叶斯算法对垃圾邮件的过滤进行研究;杨晓花等[7]利用贝叶斯算法对图书馆书目进行自动分类;丁童心等[8]利用朴素贝叶斯算法进行人脸表情识别。朴素贝叶斯算法的应用领域广泛,但是它的使用是以各属性之间相互独立的假设为前提。考虑到文本中各个词组的特征向量之间并不都满足独立性假设的条件,直接使用朴素贝叶斯算法可能会导致文本分类的准确率下降。针对这一问题,很多学者提出了改进方法:Kononenko等[9]提出了半朴素贝叶斯分类模型,考虑部分属性之间的相互依赖关系,通常假定每个属性仅依赖于其他最多一个属性。Hall[10]提出将朴素贝叶斯算法与决策树算法结合,通过构建决策树来估计各属性的权重。Webb等[11]通过对所有约束分类器类求平均的方法来削弱属性的独立性假设。Zadrozny等[12]提出了從决策树和朴素贝叶斯分类器中获得校正概率估计的方法。裘雅莹等[13]提出了基于带加权正特征的扩展贝叶斯模型的中文文本分类的方法。秦兵等[14]提出利用密度函数似然比来增加特征词的可分性信息的算法。李方[15]构造了属性间相关性的度量方法:通过改进属性加权来优化朴素贝叶斯分类模型。黄勇等[16]提出了基于词向量间余弦相似度改进朴素贝叶斯算法。这些方法一定程度上削弱了贝叶斯模型独立性假设带来的影响,然而它们没有考虑文本的语法语序,且操作起来相对复杂,导致耗时较大。
针对上述不足,本文利用优化的模糊C均值聚类法[17]和权重计算方法改进朴素贝叶斯算法。首先,采用JS散度构造类别个数的自适应函数以优化模糊聚类算法,并利用改进算法对文本进行分类整理。然后,利用词频因子优化的TF-IDF算法计算各类别内样本的权重,同位置权重一起代入贝叶斯公式,最后进行分类计算。通过与传统朴素贝叶斯算法与其他改进算法的对比实验表明,本文的算法提高了分类决策的正确率与效率,降低了朴素贝叶斯模型对特征项独立性的要求,并较其他改进算法有一定的优越性。
由表1可知,改进后的朴素贝叶斯算法除了科学类的准确率和F1分数略低于传统算法,其他类别都有所提升。改进算法的P,R,F1指标均值较传统算法分别提升了3.07%、2.84%、2.91%,分类时间较原来减少1 min 3 s。实验结果表明,改进后的朴素贝叶斯算法有效地提高了文本分类的性能与效率,降低了算法独立性带来的影响。
为了更好地体现本文的改进算法在文本分类上的优越性,选取基于朴素贝叶斯与决策树结合的改进算法[11]、基于属性加权的改进算法[15]、基于词向量余弦相似度的改进算法[16]进行对比实验,得到数据如表2所示。
通过4种算法的实验数据对比可以得到本文算法模型的F1分数均值最大,分类性能最佳,且平均消耗时长最短,分类效率最高。将4种算法模型与原始算法模型应用于六类数据分类时的12个P、R指标进行比较,除了文献[15]算法,其余的3种算法模型均存在不同数量的分类指标低于原始算法模型。本文的算法模型中存在两个指标略低于原始算法模型,稳定性仅次于文献[15]算法模型。实验结果表明,本文的改进算法模型在分类性能和效率上具有一定的优越性,但稳定性欠佳,未来研究中,将针对算法模型稳定性的问题进行优化。
4 结论
本文针对朴素贝叶斯算法的独立性假设与特征权重分配不当的问题,在分类前利用模糊聚类法对数据集进行重新整理,分类后计算不同类别的权重数值,得到改进的朴素贝叶斯算法。通过进一步的对比实验,本文改进算法的P,R,F1指标均值较原始算法均提升了3%左右,较其他三类改进算法提升了1%~2%左右,且平均消耗时长最短。实验结果表明本文的改进算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的正确率与效率,且在分类性能和效率上同其他改进算法具有一定的优越性。未来工作中,将在本文的文本类别基础上添加相关的英文文本,在增大数据量以增强算法模型稳定性的同时,实现文本的多语种分类。
参考文献
[1] SHEVADE S K, KEERTHI S S, BHATTACHARYYA C, et al. Improvements to the SMO algorithm for SVM regression[J]. IEEE Transactions on Neural Networks, 2000, 11(5): 1188-1193.
[2] WANG L M, LI X L, CAO C H, et al. Combining decision tree and naive Bayes for classification[J]. Knowledge-Based Systems, 2006,19(7): 511-515.
[3] CHEN Q, LI D, TANG C K. KNN matting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(9): 2175-2188.
[4] LI Y M, WEI B G, LIU Y H, et al. Incorporating knowledge into neural network for text representation[J]. Expert Systems with Applications, 2018, 96:103-114.
[5] ZHENG G, TIAN Y. Chinese web text classification system model based on naive bayes[C]//International Conference on E-product and E-entertainment, Zhengzhou,China, 2010: 1-4.
[6] 張付志, 伍朝辉, 姚芳. 基于贝叶斯算法的垃圾邮件过滤技术的研究与改进[J]. 燕山大学学报, 2009, 33(1): 47-52.
ZHANG F Z, WU Z F, YAO F. Research and improvement of spam filtering technology based on Bayesian algorithm[J]. Journal of the Yanshan University, 2009, 33(1): 47-52.
[7] 杨晓花,高海云.基于改进贝叶斯的书目自动分类算法[J]. 计算机科学, 2018, 45(8): 203-207.
YANG X H,GAO H Y. Bibliographic automatic classification algorithm based on improved Bayes[J]. Computer Science, 2018, 45(8): 203-207.
[8] 丁童心,禹素萍.改进朴素贝叶斯算法的人脸表情识别[J]. 软件导刊, 2021, 20(1): 68-71.
DING T X, YU S P. Facial expression recognition based on improved naive Bayes algorithm[J]. Software Guide, 2021, 20(1): 68-71.
[9] KONONENKO I. Semi-naive Bayesian classifier[M]. Berlin: Lecture Notes in Computer Science, 1991:206-219.
[10] HALL M. A decision tree-based attribute weighting filter for naive Bayes[J]. Knowledge-Based Systems, 2007, 20(2): 120-126.
[11] WEBB G I, BOUGHTON J R, WANG Z. Not so naive Bayes: aggregating one-dependence estimators[J]. Machine Learning, 2005, 58(1): 5-24.
[12] ZADROZNY B, ELKAN C. Obtaining calibrated probablity estimates from decision trees and naive Bayesian classsifiers[C]//International Conferrence on Machine Learning,Williamstown,USA, 2001: 609-616.
[13] QIU Y Y, YANG G M,TAN Z H.Chinese text classification based on extended naive Bayes model with weighted positive features[C]//IEEE International Conference on Software Engineering and Service Science, Beijing,China, 2010: 243-246.
[14] 秦兵, 郑实福, 刘挺, 等. 基于改进的贝叶斯模型的中文网页分类[C]//全国第六届计算语言学联合学术会议论文集, 北京: 清华大学出版社, 2001: 373-378.
QIN B, ZHENG S F, LIU T, et al. Chinese webpage classifier based on improved Bayesian cognitive science[C]//The Proceedings of the Sixth Joint Conference on Computational Linguistics, Beijing: Tsinghua University Press, 2001: 373-378.
[15] 李方. 基于改进属性加权的朴素贝叶斯分类模型[J]. 计算机工程与应用, 2006, 46(4): 132-133.
LI F. Naivebayes classification model basedon improved attribute weighting[J]. Computer Engineering and Applications, 2006, 46(4): 132-133.
[16] 黄勇, 罗文辉, 张瑞舒. 改进朴素贝叶斯算法在文本分类中的应用[J]. 科技创新与应用,2019(5):24-27.
HUANG Y, LUO W H, ZHANG R S. Application of improved naive Bayes algorithm in text categorization[J]. Technology Innovation and Application,2019(5):24-27.
[17] PAL S K, KING R A, HASHIM A A. Automatic gray level thresholding through index of fuzziness and entropy[J]. Pattern Recognition Letters, 1983, 1(3): 141-146.
[18] BEZDEK J C, HALL L O, CLARKELP. Review of MR image segmentation techniques using pattern recognition[J]. Medical Physics, 1993, 20(4): 1033-1048.
[19]CHEN J N, MATZINGER H, ZHAI H Y, et al. Centroid estimation based on symmetric KL divergence for multinomial text classification problem[C]//Proceedings of IEEE International Conference on Machine Learning and Applications, Orlando,USA, 2018: 1174-1177.
[20] 王春偉, 侯方, 申升, 等. 基于文本信息的PDF文档管理系统设计与实现[J]. 燕山大学学报,2020, 44(6): 603-608.
WANG C W, HOU F, SHEN S, et al. Design and implementation of PDF document management system based on text information[J]. Journal of Yanshan University, 2020, 44(6): 603-608.
[21] 何晓静. 对TF-IDF算法的改进及实验研究[D].长春: 吉林大学, 2017: 14-24.HE X J. Improvement and experimental research on TF-IDF algorithm[D]. Changchun: Jilin University, 2017: 14-24.
Research on text classification based on improved naive Bayes algorithm
XIN Ziming,WANG Fang
(School of Science, Yanshan University, Qinhuangdao, Hebei 066004, China)
Abstract: In the case of a given output class, the naive Bayes algorithm assumes that the attributes are independent of each other. However, in reality, this assumption is usually not true.When the number of attributes is large or the correlation between attributes is high, the classification effect is not very good.In order to solve this problem, an optimized fuzzy C-means clustering and weight calculation method is used to improve the naive Bayes algorithm. Firstly, an adaptive function based on JS divergence is constructed to optimize the fuzzy clustering algorithm, and the optimized algorithm is used to sort the text. Then, the TF-IDF algorithm optimized by word frequency factor is used to calculate the feature weight of each sample after classification, and the classification calculation is carried out by combining the sample weight and Bayesian formula. Finally, in order to show the effectiveness and superiority of the improved naive Bayes algorithm, it is compared with the original naive Bayes algorithm and other improved algorithms. Experimental results show that the improved algorithm effectively reduces the requirements of the naive Bayes model for the independence of feature terms, improves the accuracy of classification decision-making, and has certain advantages in classification performance and efficiency.
Keywords: naive Bayes;text classification;fuzzy clustering;feature weight;independence hypothesis