基于TFIDF和梯度提升决策树的短文本分类研究
2019-10-21刘春磊梁瑞斯邸元浩
刘春磊 梁瑞斯 邸元浩
摘 要:自然语言处理是人工智能领域中的一个热门方向,而文本分类作为自然语言处理中的关键技术受到专家学者的广泛关注。随着机器学习技术的发展,决策树算法已经在文本分类中取得了较好的分类效果。本文针对短文本分类问题,利用TFIDF提取文本特征后,结合梯度提升决策树算法进行文本分类,并与朴素贝叶斯、逻辑回归和支持向量机的分类效果进行对比分析,验证了梯度提升决策树用于短文本分类的可行性。
关键词:自然语言处理;文本分类;机器学习;决策树
短文本分类是信息检索和文本数据挖掘的基础,也是当前自然语言处理领域中一个重要的研究方向,在情感分析、垃圾邮件过滤、新闻分类等领域有着广泛的应用价值。
机器学习方法的应用将文本分类任务拆分为特征工程和分类器,完成数据到信息和信息到知识的过程。[1]文本特征选择方法较多,其中TFIDF可以有效评估特定字词对于一个文本集或一个语料库中的重要程度。[2]文本分类常用的分类器有朴素贝叶斯、逻辑回归、支持向量机、决策树等算法。[3]朴素贝叶斯和逻辑回归在属性个数比较多或者属性之间相关性较大时,分类效果较差。当需要分类的样本较多时支持向量机将耗费大量的机器内存和运算时间。决策树算法中的GBDT(Gradient Boosting Decision Tree),是一种迭代的回归决策树算法,该算法由多棵决策树组成,将所有树的结论融合求解,是泛化能力较强的算法。
基于此,本文提出一种基于TFIDF和GBDT的短文本分类算法,用以解决现有短文本分类算法准确率较低、分类时间长、计算量较大等问题。
1 文本特征提取
文本数据属于非结构化数据,一般要转换成结构化的数据,将文本数据特征进行向量化。[4]词袋模型是一种常用的用于文本向量化的模型,通过权重表示词在一段文本中的重要程度,并进一步利用TFIDF提取文本的特征。TFIDF的主要内容是:如果某个词在一段文本中出现的频率高,并且在其他文本中出现的次数较少,则认为该词具有较强的类别区分能力,即TF和IDF的乘积,适合作为文本分类的特征。
综合上表中的F1值和训练时间可以看出,梯度提升决策树模型有较高的F1值。同时,相比与其他模型,在训练时间有着更优的表现。
4 结论
本文在现有短文本分类方法的基础上,使用梯度提升决策树模型作为分类器,进行了文本分类的实验。通过基于TFIDF的特征提取,十折交叉验证后取平均值,F1值达0.81,验证了梯度提升决策树分类器在短文本分类上的适用性。
參考文献:
[1]卢健,马成贤,杨腾飞,周嫣然.Text-CRNN+Attention架构下的多类别文本信息分类[J/OL].计算机应用研究.
[2]牛永洁,田成龙.融合多因素的TFIDF关键词提取算法研究[J/OL].计算机技术与发展,2019(07).
[3]丁月,汪学明.一种基于改进特征加权的朴素贝叶斯分类算法[J/OL].计算机应用研究.
[4]孟涛,王诚.基于扩展短文本词特征向量的分类研究[J/OL].计算机技术与发展,2019(04).