基于随机森林模型的情感分类的研究
2020-09-10李翔柴志菲
李翔 柴志菲
摘要:情感分类是NLP应用的一个分支,在舆情控制,评价预测以及推荐方面都有重要应用。目前常用的情感分类方法有K近邻算法、朴素贝叶斯分类、支持向量机、决策树等。本文提出采用随机森林进行情感分类的研究,采取随机森林作为分类模型,文本评论的句向量作为模型输入,在15万条的评论数据上训练,取得了不错的预测结果。由于随机森林算法方便并行化,该方案,极其容易部属到集群中,进行后续的工程化应用。
关键词:word2vec;随机森林;情感分类
在当代互联网形式复杂的各种数字信息中,文本信息占据着重要的作用。文本自古以来文本就扮演着传承人类智慧结晶的角色,是最重要的知识来源。
情感分类目前在知识发现、数字图书等领域扮演着不可或缺的重要角色。目前常用的情感分类方法有K近邻算法、朴素贝叶斯分类、支持向量机、决策树等,另一种比较常用的方法是集成分类算法,这种方法通过构建并结合多个基分类器来完成分类的任务,其中在情感分类中比较广泛应用的是Breiman在2001年提出的随机森林算法[1],并且其具有良好的分类性能、容易并行化、不易过拟合、构建过程中无偏估计泛化误差等优点,因此对随机森林在情感分类问题中的研究和应用有着重要的意义。
1.数据集
我们从新浪微博爬取781224条评论数据,并对其批量打了标签,经过数据分析,我们发现数据集中包含很多杂乱信息,需要对应清洗,其中包括超链接部分,特殊字符部分,英文单和数字的处理,以及对应长度的考虑。我们针对超链接,特殊字符,空格采取的是去除策略;对英文,数字采取正则表达式的方式进行替换,替换成特殊字符;为了兼顾训练数据的质量和数据规模,我们将评论长度限制在10到20之间。
中文是一种粘性语言,英文天然有空格进行分词,因此为了向量化的表示,我们需要对中文进行分词处理,常见的分词方式有三种:基于前向后向的匹配分词,基于概率的统计分词,以及基于神经网络的分词,这里我们采用基于概率的统计分词方法,选取清华开源的thulac分词工具[4]进行分词。
2.向量化
计算机只能识别数字化,向量化的信息,因为需要将我们的文本表示方式转换成向量化的方式,其核心为词向量。现有词向量的主流方式有以word2vec和glove为主的静态词向量,以及以ELMO为主流的神经网络编码,以及以bagging思想为主的one-hot,tf-idf词编码。考虑到模型为随机森林,我们这里采取word2vec进行词编码。个人训练的word2vec信息如下表。
考虑到模型的输入问题,需要将词向量转变为句向量,此处采取最简单的方式,即以词向量的tf-idf加权平均和表示句向量。
3.模型介绍
由于一个决策树的分类结果往往不够准确,或者容易产生过拟合问题,在2001年,Breiman从袋装算法和随机特征子空间方法得到启发,提出了随机森林算法[1]。随机森林利用袋装算法的有放回抽样,从原始样本中抽取多个样本子集,并使用这几个样本对多个决策树模型训练,在训练过程中使用借鉴了随机特征子空间方法,在特征集中抽取部分特征进行决策树的分裂,最后集成多个决策树称为一个集成分类器,這个集成分类器称为随机森林。
随机森林算法按结构可以分为三个部分,子样本集的生成,决策树的构建,投票产生结果。子样本集的生成。典型是袋装算法的样本自助聚集法,对原始样本集进行有放回的随机抽样,形成与原始样本集大小一样的子样本集,并重复进行k次(k为基分类器的个数)。决策树的构建。随机森林的决策树与普通的决策树构建方式基本一致,不同的是随机森林的决策树在进行分裂时选择的特征并不是对整个特征全集进行搜索,而是随机选取k个特征进行划分。投票产生结果。随机森林的分类结果是各个基分类器,即决策树,进行投票得出。
4.实验
首先我们从186413条评论数据中,划分了20000条作为测试集合,其余数据作为训练集训练模型,将准备好的句向量作为随机森林模型的输入,得到如下的评价指标。可以看出模型的效果还算不错。
5.总结
本文我们对随机森林在情感分类上的应用进行了探索,取得了还算不错的结果。该方法的好处是方便部属到分布式集群上,做分布式计算。当然,在情感分类方面也可以尝试采用最新的神经网络模型,例如Bert,但是其在分布式方面的应用比较困难。
引用
[1]BreimanL.RandomForests[J].MachineLearning,2001,45:5-32
[2]ZhongguoLi,MaosongSun.PunctuationasImplicitAnnotationsforChineseWordSegmentation.ComputationalLinguistics,vol.35,no.4,pp.505-512,2009.
[3]张其龙.基于随机森林的情感分类研究与应用[D].2019.
[4]罗新.基于随机森林的文本分类模型研究[J].农业图书情报学刊,2016,028(011):50-54.
[5]彭徵,王灵矫,郭华.基于随机森林的文本分类并行化[J]. 计算机科学,2018, 45(12):155-159.
[6]田宝明,戴新宇,陈家骏.一种基于随机森林的多视角文本分类方法[J].中文信息学报,2009.