APP下载

随机森林算法中数据切分方法研究

2021-07-23路佳佳

唐山师范学院学报 2021年3期
关键词:目数误差率偏差

路佳佳

(山西工商学院 计算机信息工程学院,山西 太原 030006)

随机森林是一种可以处理分类问题和回归问题的算法,该算法一般采用bootstrap sampling 方法进行抽样,但是在抽样中存在“包外估计”。为了减少包外估计的误差,本文考虑对样本进行合理的数据切分[1]来有效提高模型的性能,减少误差。本文应用简单随机抽样的方法将大小为n的数据集分成不相交的两份,并且进行相同的抽样P次,得到2P份大小为的数据集。然后从中选择一份建立随机森林,其中的个样本作为训练集,另外的个样本作为验证集,通过误差来分析[2-4]验证切分方法的有效性。

1 改进的随机森林算法及其计算步骤

随机森林是含有多个决策树的集成分类器[5],其中{αk}是独立同分布的随机向量,k表示随机森林中决策树的个数。改进的随机森林算法主要是从数据切分的角度来改进随机森林。本文研究的改进的随机森林方法应用于回归任务和分类任务中。

随机森林回归的方法一般针对连续型随机变量,也就是研究输出变量y和输入变量X之间的关系建立数学模型。随机森林中的参数一般有两个,一个是树的棵目数Ntree,另一个是随机特征数Mtry。即

随机森林分类的方法一般针对离散型随机变量[3],假设输入变量X,通过树的分类结果进行投票,将多数的投票结果作为最终的预测结果,即

其中L(x)为联合分类的结果,Pi(x)为第i个分类树的结果。

改进的随机森林算法预测步骤包括以下三步。

(1)产生数据集。

(2)应用简单随机抽样的方法对数据集进行切分,抽取的一半数据记为D1,剩余的另一半数据记为D2,D1与D2互不相交。进行相同的抽取P次,将数据集切分成2P份。

(3)切分之后选取的数据中一半作为训练集,另一半作为验证集建立随机森林模型。将数据集中的输入变量X输入到使用训练集得到的模型中,在回归任务中采用简单平均法计算出的平均值作为预测值。在分类任务中采用投票法将分类结果中出现次数最多的结果作为最终分类结果。

在具体实验过程中借助R 统计软件中的包random forest 库函数实现上述步骤。

2 实验分析

模拟出n=1 000,p=150(数据个数为1 000,维数为150)的多元正态数据集,x为150 维,y为标准正态分布下的随机数,然后对模拟的数据集进行3 次切分,其中250 个样本作为训练集,另外的250 个样本作为验证集,设置随机森林中树的棵目数ntree的值,从2 到500 变化。通过UCI数据集下载的iris 数据集作为真实数据。该数据集包含150 个样本,每个数据包含四个特征和对应的样本类别信息。

2.1 模拟数据处理结果

均方根误差从一定程度上可以描述偏差,设obi(i=1,2,…,n)表示观测值,用ti表示预测值,则均方根误差的计算公式为

随机切分情况下模拟实验的结果如图1 所示。

从图1 可以看出随着树的棵目数的增加,均方根误差rsme逐渐减少,当树的棵数在100 左右时,随机森林的rsme几乎稳定在0.96。图2 是切分情况下计算的偏差和树的棵数的散点图,可以看出当树的棵数在100 时,偏差稳定在10 左右。

图3 是不进行随机切分的情况下,模拟实验结果。从图中可以看出,随着树的棵数的增加,均方根误差rsme逐渐减少,当增加到一定程度时rsme稳定在1.00。表明对数据进行随机切分对随机森林的偏差有一定程度的影响,可以减少偏差,并且当树的棵数在100 左右和500 时可以达到几乎相同的偏差。

图3 不切分时ntree 与rsme 关系图

对于分类问题,模拟数据集x为150 维,y为0 或1 的二分类任务,不进行随机切分的情况下,树的棵目数(ntree)与分类准确率(accuracy)的关系图如图4 所示,进行随机切分的数据处理结果如图5 所示。从图4 可以看出,不进行切分的随机森林的准确率随着树的棵目数的增大稳定在0.85。从图5 可以看到,随着树的棵目数的增加,分类的准确率在逐渐增大,当树的棵目数增大到100 时,分类的准确率逐渐稳定在0.9。

图4 不进行切分ntree 与accuracy 关系图

图5 进行切分ntree 与accuracy 关系图

用随机切分的随机森林做100 次实验,平均误差率,典型结果见图7。从图中可见,平均误差率为4.974 2%;用没有随机切分的随机森林做100次实验,典型结果见图8。从图中可知,平均误差率为6.595 2%。

图7 切分处理情况下的误差率

图8 不进行切分情况下的误差率

2.2 iris 数据集数据处理结果

绘制不经切分处理的随机森林和经切分处理的随机森林情况下的均方差图,见图9 和图10。从两个图中可以看出,经过切分的均方差图误差较为稳定,误差值也较小。

图9 不进行切分情况下的均方差

图10 进行切分情况下的均方差

3 结论

应用随机切分数据集的方法对分类任务的准确率的提高和回归任务的偏差都有一定的提高。方法应用与iris 数据集表现出较高的稳定性。

猜你喜欢

目数误差率偏差
如何走出文章立意偏差的误区
两矩形上的全偏差
生化检验全程中质量控制管理方式及应用意义
降低评吸人员单料烟感官评分误差率探讨
胶粉目数对胶粉改性沥青流变性能的影响研究
决明子保健袋茶的研制
无线传感器网络定位算法在环境监测中的应用研究
不锈钢拉丝在轨道行业的应用
电工仪表测量中容易忽略的几个问题
关于均数与偏差