APP下载

基于决策树的图像数据分类

2019-10-06蔡雨昕

现代商贸工业 2019年28期
关键词:图像分类决策树

蔡雨昕

摘 要:数据挖掘,即利用大量的、不完整的、随机的实际应用数据,提取潜在其中的有用信息,解决相关问题。针对图像特征数据,利用提取的图像特征向量的基础上,基于决策树对图像数据进行分类处理,并对生成的决策树进行优化和剪枝处理。

关键词:图像分类;决策树;交叉验证误差;信息增益

中图分类号:TB 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.28.097

0 引言

本文已知样本数为10000个,23个特征形成的向量,并且,样本已分为0与1两类。在此基础上,我们运用决策树模型进行分类器的训练。分别利用算叶子结点所含最小样本数和剪枝的方法对决策树进行优化,并比较分类结果,得到最后决策树模型。

1 模型假设

(1)所给的样本集中无重复样本;

(2)图像特征的提取均正确可靠;

(3)属性之间的关联性较弱。

2 模型建立

2.1 决策树的建立

针对不同的属性,首先我们考虑信息熵。假设其中的一个离散属性a,有n个可能的取值,则当使用属性a来对数据集D来划分时,会产生n个不同的分支结点,其中第m个结点在属性a上取值为am的样本,将其记为Dm,则对应的信息熵为:

其中Dmk表示Dm中分类为k的样本。其次,在考虑到树上不同的分支结点所包含样本个数的不同,则分别对分支节点进行赋权。利用属性a,划分所获得的信息增益为:

基于上述理论,利用MATLAB软件进行决策树分类器的训练。我们从10000個样本中取9000个样本数据进行训练,得到以下决策树模型,如图 1所示。

从图中不难看出,原始决策树体系庞大且复杂。随后,将测试的10000个样本通过决策树模型进行分类。结果显示,样本正确分类的概率为81%,其中正确分为1的概率为86.48%,正确分为0的概率为66.04%。

2.2 决策树优化

关于决策树,其叶子节点数会影响树的生长情况及性能。优化时,为找到最优的叶子结点最小样本取值,我们首先在10至1000的范围内,等距取200个点进行遍历。结果显示,叶子结点的最小样本数随取值的增大,它的交叉验证误差也呈现增大的趋势。随后,我们将范围缩小至10-100,等距取50个点进行遍历,遍历结果如图 2所示。

由上图可以发现,当取值约为15时,模型的交叉验证误差是最小的。因此,我们将叶子结点处的最小样本数限制为15。为检验优化后模型分类效果,我们计算优化前后交叉验证误差进行比较。结果显示,优化前为0.1912,优化后为0.2043,因此舍弃该方法。

2.3 决策树剪枝

为减少异常数据对决策树模型的影响,得到更好的分类效果,我们采用剪枝的方法进行优化和简化。叶结点的数量越多,反映了决策树对训练数据的细节问题反映了越多,继而弱化了泛化的能力。因此,我们采用后剪枝的方法进行处理,结果如图3。

为验证剪枝后的决策树分类情况,进行了误差检验。结果显示,剪枝后交叉验证误差为0.1917,仅比剪枝前的大了0.0005,可以忽略不计。此时建立决策树为最终模型。

参考文献

[1]王惠中,彭安群.数据挖掘研究现状及发展趋势[J].工矿自动化,2011,37(02):29-32.

[2]栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,(09):94-96+105.

[3]杨明,张载鸿.决策树学习算法ID3的研究[J].微机发展,2002,(05):6-9.

[4]唐华松,姚耀文.数据挖掘中决策树算法的探讨[J].计算机应用研究,2001,(08):18-19+22.

猜你喜欢

图像分类决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
基于数据挖掘的图像分类算法
基于云计算的图像分类算法
基于锚点建图的半监督分类在遥感图像中的应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
基于肺癌CT的决策树模型在肺癌诊断中的应用