基于改进决策树算法的失衡数据集分类方法

2019-03-16潘燕

长春工程学院学报（自然科学版） 2019年4期

潘燕

(福建农业职业技术学院，福州 350303)

0 引言

采用云存储技术进行资源管理和调度，能提高云资源分布空间的规划能力，在进行云资源分布空间规划和存储结构设计中，需要进行云资源分布数据的优化聚类处理，建立云资源分布空间失衡数据的分类模型，采用大数据融合技术，进行云资源分布空间失衡数据的优化分类设计，分析云资源空间失衡数据的分类属性特征分布，实现云资源空间失衡数据的优化管理和调度，提高云资源空间失衡数据的应用能力。云资源分布空间失衡数据的优化分类方法在数据库构建和分类检索中具有很好的应用价值[1]。对云资源分布空间失衡数据的分类是建立在特征分析基础上的，采用统计序列分析方法实现对云资源空间失衡数据特征信息的重建和分析，实现云资源空间失衡数据的预测和特征重组，结合模糊聚类方法进行数据集重构，但上述方法进行失衡数据分类的自适应性不好。对此，提出基于改进决策树算法的失衡数据集分类算法，采用改进决策树算法对提取的失衡数据特征集进行不规则的三角网重构和模糊聚类处理，实现失衡数据的优化分类。最后进行仿真实验分析，展示了该方法在提高失衡数据集优化分类能力方面的性能。

1 数据存储结构分析和特征检测

1.1 失衡数据的存储结构分析

为了实现云资源空间失衡数据集的优化监测，构建云资源分布空间失衡数据的优化存储结构模型，采用大数据融合聚类分析方法，进行云资源分布空间失衡数据的分布式结构重排[2]，结合特征序列检测和自适应重构技术，进行云资源分布空间失衡数据的优化检测，在空间失衡数据集的离散序列中，进行云资源空间失衡数据集的优化调度模型设计，提取云资源分布空间失衡数据的关联规则特征集[3]，挖掘云资源空间失衡数据集的正相关性特征量，假设云资源空间失衡数据集ni的种类为rj，则对所有结点集合存在最大独立集P(ni)={pk|prkj=1，k=1，2，…，m}，根据云资源空间失衡数据集的特征分布进行线性结构重组，待分类的云资源空间失衡数据集按照五元组分类，得到云资源空间失衡数据集的存储结构模型如图1所示。

图1 云资源空间失衡数据集的存储结构模型

在图1所示的云资源空间失衡数据集的存储结构模型中，进行云资源空间失衡数据集的优化调度和特征提取，云资源空间失衡数据集的离散分布序列分为上行云资源空间失衡数据集和下行云资源空间失衡数据集[4]，得到云资源空间失衡数据集序列的统计特征序列为：

(1)

式中k为云资源空间失衡数据集的灰度序列。构建云资源空间失衡数据集的特征匹配模型，根据多分类器融合结果进行信息分类，实现云资源空间失衡数据集的优化检测，得到检测统计量为：

(2)

(3)

构建云资源空间失衡数据集分布的有限数据集模型，云资源空间失衡数据集的能量消耗：

(4)

(5)

在分散子空间中进行云资源空间失衡数据集实时调度，构建云资源空间失衡数据集的统计分布序列特征矩阵满足：

(6)

构建云资源空间失衡数据集的大数据分布结构模型，采用特征空间重组方法进行失衡数据的模糊特征重构和聚类处理，进行云资源空间失衡数据集的特征分析和特征提取[5]。

1.2 失衡数据特征检测

(7)

式中G(U|μk，∑k)为云资源空间失衡数据集的统计概率密度特征量。云资源空间失衡数据集时间序列信息流的随机分布序列模型为：

(8)

提取失衡数据的相关分布特征量，采用模糊资源调度方法进行分布式特征重建，得到子空间中的数据监测输出的相干分布特征值[6]，采用模糊特征匹配方法进行云资源空间失衡数据集的特征分解。基于模糊决策树模型，建立云资源空间失衡数据集的能量传递函数En：

(9)

采用相邻子模块检测方法，进行云资源空间失衡数据集的信息特征挖掘和重构[7]，构建失衡数据的关联分布集usd、usq，统计特征值为：

(10)

式中：N为云资源空间失衡数据集三维特征序列长度；J为失衡数据集的统计频率。采用空间分布式结构重构方法，实现云资源空间失衡数据的优化分类决策，模糊决策函数为：

(11)

2 失衡数据集分类优化

2.1 数据特征提取

提取失衡数据的关联特征分布集和属性集，根据失衡数据的属性分布进行大数据挖掘和自适应特征提取[9]，云资源空间失衡数据集传输的时间窗口函数为Δw=wmax-wmin，则：

(12)

当d1=d2=…=dp时，云资源空间失衡数据集在特征状态空间中的迭代次数为Etotal，对其取最小值，当Etotal′=0，Etotal有最小值，云资源空间失衡数据集的关联维特征值函数为：

(13)

采用自相关特征分解对云资源空间失衡数据集序列进行回归分析[10]，得到云资源空间失衡数据集的时延测度信息为：

(14)

其中：

|X(f)|2=TC2Nsinc2(πfTC)|Xcode(f)|2，

(15)

(16)

式中：TC为云资源空间失衡数据集的时域采样阈值；f为云资源空间失衡数据集的分布频率特征；|Xcode(f)|为信息加权特征向量，根据上述分析，采用改进的决策算法进行云资源空间失衡数据的特征提取和优化分类。

2.2 改进的决策树分类

采用信息融合和模糊层析性分析方法进行失衡数据的优化分类，构建云资源空间失衡数据集的实时检测模型，假设失衡数据中含有n个样本，样本xi，i=1，2，…，n，得到云资源空间失衡数据的决策树分布结构模型，如图2所示。

图2 决策树分类模型

二维C4.5决策树的学习因子计算公式定义为：

(17)

模糊关联参数的关系为：

(18)

采用有限集合并的方法进行云资源空间失衡数据集的模糊指向性聚类，得到聚类的指标集为：

(19)

采用云资源空间失衡数据集的决策树调度方法进行优化分类，在模糊层次分布结构模型中得到云资源空间失衡数据集分类的统计特征信息流为：

X=Fα·x。

(20)

将N个子空间中的云资源空间失衡数据集进行自动分类处理，得到子序列：

X=[Xα(0)，Xα(1)，…，Xα(N-1)]T。

(21)

决策树优化分类节点为：

(22)

(23)

(24)

式中dj(k)表示云资源空间失衡数据集的有限特征分布集，提取云资源空间失衡数据集的相干分布源特征，得到模糊扩展函数：

(25)

构建失衡数据的主特征决策树分叉模型，根据采用大数据分析方法实现云资源空间失衡数据集分类聚类，聚类的优化解为：

(26)

根据上述分析，实现云资源空间失衡数据集分类聚类。

3 仿真实验与结果分析

为了验证该模型实现云资源空间失衡数据分类中的应用性能，进行实验分析，对云资源空间失衡数据采样的样本长度为2 000，数据的训练集为120，对云资源空间失衡数据集的采样频率为f1=0.3，f2=0.05，主特征分布系数为0.24，决策树的根节点数为20，根据上述仿真参量设定，进行云资源空间失衡数据集的分类，得到原始数据如图3所示。

图3 云资源空间失衡数据集的采集结果

以图3的云资源空间失衡数据集大数据为测试对象，进行分类处理，得到聚类结果如图4所示。

图4 失衡数据集的分类输出

分析图4得知，采用所提方法进行云资源空间失衡数据集分类的性能较好，采用不同方法进行云资源空间失衡数据集分类，测试失误率，得到对比结果见表1，从中可见，所提方法进行云资源空间失衡数据集分类的失误率较低。

4 结语

进行云资源分布空间失衡数据的优化分类设计，分析云资源空间失衡数据的分类属性特征分布，实现云资源空间失衡数据的优化管理和调度，提高云资源空间失衡数据的应用能力。采用大数据融合聚类分析方法，进行云资源分布空间失衡数据的分布式结构重排，采用模糊资源调度方法进行分布式特征重建，提取失衡数据的关联特征分布集和属性集，根据失衡数据的属性分布进行大数据挖掘和自适应特征提取，采用改进的决策树算法实现数据分类。研究得知，所提方法进行云资源空间失衡数据分类的性能较好，失误率较低。