基于时空约束和小波设计的非侵入式负载数据协同挖掘算法

2020-01-13郑宪秋

西安工程大学学报 2019年6期

郑宪秋

(山西工程技术学院信息工程与大数据科学系,山西阳泉 045000)

0 引言

数据挖掘是知识数据发现过程较为关键的环节,其原理是将所需数据从数量庞大的数据整体中挖掘出来，这种知识提取形式与计算机的应用联系十分紧密[1]。近几年来,信息业界对于数据协同挖掘技术越来越重视,如何在繁杂的数据中将数据转化为有用的知识与信息,并且能够同时实现提取,成为比较重要的研究任务[2]。

相关专家对非侵入式负载数据协同挖掘算法进行了深入研究,并已取得一些成果。文献[3]提出社交网络下非结构化数据协同过滤推荐算法改进，通过引入粗集,高速分割负载数据和数据类项目,将分割后的数据与初始数据相似性进行对比,对相似度最高的数据集进行挖掘,从而实现数据推荐，其中最为关键的数据挖掘步骤虽然挖掘速度快,但精度不高。文献[4]提出一种适合大数据存储系统的高效负载均衡算法设计，该算法考虑优先级处理超负载,对系统中的超负载数据进行有限平衡处理,实现非侵入式负载数据的挖掘，该方法在提高挖掘精度的同时,降低了挖掘实时性,难以保证挖掘效率。文献[5]提出基于MapReduce的频繁模式挖掘算法的优化，使用的FP-growth算法包括Fp-tree构建和频繁模式挖掘2个阶段,其中平衡算法用来均衡非侵入式负载数据,降低数据分配的随机性,挖掘出负载数据，提高了挖掘精度。文献[6]提出大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现，该算法采用Hadoop平台降低挖掘算法的难度且易于管理,通过一种自底向上的深度优化策略改进PrePost算法,降低挖掘算法对内存造成的开销,同时采用负载均衡的分组策略,来提高挖掘算法的效率，该算法挖掘效率较高,但挖掘精度仍不理想。文献[7]提出一种基于Spark框架的并行FP-Growth挖掘算法。该算法进行数据分组时,利用负载均衡策略,存入分组数据是相应频繁项的编码，根据编码实现数据的挖掘，该算法效率较高,但挖掘精度不能满足要求。文献[8]提出Hadoop异构集群下的负载均衡算法研究，该算法根据节点的剩余空间来计算各个节点的理论空间利用率,调整节点的最大负载率,完成负载数据的调用,进而实现负载数据的挖掘，该算法对节点空间利用率进行了改善,但对于数据挖掘的精度和效率问题,改善不明显。文献[9]提出一种基于MapReduce计算模型的并行关联规则挖掘算法。该方法对已有的MapReduce计算模型进行分类,在此基础上从伸缩性、自动负载均衡和自动容错3个角度对并行关联规则挖掘算法进行优化。文献[10]提出一种基于时空分析的位置大数据挖掘方法，首先对高维位置数据采用基于时空约束的频率剪枝算法进行数据清洗,然后提取兴趣位置点,再根据欧式距离划分与聚类划分的原理相似性,结合K-Means聚类实现对地理位置关系的挖掘。然而上述2种方法的挖掘精度较低,挖掘效果不够理想。

为解决上述传统方法存在的问题,提出一种基于时空约束和小波设计的非侵入式负载数据协同挖掘算法,在筛选非侵入式负载数据的基础上,对数据进行集成学习方法的计算,获取负载数据的最优解,将最优解集进行协同挖掘CMA算法处理,完成负载数据的挖掘与转换,实现非侵入式负载数据协同挖掘。实验验证表明,该算法在较大程度上加深了传统数据挖掘算法的深度,利于对非入侵式负载数据进行深入研究与知识转换,提高了数据挖掘的精确率。

1 非侵入式负载数据筛选

初始的非侵入式负载数据无法作为挖掘协同算法的基础数据进行直接运算,因此在算法设计的前期,需在时空约束条件下对非侵入式负载数据进行筛选,以提高数据协同挖掘算法的精度。时空约束条件下非侵入式负载数据的筛选是通过对所有基础数据所包含的特征进行加权,既可以增加各基础数据之间的空间区分度,也可以保证数据的时序连贯性。其步骤如下:

(1)确立了解对非侵入式负载数据应用范围；

(2)预留数据,并对数据进行加工整合；

(3)设计筛选数据模型的构建方案；

(4)整体知识管理。

1.1 空间约束下的数据特征

为增强对数据筛选的精度,应对基础数据间不相似的特征赋予较大的权值,对较为相似的特征赋予较小的权值。假设f代表数据特征,Qf代表筛选目标所包含的特征,Sf代表背景。由于背景Sf是由多个窗口Si组成的,则背景区域的特征目标值为

(1)

对于特征qf,结合其在时间t内的背景间区分度Lf,将高区分度的特征值看作正值,将低区分度的特征值看作负值,通过归一化处理使各特征值的权值分布更加集中,则有

(2)

由于基础数据特征权值的大小与特征区分度成正相关。此方法能增大目标与背景之间的区分度,因此可通过上述空间约束扩大数据分类边界,增强数据筛选过程的鲁棒性。

1.2 时间约束的数据特征

由于仅考虑空间约束有可能会忽略目标面积变化而导致漏筛选,因此还需建立基础数据的时序特征模型。设时序特征池为P=[p1,p2,…，pt],pt为时间t时的数据特征,对pt创建时序特征权值为

(3)

式中：λf为示特征qf在时间t时的变化速率。为保证时间约束中数据特征具有连贯性,因为时序特征池P中时间越近的数据有效性越高,则设为k遗忘因子,时序特征池P在t时刻的目标特征为

(4)

1.3 时空权值融合

在得到了空间约束下的特征值W和时间约束下的特征值Q后,将两类权值有效融合,设α代表融合比例系数,t时间的时空约束权值为

σ=αW+(1-α)Q

(5)

综上,根据空间约束下的基础数据特征融合结果对初始数据进行筛选。初始数据经过筛选后,可以被称为同原数据。经过先知经验对数据进行下一步分析,在对数据进行初始训练基础上对数据进行整合,获取变换后的训练知识模型,并保证其完整性。

2 数据集成学习运算处理

在经过数据的筛选之后,对数据进行集成学习,从中找寻数据挖掘最佳参数。首先根据数据管理知识,利用知识技术手段,将筛选后的数据进行加工整合,对显性与隐性知识进行确定掌控与选择创造,传播有效的管理信息[11]。

为得到效果更佳的集成学习结果,将数据集成的个体学习设备独立为个体集成学习器,并设定一定的规则使得各学习器之间具有较为明显的差异[12]。给定一个具体数集,并对数据中的训练数据样本进行数据采样,并由此产生不同的学习子集,同时为每个不同的学习子集设置相应的基础学习器,由此获得的训练模型数据具备一定的个体差别性,取得的基础学习器在较高的几率上具有差别明显的特征[13]。若每个学习子集仅得到数量较少的学习数据样本,即使样本的差异率较小,但数据样本的数量较少,最终得到的个体集成学习器无法获得较为充足的训练程度。因此,针对此种情况,采取系统自动取样方法进行处理[14],其采样示意图如图1所示。

图1 采样示意图

系统自动取样方法的步骤如下:

(1)选取标准数集A,数据及其中所包含的样本个数为N,对此数集进行集中采样处理,得到的新生数集用A′表示;

(2)在数集A中随机抽取一个数据样本,将该样本记载到新生数集中,再将其放回数集A中,促使该样本在下一次抽取中仍有被抽中的可能性;

(3)重复以上过程,达到m次,最终获得含有m个数据样本的新生数集。

在该过程中,数据集A终会有一小部分的样本在新生数据集中出现,但另外一部分样本则不会出现。假设数据样本在m次采样中不会被抽取到的概率为φ,其最终获得的极限表达式为

(6)

在系统自动取样过程中,原始数据集A大约含有1/e的数据样本未重复出现在新生数据集中,若文中系统的新生数集作为训练数集而存在,则次训练数据集中至少会存在一半的数据样本无法在新生数据集中同时出现,可以具备较为完善的数据校验效果[15]。

除此之外,系统自动取样法可以在原始数据集A中同时产生不同的训练数据集,对于集成学习方法的运算过程具有较大的帮助[16]。本文在此基础上进行进一步的算法支撑研究,将决策树作为数据学习器的基本构成部分,并将数据系统随机性添加至数据集中,在决策树的节点进行数据属性的自行选择时,摒弃在初始节点中选择最佳方式属性的传统方法,将每个决策树的基本节点进行对准操作,在对准后的节点中进行方式属性的集合选择,选取出一个涵盖多个方式属性的数据子集,并在选出的数据子集中选择一个最佳方式进行属性划分,降低数据集成学习运算处理偏差[17]。

3 协同挖掘CMA算法

协同挖掘CMA算法不仅为构建数据挖掘模型,更可以为数据挖掘算法模型进行知识数据管理的调整[18]。CMA算法是盲均衡算法中较为常见的一种,在干扰抑制和波束形成等领域应用广泛。本文利用CMA算法设计恒模小波信号,当每一级的恒模阵捕获到一个恒模信号后,就会把该信号对消掉,然后把含有其余信号的混合数据输入到下一级恒模阵做相同处理,直到把所有恒模信号捕获并分离出来,实现数据的协同挖掘。

由于在数据知识原则的构建阶段,算法的复杂程度作为单独学习模型算法的复杂程度的直线构成框架,且独立学习算法模型是在同原数据的数据信息基础上建立的,数据与数据之间不会发生数据交互现象以及数据算法迭代计算现象,因此能够利用并行数据算法进行算法复杂程度的降低操作[19]。

在基于时空约束和小波设计的非侵入式负载数据协同挖掘算法的设计中,利用CMA算法设计恒模小波信号,将标量小波中由单个尺度函数生成的多分辨空间扩展为由多个尺度函数生成的多分辨空间,保证更大的挖掘自由度。用多恒模小波表示均衡器,则均衡器的输出结果为

(7)

根据均衡器的输出结果,将该信号从接收数据中对消掉,然后将其余信号的混合数据输入到下一级恒模阵中,并做相同处理,直到选出所有的恒模小波信号。在此基础上,导入知识数据原则库中的容量限制条件,在大容量数据库中进行适当的规则管理,较为清晰地分辨出小容量数据库中的数据耦合度,加大对数据库的容量清理力度,在进行容量清理后,对清理后的数据进行数据耦合度分析,挑选出耦合度较高的数据进行去除,并保留耦合度较低的数据,进而提高挖掘准确率[20-22]。

4 结果与分析

为验证本文基于时空约束和小波设计的非侵入式负载数据协同挖掘算法的数据挖掘效果,与传统算法进行对比,并分析实验结果。

针对非侵入式负载数据的性能及数据的特殊性,对数据进行挖掘,并构建协同挖掘算法模型,如图2所示。

图2 协同挖掘算法模型

根据上述算法模型,进行实验参数的设定:数据来源为公开数据库信息;数据置信度为1,最小支持度为0.005;数据库为知识规则库;主要数据分析方法为关联规则决策树分析;数据规则属性一致。

根据上述算法模型进行对比实验,将本文基于时空约束和小波设计的非侵入式负载数据协同挖掘算法的挖掘效果与传统的基于MapReduce的频繁模式挖掘算法的数据挖掘效果进行比较,得到的数据挖掘深度对比图与数据挖掘准确率对比图如图3和4所示。

分析图3和图4可知,在相同的实验条件下,基于时空约束和小波设计的非侵入式负载数据协同挖掘算法的数据挖掘深度随时间的增加而不断增大,且增幅较大,准确率较高。而传统的基于MapReduce的频繁模式挖掘算法的数据挖掘深度虽然也随时间增加而增大,但增长幅度较小,且挖掘的准确率较低,算法的工作效率不高。

图3 数据挖掘深度对比图

图4 数据挖掘准确率对比图

本文算法在较高的程度上对非侵入式负载数据进行了全面的分析整理,提高了数据挖掘的准确率,并加深了数据挖掘的深度,能够更好地对数据进行处理,对数据进行精密的评估分析,减少了数据的冗杂度,增强了系统对数据的分类整理能力,算法简便快捷,具备更加广阔地推广空间。

5 结语

本文在传统算法的基础上研究了一种新式基于时空约束和小波设计的非侵入式负载数据协同挖掘算法, 先对所需挖掘的非侵入式负载数据进行综合整理,并对其进行数据预处理,根据处理后的数据得到所需的准确数据信息,在此基础上进行数据集成学习算法计算,推算出合理的挖掘参数,降低数据的挖掘偏差,同时减少其他因素对挖掘数据的干扰,为数据的挖掘提供较为有利的挖掘环境,最后将运算后的数据进行协同挖掘CMA算法处理,对数据进行全面的挖掘,加大数据的挖掘深度与力度,获得更加准确的挖掘数据信息,实现对非侵入式负载数据的精准挖掘。

相对于传统算法,本文算法在较大程度上提高了数据挖掘的准确度以及算法的运行效率,能够较好的保证数据的特征完整性,并提供更加清晰可靠的挖掘数据信息,降低数据挖掘方差,为使用者提供了更好的挖掘选择,具有较为优越的使用市场,但该算法在算法运算程度上需要进行进一步的改良加强,使其更加简便,具有更高的使用价值。