分布式空间数据库有效数据高效检测方法
2020-06-04张凯斐王翠娥
张凯斐,王翠娥
(吕梁学院 计算机科学与技术系,山西 离石 033001)
0 引言
随着信息技术的不断发展,分布式空间数据库的规模逐渐增大,存储数据逐渐增多,因此,如何从分布式空间数据库中提取到有用的数据,使得有效数据的检测效率提高,成为了前信息领域中的一个难题[1].通过设置数据聚类中心O,数据聚类半径R,依托隶属度计算、数据检测偏差S计算,完成有效数据检测路径的搭建.然后将分布式空间数据库中的数据属性经过离散化处理,成为模糊集合,检测符合关联模糊规则条件的数据,确定有效数据检测目标,最后使用结合并行检测算法的FCM聚类算法对分布式空间数据库中的数据空间属性进行处理,依托模糊集分类检测,最终实现分布式空间数据库中的有效数据高效检测.仿真实验结果表明了本文设计的数据检测方法在分布式空间数据库的有效数据检测方面具有优势.
1 分布式空间数据库有效数据高效检测的预处理
1.1 确定分布式空间数据库中有效数据检测路径
在分布式空间数据库中提取数据,进行有效数据检测,能够提取到数据库中隐藏的信息,为以后的数据决策提供依据,具体的数据检测路径如下:
将分布式空间数据库中的各个空间属性数据,组成一个集合,在各个数据集合中,O为数据聚类中心,R为数据聚类半径,S为数据检测过程中的偏差,V为各项数据的信息要素[2].在时刻t,从分布式空间数据库中始发点Yj出发开始进行数据检测,检测到数据聚类中心O,产生的数据检测偏差为S,对始发点Yj数据进行隶属度计算.
为了避免在进行有效数据的检测过程中,出现多样的数据聚类中心O,从而导致数据检测失败.引入检测调控因子,对数据聚类中心O进行计算.
在分布式空间数据库中进行有效数据检测的过程中,数据库中所有的数据都为待检测数据,通过设置数据聚类中心O,数据聚类半径R,依托隶属度计算、数据检测偏差S,完成有效数据的检测,得到目标数据[3].
1.2 确定分布式空间数据库中有效数据检测目标
确定分布式空间数据库中有效数据的检测目标由三步骤构成,第一步,将分布式空间数据库中的数据属性经过离散化处理,成为模糊集合[4].第二步,收集目标数据的相关属性数据以及属性的模糊频繁值.第三步,在小信任度的条件下,检测符合关联模糊规则条件的数据,最终得到目标数据.
图1 分布式空间数据库的结构示意图
分布式空间数据库的结构形式为非共享型数据库,设分布式空间数据库共有数目为P的处理器,每个处理器都有一个专门的存储器和内存,并且各个处理器都是通过通信电缆连接,形成一个通信网络[5],分布式空间数据库的结构示意图如图1所示.
分布式空间数据库中有效数据检测采用的是关联规则的检测方法,以典型的计数分配算法为基础,减少了存储器的通信开销.在分布式空间数据库中,每个处理器都有与之对应的候选集散列树,所以数据库中的处理器都能在检测时得到候选集的支持.
分布式空间数据库中有效数据检测通过申请一个求和操纵命令,可以得到对应的候选集的全部支持数.每一个完整的候选集散列树都是分布式空间数据库中有效数据检测的重要组成部分,所以,在进行有效数据的检测时,要尽量减少额外消耗开销[6].通过确定分布式空间数据库中有效数据检测路径,确定有效数据检测目标,完成有效数据检测方法的设计.从而实现了有效数据的检测.
2 分布式空间数据库中有效数据检测的实现
2.1 FCM聚类数据处理过程
分布式空间数据库中的数据主要为具有空间属性的数据,通过采用FCM聚类算法,对分布式空间数据库中的数据,根据空间属性进行分类.FCM聚类算法作为无监督模糊聚类算法,在检测分布式空间数据库中的有效数据时,需要开销很多的输入/输出(I/O)接口,并且占用很大的内存空间,因此需要花费很多的时间来进行检测[7].
通过结合并行检测算法,来实现有效数据的检测.首先将分布式空间数据库中的数据根据空间属性进行分类,在分类过程中区分原始化数据集,从而得到s/n个数据,s为检测的进程数据,n为进行数据检测的总数目.在检测过程中,将所有的检测进行归零,然后逐次进行标记,同时将归零过程设置为根进程.将归零过程当做初始化检测中心O(i=1,2,…c),将检测信息发送到全部检测进程,记录所有检测进程收到的检测信息Vi(i=1,2,…c),计算收集到的信息隶属度[8].这样完成了对检测数据的初始化处理,然后计算检测数据子集的隶属度,对检测进行偏差计算,得到具体数值时,停止检测.
对分布式空间数据库的所有数据进行空间属性分类,可以获得数据空间属性的矩阵以及聚类中心.每个空间属性对应的数集都可以视为一个模糊集,数据空间属性的矩阵可以表示模糊集的水平,结合并行检测算法的FCM聚类算法可以对分布式空间数据库中的有效数据检测,结合后的FCM聚类算法有更好的适应性以及可扩展性.
2.2 实现有效数据的高效检测
使用结合并行检测算法的FCM聚类算法,对分布式空间数据库中的数据空间属性进行处理之后,得到多个不同空间属性的模糊数据集.将所获得的模糊数据集,对应的匹配到分布式空间数据库的每个处理器中,网络通信检测传输是数据检测过程中的主要检测途径[9].
有效数据高效检测方法的实现具体步骤如下所述:
图2 有效数据高效检测方法的工作流程示意图
首先,将分布式空间数据库中的全部数据平均分配到各个检测进程中,然后利用C均值模糊聚类算法再次对数据库中的数据根据空间属性进行聚类,同时计算各个数据空间属性的隶属度.
其次,把分布式空间数据库中的数据初始空间属性转变成数据空间属性模糊集,计算各个模糊集的隶属度,获得相应的数据模糊属性的值.根据模糊联规则,对分布式空间数据库中的数据空间属性进行均值处理,获得若干模糊集,形成具有不同的界限数据集合.
最后,对分布式空间数据库中的数据进行反复检测,对各个检测进程是否达到结束检测的条件进行判断,判定是否继续执行检测[10].有效数据高效检测方法的工作流程如图2所示.
使用结合并行检测算法的FCM聚类算法对分布式空间数据库中的数据空间属性进行处理,依托模糊集分类检测,最终实现了分布式空间数据库中的有效数据高效检测.
3 仿真实验
为了保证本文提出的分布式空间数据库有效数据高效检测方法的有效性,进行仿真实验分析.实验过程中,以不同的数据库有效数据检测方法作为仿真实验对象,对数据库有效数据检测效率进行仿真模拟.为了保证实验的有效性,使用常规检测方法作为比较对象,进行仿真实验.记录两次仿真的实验结果,并将其呈现在同一数据图表中.
3.1 数据准备
为了减少仿真实验的影响因素,确保实验过程、结果的准确度,设置仿真实验环境.仿真实验使用的PC机的内存为4G DDR3,配置为core CPU T4300.使用传统的数据库数据检测方法进行仿真对比实验,设置分布式空间数据库中的数据总数为N,有n种不同的数据空间属性,数据构成的集合为(a1,a2,…an),数据空间属性构成的集合为(b1,b2,…bn),待检测的有效数据为ai,具有的空间属性是bj,利用数据检测过程中的检测效率、检测准确度对两种检测方法的有效性进行对比.
3.2 结果分析
利用传统数据检测方法以及本文提出的数据高效检测方法对数据库中的数据进行检测,两种数据检测方法检测后的实验结果如表1所示。
根据表1中的仿真实验结果可知,本文设计的有效数据高效检测方法相比于传统检测方法,数据检测的有效率提高了21.5%.实验数据表明本文设计的有效数据高效检测方法能够有效的提高数据检测的质量,对于分布式空间数据库来说,该检测方法能够更好地为人们提高服务.
为了进一步证明本文设计的检测方法的优越性,在仿真实验中逐步增加待检测数据的数量,利用传统数据检测方法以及本文提出的检测方法对数据库中的数据进行数据检测,记录检测用时.获得的仿真实验结果可以如图3所示。
由图3可知,本设计的有效数据高效检测方法的检测效率明显高于传统数据检测方法,仿真实验证明本设计的数据检测方法能够显著的提高数据检测的效率.
表1 两种数据检测方法仿真实验结果对比
图3 两种数据检测方法耗时对比
4 结语
本文通过确定分布式空间数据库中有效数据检测路径、确定检测目标,完成了数据检测方法的设计,最后使用结合并行检测算法的FCM聚类算法对分布式空间数据库中的数据空间属性进行处理,依托模糊集分类检测,最终实现了分布式空间数据库中的有效数据高效检测.通过仿真实验证明,本文提出的数据检测方法具有极强的有效性,希望本文能够为数据检测提供参考依据.