基于聚类分析的多维离散数据相关性检测系统设计
2020-12-07方加娟李凯
方加娟 李凯
摘 要: 现有多维离散数据相关性检测系统均存在着检测精度差、可扩展性差的缺陷,为了解决上述问题,引入聚类分析方法对多维离散数据相关性检测系统进行设计。多维离散数据相关性检测系统硬件为数据处理器,由电源单元、通信单元与红外单元组成;软件设计主要分为多维离散数据空间划分模块与多维离散数据相关性检测模块。通过系统硬件与软件的设计,实现了多维离散数据相关性检测系统的运行。通过测试结果可知,与现有多维离散数据相关性检测系统相比,设计的多维离散数据相关性检测系统极大地提升了检测精度与可扩展性,充分说明设计的多维离散数据相关性检测系统具备更好的检测性能。
关键词: 聚类分析; 多维离散数据; 无线通信; 红外单元; 相关性检测; 可扩展性
中图分类号: TN710?34; G255 文献标识码: A 文章编号: 1004?373X(2020)21?0143?04
Design of multidimensional discrete data relevance detection
system based on cluster analysis
FANG Jiajuan1, 2, LI Kai2
(1. School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China;
2. Department of Software Engineering, Zhengzhou Technical College, Zhengzhou 450121, China)
Abstract: The existing multi?dimensional discrete data correlation detection system has the defects of poor detection accuracy and scalability. In order to solve the above problems, the cluster analysis method is introduced to design the multi?dimensional discrete data correlation detection system. The hardware of multi?dimensional discrete data correlation detection system is a data processor, which consists of power supply unit, communication unit and infrared unit. The software design is mainly divided into multi?dimensional discrete data space partition module and multi?dimensional discrete data correlation detection module. The operation of multi?dimensional discrete data correlation detection system is realized by the design of hardware and software. The test results show that, in comparison with the existing multi?dimensional discrete data correlation detection system, the designed multi?dimensional discrete data correlation detection system greatly improves the detection accuracy and scalability, which fully demonstrates that the designed system has a better detection performance.
Keywords: cluster analysis; multidimensional discrete data; wireless communication; infrared unit; relevance detection; scalability
0 引 言
随着科学技术的发展,研究水平与数量也在不断的攀升。无论是技术研究,还是故障检测等领域,都需要大量的数据,现今主要采用嵌入式数据库对数据进行存储,嵌入式数据库主要根据其运行模型进行定义,可以消除与服务器配置的开销。嵌入式数据库属于轻量级,具有运行内存较小、存储空间更大、存储速度较快、效果更好的优势,被多个领域所应用[1]。但是,若想在嵌入式数据库中提取需要的数据信息难度较大,而其中还含有大量的多维离散数据,这些数据中掺杂着用户需要的数据信息,因此,需要对多维离散数据相关性进行相应的检测,以此为基础,对用户需求数据信息进行提取。由此可见,多维离散数据相关性检测成为现今嵌入式数据库研究的重点问题。
目前使用较为广泛的多维离散数据相关性检测系统主要有两种,分别为基于关系矩阵融合的多维离散数据相关性检测系统与基于粗糙集理论的多维离散数据相关性检测系统[2]。其中,基于关系矩阵融合的多维离散数据相关性检测系统主要是对数据库中的数据进行特征矩阵的关联性分析,将关联性进行融合,以此来检测多维离散数据的相关性;基于粗糙集理论的多维离散数据相关性检测系统主要是根据粗糙集理论对数据的特征信息进行缺陷识别,依据聚类中心对数据进行离散化处理,根据决策树规则对多维离散数据相关性进行检测。但是上述两种方法均存在着检测精度差、可扩展性差的缺陷,无法满足现今社会的需求,为此引入聚类分析方法对多维离散数据相关性检测系统进行设计。
1 多维离散数据相关性检测系统硬件设计
多维离散数据相关性检测系统硬件主要是对数据进行相关处理,为多维离散数据的相关性检测提供支撑,因此,系统硬件设备主要为数据处理器,其主要由电源单元、通信单元与红外单元构成[3]。
1.1 电源单元
电源单元主要为数据处理器提供能量支撑。电源单元最主要的结构为电路,由于篇幅的设置主要对电源电路进行设计[4]。电源电路框图如图1所示。
该电路中设计了保护环节,可以对电路以及元件进行有效的保护。AC 220 V电源中设置了压敏电阻,可以对雷击等情况产生的电压进行相应的调节,对电压高峰进行了吸收,以免器件受到伤害[5]。
1.2 通信单元
该系统通信单元主要采用微功率无线通信,通过外置插接方式进行相应的安装,插座为标准形式,间距为2.55 mm。无线接口示意图如图2所示。
通过无线接口的设计可以满足无线通信的需求,还能满足单元之间的接口需求。
1.3 红外单元
红外单元主要通过串口信号与调制信号的配合对发射管进行控制,以此实现信号的发射。通过控制三极管的开关频率,对红外发射管的频率进行相应的控制[6]。紅外发射电路示意图如图3所示。
通过上述过程完成了系统硬件的设计,为多维离散数据相关性检测提供了硬件支撑。
2 多维离散数据相关性检测系统软件设计
上述硬件无法独立实现多维离散数据相关性的检测,为此对系统软件进行设计。系统软件主要分为两部分,分别为多维离散数据空间划分模块与多维离散数据相关性检测模块[7]。
2.1 多维离散数据空间划分模块
在多维离散数据相关性检测过程中,计算复杂程度较高,为了简化计算的难度,提升检测效率,采用空间划分算法将数据库中的多维数据进行重新投影,以投影的倾斜角度为基础对空间划分的结果进行判定,并对最优划分子空间中数据对象的局部离群因子属性值进行计算[8]。具体过程如下所示。
首先将数据库中的数据集区进行划分,得到多个子空间,对子空间的划分度量因子进行计算,其主要是由数据在子空间中的占比来决定[9]。则数据集在区分[p]下的区分偏斜度为:
[sopp=j=1Tnj-μ2N] (1)
式中:[sopp]表示区分[p]下的区分偏斜度;[nj]表示第[j]个子空间的数据个数;[μ]表示平均数据个数;[N]表示数据集中数据的个数[10]。
假设数据对象存在于数据库子空间[s]内,则[s]内的其他数据对象称为[p]的邻域,采用[sp=oo∈sp]表示,对其进行归一化处理,归一化的属性采用[goik]表示,并满足[0≤goik≤1],数据权值采用[ωd]表示,满足[0≤ωd≤1],则多维离散数据之间的加权距离为:
[distoi,oj,ωd=d=1kωdgoid-gojd2] (2)
式中:[oi,oj]表示领域数据;[goid,gojd]表示数据属性。
根据式(2)得到的值对数据的局部离群因子进行计算,得到[SPLOFp],为下述多维离散数据相关性检测提供数据支撑[11]。
2.2 多维离散数据相关性检测模块
以上述得到的子空间数据局部离群因子为衡量依据,将欧几里得距离当作多维离散数据相关性的距离函数,与最小划分边界矩阵相结合,通过聚类分析方法对多维离散数据相关性进行相应的检测[12]。
假设多维离散数据的度量函数为[Dkp],用户需求多维离散数据个数为[n],一般情况下,依据局部离群因子[SPLOFp]对近邻进行查询,找到数据库中的前[n]个[Dkp]中最大的数据点,将其定义为相关多维离散数据[13]。具体步骤如下:
1) 对数据库中的多维离散数据点进行定义,采用[p1,p2,…,pn]表示,对其最小边界矩阵进行计算,其计算过程较为复杂,因此利用顶点将其表示为[r1,r2,…,rn],通过式(2)对加权距离进行计算,得到[14][distpi,pj]。
2) 对多维离散数据点与最小划分边界矩阵之间的距离进行计算,计算公式表示为:
[Mindistp,R=i=1nx2i; xi=ri-pi, pi 根据式(3)得到的值对多维离散数据之间的相关性进行判定。判定规则为:当[Mindistp,R≥0],认为该多维离散数据是用户需求的相关性数据点;当[Mindistp,R<0],认为该多维离散数据不是用户需求的相关性数据点[15]。 通过上述过程实现了多维离散数据相关性检测系统的运行,完成了多维离散数据的相关性检测,为数据库的应用提供了先进的技术支撑。 3 系统性能测试 上述过程实现了多维离散数据相关性检测系统的设计与运行,但是对其是否可以解决现有系统存在的问题还无法确定,因此,设计仿真对比实验对系统性能进行验证与分析。 在实验过程中,主要采用设计系统、基于关系矩阵融合的多维离散数据相关性检测系统及基于粗糙集理论的多维离散数据相关性检测系统进行对比实验。由于检测过程的差别,实验过程也存在着较大的差异,为了保障实验结果的准确性,对实验外部环境参数进行统一设置,通过检测精度与可扩展性指标对系统性能进行体现。具体的实验结果分析过程如下所示。 3.1 检测精度对比分析 检测精度指的是多维离散数据相关性检测的准确率,因此,检测精度越高,表示系统性能越好。通过实验得到检测精度对比情况如表1所示。 如表1所示,设计系统与现有两种系统检测精度值差异较为明显,设计系统检测精度远远高于现有两种系统,其最大值可以达到93%。 3.2 可扩展性对比分析 系统的可扩展性与数据库的存储空间有着较大的联系,因此,为了增强实验结果的精准性,分别在存储空间为5 TB与15 TB的情况下对可扩展性进行实验,通过实验得到可扩展性参数对比情况,如图4,图5所示。由图可知,本文设计系统的扩展性参数更高,其扩展性更好。 通过实验结果可知,本文设计的多维离散数据相关性检测系统极大地提升了检测精度与可扩展性,充分说明设计的多维离散数据相关性检测系统具备更好的检测性能。 4 结 语 本文设计的多维离散数据相关性检测系统极大地提升了检测精度与可扩展性,为数据库的应用提供了先进的技术支撑。但是检测精度依旧有上升空间,需要对多维离散数据相关性检测系统进行进一步的研究与优化。 参考文献 [1] 陆钊.嵌入式数据库中多维离散数据检测仿真[J].计算机仿真,2017,34(3):400?403. [2] 张怡,熊朝阳,张加万.多维数据的不确定性可视相关分析[J].计算机辅助设计与图形学学报,2018,30(6):1089?1099. [3] 陈谊,张聪.一种基于维度投影的多维数据相关性可视分析方法[J].计算机辅助设计与图形学学报,2018,30(4):592?601. [4] 石刚,刘婷,贺铿,等.冠狀动脉病变与QT离散度的相关性分析[J].基层医学论坛,2017,21(34):4845?4846. [5] 粘冬晓,杜庆治,龙华.基于数据间相关性的异常检测方法[J].数据通信,2018(6):44?47. [6] 柴政,刘晨,朱美玲,等.基于多源传感数据相关性分析的电厂设备故障检测方法[J].计算机与数字工程,2019,47(3):682?688. [7] 崔小娜.高速公路沥青路面检测数据与养护的相关性[J].山东交通科技,2018(2):88?90. [8] 邱辰霖,程礼,何卫锋.一种基于数据间相关性的激光喷丸声学监测技术[J].振动与冲击,2017,36(4):139?143. [9] 周志光,汤成,刘玉华,等.降维空间视觉认知增强的多维时变数据可视分析方法[J].计算机辅助设计与图形学学报,2018,30(7):1194?1204. [10] 刘念,刘宇.基于聚类分析算法的海量关系数据可视化技术研究[J].电子设计工程,2018,26(10):92?95. [11] 周志光,胡迪欣,刘亚楠,等.面向空气质量监测数据时空多维属性的可视分析方法[J].计算机辅助设计与图形学学报,2017,29(8):1477?1487. [12] 刘希玉,姜珍妮,赵玉祯.链式膜系统及直接(间接)膜算法与聚类分析研究进展[J].安徽大学学报(自然科学版),2018,42(3):11?17. [13] 邹磊,朱晶,聂晓辉.基于聚类的多维数据热点发现算法[J].小型微型计算机系统,2019,40(3):465?471. [14] 王玲,孟建瑶,徐培培,等.基于多维时间序列形态特征的相似性动态聚类算法[J].工程科学学报,2017,39(7):1114?1122. [15] 张玉超,王民川,黄继海.定向信息推荐下多维信任数据协同推荐算法研究[J].科学技术与工程,2017,17(19):201?206. 作者简介:方加娟(1975—),女,河南新乡人,教授,主要从事计算机软件技术应用研究及教学工作。 李 凯(1980—),男,河南郑州人,硕士,讲师,研究方向为网络安全、软件工程。