APP下载

基于云计算的非连续层次数据挖掘方法

2016-11-30

西安工程大学学报 2016年4期
关键词:指向性特征提取数据挖掘

李 颖

(广东科学技术职业学院 计算机工程技术学院, 广东 珠海 519090)



基于云计算的非连续层次数据挖掘方法

李 颖

(广东科学技术职业学院 计算机工程技术学院, 广东 珠海 519090)

大型云存储数据库中分布海量的非连续层次数据,该类数据具有较强的自耦合非线性特征,采用传统方法进行数据挖掘时,存在挖掘难度大的问题.为此,提出一种基于云计算的非连续层次数据挖掘算法.进行数据挖掘模型的总体分析,对非连续层次数据进行语义指向性特征提取和量化编码,在量化编码的基础上,采用模糊C均值聚类算法,完成语义本体特征指向性波束聚类,实现数据挖掘算法改进.实验结果表明,非连续层次数据挖掘改进算法,精度较高,性能较好,抗干扰能力较强,性能指标优于传统方法.

云计算;语义;数据挖掘;数据聚类;信息检索

0 引 言

随着网络信息和大数据处理技术的快速发展,大量数据通过云存储模型分布在网络空间中,构成网络Deep Web数据库,在大数据信息处理技术高度发达的今天,采用云计算方法进行数据传输和调度,能有效提高Deep Web数据库的访问能力和信息检索能力.在大型云存储数据库中,分布着海量非连续层次数据,具有较强的自耦合性非线性特征,在其他外界环境干扰下,挖掘难度较大.为提高对网络数据库的语义检索和信息分析能力,需要进行基于云计算的非连续层次数据挖掘方法研究,实现云计算环境下的数据挖掘云平台构建[1-3].

近年来,已有不少学者开展了对云存储数据库中非连续层次数据挖掘算法的研究,典型的算法包括基于演化博弈的云存储数据库非连续层次数据挖掘算法、基于统计信号分析的云存储数据库非连续层次数据挖掘算法、基于语义特征提取的数据挖掘算法和基于自适应波束形成的数据挖掘算法等[4-8].根据上述算法原理,相关学者进行数据挖掘算法的研究与改进,其中,文献[9]提出一种基于关联维特征提取的云计算非连续层次数据挖掘算法,通过相空间重构得到云存储数据库的高维运动空间轨迹,以此为基础进行关联维特征提取建模,实现对非连续层次数据的云挖掘,该方法具有较高的挖掘精度,但该算法需要进行高维相空间分解,计算开销较大,特征提取的准确性受限;文献[10]提出一种基于文本检测法的数据挖掘算法,在云计算环境下,采用人工标注法以及文本检测法,进行非连续层次数据的非线性特征编码,在此基础上进行数据准确访问和信息索引,提高了数据挖掘和数据库优化访问的性能,但是该数据挖掘算法受到的干扰较大,在低信噪比环境下数据挖掘的精度不高,性能不好[11-14].

图 1 云计算非连续层次数据交互中心 数据传输通道示意图Fig.1 Schematic diagram of cloud computing non continuous layer data exchange center data transmission channel

因此,提出一种基于语义本体特征指向性波束聚类的非连续层次数据挖掘算法,进行数据挖掘模型的总体分析及非连续层次数据结构分析,对非连续层次数据进行语义指向性特征提取和量化编码,在量化编码的基础上,采用模糊C均值聚类算法实现语义本体特征指向性波束聚类,实现数据挖掘算法改进,最后通过仿真实验进行性能测试.

1 模型构建

为了实现基于云计算的非连续层次数据挖掘,首先进行数据挖掘模型的总体设计,在大型云存储数据库中,非连续层次数据交互中心能控制操作系统的选择,本文构建的基于云计算的非连续层次数据挖掘模型,采用私有云平台下的Optorsim结构,需要把大型云存储数据库中的非连续层次数据分成3×3拓扑结构,设置4个负载区域层次的输入输出通道,大型云存储数据库的云计算非连续层次数据交互中心结构的数据传输通道模型描述如图1所示.

图1中,p1,p2和p3分别代表云计算非连续层次数据交互中心的数据帧传输节点,以近邻点为中心,构建非连续层次数据的向量量化特征编码模型[15-20],把p2当作OptorSim结构的数据聚类中心;初始化水平集函数φ,得到大型云存储数据库单个检索节点的适应度函数.把4个数据交互通道的数据进行特征聚类和提取,提取非连续层次数据的多径梯度图,得到数据的语义本体模型输入信道模型分别为x1,x2,x3和x4,表示为

(1)

其中:m为信息子空间中的云计算关联属性,基于云计算的非连续层次数据挖掘模型总体设计构架如图2所示.

2 波束聚类及数据挖掘算法改进

2.1 问题的提出及量化编码

图 2 基于云计算的非连续层次数据挖掘模型实现总体构架Fig.2 Realization of the overall framework of the non continuous data mining model based on cloud computing

在上述进行云计算的非连续层次数据挖掘方法总体构架基础上,进行大型云存储数据库中分布的海量非连续层次数据挖掘模型的改进设计,由于非连续层次数据具有较强的自耦合性非线性特征,在受到大干扰下,挖掘难度较大.本文在云计算环境下,提出一种基于语义本体特征指向性波束聚类的非连续层次数据挖掘算法.对非连续层次数据进行语义指向性特征提取和量化编码,对语义本体模型窗口中的非连续层次数据梯度最大值进行自适应加权,得到输出的非连续层次数据关联指向性加权向量为

(2)

采用一个1×N时间窗口进行特征压缩,确定非连续层次数据挖掘时间窗口大小N,把时间窗口划分成许多小的时间间隔,进行向量量化编码,假设检测函数x(t),量化编码的连续滑动窗口距离表示为

(3)

其中:ωj为非连续层次数据的最大梯度差加权系数,表示为

(4)

通过对非连续层次数据中的有用文本进行语义指向性特征提取,假设数据是分段平稳的,在分段平稳的线性区域,各自判决非连续层次数据窄时域窗TLX、TLY,得到非连续层次数据的文本特征提取判决式为

(5)

设非连续层次数据的能量密度谱为m;在最小窗口距离下,得到向量量化编码的时钟采样Nj*,其中向量量化编码的矢量空间轨迹函数为

(6)

把语义本体特征指向性波束提取区域分割为3×3拓扑结构,选择特定的窗函数,得到输出的向量量化编码对象集合Fm(x,y)为

(7)

(8)

2.2 数据挖掘算法实现

(9)

在t-ω平面上,利用输出的语义指向性特征进行数据聚类中心搜索,采用模糊C均值算法,将有限的多分量非连续层次数据X分为c类,其中,1

(10)

(11)

(12)

结合上述LGB编码结果,对核函数进行改造,调整加权得到Nj*和几何邻域NEj*(t),得到数据挖掘的聚类中心为

(13)

(14)

此时,求得数据挖掘的目标函数的极值为

(15)

(16)

其中:m为自适应基函数;(dik)2为样本xk与文本像素样本Vi的测度距离,通过上述语义指向性特征提取结果,得到数据聚类挖掘的特征空间欧式距离为

(17)

且满足:

(18)

通过上述处理,当xk和Vi构成一个复共轭时,可以保留原始数据的语义本体特征,实现语义本体特征指向性波束聚类,提高数据挖掘的精度.

3 仿真实验与性能测试

为了验证本文设计的云计算环境下,基于云计算的非连续层次数据挖掘算法的数据挖掘性能,进行仿真实验.实验的硬件环境为:处理器Intel(R)Core(TM)2 Duo CPU 2.94GHz,内存:8.00GB.采用Matlab仿真软件,进行非连续层次数据挖掘算法的编程设计,非连续层次数据的测试数据来自大型云存储数据库Deep Web 200G,非连续层次数据采样样本的个数为1 024,采样的周期为T=0.04s,非连续层次数据挖掘过程中,受到码间串扰干扰的强度为SNR=0~24 dB,数据的标量时间序列基频为100Hz,包含3个频率分量的非线性数据特征分量,根据上述仿真环境和参数设定,进行数据挖掘算法仿真分析,首先进行原始数据的信息流模型构建和特征提取建模,得到原始数据信息流时域波形如图3所示.

图 3 原始数据信息流时域波形 图4 非连续层次数据的语义指向性特征提取Fig.3 Time domain waveform of raw data information flow Fig.4 Semantic directional feature extraction of non continuous hierarchical data

图 5 数据挖掘性能对比Fig.5 Data mining performance comparison

由图3可知,原始数据信息流分布在云存储数据库中,受到较强的自耦合性非线性特征干扰,导致数据挖掘的精度低、性能差.因此,需进行数据挖掘模型改进,采用本文方法进行语义指向性特征提取,得到结果如图4所示.由图4可知,采用本文方法进行非连续层次数据的语义指向性特征提取,可以实现数据的语义本体特征指向性波束聚类,数据聚类挖掘的收敛性较好,提高了数据挖掘性能,为了定量分析挖掘性能,采用本文算法和传统方法,以数据挖掘的准确度作为测试指标,采用10 000次蒙特卡洛实验,得到数据挖掘的输出均方根误差RMSE,对比结果如图5所示.

由图5可知,采用本文算法进行基于云计算的非连续层次数据挖掘,数据挖掘输出的均方根误差较低,说明数据挖掘精度高于传统方法,抗干扰性能强.

4 结束语

针对传统的数据挖掘方法存在挖掘精度低、误差大的问题.提出基于云计算的非连续层次数据挖掘算法.进行数据挖掘模型的总体分析,对非连续层次数据进行语义指向性特征提取和量化编码,在量化编码的基础上,采用模糊C均值聚类算法,完成语义本体特征指向性波束聚类,实现数据挖掘算法改进.实验结果表明,采用本文算法进行数据挖掘的精度较高、性能较好,语义本体特征指向性波束聚类效果较好,抗干扰能力较强.

[1] 周镭,单锋,刘鹏,等. 基于供应链的企业信息化评价模型的建立[J]. 西安工程大学学报,2015,29(6):772-779.

ZHOULei,SHANFeng,LIUPeng,etal.Theestablishmentoftheenterpriseinformatizationevaluationmodelbasedonsupplychain[J].JournalofXi’anPolytechnicUniversity,2015,29(6):772-779.

[2] 刘经南,方媛,郭迟,等. 位置大数据的分析处理研究进展[J]. 武汉大学学报(信息科学版),2014,39(4):379-385.

LIUJingnan,FANGYuan,GUOChi,etal.Advancesinbigdataanalysisandprocessinglocation[J].GeomaticsandInformationScienceofWuhanUniversity,2014,39(4):379-385.

[3] 李鹏,刘思峰. 基于灰色关联分析和D-S证据理论的区间直觉模糊决策方法[J]. 自动化学报,2011,37(8):993-999.

LIPeng,LIUSifeng.Interval-valuedintuitionistfuzzynumbersdecision-makingmethodbasedongreyincidenceanalysisandD-Stheoryofevidence[J].ActaAutomaticaSinica,2011,37(8):993-999.

[4]ELDEMERDASHYA,DOBREOA,LIAOBJ.BlindidentificationofSMandalamoutiSTBC-OFDMsignals[J].IEEETransactionsonWirelessCommunications,2015,14(2):972-982.

[5]XUY,TONGS,LIY.Prescribedperformancefuzzyadaptivefault-tolerantcontrolofnon-linearsystemswithactuatorfaults[J].IETControlTheoryandApplications,2014, 8(6):420-431.

[6]HUANGX,WANGZ,LIY,etal.Designoffuzzystatefeedbackcontrollerforrobuststabilizationofuncertainfractional-orderchaoticsystems[J].JournaloftheFranklinInstitute,2015,351(12):5480-5493.

[7] 陆兴华,陈平华. 基于定量递归联合熵特征重构的缓冲区流量预测算法[J]. 计算机科学,2015,42(4):68-71.

LUXinghua,CHENPinghua.Trafficpredictionalgorithminbufferbasedonrecurrencequantificationunionentropyfeaturereconstruction[J].ComputerScience,2015,42(4):68-71.

[8] 谭君,贾松敏,李秀智,等. 改进的CLG变分光流场估计方法[J]. 电子设计工程,2016(1):5-8.

TANJun,JIASongmin,LIXiuzhi,etal.ImprovedmethodforvariationalopticalflowfieldestimationbasedonCLG[J].ElectronicDesighEngineering,2016(1):5-8.

[9]CHOIJ,YUK,KIMY.Anewadaptivecomponent-substitution-basedsatelliteimagefusionbyusingpartialreplacement[J].IEEETransactionsonGeoscienceandRemoteSensing,2011,49(1):295-309.

[10]MEZOUARMC,KPALMAK,TALEBN,etal.Apan-sharpeningbasedonthenon-subsampledcontourlettransform:Applicationtoworldview-2imagery[J].IEEEJournalofSelectedTopicsinAppliedEarthObservationsandRemoteSensing,2014,7(5):1806-1815.

[11]GLENTISGO,JAKOBSSONA,ANGELOPOULOSK.Block-recursiveIAA-basedspectralestimateswithmissingsamplesusingdatainterpolation[C]//InternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),Florence,2014:350-354.

[12]SUNWeize,SOHC,CHENYuan,etal.Approximatesubspace-basediterativeadaptiveapproachforfasttwo-dimensionalspectralestimation[J].IEEETransactionsonSignalProcessing,2014,62(12):3220-3231.

[13] 陈丹,柯熙政,张璐. 湍流信道下激光器互调失真特性[J]. 光子学报,2016,45(2):93-97.

CHENDan,KEXizheng,ZHANGLu.Laserintermodulationdistortionandcharacteristicundertheturbulencechannel[J].ActaPhotonicaSinica,2016,45(2):93-97.

[14] 许宁,肖新耀,尤红建,等.HCT变换与联合稀疏模型相结合的遥感影像融合[J]. 测绘学报,2016,45(4):434-441.

XUNing,XIAOXinyao,YOUHongjian,etal.ApansharpeningmethodbasedonHCTandjointsparsemodel[J].ActaGeodaeticaetCartographicaSinica,2016,45(4):434-441.

[15] 崔永君,张永花. 基于特征尺度均衡的Linux系统双阈值任务调度算法[J]. 计算机科学,2015,42(6):181-184.

CUIYongjun,ZHANGYonghua.Linuxsystemdualthresholdschedulingalgorithmbasedoncharacteristicscaleequilibrium[J].ComputerScience,2015,42(6):181-184.

[16] 刘俊,刘瑜,何友,等. 杂波环境下基于全邻模糊聚类的联合概率数据互联算法[J]. 电子与信息学报,2016,38(6):1438-1445.

LIUJun,LIUYu,HEYou,etal.Jointprobabilisticdataassociationalgorithmbasedonall-neighborfuzzyclusteringinclutter[J].JournalofElectronicsandInformationTechnology,2016,38(6):1438-1445.

[17]BAESH,YOONKJ.Robustonlinemultiobjecttrackingwithdataassociationandtrackmanagement[J].IEEETransactionsonImageProcessing,2014,23(7):2820-2833.

[18]JIANGX,HARISHANK,THAMARASAR,etal.Integratedtrackinitializationandmaintenanceinheavyclutterusingprobabilisticdataassociation[J].SignalProcessing,2014(94):241-250.

[19]LIL,XIEW.Intuitionisticfuzzyjointprobabilisticdataassociationfilteranditsapplicationtomultitargettracking[J].SignalProcessing,2014,(96):433-444.

[20]ZHONGF,LIH,ZHONGS,etal.AnSOCestimationapproachbasedonadaptiveslidingmodeobserverandfractionalorderequivalentcircuitmodelforlithium-ionbatteries[J].CommunicationsinNonlinearScienceandNumericalSimulation, 2015,24(1):127-144

编辑、校对:赵 放

The method of non continuous data mining based on cloud computing

LI Ying

(School of Computer Engineering Technical, Guangdong Institute of Science and Technology, Zhuhai 519090, Guangdong,China)

A large database of cloud storage has massive discontinuous level data, and the data has stronger coupling nonlinear characteristics. When using traditional method for data mining, mining difficult problems exist . Discontinuous hierarchical data mining algorithm based on cloud computing is put forward. Carrying on the overall analysis of the data mining model, semantic directivity characteristics of discontinuous level data are extracted and quantization coding is conducted. on the basis of quantitative coding, fuzzy C-means clustering algorithm is adopted,to complete semantic ontology directional beam cluster, improving the data mining algorithm. The experiment results showed that the improved algorithm has high precision,good performance and strong anti-jamming capability,and its performance is superior to that of traditional methods.

cloud computing; semantic; data mining; data clustering; information retrieval

1674-649X(2016)04-0498-06

10.13338/j.issn.1674-649x.2016.04.016

2015-12-13

广东省高职教育教学管理委员会教改课题(JGW2013026)

李颖(1977—),女,广东省韶关市人,广东科学技术职业学院讲师,研究方向为虚拟化与云计算.E-mail:wing_lee@126.com

李颖.基于云计算的非连续层次数据挖掘方法[J].西安工程大学学报,2016,30(4):498-503.

LI Ying.The method of non continuous data mining based on cloud computing[J].Journal of Xi′an Polytechnic University,2016,30(4):498-503.

TP 391

A

猜你喜欢

指向性特征提取数据挖掘
声源指向性仿真研究
一款低频偶极子声源设计
探讨人工智能与数据挖掘发展趋势
刍议小学指向性提问写作教学——以《慈母情深》为例
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于Gazebo仿真环境的ORB特征提取与比对的研究
人大专题询问:增强监督“指向性”
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
基于MED和循环域解调的多故障特征提取