大数据的分类挖掘优化技术
2018-01-02覃兵文
覃兵文
摘 要: 为了提高大数据的分类识别和检索性能,需要进行大数据优化挖掘,故提出一种基于弱关联性指数特征分布提取的大数据分类挖掘方法。对大数据信息流采用稀疏性融合方法进行聚类空间划分,通过自相关特征匹配方法进行大数据高维分形特征重组,采用向量量化方法进行大数据的基元分类的收敛性控制,提取大数据信息流的弱关联性指数特征,实现大数据的优化分类和挖掘。仿真结果表明,采用该方法进行大数据分类挖掘,提高了大数据挖掘检索的查准性和查全性,挖掘的准确性较高,抗干扰能力较好。
关键词: 大数据; 信息融合; 分类挖掘; 聚类空间划分; 特征提取
中图分类号: TN911?34; TP311 文献标识码: A 文章编号: 1004?373X(2017)24?0034?03
Abstract: As big data optimization mining is needed to improve classification recognition and retrieval performance of big data, a big data classification mining method based on distributional extraction of weak correlation index features is proposed. The sparse fusion method is adopted to perform clustering space division for big data flow. The high?dimensional fractal features of big data are reorganized by using the self?correlation feature matching method. The vector quantification method is adopted for convergence control of base element classification of big data. The weak correlation index features of big data information flow are extracted to realize optimization classification and mining of big data. The simulation results show that the method for data classification and mining improves the precision and recall performance of big data mining and retrieval, and has high mining accuracy and good anti?interference capability.
Keywords: big data; information fusion; classification mining; clustering space division; feature extraction
0 引 言
随着网络空间的不断扩容以及网络信息技术的发展,在网络云存储数据库中,大数据存在较大的差异性特征,需要对大数据进行分类挖掘,提高对大数据信息库的检索和分类识别能力,研究大数据分类挖掘技术,在提高大数据检索、访问、调度和特征提取能力方面具有重要意义,相关的数据分类挖掘方法研究受到人们的极大重视[1]。当前主要采用主成分挖掘方法、粒子群分布式挖掘方法以及统计特征提取的大数据挖掘方法[2]。通过自适应分布式学习算法实现大数据挖掘,把网络分布式云存储大数据时间序列解析模型分解为含有多个非线性成分的统计量,进行数据的分布式特征重构,提高数据挖掘的抗干扰能力。但是随着数据规模的扩大,挖掘的准确性不好,提出基于弱关联性指数特征分布提取的大數据分类挖掘方法,首先进行大数据分布的统计特征分析,然后进行特征提取和数据分类算法设计,最后进行数据挖掘仿真实验,得出有效性结论。
1 大数据的统计性特征分析
1.1 大数据的稀疏性融合
为了实现对大数据的分类挖掘优化,首先采用统计特征分析方法进行大数据特征提取和信息重构,对大数据信息流采用稀疏性融合方法进行聚类空间划分。本文研究的大数据对象为网络分布式云存储大数据。用图表示网络分布式云存储大数据的输入模型,统计特征分布的向量量化边集为,单个存储分布节点的信息覆盖域为r,设,且,得到网络分布式云存储大数据的信息融合支持向量集为:
式中:和分别表示网络分布式云存储大数据的时域和频域分布结构特征;和分别表示大数据的采样时间间隔和波束分布间隔。采用观测或实验手段获得网络分布式云存储采样的先验知识[3],通过对数据的多元信息融合处理得到网络分布式云存储并行调度和重构的特征分布向量定义为:
式中:为网络分布式云存储特征分布矩阵的对角元素值;为测量误差。通过大数据的稀疏性融合,得到网络分布式云存储重构的约束指标分布向量集,以此为特征基础进行向量量化分析和数据重构。
1.2 大数据分类挖掘的聚类空间划分
基于奈奎斯特采样定理[4],结合大数据稀疏性融合结果,进行大数据分类挖掘聚类空间划分,对大数据信息流特征重组模型进行归一化处理,得数据分类挖掘指向性维数满足:
式中,为对取模。对大数据聚类空间划分,进行大数据信息流时频分解,得分解式为:
式中,表示数据弱关联指向性分布函数,将提取指向性特征输入到大数据分类挖掘传输信道中,进行向量量化分解。假设为时间窗函数,通过构建大数据分类挖掘知识库模型,得到数据的副本信息融合嵌入维数m满足:endprint
通过自相关特征匹配方法进行大数据高维分形特征重组,假设分类特征重组的传递函数,采用一个二维的连续函数进行大数据聚类的收敛性控制,得到大数据分类挖掘的极大熵的判决特征函数式为:
当网络分布式云存储数据是局部平稳的,通过构造数据集的规则向量集,得到大数据分类挖掘的聚类空间为:
结合训练数据集的规则向量子集解向量分布融合结果[5],得到大数据分类挖掘聚类空间分布的指向性函数为:
2 大数据分类挖掘实现
在对大数据信息流采用稀疏性融合方法进行聚类空间划分的基础上,进行数据分类特征提取和挖掘过程优化,本文提出一种基于弱关联性指数特征分布提取的大数据分类挖掘方法,采用向量量化方法进行大数据的基元分类的收敛性控制[6],向量量化的特征函数为:
式中:表示大数据特征序列的相关性指数系数;表示先验点簇;表示信息融合的深度;为数据的关联维。
利用数据集的相似性分布式重建方法,得到数据的时频分解的变换定义为:
经自相关特征匹配,则数据聚类目标函数为:
式中,为数据特征分布子带信息。采用向量量化方法进行大数据的基元分类的收敛性控制[7],提取数据的能量密度谱(Spectrogram,SPEC)为:
基于模糊聚类方法进行数据分类挖掘,数据分类挖掘的特征空间的维数满足: (14)
网络分布式云存储重构的误差项满足高斯?马尔科夫假设。将网络分布式云存储重构的约束指标矩阵改写为边缘分布矩阵为:
式中:为的关联维向量;为的云数据的聚类指向性分布矩阵;为的参数向量;为的网络分布式云存储聚类的误差向量。提取大数据信息流的弱关联性指数特征,得到关联数据的线性组合为:
利用IFFT变换进行大数据的弱关联性特征估计,得到:
分析上述提取的特征估计结果得知,由于大数据分类挖掘的过程受到大数据的基元分类的收敛性控制,所以大数据分类挖掘的收敛性较好,准确性得以提高。
3 实验分析
对大数据分类挖掘的仿真实验建立在Matlab仿真环境基础上,大数据为网络分布式云存储大数据,实验仿真环境为:Intel Core3?530 1 GB内存,操作系统为Windows 7,大数据分布的阵元数目为64,初始采样的信噪比定为8 dB,数据特征分布的随机点个数为3,数据分布的频带为4~25 kHz。根据上述仿真设定,得大数据的原始分布时域波形如图1所示。
以图1给出的大数据为研究对象,进行分类挖掘,提取大数据信息流的弱关联性指数特征,实现大数据分类挖掘。图2给出了采用本文方法和传统的统计特征分析方法进行数据分类挖掘的准确性对比。分析得知,采用本文方法进行大数据挖掘检索的查准性和查全性较高,提高了大数据挖掘的准确性。
4 结 语
本文提出一种基于弱关联性指数特征分布提取的大数据分类挖掘方法,对大数据信息流采用稀疏性融合方法进行聚类空间划分。通过自相关特征匹配方法进行大数据高维分形特征重组,采用向量量化方法进行大数据的基元分类的收敛性控制,提取大数据信息流的弱关联性指数特征,实现大数据的优化分类和挖掘。研究得知,采用该方法进行大数据分类挖掘,提高了大数据挖掘检索的查准性和查全性,挖掘的准确性较高,抗干扰能力较好,具有很好的应用价值。
参考文献
[1] 王变琴,余顺争.自适应网络应用特征发现方法[J].通信学报,2013,34(4):127?137.
[2] 何力,丁兆云,贾焰,等.大规模层次分类中的候选类别搜索[J].计算机学报,2014,37(1):41?49.
[3] 李保利.基于類别层次结构的多层文本分类样本扩展策略[J].北京大学学报(自然科学版),2015,51(2):357?366.
[4] HE Y, ZHANG C S, TANG X M, et al. Coherent integration loss due to pulses loss and phase modulation in passive bistatic radar [J]. Digital signal processing, 2013, 23(4): 1265?1276.
[5] HAO H. Multi component LFM signal detection and parameter estimation based on EEMD?FRFT [J]. International journal for light and electron optics, 2013, 124(23): 6093?6096.
[6] GOVONI M A, LI H, KOSINSKI J A. Range?doppler resolution of the linear?FM noise radar waveform [J]. IEEE transactions on aerospace and electronic systems, 2013, 49(1): 658?664.
[7] 狄岚,于晓瞳,梁久祯.基于信息浓缩的隐私保护支持向量机分类算法[J].计算机应用,2016,36(2):392?396.endprint