APP下载

云计算环境下频繁出现异常数据挖掘方法研究

2017-03-29廖慧惠

赤峰学院学报·自然科学版 2017年3期
关键词:误差率概率模型计算环境

马 宁,廖慧惠

(1.安徽广播电视大学,安徽 合肥 230022;2.安徽工业经济职业技术学院,安徽 合肥 230051)

云计算环境下频繁出现异常数据挖掘方法研究

马 宁1,廖慧惠2

(1.安徽广播电视大学,安徽 合肥 230022;2.安徽工业经济职业技术学院,安徽 合肥 230051)

近年来,随着时代的发展以及科学技术的进步,使得人类逐渐步入到网络信息时代.在这样的背景之下,计算机日益发展并在社会生产、生活过程中获得了广泛的运用.事实上,在云计算的环境之下,各类的商业数据资料往往以分布式的形式进行储存,而常规的数据挖掘模式无法对各类数据进行分布式挖掘.在这种情况下,如何促进这一问题的解决成为了相关部门亟待解决的问题.本文基于此,分析探讨云计算环境下频繁出现异常数据挖掘方法.

云计算;网络环境;频繁出现;异常数据;挖掘方法

目前,传统挖掘算法无法对云计算的环境下出现异常数据进行有效的识别以及量化,故而导致异常数据挖掘误差大等问题的出现.基于这一现状,相关的部门加强了对于混沌算法的改进,并逐步融合了偏最小二乘法,实现了异常数据的清洗以及无量纲化处理,实现了对于诸类问题的有效解决.本文基于此,分析探讨如何实现对于云计算环境下频繁出现异常数据的挖掘.

1 云计算环境下频繁出现异常数据的挖掘流程

目前,技术人员在对云计算环境下频繁出现异常数据进行挖掘、处理操作的过程中,往往需要加强对于源数据集合的确定,并在此基础之上加强对于频繁出现异常数据分布、概率模型的构建.随后再借助不一致性的检验方法对频繁出现异常数据数目进行确定,最后对异常数据进行有效的挖掘.关于该挖掘过程的具体流程,笔者进行了相关描述,具体内容如下.

1.1 构建异常数据的概率模型

在进行云计算环境下频繁出现异常数据的挖掘过程中,需要技术人员首先进行异常数据的概率模型的构建.在实际的操作过程中,为了确保模型的科学性,需要假设数据空间的每一维都会被分成Ψ个等深度区域.关于概率模型的计算方式,具体内容如下:

在上述的计算方式中,Ψ0指的是数据传送方向性系数;β指代的则是数据的稳态权向量;f0则是数据频移特征.

1.2 挖掘频繁出现异常数据

在进行云计算环境下频繁出现异常数据的挖掘作业过程中,技术人员需要构建起后频繁出现异常数据挖掘的计算方程式,并用S(D)表示.关于频繁出现异常数据的挖掘公式,笔者总结如下:

在上述的公式中,N*指的是异常数据的抽样概率分布参数;而fk指代的则是异常数据归一化的时间向量.

通过分析可以得知:借助上述的公式进行云计算环境下频繁出现异常数据的挖掘,虽然能够促进这一作业的有效开展,但是还是存在着挖掘不准确、误差大的问题.基于此,需要相关的技术人员加强对于混沌算法的改进,优化挖掘方法.

2 优化云计算环境下频繁出现异常数据挖掘的措施

前文提到,传统的数据挖掘方法在操作的过程中无法对频繁出现的异常数据进行具体的量化,故而导致数据挖掘工作在开展的过程中存在着较大的误差.为了有效地避免这一问题的出现,需要相关的技术人员加强对于云计算环境下频繁出现异常数据挖掘的优化.目前,技术人员最为常用的优化方式就是改进混沌算法.对此,笔者进行了相关的总结,具体内容如下.

2.1 异常数据回归方程的组建

在这一环节中,需要技术人员加强云计算环境下的数据源与偏最小二乘法的融合.其后在此基础之上,加强对于数据的清洗以及无量纲化处理.一般而言,通过这一措施的采取,能够获得标准性较高的数据矩阵以及维向量.事实上,这两个数值分别表示频繁出现的异常数据预测变量以及决定因素.最后需要以此为基础实现对于主成份的分析提取,并带动云计算环境下数据源的线性回归方程的构建.关于异常数据回归方程的组建具体流程,需要技术人员将数据源与偏最小二乘法进行有效的融合,并进行原始数据的清洗以及无量纲化处理.

2.2 计算标准化数据矩阵以及维向量

在进行标准化数据矩阵以及维向量的计算过程中,需要按照下述的公式进行相关的操作.

3 云计算环境下频繁出现异常数据优化挖掘的实现

通过上述的分析,相关人员能够得到云计算环境下数据源的回归方程,并在此基础之上引进混沌算法,实现对于数据源时间中相邻两个点间斜率的计算,此后再将这一计算结果与混沌算法预测的斜率进行比较,实现对于云计算环境下频繁出现异常数据的挖掘.

在这一过程中,首先需要计算出数据源时间序列相邻两点之间的斜率,并将计算所得的数值与预测值进行对比.其实际的操作流程就是在数据源的D维空间中进行搜索,并对各数据的时间序列进行确定,各时间序列分别用:Xi1、Xi2、Xik表示.在进行斜率计算的过程中,需要技术人员按照下述的方程式进行相关的操作:

此外,笔者还对混沌算法的预测斜率的计算方式进行了总结,具体内容如下:

在此之后,技术人员需要加强对于频繁出现异常数据最小均方差的计算,事实上,通过这一分析能够实现对于频繁出现的异常数据的确定,并为挖掘作业提供最终的依据.最后,技术人员需要利用如下的方程式,对云计算环境下频繁出现的异常数据进行计算.

在上述的方程式中,如果F*[a...b,c]≤0,则说明b指的是云计算环境下频繁出现异常数据,若F*[a...b,c]≥0,则说明b不是频繁出现异常数据.

通过对于上述的流程进行分析可以得知:在进行云计算环境下频繁出现异常数据的挖掘作业的过程中,相关的技术人员借助混沌算法对挖掘算法以及流程进行改进,往往能够促进挖掘作业的误差率的降低以及精确度的提升,促进该工作的有效开展.

4 仿真证明

为了进一步验证基于改进混沌算法的云计算环境下频繁出现异常数据挖掘作业的效率的提高,笔者对此进行了相关的实验验证.在操作的过程中主要借助挖掘仿真平台进行相关作业.据悉,该平台的各项参数为:INtelcore i5处理器,主频2.8GHZ,4G内存,windowsXP专业版32位sp2操作系统.在实际的操作过程中,实验所用的数据均来自于互联网采用,在数据运用的过程中,主要采用随意抽取的方式进行相关操作.最后利用改进算法和传统算法对这些数据中频繁出现的异常数据进行挖掘.

在仿真证明操作的过程中,笔者主要借助传统的数据挖掘方法以及基于混沌算法数据挖掘方法的对比试验进行相关的操作.在对比试验的过程中,主要对算法挖掘的精确度、误差率以及可靠度进行对比.

通过对于两种数据挖掘技术的数据分析可以得知:借助传统的挖掘方法进行数据挖掘操作的过程中,其挖掘的精确度、误差率以及可靠度分别为:74%、0.5%以及73%;但是随着基于混沌算法的异常数据挖掘的精确度、误差率以及可靠度分别为:96%、0.1%以及97%.总体而言,这种技术的改进以及发展,促进了异常数据挖掘工作的精确度以及可靠度得到了不同程度的提升,而误差率则大大减小.基于此,可以得知这种方法在运行的过程中要远远优于传统算法.

5 结语

本文基于此,主要分析了云计算环境下频繁出现异常数据的挖掘流程:首先构建异常数据的概率模型以及挖掘频繁出现异常数据.其后,对优化云计算环境下频繁出现异常数据挖掘的措施(异常数据回归方程的组建、计算标准化数据矩阵以及维向量)展开了论述.最后对云计算环境下频繁出现异常数据优化挖掘的实现以及仿真证明进行了论述.笔者认为,随着相关措施的落实到位,以及相关技术的不断发展,云计算环境下频繁出现异常数据挖掘方法必将获得长足的发展,并以此为基础促进相关作业的有序进行,带动了相关效益的取得.

〔1〕饶翔,王怀民,陈振邦,周扬帆,蔡华,周琦,孙廷韬.云计算系统中基于伴随状态追踪的故障检测机制[J].计算机学报, 2012(5):856-870.

〔2〕李德仁,姚远,邵振峰.智慧城市中的大数据[J].武汉大学学报(信息科学版),2014(6):631-640.

〔3〕任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述[J].软件学报,2014(9):1909-1936.

〔4〕李洁,许鑫,陈宇,张丁文.模拟DDoS攻击场景下的云取证模型的研究[J].信息网络安全,2015(6):67-72.

〔5〕洪斌,邓波,彭甫阳,包阳,冯学伟.基于PCA降维的云资源状态监控数据压缩技术[J].计算机科学,2016(8):19-25.

〔6〕迪莉娅.基于云计算的电子政务大数据管理研究[J].图书馆理论与实践,2013(12):49-52.

〔7〕黄守明,张红莉.基于云计算模式下的Apriori算法研究[J].铜陵学院学报,2013(3):106-108+116.

〔8〕严骏.基于云计算的海量数据挖掘研究[J].信息与电脑(理论版),2013(4)4:110-111.

TP311

A

1673-260X(2017)02-0031-02

2016-12-10

安徽省高校优秀青年人才支持计划重点项目支持(gxyqZD2016454)

猜你喜欢

误差率概率模型计算环境
云计算环境下网络安全等级保护的实现途径
在精彩交汇中,理解两个概率模型
生化检验全程中质量控制管理方式及应用意义
降低评吸人员单料烟感官评分误差率探讨
大数据云计算环境下的数据安全
无线传感器网络定位算法在环境监测中的应用研究
电工仪表测量中容易忽略的几个问题
云计算环境中任务调度策略
一类概率模型的探究与应用
云计算环境下的知识管理系统体系结构探讨