云计算Hadoop平台的异常数据检测算法研究
2017-08-30黄富平梁卓浪邢英俊杨春丽
黄富平,梁卓浪,邢英俊,杨春丽
(广州珠江职业技术学院 信息技术学院,广州 511300)
云计算Hadoop平台的异常数据检测算法研究
黄富平,梁卓浪,邢英俊,杨春丽
(广州珠江职业技术学院 信息技术学院,广州 511300)
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性;针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法;采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决;通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。
云计算;大数据;异常数据;Hadoop平台
0 引言
近年来 ,随着我国互联网技术与建设的飞速发展,网络已成为经济建设过程中必不可少的组成部分。实物数据化运算技术的诞生,标志着大数据时代的到来。在大数据时代下,多种数据的海量处理分析运算,将依托强大的网络传输能力与多架构的云计算Hadoop平台来完成。众多数据在云计算过程中,经常出现数据异常的状况[1-2]。因此,快速有效的检测出这些异常数据,成为提升云计算Hadoop平台运算力的重中之重。
现有的云平台异常数据检测机制所采用的逻辑算法,在海量数据流共涌状态[3]下,数据链会发生逻辑性断裂[4],导致数据携带信息源改变[5],整体数据组完整性遭到破坏,致使云计算逻辑出现异常、运算力降低、空间数据滞留[6],前端服务器数据溢出的严重后果。针对上述问题,对现有的异常数据检测逻辑进行改进,提出云计算Hadoop平台的异常数据检测算法研究方法。利用Hadoop平台作为异常数据检测组的运行平台,采用JNS数据采集筛查模组对前端服务器交互过程中的数据进行数据异常预检处理,自动屏蔽外围异常数据,提升数据有效性;通过算法逻补偿模组对云端计算引擎进行动态监测算法植入处理,达到实时屏蔽异常数据与数据补偿的效果;最后,利用动态反馈模组对运算后输出结果数据进行数据异常检测,对隐性异常数据进行深度检测,快速反馈结果并对其进行输出拦截,保证运算输出结果的准确性。
通过仿真实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。满足设计研究改进要求。
1 云计算Hadoop平台的异常数据检测算法研究
1.1 JNS数据采集筛查模组构建
大数据运算空间内,云端计算平台负责海量数据的综合性运算分析处理,云端计算平台的架构性质决定其运算能力的大小与适应性的强弱。近年来,Hadoop平台成为云计算Hadoop平台中的主流运算架构,其具有分布式运算方式,大大降低的平台对硬件的要求,同时可以快速对运算数据进行外围数据的特征分析处理,大大提升力云端计算平台的处理能力[7]。
但是,分布式运算方式存在的数据检测性低的问题,导致海量数据冲击前端服务器状态下,架构稳定性降低,云端运算力受到影响。针对Hadoop平台的分布式运算特点,提出的云计算Hadoop平台的异常数据检测算法研究方法中对前端数据采集服务器进行针对性改进设计,采用构建JNS数据采集筛查模组,针对性解决前端数据采集服务器在数据共涌冲击下出现的架构稳定降低所带来的一系列问题。
JNS数据采集筛查模组在设计上,针对云计算Hadoop平台的分布式特点,采用分段逻辑式形式编写,利用分段式运算逻辑式对前端服务器的数据交互采集访问端口、访问协议、数据流进行针对性改进,通过JVSP端口控制算法对访问端口进行全天候实时扫描,到达异常数据快速反馈的目的,通过分段式中的逻辑组式,动态激活NDWF访问协议控制式,对访问协议进行动态检测捕捉,捕捉到异常数据反馈链后,自行对协议进行相应异常数值参数调整,同时激活SBDN数据流平检算法,对服务器内的数据流进行外核数据特征化异常检测,利用Hadoop平台的分布式特点,达到瞬态完成检测的目的。快速、准确的屏蔽前端服务器内的特征异常数据。
JNS数据采集筛查模组中的JVSP端口控制算法、NDWF访问协议控制式、SBDN数据流平检算法与逻辑组式的具体分段式如下所示。
JVSP端口控制算法关系式:
(1)
JVSP端口控制算法关系式中,a为访问节点集合公用端口系数;b为访问节点专用端口系数;n为公用端口地址集;i为专用端口地址集;s为共用端口映射数量;ϖ为有效端口数;x抑制端口数;x′为可控的抑制端口数,其满足x′∈x,x≠0。
NDWF访问协议控制式关系式:
(2)
NDWF访问协议控制式关系式中,v为访问协议逻辑畅通等级系数;y为访问协议中起始地址数;z为访问协议中终止地址数,其满足z-y≠0,z>y,z≠y。关系式中,协议段范围由前端采集服务器子掩码范围决定,子掩码范围由z-y≠0,z>y,z≠y限制得出。
SBDN数据流平检算法关系式:
(3)
SBDN数据流平检算法关系式中,a、b、c、n为数据流内部数据的不同数据核;i为数据流特征化数据源集合,其满足i∈a∈b∈c∈n,a≠b≠c≠n≠0。
逻辑组式关系式:
(4)
逻辑组式关系式中,各算法之间在满足自身限制条件的前提下,还应满足s|m|▷s|L|▷m|t|,在不影像子掩码范围区域的前提下,满足s|m|≠s|L|≠m|t|。
通过上述算法的建立,完成云计算Hadoop平台下的JNS数据采集筛查模组构建,初步解决由异常数据冲击前端服务器导致的架构稳定性降低,云端运算力滞后的问题。
为了验证JNS数据采集筛查模组在现实环境下的运行效果,采用仿真模拟实验对JNS数据采集筛查模组进行测试,才是采用数据对比方式,对传统算法与JNS数据采集筛查模组进行不间断24小时测试,随机抽取1小时、4小时、6小时、10小时、16小时、18小时、23小时的各项测试数据进行对比,并做出结论,具体测试数据如下表所示。
表1 JNS数据采集筛查模组前端服务器异常数据检测性能测试表
表2 传统算法前端服务器异常数据检测性能测试
通过上述表1与表2的测试数据对比,可以清晰地看出,提出的云计算Hadoop平台的异常数据检测算法研究方法中的JNS数据采集筛查模组具各项性能指标远远优于传统算法,充分证明JNS数据采集筛查模组具有良好的前端服务器异常数据预检能力,为后续的算法逻补偿模组的进一步处理奠定了基础。
1.2 算法逻辑补偿模组构建
云计算Hadoop平台中核心云算部分在于网络云端架构内部的运算逻辑,内部逻辑组的架构组数辐射范围的大小,决定了云计算能力与适应力的大小。现有的云端计算逻辑架构由于与内部逻辑链架构严谨性欠佳,多次序数据核冲突状态下极易造成逻辑次序混乱,运算力降低甚至出现计算错误的严重问题。通过对现有架构内部的分布式计算逻辑的分析发现,双次序化整编逻辑序列能够有效解决现有的云端计算架构逻辑存在的问题。为此,提出的云计算Hadoop平台的异常数据检测算法研究方法中采用算法逻辑补偿模组对云端计算架构内部的逻辑错误进行修正。
算法逻辑补偿模组通过分布式计算方式,利用逻辑序列替换方式,通过内部的NDS数据序列异常检测算法、NWI逻辑特征定位算法与BUD逻辑补偿算法对云端计算架构内部逻辑架构进行异常数据检测。同时,通过逻辑补偿达到保证云端计算力与计算准确性的的目的。
1.2.1 NDS数据序列异常检测算法
NDS数据序列异常检测算法是算法逻辑补偿模组中的初级检测性算法,基于JNS数据采集筛查模组运算处理架构设计。用于云端计算架构内部逻辑架构中的错误查源处理,由JNS数据采集筛查模组反馈数据表触发激活,对云端架构中的逻辑架构序列正确性进行次序集运算,当逻辑架构中某一次序阵携带的数据源为异常数据时,逻辑架构的排列次序会受到影响而改变原始逻辑排列次序,致使逻辑序阵错位,NDS数据序列异常检测算法能够快速识别错误序阵,精准回查定位异常数据进行锁定,完成异常查源处理。
NDS数据序列异常检测算法关系表达式采用Hadoop平台内核架构进行编写,保证算法对平台的兼容性,同时,便于算法运行过程中获得所需运行权限,算法关系式如下所示。
(5)
NDS数据序列异常检测算法关系表达中,a,b,c,d为云端架构中的逻辑架构内部次序阵,其排列顺序由逻辑架构决定,受对应数据性质影响,且满足a≠b≠c≠d;当a,b,c,d中任意一值为0时,则代表逻辑架构出现断裂,云计算准确性失常;n为回查定位的异常数据代码值,n为任意数值,当n=0时,代表逻辑架构次序无异常。
对NDS数据序列异常检测算法可行性进行仿真测试,采用连续性异常检测验证方式,对传统算法与NDS数据序列异常检测算法的异常数据定位性能进行对比,为了直观展现测试结构,测试将结果转换为曲线图进行对比,具体数据如图1所示。
图1 传统算法与NDS数据序列异常检测算法的异常数据定位性能进行对比
通过上述测试结果曲线对比可以充分证明,NDS数据序列异常检测算法具有良好异常序列识别能力,同时,能够快速准确的追踪定位异常数据源,并对其定位,满足设计改进要求,具有可行性、可操作性。
1.2.2 NWI逻辑特征定位算法
NWI逻辑特征定位算法为NDS数据序列异常检测算法的定位辅助算法,用于对异常序列进行特征化分析运算,辅助定位异常数据源路径。通过算法对等性原则,利用分布式运算框架设计编写,列于NDS数据序列异常检测算法内核的二级菜单,通过算法逻辑自行触发调用。NWI逻辑特征定位算法不具备独立运行能力,通过对其进行二级权限设定,使其安全性大大提升,避免运行过程中受到冲击数据与错误逻辑影响,导致的异常数据定位执行异常的问题。NWI逻辑特征定位算法的执行权限可直接通过NDS数据序列异常检测算法获取权限下放方式获得,提升权限获取的稳定性。
NWI逻辑特征定位算法根据算法对等性原则,采用触发式形式,达到与NDS数据序列异常检测算法内核执行性的统一,具体关系式如下所示。
(6)
NWI逻辑特征定位算法关系式中,x为异常逻辑架构内部的错误序列集合;a,b,c,d为云端架构中的逻辑架构内部次序阵,其排列顺序由逻辑架构决定,受对应数据性质影响,且满足a≠b≠c≠d,a∉b∉c∉d∈x;当a,b,c,d中任意一值为0时,则代表逻辑架构出现断裂,云计算准确性失常;n为回查定位的异常数据代码值,n为任意数值,且满足x⊂n,当n=0时,代表逻辑架构次序无异常。
对NWI逻辑特征定位算法进行异常数据回查定位准确性仿真测试,测试采用15组异常逻辑架构进行测试,每组异常逻辑对应异常数据数量为1 000 000 kb,对比传统算法与NWI逻辑特征定位算法15组测试数据的准确率,具体测试参数如下表所示。
表3 传统算法与NWI逻辑特征定位算法异常数据回查定位准确性测试
通过上述表3数据可以证明NWI逻辑特征定位算法具有良好的异常数据定位能力,异常数据运算分析处理准确性高、稳定性好,整体性能明显优于传统算法,满足设计要求。
1.2.3 BUD逻辑补偿算法
算法逻辑补偿模组中针对云计算架构内部逻辑架构在异常数据冲击下产生的逻辑架构断裂,致使云计算架构运算力降低以及瘫痪的问题,采用BUD逻辑补偿算法进行针对性解决。BUD逻辑补偿算法可对遭到破坏的逻辑架构进行断裂逻辑链补偿处理,通过对逻辑架构内的次序阵的特征进行运算处理,还原断裂逻辑链位置的次序阵,达到抑制异常数据冲击造成的运算逻辑混乱问题。
为了达到实时瞬态补偿效果,BUD逻辑补偿算法采用触发式关联补偿式的双重关系式的方式进行编写。触发式作为引导主体与NWI逻辑特征定位算法进行内部进程注入绑定,到达异常数据定位的同时,完成逻辑断裂位置的补偿引导运算处理,第一时间抵消数据滞留带来的问题。BUD逻辑补偿算法触发式关系式如下所示。
(7)
BUD逻辑补偿算法触发式关系式中,a′,b′,c′,d′为云计算架构内部逻辑架构断裂位置的次序阵,其满足以下条件,a′≠b′≠c′≠d′,a′⊄b′⊄c′⊄d′,当a′,b′,c′,d′中任意一值为0时,则代表逻辑架构完整,无异常数据出现;关系式中n为引导次序阵特征补偿集合;T为触发激活系数值。
BUD逻辑补偿算法补偿式关系式如下所示。
(8)
BUD逻辑补偿算法补偿式关系式中,a,b,c,d为云端架构中的逻辑架构内部所需补偿次序阵,其补偿顺序由异常数据对应逻辑顺序决定,受对应数据性质影响,且满足a≠b≠c≠d。
对BUD逻辑补偿算法进行仿真实验测试,测试采用对比方式,通过对传统算法与BUD逻辑补偿算法在异常数据检测过程中的逻辑补偿效果进行对比,具体仿真实验测试参数如表4所示。
表4 传统算法与BUD逻辑补偿算法异常数据检测过程中逻辑补偿效果测试参数
通过上述表4结果对比可以证明,BUD逻辑补偿算法在异常数据检测过程中,针对云计算架构内部逻辑架构断裂的补偿处理,具有响应时间快、处理迅速、补偿准确性高、稳定性好的特点,满足设计要求。至此,算法逻辑补偿模组构建完毕。
1.3 动态反馈模组构建
针对传统云计算Hadoop平台存在的异常数据检测完成度与准确度不高的问题,通过对传统云计算Hadoop平台内部架构逻辑机制分析发现,传统云计算Hadoop平台对异常数据检测机制缺少计算异常核准模组,致使处于隐性异常数据逃避检测,导致最终计算数据处理误差,云计算Hadoop平台的整体计算准确率骤降。
针对上述问题,提出的云计算Hadoop平台的异常数据检测算法研究方法中采用动态反馈模组进行针对性解决。动态反馈模组由DGX动态检测算法与GRS数据反馈算法构成,分别负责云计算Hadoop平台计算数据结果数据状态与异常结果数据的反馈处理。
DGX动态检测算法与云计算Hadoop平台计算输出进程进行绑定,与云计算Hadoop平台共享运行权限的同时有效节省平台运行的资源开销。DGX动态检测算法关系式如下所示。
(9)
式中,x,y,z为云计算结果数据序列结合组数;n,i分别为异常数据数量与异常数据特征数;其中,x,y,z与n,i满足x≠y≠z,i∈n,n≠i。
GRS数据反馈算法关系式如下所示。
(10)
至此动态反馈模组构建完毕,为了保证动态反馈模组具有可行性,对其进行仿真模拟测试。测试采用全天候24小时连续性测试方案,提取每小时的测试数据,观察数据变化趋势,以此得出动态反馈模组运行稳定性与可行性,具体测试参数如下所示。
表5 动态反馈模组性能测试
通过上述表5可以看出,动态反馈模组在连续性测试中数据变化浮动小,充分证明提出的云计算Hadoop平台的异常数据检测算法研究方法中,采用的动态反馈模组具有良好的异常数据检测能力,同时运行资源开销小,稳定性好,满足设计要求。
2 实验结果与分析
对提出的云计算Hadoop平台的异常数据检测算法研究方法进行仿真实验测试,通过与传统云计算平台异常数据检测算法进行整体性能对比,得出测试结论,测试平台配置为Windows 10 硬件配置为CPU i7 内存8 G 硬盘6 TB,具体测试参数如下所示。
表6 云计算Hadoop平台的异常数据检测算法与传统异常数据检测算法对比测试
分析该实验结果,即通过上述表6可以充分证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据检测识别度高、检测响应时间短、检测准确率高、稳定性好、资源开销小的特点。从问题产生根源彻底解决传统云计算平台存在的数据逻辑错误、数据链完整性缺失、数据失效导致的云计算Hadoop平台数据运算准确性与运算力降低的问题。
3 结束语
针对传统云计算平台异常数据检测算法在海量数据异常涌入状态下,出现数据逻辑错误、数据链完整性缺失、数据失效的问题,提出云计算Hadoop平台的异常数据检测算法研究方法。通过采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决。通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点,满足日常工作处理要求。
[1]李进文.基于云计算的网络异常检测算法研究[D].郑州:郑州大学,2015.
[2]司福明,卜天然,SIFuming,等.一种基于Hadoop云计算平台大数据聚类算法设计[J].楚雄师范学院学报,2016,31(3):9-12.
[3]肖体伟.基于Hadoop的云端异常流量检测与分析平台[J].电子技术应用,2015,41(5):116-118.
[4]杨 静.大型云计算信息系统的异常数据检测模型仿真[J].计算机仿真,2015,32(11):378-381.
[5]于红岩,岑凯伦,杨腾霄.云计算平台异常行为检测系统的设计与实现[J].计算机应用,2015,35(5):1284-1289.
[6]马 超,程 力,孔玲玲.云环境下SDN的流量异常检测性能分析[J].计算机与现代化,2015,10(10):92-97.
[7]何高攀,杨 桄,孟强强,等.基于图像融合的高光谱异常检测[J].电子设计工程,2016,24(2):165-168.
Cloud Computing Hadoop Platform of Abnormal Data Detection Algorithm Research
Huang Fuping,Liang Zhuolang,Xing Yingjun,Yang Chunli
(Guangzhou Pearl River Vocational College of Technology, Information Technology Academy, Guangzhou 511300,China)
In recent years, with the rapid development of Internet technology in our country development of further research and large-scale network computing platform, YunPing audience data processing, has become the main way of massive data. However, the existing cloud computing platform in abnormal huge amounts of data into state, often appear logical error, loss of data link integrity, data, solve the problem of a can to effectively detect the abnormal data processing, seriously affect the accuracy of cloud computing platform data operation. According to the above problem, a Hadoop cloud computing platform of abnormal data detection algorithm research methods. By screening JNS data collection module, the algorithm logic compensation module and dynamic feedback module to the existing problems of cloud computing platform, targeted to solve. Through the simulation experiment proves that the Hadoop cloud computing platform of abnormal data detection algorithm research method, has high recognition rate anomaly data, high accuracy, fast speed, strong practical, good stability characteristics.
cloud computing; big data; abnormal data; hadoop platform
2017-03-28;
2017-05-05。
2014年度广东省广东教育教学成果奖(高等教育)培育项目。
黄富平(1982-),男,广西贵港人,讲师,主要从事云计算与大数据算法方向的研究。
1671-4598(2017)07-0260-04
10.16526/j.cnki.11-4762/tp.2017.07.065
TP301
A