APP下载

基于云框架直方图的无线传感网络数据异常检测方法*

2022-10-19田洪生仝军吴翠红

传感技术学报 2022年7期
关键词:直方图传感样本

田洪生仝 军吴翠红

(1.长春信息技术职业学院 计算机学院,吉林 长春 130103;2.长春电子科技学院 机电工程学院,吉林 长春 130000)

随着传感技术与通信技术的迅速发展,具有计算功能、感知功能与通信功能的无线传感器网络逐渐拥有了更为广阔的应用空间。作为物联网的重要组成部分,被广泛应用于环境监测、智慧医疗、智能家居等领域[1]。

无线传感器网络综合运用分布式信息处理技术与传感器技术,通过实时监控、数据采集与感知来挖掘所需的信息,同时对这些信息进行系统性处理,以便作出适用的决策。但是无线传感网络属于一种易受监听和干扰的开放系统[2],且在现实环境中,传感器故障或者环境因素的突变极易导致传感器网络中的部分采集数据出现异常[3]。此外,在实际应用中,传感器网络中的节点在功率、带宽等方面存在的固有局限性非常容易导致网络遭到恶意程序的破坏,从而影响数据集的完整性和可靠性。因此,不论是对外部突发异常的预警,还是对传感器网络自身的状态监控,实时检测传感网络数据的异常都具有非常重要的意义。

为此,文献[4]提出一种基于深度信念网络的高维传感器数据异常检测算法。其首先利用深度信念网络提取高维数据特征,并检测降维后的数据异常。然后结合的1/4超球面支持向量机(Quarter-Sphere Support Vector Machine,QSSVM)与滑动窗口模型实现了在线式异常检测。文献[5]针对广播式自动相关监视(Automatic Dependent Surveillance-Broadcast,ADS-B)数据提出了一种异常数据检测模型。在利用双向门控循环单元(Bidirectional Gated Recurrent Unit,BiGRU)神经网络预测数据的基础上,对预测值和实际值作差,并将差值放入支持向量数据描述(Support Vector Data Description,SVDD)训练,获取能检测异常数据的超球体分类器,然后通过选择合适滑动窗口保证异常检测的准确率。文献[6]中针对光纤通信网络,基于数据挖掘过程设计了一种异常数据检方法。该方法在分类数据样本属性的基础上,根据异常数据特征密度指标选取邻域区间半径,然后通过对高阶统计量的大数据聚类度循环迭代,并优化特征提取参数,由样本属性概率计算熵目标函数的最优值,并利用最优值完成异常数据检测。

国外学者也针对数据异常检测展开了研究。文献[7]中考虑了未知概率分布下的数据异常问题,提出了一种结合基于拟生成对抗网络的异常检测方法。其在训练逆生成对抗网络时,将数据转换为经典的均匀与非均匀假设检验问题。文献[8]中设计了一种基于物理定律的边缘传感器节点实验数据异常检测方法。该方法在检查不同种类型的传感器测量值之间的自然关系的基础上,检测传感节点中是否存在任何数据异常。

为了提高无线传感网络环境的安全性、防止信息被窃取或攻击,本文提出一种基于云框架直方图的无线传感网络数据异常检测方法。

1 云框架下无线传感器网络数据异常检测研究

1.1 构建网络数据分类云模型

云模型以高斯函数作为基础,以熵值En(σ)、期望值Ex与超熵He这三种向量特征进行表述。其中,Ex能够描述论域的中心值,En(σ)可描述为信息模糊程度,超熵He为数据离散程度。

通过分类云模型能够得到模型内所有数据种类i的分类函数,通过一维云模型对所有数据属性j进行建模。这个流程获得的三个数字特征分别为超熵Heij、熵值Enij(σij)与期望值Exij,这三种值能够使Hij=0,数据种类i的属性j的建模结果为:

式中:x代表数据种类i的属性j的随机数值,Exij代表数据种类i的属性j的中心值,Enij(σij)代表数据种类i的属性j的熵值集合中的元素,Aij代表论域内随机一种属性值x的隶属度值。

在数据挖掘的工作中开展异常检测,其任务是发现与常规数据模式显著不同的数据模式,亦可将异常检测认为是一种对新模式的发现。若数据种类i的分类函数通过高维云模型进行描述,模型维数由数据种类的属性总量评定,就是所有属性的一维云模型构成数据种类i的高维分类模型,这时D维的分类模型可以表示为如下形式:

1.2 利用信息熵初步判断传感网络中是否存在异常数据

根据云模型的信息熵可以判断网络中各分段聚合数据的稳定性[9],从而判断网络的混乱程度。网络越混乱,其中所包含的信息也就越多,熵值会越高;反之,熵值就会越低。在信息理论中,信息熵主要通过数值公式表示取值的不确定程度,其目标为刻划信息总量,并采用SMOTE与ENN对少数类样本进行过采样解决不平衡问题,再对网络流量数据的特征进行归一化。

本研究在香农公式内,加入信息熵以衡量数据样本内的分散与集中程度,数据样本X={ni,i=1,…,N}代表检测数据内样本i出现了ni次,那么信息熵拟定如下所示:

考虑到数据样本序列的密集与稀疏程度和样本之间空间与时间距离没有关联,只与数据样本值的异同状态有关,那么可以假设:对两种数目相等的样本序列X与Y进行描述,X可代表1单位时间的数据样本序列,Y代表2单位时间的数据样本序列。当二者内每个样本值都不同,且都达到了最稀疏状况,就能够认定这两种数据样本序列的分布稀疏程度相同。

根据上述设定,将连续数据包内随机特征的序列值当作数据样本计算特征熵值,依靠该熵值描述数据特征样本序列的密集与稀疏程度。

由于无线传感器网络数据为细粒度的包数据,而不是粗粒度的流数据。因此,本文通过固定的细粒度包数W当做数据包间隔来计算数据信息熵值。然后基于数据包间隔计算数据内某个特征的熵值,从而精确反映该特征样本序列的密集与稀疏程度。

在使用数据包间隔计算样本数据熵值的过程中,数据包内样本的总量W是一种可调节参数,该参数控制着特征短时内变化状态,其值与链路带宽的负载存在关联,提高W就会减少熵的变化,从而缩减检测的误差率,但W在原则上需要尽量减小,可以使异常数据能够被尽快检测出来。因此,本文拟定值为W=6 000。流量为分秒级别,这是因为在检测过程中,最小延迟只需要分秒级别。在对熵值进行计算时,需要计算连续的S个包的熵,然后转移到下一个临近的S个包计算其相应熵值。

以信息值作为无线传感器网络数据检测阈值,如果超出该阈值就代表传感网络中数据分布较为混乱,证明其中可能存在异常数据。

1.3 基于云框架直方图的异常数据检测

无线传感网络是由多个小型传感器分布式组成的,受到噪声、接收信号强度、入侵攻击等开放性因素的影响,无线传感网络中的数据并不总是可靠的[10]。为了减少误报,需要对这些数据进行异常检测[11]。

针对无线传感器网络数据,以往的串行运算很难满足检测的实时性需求。本文利用云框架下的直方图来对其中的异常数据展开检测。

1.3.1 直方图数据属性信息映射

通过检测指标明确可能存在异常数据的混沌序列,但是不代表其中都含有异常数据,多数都是由于数据过于冗杂产生的分布混乱现象。为此,在简单统计字节数与数据包的基础上,构建数据时间序列的关联模型,分析目标序列集合混乱趋势,明确无线传感器网络数据间的自相关性,然后使用直方图实现数据异常检测。在这一过程中,根据对数据分布特征的分析结果,明确异常数据的具体位置。直方图根据信息熵阈值的动态设定情况,结合细粒度的检测数据信息,继而找出更多没有引起明显异常变化的数据异常。

在利用云架构直方图检测数据异常时,根据不同的数据特征构建直方图,映射数据在某个维度内的分布状况。其中,直方图的横坐标代表某数据特征,一般表示为目标IP、端口或TCP标志位等,纵坐标代表通过维度内的网络数据,构建源IP地址的数据直方图,横坐标为IP地址取值,具有n个部分,ci代表第i个部分相应的IP地址范围中,数据包的大小,i∈[1,2,…,n],那么该直方图能够通过向量C=(c1,c2,…,cn)进行描述。对直方图算法供给的数据分类理念上,依靠分布特征的变化对比熵阈值来检测信息属性数据是否存在异常数据。

检测方法的第一步是对数据进行统计。首先挑选特征属性,特征属性通常挑选目标IP地址、端口号或TCP标志等常用的数据特征,所有数据特征都需要对应一个函数与一个数组,数组内会存在数据对应的计数器,在一条数据包达到计数器阈值时,使用数据特征对应的函数进行运算,同时映射至相应的数组坐标中,并对相应计算器进行更新。最后利用数组构建直方图C=(c1,c2,…,cn)。

1.3.2 计算数据相似度

拟定两个数据空间Hi、Hj,d(Hi,Hj)代表两个数据空间的距离,d(Hik,Hjk)代表两个数据空间k维属性空间的距离,二者的表达式为:

式中:Exik、Exjk别代表数据空间Hi与Hj的第k维数据属性空间的中心,σik与σjk分别代表两种属性空间的熵。

利用数据空间Hi、Hj表示第k维属性空间的相似度,其通过公式能够描述成:

式中:d(Hik,Hjk)=0,第k维属性对Hi与Hj的分类并不会起到作用,d(Hik,Hjk)≥1,Hi与Hj即两种互不干涉的数据空间,第k维属性能够把两个数据空间分开,0<d(Hi,Hj)<1时,Hi与Hj第k维相交的数据空间,其相似度越大,对检测的作用就越小。

拟定m(m>2)个D维数据空间的距离是:

而m(m>2)个D维数据空间的第k维属性空间距离是:

对存在D种属性的若干种数据空间进行检测时,存在最小相似度的属性对检测的贡献最大,计算数据相似度就能够运算出属性在检测中的权值。

1.3.3 数据异常粗检测

传感网络中的能量消耗大多来自于节点间彼此的通信过程。因此,异常检测的关键是将计算过程分布到各个子级节点中,从而尽可能地降低网络通信需求[12]。在无线传感器网络的通信过程中,异常数据会干扰到网络的正常运行。因此,在计算数据相似度之后,需要对这些数据进行过滤。

假设在数据集合内存在m种直方图,那么元素的数量不超过p×m且高于熵值的数据段被认定为不存在异常数据。一般拟定数据段阈值p=5。具体的粗检测流程如下所示:①按照数据段的大小进行排列,θ→1;②如果满足θ≥p,那么直接就能够认定当前检测数据为异常数据;③如果θ<p,那么重新迭代步骤2;④标记C1,C2,…,Cθ代表异常数据段。

综上所述,数据异常粗流程如图1所示。

图1 数据异常粗检测流程图

1.3.4 数据异常细检测

为了更加精确地检测出数据是否存在异常,本文使用超矩形方法,在粗检测基础上对所有数据段分别运算其不同维度上的取值方位,拟定数据段Ci在维度j内的取值上界是U(Ci,j),下界是L(Ci,j),j∈(1,2,…,m),i∈(1,2,…,k),m代表维数,k代表元素个数,z代表数据段的总数。细检测的具体流程如下所示:①初始化i→1;②初始化上界与下界,U(Ci,j)→I(dk,j),L(Ci,j)→I(dk,j),I(dk,j)代表数据段内元素dk在维度j内的值;③假如k≥|Ci|,那么i→i+1,重新运行步骤(2),反之k→k+1;④假如U(Ci,j)<I(dk,j),那么U(Ci,j)→I(dk,j),假如L(Ci,j)>I(dk,j),那么U(Ci,j)→I(dk,j)。随后运行步骤③重新运算,输出全局最优结果。

在检测时,分别对比预检测数据的所有维度。如果所有维度内的数都在同一个数据段内,那么该数据就是正常数据,反之则判定其为异常数据。

综上所述,数据异常细流程如图2所示。

图2 数据异常细检测流程图

2 仿真分析

为了检验基于云框架直方图的无线传感网络数据异常检测方法的实用性能,设计如下仿真分析过程。

2.1 仿真参数

实验以国际通用的IBRL数据集为对象,其由300个传感器节点的数组组成,数据采样频率为10 s。在IBRL数据集中通过随机的方式加入比例为5%的异常数据,然后再随机抽选其中500 GB的有效数据量完成实验。

2.2 数据归一化趋势分析

在进行数据异常检测前需要对数据实施归一化处理,以达到降低数据冗余的目的,提高检测效率和收敛性。在归一化处理后,以95%为置信区间,对比本文方法的归一化训练曲线与实际训练曲线,结果如图3所示。

图3 归一化训练结果

观察图3可以看出,在设定的置信区间中,本文方法的归一化训练结果基本符合理论归一化处理的大致变化趋势,且一直保持在95%的置信区间内,能够证明所提方法归一化精度高,为后续的异常检测奠定了有效基础。

2.3 对比分析

为避免因实验结果单一而降低其说服力,将基于分布式压缩感知的无线传感器网络异常数据处理方法(文献[3]方法)和基于逆生成对抗网络的数据异常检测方法(文献[7]方法)作为对比,从检测过程耗时、检测误差以及检测能耗的角度,与本文方法共同完成性能验证。

2.3.1 检测耗时分析

分别利用3种方法完成对500 GB数据集中数据异常的检测,记录不同方法的检测耗时,结果如图4所示。

图4 不同方法的数据异常检测耗时对比

通过分析图4能够看出,随着待检测数据量的增加,不同方法的检测耗时也在逐步增加。在数据量达到400 GB时,文献[7]方法的检测耗时达到46 s,之后增幅明显,而文献[3]方法和本文方法的检测耗时增长情况较为平稳。相比之下,本文方法的检测耗时更少,在数据量最大的情况下,其检测耗时最多为41 s,说明本文方法具有检测过程时效性高的应用优势。这是因为本文方法以信息熵为判断指标,针对可能存在异常数据的传感网络环境计算了数据间相似度,通过比较相似度避免拟定过多复杂的检测指标,从而有效缩减了检测耗时。

2.3.2 检测误差分析

在检测耗时情况的基础上,对异常数据样本数量与检测出的异常数据数量作差,再计算差值与异常数据样本数量间的比值,从而获得不同方法的检测误差,结果如图5所示。

图5 不同方法的数据异常检测误差对比

通过分析图5能够看出,随着待检测数据量的增加,不同方法的检测误差也随之增加。但相比之下,本文方法的检测误差线始终处于另外两种方法误差线之下,在数据量最大时,其检测误差也仅为1.2%。而文献[3]和文献[7]方法的最大检测误差分别为2.6%、2.4%,明显高于本文方法的检测误差。这是因为本文方法根据不同数据特征构建云框架直方图,通过比较低的数据间相似度阈值完成数据异常粗检测,在此基础上利用进一步的细检测来保证检测结果的有效性,从而降低了检测误差。

2.3.3 检测能耗分析

在上述分析的基础上,对异常数据检测过程的能耗展开分析,从而进一步验证不同方法的实用性能。实验以不同方法异常数据检测过程产生的能耗占数据中心机房总能耗的百分比为指标,得到实验结果如图6所示。

图6 不同检测方法的能耗占比对比

通过分析图6能够看出,随着待检测数据量的增加,不同方法在检测异常数据过程中的能耗也随之增加,其产生的能耗占数据中心机房总能耗的百分比数值也相应增大。但根据图4中的线段变化情况及其位置可以看出,本文方法的能耗量明显少于两种对比方法,这是因为本文方法分析设计了数据异常粗检测和细检测过程,在不同维度空间内,利用超矩形方法对比粗检测后数据是否处于同一数段,避免盲目搜索,从而降低了检测能耗。

3 结束语

本研究提出一种的基于云框架直方图的无线传感网络数据异常检测方法,利用直方图与超矩形算法,实现对无线传感网络数据异常的粗、细二次检测,使检测结果更加精准有效。但是该方法会对每个网络节点都进行直方图变换,导致网络系统出现小幅度的负载不均衡问题。因此,下一步的研究方向为:在不影响无线传感网络基础性能的同时,引入分布式处理机制完成数据本地化检测。

猜你喜欢

直方图传感样本
新型无酶便携式传感平台 两秒内测出果蔬农药残留
高温光纤EFPI应变传感技术研究及应用
用直方图控制画面影调
规划·样本
硅硼掺杂碳点的制备及其在血红蛋白传感中的应用
微生物燃料电池在传感分析中的应用及研究进展
例析频率分布直方图
中考频数分布直方图题型展示
随机微分方程的样本Lyapunov二次型估计
基于支持向量机的测厚仪CS值电压漂移故障判定及处理