APP下载

基于无线传感网络的通信数据异常检测方法

2022-02-27钱宗斌

辽东学院学报(自然科学版) 2022年4期
关键词:置信区间读数传感

钱宗斌

(安徽工业经济职业技术学院 电气工程学院,安徽 合肥 230051)

近年来,国家对信息产业的大力扶持,使得人们的通信方式发生翻天覆地的变化,无线通信技术大范围普及,无线传感网络应时而生。首先传感网络作为1种新兴的数据采集和通信传输技术,已经被广泛应用在多个领域,并取得了飞速的发展。

随着无线传感网络应用范围越来越广,通信数据的异常检测就显得尤为重要。尤其是发生紧急情况时,例如火灾、天然气泄露等情况,需要及时预警提醒并进行通信传输。由于无线传感网络部署环境的复杂性和多样性,再加上传感器自身参数畸变等因素,导致通信数据会发生异常,为保证及时通信,需对这些异常数据进行检测。

对此,文献[1]针对物联网环境,提出1种通信异常检测系统设计方案。首先,选取IPv6协议为系统硬件提供数据节点和底层数据流交互功能;然后,在数据交互链路层中添加异常数据检测单元,利用异常节点流量识别算法为整个系统提供物联网环境下的异常数据检测功能。文献[2]利用熵目标函数最优化方法实现对异常数据的检测。首先,根据属性的不同将数据进行分类划分,以异常数据特征密度指标为标准,确定相邻2个类之间的半径;然后,对高阶统计量大数据聚类度进行迭代计算,对数据特征提取参数进行优化;最后,利用样本属性概率对熵目标函数的最优值进行计算,并根据最优值的计算结果实现对异常数据的检测。

上述2种算法在传感器采样值差异较大或者故障节点较多时无法实现精准检测,因此,本文从无线传感网络的时间属性角度出发,以分布式检测的方式对整个通信网络进行异常检测,再与其他方法进行对比仿真实验,并以检测率和误报率作为算法的评价指标,最终得出结论,本文方法具有最低的误报率和最高的检测率。

1 基于无线传感网络的通信数据异常检测

传感器在持续运行一段时间后,由于内壁附着层和环境条件的变化,内部参数会发生一定的畸变,导致采集到的数据与实际数据之间出现误差,使通信数据发生异常。异常发生的原因有很多,在特定区域范围内发生的事件称为事件异常[3],由传感器自身故障引起的异常则称之为节点异常或发生异常。

在无线传感网络空间内,参数属性是影响节点能量消耗的主要因素。当无线传感网络故障节点不断增加时,事件检出率会出现下降的趋势。因此,本文从无线传感网络时间序列[4]的角度出发,通过不断改变置信区间的范围,对区间的数据样本波动情况进行分析,实现对通信异常数据的检测。

1.1 构建通信数据时间序列模型

首先,构建无线传感网络通信数据时间序列模型,假设在当前时段通信区间内,共安装n个传感器进行数据采集和通信传输,在底层时间同步机制[5]的作用下,传感器的采集频率和传输频率保持一致。

受传感器节点存储容量限制的影响,当时间序列中的大规模数据处于无限增长阶段时,无法满足其存储要求。因此,本文利用滑动窗口仅对更新后的k个数据进行存储。在传感器采样周期内,将采样数据集定义为R(ti)={r(t1),r(t2),…,r(tn)},其中,t1,t2,…,tn表示传感器节点采样时刻。假设在当前时刻采集到的传感器节点数据为{r(t1),r(t2),…,r(tp)},当产生新的数据r(tp+1)并且为正常数据时,窗口开始逐渐向前滑动,同时更新窗口中的数据,得到{r(t2),r(t3),…,r(tp+1)},其他数据的操作方法相类似。

1.2 时间序列置信区间

对于t时刻下传感器采集到的数据r(t),如何判定其为异常数据,不同环境要具体分析。如果传感器被安装在温差较大的环境中,即使读数发生较大的改变,数据也都认为是正常的;而当传感器被安装在相对稳定的环境中时,很小的波动都有可能存在异常。为了精准分析,本文从置信区间着手,根据数据特点判断其是否为异常数据。

在理想环境下,假设正常数据的区间为[a,b],而异常数据与正常数据之间存在较大的差异,通常体现为样本极值。异常数据对于无线传感网络的通信传输具有不良的影响,而样本的中位数[6]可以很好地抑制这种影响,越靠近中位数的样本数据影响程度就越低,基于此,本文利用中位数来构建枢轴量。

将X1,X2,…,Xn定义为均匀分布在总体X~U(a,b)中,独立存在的同分布[7]样本数据,d为的中位数,X1,X2,…,Xn计算公式为

(1)

式中X[n/2]为样本数据总体数量。

在不确定方差δ的前提下,利用样本方差s计算med(时间序列)的置信区间:

(2)

通过上述计算,可得到枢轴量T:

(3)

式中μ为中位数系数值。

给定1个置信度α,令

(4)

(5)

进一步计算得到置信度为1-α的置信区间:

(6)

式(6)的置信区间是总体样本中位数的1个估计区间,对其作出部分改进,得到如式(7)所示的总体样本估计区间:

(7)

1.3 区间差异度

为了对t时刻下的传感器读数r(t)与窗口数据{r(t1),r(t2),…,r(tp)}之间的关系进行描述,即r(t)与置信区间[L,Z]之间的差异,本文从距离度量[8]的角度出发,利用区间差异度对其进行描述。

区间差异度γ是用来描述样本ri(i)的空间点与置信区间之间的差异程度,计算公式为

(8)

式中:rt(i)为t(i)时刻下的传感器读数;Z、L分别为置信区间的上限和下限;γ为t(i)时刻下,传感器读数与置信区间之间的差异程度,值越大,说明二者之间的差异程度就越高,传感器读数为异常数据的概率就越高。

本文只考虑异常数据比正常数据大的情况,当 异常数据小于正常数据时,需要将式(8)转换为式(9):

(9)

当有异常数据出现时,需判断其为节点异常或时间异常,判断条件如式(10)所示:

(10)

式中:R(t)为判断条件的阈值函数;c(t)为正常工 作的传感器在正常区间范围内读数的期望函数[9];e(t)为正常工作的传感器在异常区间范围内读数的期望函数;ξ为判断条件的主要参考指标,当ξ小于 区间差异度时,即可认定该区间范围内存在异常数据。

综上所述,置信区间和区间差异度实现了样本数据参数估计[10]和计算类间差异度,为接下来的通信数据异常检测做好了基础准备工作。

1.4 通信数据异常检测

由于传感器读数受环境影响较大,在稳定的环境下,rt(i)会有轻微的波动,但当出现异常时,rt(i)会有较大的波动。当满足式(11)条件时,即可认定其为异常数据:

(11)

式中:V(t)为正常工作的传感器在事件区域内读数的数学期望;K(t)为正常工作的传感器在正常区域内读数的数学期望。在自然环境下,K(t)是一个常数。不同环境中的V(t)和K(t)存在一定的差异性,需要根据实际情况确定。

传感器自身参数畸变而导致的故障,使得连续采样时刻下读数可能是相同的,即

rt(i)=rt-1(i)。

(12)

当出现上述2种情况时,即可认定无线传感网络内的通信数据出现异常。

2 仿真实验

为验证本文方法在实际应用中是否同样合理有效,把本文方法与文献[1]、文献[2]中的2种方法进行对比仿真实验。为保证实验的公平性与合理性,引入节点检测率和误报率作为评判指标,衡量3种算法异常数据检测的性能。

正常节点检测率P1(x):

(13)

式中,x为事件节点,Ev为实际正常节点集合。

正常节点误报率P2(x):

(14)

式中,G为事件区间内的所有节点,Er为实际异常节点集合。

异常节点检测率P3(x):

(15)

异常节点误报率P4(x):

(16)

实验的实现平台选择Python 2.7,共安装n个无线传感器,分别安装在32α×32α的区域范围内,将所有传感器的采样频率设置为10 Hz,即△T=0.1 s,Tth=1 s。

在无线传感器节点数量相同的实验环境下,对3种算法的异常通信数据检测性能进行对比,结果如图2所示,图1为实验结果,其中的圆点为通信异常节点,横、纵坐标值均为样本数据。

由图2可知,本文方法正常节点和异常节点检测率取得最高值,正常节点和异常节点误报率结果最低。由此可以说明,本文方法在通信数据异常检测方面有着卓越的性能。这是由于本文方法通过对无线传感网络时间序列属性进行分析,有效避免了因无线传感网络自身节点故障导致算法出现误判的情况,保证算法具有较高的稳定性和精准性。

3 结论

无线传感网络在通信时易受周围环境的影响,产生异常数据,导致通信出现异常,为解决该问题,本文研究了基于无线传感网络的通信数据异常检测方法。该方法从无线传感网络时间序列的角度出发,构建通信数据时间序列模型,采用中位数构建枢轴量,进而构建时间序列置信区间,计算区间之间的差异度,根据计算结果判断其为节点异常还是时间异常,结合无线传感网络异常条件,判定无线传感网络通信数据是否出现异常,实现异常数据检测。通过对比实验,结果表明,本文方法具有较高的检测率和较低的误报率,具备更高的应用价值。

猜你喜欢

置信区间读数传感
《传感技术学报》期刊征订
新型无酶便携式传感平台 两秒内测出果蔬农药残留
Maxwell分布参数的最短置信区间研究
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
IPv6与ZigBee无线传感网互联网关的研究
列车定位中置信区间的确定方法
读数
读数
读数