对于数据驱动的异常检测与预警问题的研究
2021-08-23王子豪
王子豪
(徐州工程学院,江苏 徐州 221018)
制造厂商需要抽样检测流水线上生产的产品,数据公司同样也需要对自己的数据产品质量进行把控。研究数据驱动的异常检测与预警问题,对于生产企业来说可以及时发现产品或数据中的异常,从而修正偏差改善产品质量,提高收益。此外,对于任何的分析,在数据预处理的过程中检测数据中的异常值都是非常重要的一步。异常值会大幅度地改变数据分析和统计建模的结果。数据集中异常值有很多不利影响,会增加误差差异,并降低统计测试的能力。研究数据驱动的异常检测与预警问题,可以降低错误率,提高结果的准确性。
1 判断风险模型
1.1 模型建立
在数据筛选方面通过因子分析的方法对题中所给数据进行筛选。根据已筛选的数据进行高斯分布分析,通过高斯分布进行再一次的筛选,将不满足高斯分布的数据进行剔除,只保留满足高斯分布的数据。
对筛选结果而来的数据,运用Spss 软件对数据进行可视化处理,本文采取绘制箱线图的方法,求解得出结果,根据箱线图所给的范围,找出异常值存在的范围,即确立离群点。将筛选结果导入Excel 中,利用Excel 标选出离群点。
先考虑风险性异常特点,对所筛选出来的离群点通过Excel进行纵向分析,以异常值持续时间为指标筛选出异常值具有持续性特点的离群点。再在此基础上对数据进行横向分析,选取在同一时间出现异常的传感器数量作为指标筛选联动性特点。横向筛选结果的集合与纵向筛选结果的集合取交集,即为风险性异常数据波动。
1.2 模型求解
对数据进行高斯分布处理,根据高斯分布特点,本文发现不符合高斯分布的数据其波动性变化微小,故本题将这些变化微小的数据进行筛选剔除,保留满足高斯分布的数据。
对筛选结果而来的数据,运用Spss 软件对数据进行可视化处理,本文采取绘制箱线图的方法,刻画离群点,将这些离群点在Excel 中标出。
2 异常时刻打分模型
2.1 模型建立
在此前模型的基础上对风险性异常数据进行量化评价方法,本题首先建立评价指标,指标的建立采用窗口分析法,提取窗口中该异常数据与平均值的大小,分析出该窗口的方差、数据变化幅度并将其作为指标,然后建立评价模型,由于本题评价类型较为客观,故选择熵权法进行评价。
2.1.1 利用熵权法确定相关指标的权重
熵权法是一种客观赋权方法。在具体使用过程中,熵权法根据各个指标的变异程度,利用信息熵计算出各个指标的熵权,再通过熵权对各个指标的权重进行修正,由此得出的结果为较为客观的指标权重[2]。
(1)对问题一已筛选得出的风险异常数据进行标准化处理,如下式所建立的负向指标:
(2)求各个指标的信息熵。根据信息论中信息熵的定义,一组数据的信息熵计算公式如下所示:
(3)确定各个指标权重。根据信息熵计算公式,计算得出各个指标的信息熵。通过信息熵计算各个指标的权重,如下式所示:
2.1.2 对风险性异常数据整体量化评价
为了避免权重计算时失去实际意义,采用将某时刻中的某一项指标加权后与全时刻该指标加权后的平均值进行比较。首先计算共计L 的全时刻指标E 量化加权后的平均值,如下式所示:
由于在量化过程中,本题已经确保了量化结果与风险等级正相关,故只需要将第X 个时刻的指标E 与平均值E 作差,并用差值与平均值作比,即可作为该时刻该指标的得分,如下式所示:
求出时刻全部指标的总得分即为该医院最终得分,如下式所示:
最后,用求出的Sx可较为公正且全面的衡量风险异常数据时刻的风险等级,将这L 个时刻所得最终得分降序排列,去排名靠前的五个时刻,通过计算得出具体结果。
2.2 模型求解
建立在问题一筛选出来的数据的基础上,进一步求出这些数据所占的权重。由于这里的权重需要偏客观性,本文采用熵权法求权重。考虑到这些数据均为异常值数据,所以先对数据进行逆向化量纲处理。
在模型建立中选取了均值和方差作为指标,并用Spss 求出该异常编号数据的均值和方差,运用主成分分析法在均值和方差之间提取了均值作为主要分析的成分,筛选出来的5 个异常时刻编号如下:
1929(8:02:15)、1131(4:42:45)、2470(10:17:30)、3082(12:50:30)、941(3:55:15)
对应得机器编号为:3;69;62、74;54;69、84 对处理好的数据进行熵权法求权重,求得平均值、标准差。求解结果如表1 所示。
表1 平均值及标准差求解表
在步骤一、步骤二处理好数据,并求得平均值、标准差之后,本文使用熵权法求解出相应权重,使用Spss 软件求出权重如表2 所示。
表2 熵权法计算权重结果汇总表
权重数据可视化如图1 所示。
图1 权重数据可视化图
Step4:根据以上模型,得出最终5 个异常分值最高时刻对应的异常传感器编号排序如下:
62、74>69>3>54>69、84
3 结论
本文对数据进行筛选与处理,筛选得出的数据通过绘制箱线图,确定异常点的集合,在此基础上再对异常点进行有无风险性判断。本题选取时间间隔与持续时间为异常点满足风险性条件下的指标,选取所有传感器在同一时间出现异常点的个数为联动性指标。由此对数据进行纵向与横向双维度筛选分析,当持续时间长且同时出现异常传感器数量多时,即为风险异常数据。
在前模型的基础上,对风险性异常数据进行量化评价,对各个指标进行量化处理,确定指标的权重,权重的确立要更加接近于持续性、联动性等特点,由于评价目标较为客观,故可以在以上分析的基础上利用熵权法确定权重,再为每一个传感器计算出一个风险性异常波动指数。对每一时刻所有传感器的风险性异常波动指数进行求和,选取最大的五个时刻,并记录此时风险性异常波动指数最大的传感器。