APP下载

数据驱动的异常检测与预警问题

2021-09-11阚志豪牟子豪吴杰权

科学技术创新 2021年25期
关键词:散点风险性权法

阚志豪 牟子豪 吴杰权

(南京工程学院电力工程学院,江苏 南京 211167)

1 概述

生产风险是指企业在原材料、设备、技术人员、生产工艺及生产组织等方面存在难以预料的障碍。生产风险会引起企业生产无法按预定成本完成生产计划。推动生产企业高质量发展,最根本的底线是保证安全、防范风险,而生产过程中产生的数据能够实时反映潜在的风险。

2 模型建立

2.1 数据预处理

随着外界因素的变动会对数据产生影响进而形成波动指标。因此采用SPSS 统计软件来绘制箱线图,从中找到并剔除基本保持不变的指标数据。中位数mi(0<i<5520,i∈Z):将每一列指标按从小到大的顺序排列,取中间值。上四分位数Qu:将指标序列平均分成四份,则:

箱线图最大的优点就是不受异常值的影响,可以用一种相对稳定的方式来描述数据的离散分布情况。通过观察箱线图,可以初步剔除2 号、7 号、35 号传感器等共计28 个离群值近乎为0 的无波动指标。

2.2 风险性异常数据异常程度的量化与评价

将这些含有波动数据的指标归一化处理,继续分析其数据的异常程度。最终希望得到的风险性异常数据必须同时具有持续性与关联性的特点。基于风险性异常数据的特性,先研究指标的连续性。通过在EXCEL 表格中绘制每组数据相应的散点图进行回归分析,可以得到四种散点分布。

通过波动数据连续性的检验,得到了异常数据满足持续性条件的12 组指标。将这12 组指标提取出来,继续使用SPSS 得出皮尔逊相关系数,进行相关性分析,以此检验联动性。得到了六组风险性异常数据。通过使用Python 进行编程计算分析,可以得到每组数据具体的风险异常点,进而可以求得其异常程度评分。

2.3 基于层次分析法的各时刻数据异常程度评价方法

通过层次分析法来求取这六组指标对每个时刻数据异常程度的权重,然后再对这六组数据进行加权求和处理,经过百分制换算之后就可以得到想要的每个时刻数据异常程度得分情况。

为了建立合理有效的判断矩阵,必须最大程度减小主观因素带来的偏差,先行使用SPSS 提供的因子分析法对数据进行处理。将六组数据全部导入到SPSS 中,可以得到其各自的公因子方差。公因子方差的值越大,表示变量能被因子说明的程度越高。

表1 风险性异常数据异常程度的量化

表2 公因子方差

通过提取、比较六组数据的公因子方差值可以更加客观、合理地建立判断矩阵M:

将判断矩阵应用于层次分析法中,通过Matlab 得出指标各自对数据异常程度的权重。对这六组数据进行加权求和,可以得到每个时刻数据异常程度的得分,这些数据的范围大致在0.090601-0.838859 之间,将所得数值全部乘以110,即可实现百分制。找出数据异常程度得分最高的五个时刻,求出这个五个时刻所对应的六个指标各自的加权值,前五名就是该时刻所对应的异常程度最高的五个指标编号。

2.4 基于熵权法的模型检验

通过熵权法求出六个指标对每个时刻数据异常程度的权重,再次进行上述加权求和的操作,得出此时分值最高的五个时刻和他们对应的数据异常程度得分,再与层次分析法所得结果进行对比检验。基于熵权法的各时刻数据异常程度评价模型的建立

(1)计算标准值aij的比重Eij,其中:

至此,基于熵权法的各时刻数据异常程度评价模型建立完毕。

2.5 基于熵权法的各时刻数据异常程度评价模型的求解

利用Matlab 对熵权编程计算,得到六个指标对数据异常程度的权重。再次进行加权求和的操作,得出此时分值最高的五个时刻和他们对应的数据异常程度得分。然后将熵权法和层次分析法求出的前五次异常值得分进行对比,绘制出二者各自的散点图。从图的散点分布来看,熵权法与层次分析法所得结果非常接近,可以互相印证。

图1 熵权法和层次分析法求前五次异常值分数对比

图中红色菱形的散点为层次分析法所得,蓝色三角形的散点为熵权法所得。

3 结论

通过绘制箱型图、散点图来分析大量数据的离散与连续情况,数形结合,十分清晰地反映出了数据的整体特性。此外,利用SPSS 相关性分析判断数据间的联动性,使得判断结果更加精确合理。而后首先利用算法将风险性异常数据异常程度量化处理,再通过层次分析法,利用判断矩阵求取各项指标对数据异常程度的权重,然后将六组数据加权求和,就可以得到每个时刻数据异常程度的得分。

本文的所建立的模型不能很好的体现各个指标的交互作用,如果能够对指标进行进一步的进行因子分析,结果将更具可靠性。本文所建立的评价模型精准实用,可以做到分析大量未知数据的离散程度和重要程度,并以此来给出生产过程中潜在的风险。结果准确可靠,为企业生产提供了一定的参考作用。

猜你喜欢

散点风险性权法
基于熵权法的BDS钟差组合预测模型的建立
基于熵权法改进的TOPSIS法和灰色关联度分析的压榨脱水过程优化研究
基于熵权法的城市轨道交通系统运营效率
利用Lorenz RR 散点图快速诊断急危重心律失常
高血压个体家庭连续自测收缩压特征描述与分析
人定胜天
冲击波散点和定点治疗肱二头肌长头肌腱炎的临床观察
每天超8小时睡眠 痴呆症概率增40%
罗甸县外来生物—飞机草风险性评估