APP下载

基于多元高斯分布的零件尺寸异常检测*

2022-04-26吴林慧何毅斌陈宇晨

组合机床与自动化加工技术 2022年4期
关键词:高斯分布变化率阈值

吴林慧,何毅斌,b,陈宇晨,杜 伟,汪 强

(武汉工程大学a.机电工程学院;b.化工装备强化与本质安全湖北省重点实验室,武汉 430205)

0 引言

异常检测是一种特殊的二元分类问题,在不同的应用领域中又被称为:单类学习、孤立点检测等。异常检测主要用于解决现实中广泛存在的诸如故障检测、欺诈检测、异常行为识别或者入侵检测等异常样本获取困难甚至根本无法获取的问题[1]。一般二元分类的方法要求正负样本均匀分布,但如上述中某一类的样本很少或不存在的不平衡类别问题,导致预测偏向样本数较多的分类,因而对这种分类问题需要提出一些符合实际的解决方法[2]。

目前,为了解决异常检测的问题已经提出了许多的方法,根据其原理可以分为4种,分别是基于密度估计的方法,即利用采集的数据估计训练样本的密度模型,并设置一个密度阈值,低于此阈值为异常数据,王康等[3]利用高斯核密度估计的方法,检测运动手环健康数据的异常值;BREUNING等[4]利用K-最近邻方法进行无监督的异常检测,基于重建的方法,即估计模型及其参数,将偏离该模型的样本判定为异常;薛晨杰等[5]基于K-平均算法对离群点进行检测;HOFFMANN[6]利用基于核主分量分析实现异常检测,基于支撑域的方法,即构建一个围绕目标的支撑域,并最小化支持域的体积;ROA等[7]提出单类支持向量机用于异常检测,取得了不错的效果,基于深度学习的方法;SKILTON等[8]提出自编码器提取信号特征的层次模型,结合生成对抗性网络与目标检测对数据的统计分布建模实现异常检测。

对实际的零件尺寸特征维度不高,正负样本分布不均衡的情况进行了研究,在分析了监督学习下密度估计方法的异常检测且多元高斯模型能够快速的训练好模型并准确的检测出异常数据,提出了构建多元高斯分布模型用于零件尺寸异常检测方法。

1 样本的采集与划分

1.1 样本采集

采集的样本应满足以下两个基本条件:

(1)各样本独立同分布,即从同一个总体中采集样本,每个样本被采集到的概率不会随着采集的次数发生变化,则由中心极限定理可知,样本特征近似服从高斯分布[9];

(2)样本特征线性不相关,如将方体零件的长、宽、高、体积作为特征,由于体积等于长、宽、高的乘积,所以这些特征不满足线性无关。

1.2 样本的划分

样本对应的标记Y为:Y=(y1y2…yj),若样本为废品,则标记为0,称为反例;反之标记为1,称为正例;0、1均称为样本标签。

采用留出法将样本划分为3个互斥的集合[10]:训练集、验证集以及测试集,假设样本中正、反例的数目为m、n,划分规则如表1所示。

表1 样本划分

合理的对采集样本进行划分,是统计学习方法的重要一环,对分类的结果有重要影响。

2 多元高斯分布及简化

高斯分布是自然界中最重要的分布之一,它能描述许多随机现象[11]。由中心极限定理可知,高斯分布具有普适性的建模能力,即独立同分布的随机变量均值在做适当标准化之后会依分布收敛于高斯分布。

2.1 多元高斯分布模型建立

若某组样本服从多元高斯分布,其特征的个数为i个,记为向量X=(x1x2…xi),多元高斯分布密度函数为:

(1)

式中,μ为期望;Σ为协方差矩阵。

当i=1,μ=0,Σ=1时为标准一元高斯分布,其分布函数图像如图1所示。

图1 标准一元高斯分布

将样本特征带入多元高斯分布密度函数,若满足:

f(X|μ、Σ)>ε

(2)

式中,ε为阈值。

则认为此样本为正例,反之认为此样本为反例,在此模型中一共需要求解3个参数:期望μ、协方差矩阵Σ以及阈值ε。使用训练集数据计算μ和Σ,验证集数据计算ε。

2.2 多元高斯分布的参数估计及简化

利用极大似然估计法构造似然函数L:

(3)

式中,m为样本总数。

将式(3)两边同时取对数得到:

(4)

此时的对数函数是个严格的单调增函数,令:

(5)

得到期望μ的估计量为:

(6)

协方差矩阵Σ的估计量为:

(7)

(8)

(9)

式中,G为上三角矩阵。

多元高斯分布密度函数可以被简化为:

(10)

式(10)一定程度上简化了模型,将模型的结果固定到[0,1],优化了特征个数过多时的计算速度。

3 最优阈值求解

3.1 召回率、准确率和F1分数

对于一个二分类问题,分类的结果可以表示为混淆矩阵,如表2所示。

表2 混淆矩阵

定义准确率为P、召回率为R,其计算公式分别为:

(11)

认为召回率与准确率同样重要,F1分数表示召回率与准确率的加权平局[5],定义为:

(12)

式中,m为样本总数。

F1分数越大,表示分类正确的数量越多,当F1分数为1时,表示分类完全正确。

3.2 粒子群算法求解最优阈值

定义n个阈值ε,将m组已知标签的样本,即验证集的数据带入多元高斯分布模型f(X),若满足:

f(Xj|μ、Σ)>εii=1…nj=1…m

(13)

则预测拥有此组特征的样本为正例,反之为反例,m组样本预测完成后与真实情况比较并计算F1分数,完成后得到n个F1分数,使取得F1分数达到最大的ε称为最优ε。

计算最优ε的方法主要有遍历法以及一些迭代更新算法。本文采用并行计算的方式,即利用粒子群优化算法迭代ε,直到求解出最优结果,步骤如下:

步骤1:确定粒子种群数目。将粒子群的种群数目设为10,在[0,1]之间随机生成10个数,作为第一代粒子,也称为初始阈值;

步骤2:设置粒子群迭代的次数为t次;

步骤4:更新速度和变化率;

(14)

式中,v为速度;rand:C1为粒子的个体学习因子;C2为粒子的社会学习因子。

步骤6:重复步骤4和步骤5,t次后,输出最后的gbest为最优的阈值ε。

粒子群优化算法的流程图如图2所示。

图2 粒子群优化算法过程

由于粒子群算法采用了并行计算的策略,并利用每次的个体最优解及种群最优解协同更新粒子值,所以对比遍历法,计算速度有较大提升。

3.3 问题转化

实验发现,生成的初始粒子不好时,算法会收敛到错误结果,将求解最优阈值转化为求解最优阈值变化率的问题,转化步骤如下:

步骤1:令初始阈值ε0=1并确定一个初始变化率α∈(0,1)和两个迭代次数t1和t2;

步骤2:用ε0与变化率α相乘,更新后的阈值为εi,计算此时的F1分数,再次更新阈值并计算F1分数,更新t1次,一共得到t1个F1分数,保存t1个F1分数中的最大值,和对应的变化率α;

步骤3:改变变化率α的值,重复步骤2,找到新的F1分数中的最大值和对应的变化率α,比较前一次的F1分数,若大于前一次,则覆盖保存所有数据,否则不进行任何操作;

步骤4:重复步骤3t2次,最后得到的变化率α称为最优变化率。

通过粒子群算法改变变化率α的值,求出最优变化率,再利用最优变化率再求解出最优阈值。问题转化后的改进粒子群算法在同样参数下求解收敛的更快,稳定性也更强。

4 实例分析

测量一批激光腔体零件,将零件的长、宽,大小和位置不同的两个圆的直径作为特征。根据零件的尺寸是否超差,可以将零件分为:合格品记为标签1,废品记为标签0。

采样得到了120组合格品与30组废品,将其分为:训练集72组合格品,验证集与测试集各24组合格品,15组废品。统计4个特征的值出现频率,如图3所示。

(a) 长度特征出现频率 (b) 宽度特征出现频率

(c) 大圆直径特征出现频率 (d) 小圆直径特征出现频率

图3中在对零件特征的出现频率进行统计后发现,零件的4个特征均近似为高斯分布。

本文基于MATLAB进行尺寸超差异常检测,利用训练集和验证集数据训练模型参数,测试集数据测试模型的误差,在求解最优阈值时,分别使用遍历法、相同参数的粒子群法使和转化问题后的改进粒子群算法,对测试集识别的正确率如表3所示。

表3 算法准确率对比

表3表明这3种算法的结果相同,都可以取得很高的准确率。

各算法从模型参数训练到完成识别所需要的时间如表4所示。

表4 算法时间对比

表4表明对比于遍历法,其他两种方法所需要的时间明显缩短。

对粒子群法和转化问题后的改进粒子群法达到收敛所需要的迭代次数进行了统计,结果如图4所示。

图4 迭代次数与最小F1图

图4表明将问题转化后的改进粒子群算法对比直接使用粒子群算法,能更快的收敛到最优解,因而算法耗时更短。

再通过将两种算法在同一测试集上运行20次,得到两种方法的计算次数与准确率图,如图5所示。

图5 计算次数与稳定性图

图5表明直接使用粒子群算法会因生成的初始值不满足条件,导致多次试验中结果波动较大,满足条件的初始值可以得到准确的阈值从而达到很高的准确率,不满足条件的初始值会收敛到错误的阈值导致得到很低的准确率,而转化问题后的改进粒子群算法得到的结果稳定,初始值好坏对求解最优阈值影响不明显。

5 总结

研究多元高斯模型用于解决正反例样本分布不均匀的情况下尺寸超差异常检测,为了提升模型训练的速度以及避免粒子群算法错误收敛,提出了转化问题后的改进粒子群算法。通过使用遍历法、相同参数的粒子群法和转化问题后的改进粒子群算法,在求解最优阈值时,识别到测试集的正确率高达97.5%。对比于遍历法,改进后的粒子群法所需耗时从14.496 s缩短到2.433 s,性能显著提升。对粒子群法和转化问题后的改进粒子群法达到收敛所需要的迭代次数进行统计,得出改进的粒子群能更快的收敛到最优解,结果更稳定。实验表明,本文算法具有需要训练的参数少,计算速度快,分类准确率高,稳定性高等特点,对解决零件尺寸的超差异常检测的问题具有重要的参考价值。

猜你喜欢

高斯分布变化率阈值
青海省近60年气温变化特征分析
土石坝坝体失稳破坏降水阈值的确定方法
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
例谈中考题中的变化率问题
在航集装箱船舶摇摆姿态的概率模型
改进的自适应高斯混合模型运动目标检测算法
改进RRT在汽车避障局部路径规划中的应用
一种基于改进混合高斯模型的前景检测
相位差变化率的快速高精度测量及精度分析
辽宁强对流天气物理量阈值探索统计分析