APP下载

基于改进的CDC-MVT法的大坝安全监测数据分析及应用

2022-11-03琳杨蕾戚丹赵

河南科技 2022年19期
关键词:鲁棒马氏协方差

马 琳杨 蕾戚 丹赵 珍

(1.杨凌职业技术学院,陕西 杨凌 712100;

2.陕西省水利电力勘测设计研究院,陕西 西安 710000)

0 引言

水利工程建成后,为了建筑物能够安全可靠运行,采用安全监测手段实时监控建筑物的运行状态,而监测资料的分析是判断建筑物安全运行的重要手段,因此对观测资料做出及时、合理、有效的分析是安全工作的重要组成部分。

水利工程结构复杂,所处环境影响因素较多,同时,监测仪器精度、工作状态及可靠性等各方面均对监测数据有影响,或多或少都会存在随机误差或系统误差,这就导致直接获取的监测数据并非完全可用,因此,首先需要对原始监测数据进行合理性分析[1-2]。

1 数据合理性诊断

鉴于大坝结构性态的复杂性,监测仪器精度、可靠性,数据观测过程不可预估因素等的影响,致使大坝安全监测资料中,不可避免地会存在数据误差信息,确定监测资料合理性对后续大坝安全评价至关重要。为了能够准确全面地监测大坝运行状态,通常需要布置大量仪器和项目,其中包括应力应变、坝体变形观测、渗流量观测、温度观测等。根据有关误差理论,大坝安全监测值x由所监测性态的“真值”[x]和误差e组成,其中误差e根据造成其产生的原因不同,可大致分为随机误差、系统误差和粗大误差3种[3]。

1.1 随机误差

因随机因素或偶然因素导致的误差,符合正态分布并且其正态分布的均值为零,随机误差普遍存在于大坝安全监测数据中。

1.2 系统误差

系统误差主要由监测仪器故障产生,造成故障的原因是相互独立的偶然因素,该类误差偏离真实值较大,表现为单侧点数值异常波动并伴有一定的阶段性和连续性。

1.3 粗大误差

在观测过程中,因数据记录、数据处理、仪器操作等存在人为疏忽导致的误差,特点是偏离真实值较大。

2 监测数据粗差识别

传统粗差检测算法中,常采用主元分析法(PCA)进行异常值识别[4],当样本量很大时,很多计算会浪费在正常点的验证上。目前,常用的粗差识别方法有基于距离和密度的方法[5]和基于模型的方法[6-7]。Jolliffe[8]利用PCA对粗差进行检测,采用该方法检测,会出现将正常点与粗大误差点混淆的情况。

考虑到历史数据中的粗差会影响监控效果[9],对当前常用的粗差检测算法的原理和不足之处进行分析,提出一种新的异常值检测算法,即将中心最短距离法(CDC)和椭球多变量整理法(MVT)结合成为一种新的算法——一种基于鲁棒尺度的CDC-MVT检测算法。

2.1 传统尺度和鲁棒尺度的中心化和标准化

2.1.1 基于传统尺度的中心化和标准化。{xi}为某个变量,对该变量采样n次后产生的序列记为{x1,x2,…,xn},进行中心化和标准化,其过程如式(1)。

式中:s为标准差,ax是{xi}的平均值,根据3σ准则,当出现||d>3的采样时,则认定该采样为异常值。

2.1.2 基于鲁棒尺度的中心化和标准化方法。此方法分别用鲁棒尺度中的数据序列{xi}的中值xm替换传统尺度公式中的均值ax,用数据序列{xi}的中值偏差绝对值的中值(Median Absolute Deviation from the Medion)指标sm替换传统尺度公式中的均值标准差s,即式(2)。

式中:median{}是取中值函数;xm是{xi}的中值;1.482 6是为了使sm成为正态分布数据标准差的无偏估计。

2.2 基于鲁棒尺度的CDC-MVT粗差综合检测算法

2.2.1 CDC中心最短距离法。中心最短距离法(CDC)算法原理是通过计算每个采样点与数据序列中心即数据均值之间的距离,检测n/2个正常点[10]。

2.2.2 椭球多变量整理法。椭球多变量整理(MVT)算法主要是确定鲁棒协方差矩阵的一种迭代 算 法[11-12]。计 算 某 次 采 样X1×m的 马 氏 距 离,见式(3)。

式中:X*1×m是n个采样的平均值;S*是协方差。

2.2.3 基于鲁棒尺度的CDC-MVT异常点综合检测算法。迭代前,首先用鲁棒尺度初始化MVT的马氏距离的均值和协方差,具体如下。

①采用鲁棒尺度,对原始观测数据的二维矩阵进行中心化和标准化处理,假设原始二维数据矩阵是Xi×j,i是采样点数,j是变量数,且i必须要大于j。首先,原始二维数据矩阵的每一列包含i个元素,首先计算出这i个元素的中值,记为xm;其次,利用公式计算出sm=1.482 6median{|Xi-Xm|}(i=1,2…,n),即原始二维数据矩阵的中值偏差绝对值的中值指标;最后,用前述步骤中已经计算出的中值xm替换公式(1)中的xi,用中值偏差绝对值的中值指标sm替换公式(1)中的s,替换后经计算可得到中心化和标准化之后的矩阵X′i×j。

②采用CDCm算法检测出原始数据中的n/2个正常值点。首先,算出矩阵X′i×j中每一列的均值,再计算其每行中每个元素与对应列均值的距离;其次,将上一步骤中算出的每一行中最大距离值定为该行中每个采样点与均值点之间的距离,则可得i个距离值;再次,从上一步得到的i个距离值中选出其中较小的n/2个距离值;最后,得到上一步i/2个距离值所对应的二维数据矩阵Xi×j中的i/2个采样点,即n/2个正常点,设为矩阵。

③利用MVT迭代算法计算马氏距离,从而得到原始数据中的正常值。

a.将上述方法步骤找到的n/2个正常点,初始化其马氏距离中的均值和协方差,即计算初始的均值和协方差,具体如式(4)(5)。

b.将以上式(4)和式(5)代入马氏距离计算式中,计算马氏距离如式(6)所示。

c.在上一步求出的i个马氏距离中选出较小的0.7i个距离值[13-14],可得与矩阵X′i×j相应的采样点,定为矩阵X′(0)0.7i×j。

d.由矩阵X′(0)0.7i×j计算下一次的均值和协方差,即式(7)(8)。

将重新计算出来的均值和协方差代入马氏距离计算式中,可得马氏距离如式(9)所示。

在上述i个马氏距离选出0.7i个较小的值,同时在矩阵X*i×j中找出相应的采样点,记为矩阵X′(0)0.7i×j;

e.采用相同的方法,由矩阵X′(0)0.7i×j继续计算新的均值X(*2)和协方差X(*2),并计算出新的马氏距离。在计算出的i个马氏距离中选出0.7i个较小的马氏距离值,按照这种迭代方式不断进行计算,直到且时 停 止计算。式中,X*(i)j表示第i个新均值向量的第j个元素,表示第i个新的协方差。

f.根据以上计算结果,即可筛选出原始数据中的正常值。

由上述过程计算得到第i=1次计算出的矩阵X′(i-1)0.7i×j对应的矩阵Xi×j中的采样值,便是要检测出的正常值。

3 实例分析

以云南省澜沧江中游河段某灌溉水源工程为例,选取挡水建筑物垂线径向水平位移的各测点进行粗差去除方法验证。由于数据量较大,此处只对13#坝段1 778.25 m高程的测点PL11-3和19#坝段1 778.25 m高程的测点PL19-3两个测点进行粗差去除结果分析。选取数据的观测时间段为2018年12月5日—2019年11月19日,共323个数据测值,按时间顺序绘制过程线,分别根据主元分析法(PCA)和基于鲁棒尺度的CDC-MVT算法原理,编程并计算。

根据原始观测数据绘制过程线,如图1所示,从图1中可以看出两个测点共计8个粗大误差点,分别为PL11-3测点的2018年12月28日测值、2019年1月21日测值和2019年2月20日测值,PL19-3测点2019年9月25日 测 值、2019年10月4日 测 值、2019年10月7日、2019年10月14日 和2019年10月30日测值共8个粗大误差。

图1 原始观测数据过程线

基于PCA算法的粗大误差检测,将检测结果绘制过程线,如图2所示,从检测数据可以看出,平均每个测点检测后只剩180多个数据,除检测出的8个粗差外,同时也将部分正常值误判为粗差去除,如2018年12月11日、2018年12月17日、2019年10月30日等测点,可见PCA算法存在检测缺陷,即在判断出粗差点的同时,也将部分正常点误判为粗差点去除,影响了原始数据的准确性。

图2 PCA算法计算结果过程线

基于鲁棒尺度CDC-MVT算法的粗大误差检测,将检测结果绘制过程线,如图3所示,从检测结

图3 CDC-MVT算法计算结果过程线

果可以看出,本方法检测结束后,除8个粗差外,其余正常数据均未被去除。

综上所述,原始观测数据中存在8个粗大误差,从检测结果过程线可以看出,CDC-MVT算法准确地检测出了原始数据中的粗大误差,结果较合理,而PCA算法虽然也检测出了异常值,但同时也将部分正常值误判为粗大误差去除了。由此,可得出以下结论。鲁棒尺度的CDC-MVT算法可较为准确地估计出正常数据的均值和协方差,从而能准确找出异常值。而传统PCA算法,虽然也找出了原始数据中的异常值,但也将部分正常值误判为异常值去除,这对大坝安全监测后续数据分析不利。因此,采用鲁棒尺度的CDC-MVT算法提高了异常值的检测性能。

4 结语

以云南省澜沧江中游河段某水电站为例,分别采用PCA算法和基于鲁棒尺度的CDC-MVT异常值综合检测算法,分别对该水电站大坝垂线径向水平位移PL11-3和PL13-3两个测点的原始位移观测数据进行粗差去除,CDC-MVT算法准确地检测出了原始数据中的粗大误差,结果较合理,而PCA算法虽然也检测出了异常值,但同时也将部分正常值误判为粗大误差去除了。结果验证了基于鲁棒尺度的CDC-MVT异常值综合检测算法的可行性和优越性。

猜你喜欢

鲁棒马氏协方差
战时复杂不确定条件下的油料配送鲁棒优化问题研究
一种改进的网格剖分协方差交集融合算法∗
最小化破产概率的保险人鲁棒投资再保险策略研究
随机环境下具有最低担保约束的 DC养老金鲁棒投资策略
基于高阶LADRC的V/STOL飞机悬停/平移模式鲁棒协调解耦控制
《封神演义》中马氏形象的另类解读
露马脚
二维随机变量边缘分布函数的教学探索
抱琴
基于关节信息和极限学习机的人体动作识别