基于偏最小二乘回归的大坝安全监测数据缺失迭代修补方法研究
2021-10-28辛俊龙朱斯杨周子玉
辛俊龙,葛 静,朱斯杨,周子玉
(1.中电建电力检修工程有限公司,四川 乐山 614000;2.中电建水电开发集团有限公司,四川 成都 610096;3.四川省遂宁市水利局,四川 遂宁 629000;4.四川大学 水力学与山区河流开发保护国家重点实验室 水利水电学院,四川 成都 610065)
连续、完整、可靠的监测数据序列是大坝安全在线监控和运行性态评价的前提和基础[1]。监测设备故障导致安全监测中断、监测数据明显错误被剔除未及时复测等,常造成安全监测数据序列的不连续,无法反映数据缺失时段的大坝运行性态,有必要对缺失时段的数据进行修补[2]。目前大坝安全监测缺失数据修补一般基于历史监测数据序列,常见方法包括数学修补方法[3- 5]和考虑相关环境量影响的多元统计回归模型修补方法[6- 8]。数学修补法较简单,从历时数据变化规律推测缺失时段的数据分布规律,当缺失数据较少时,数据修补精度较高,而缺失数据较多时,其修补精度较低。多元回归模型在大坝安全监测缺失数据修补中应用最广泛,能综合考虑工程的结构特点、测值与环境量的相关关系等因素,该方法的缺失数据修补精度依赖于回归模型本身的拟合精度,当模型复相关系数较低时,缺失数据修补精度一般较低。针对常用缺失数据修补方法在缺失比例高、模型拟合精度差等情况下精度较差的问题,本文基于偏最小二乘回归基本原理,引入迭代修补思路,提出基于偏最小二乘回归的缺失数据迭代修补方法,并结合实际工程,分析其适用性,校验其修补精度。
1 基于偏最小二乘回归的数据修补方法
1.1 基本原理
本文提出的数据缺失迭代修补方法基于偏最小二乘回归模型,即将多元线性回归分析、典型相关分析及主成分分析有机结合起来,其基本原理和方法如下:
(1)数据预处理
对X,Y进行标准化得到自变量矩阵E0和因变量矩阵F0。
(2)自变量和因变量矩阵的主成分提取
首先提取因变量矩阵F0的主成分u1和自变量矩阵E0的主成分t1。根据主成分分析原理可知,为使提取出来的主成分t1和u1能最大程度的代表各自矩阵的数据变异信息且t1对u1的解释能力最强,需要t1和u1各自的方差达到最大且相关程度达到最大,即:
Var(t1)→max,Var(u1)→maxr(u1,t1)→max
(1)
(2)
(3)
上述问题可通过SIMPLS算法[9]或NIPALS算法[10]来求解,求得w1后,即可得成分t1=E0w1。
(3)构建标准化变量的回归方程
提取主成分t1=E0w1后,则E0、F0在t1上回归为式(4)
(4)
式中,E1、F1—两个回归方程的残差矩阵;p1、r1—回归系数。
(5)
通过交叉有效性来判断模型是否到达满意的精度,如果没有达到则对残差矩阵提取主成分,过程和(2)类似:
(6)
(7)
式中,E2、F2—两个回归方程的残差矩阵;p2、r2—回归系数:
(8)
若模型未达到满意的精度则需继续提取主成分。假定共提取了k个主成分,得到标准化变量的回归方程:
(9)
若当前主成分的加入不能明显提升模型精度,则认为模型到达了满意的精度,不再提取新的主成分。
(4)还原回归方程
将标准化回归系数还原为非标准化回归系数,得到原始变量的回归方程。
1.2 基本步骤
该方法基于偏最小二乘回归,通过多次迭代回归提升缺失数据修补精度,即首先构建原始数据序列的偏最小二乘回归模型,获取缺失时段的第一次数据修补值;再构建第一次数据修补后数据序列的偏最小二乘回归模型,获取缺失时段的第二次数据修补值,对比两次修补值之间的差异,若差异小于控制值,则迭代结束,反之则重复迭代,其计算流程如图1所示。
图1 基于偏最小二乘回归模型的数据修补方法流程图
若存在一个监测序列A,其中包括n个测次的测值(x1,x2,…xn),其数据缺测测次为(xt,xt+1,…xt+k),则其缺测数据修补步骤如下:
①设置迭代控制值。迭代控制值可采用最大迭代次数nmax和R方预设阈值m。一般地,最大迭代次数nmax可设置为10,R方预设阈值m可设置为0.95。
2 工程校验与精度分析
2.1 精度分析
本文所提方法实质是基于迭代预测的偏最小二乘回归改进模型,因此,主要与偏最小二乘回归模型和逐步回归模型对比,分析其数据修补精度。为具代表性,选择大坝安全监测数据序列中最常见的周期型数据序列和直线型数据序列进行分析,数据缺失占比设置为10%。周期型监测数据序列以某坝心墙渗压测点P94为例,采用2016年1月—2019年12月共798测次,将2018年7月19日—2018年12月7日共79测次的实测值作为缺失数据。直线型监测数据序列以某坝坝顶水平位移测点TP19为例,采用2014年2月—2019年2月共474测次,将2016年11月19日—2017年5月20日共47测次的实测值作为缺失数据。
经计算,不同方法的缺失数据修补效果见表1,修补效果对比如图2所示。从图表中可以发现,在缺失比例为10%时,本文所提方法对周期型数据序列的修补精度提升最为明显,平均相对误差分别较逐步回归模型和偏最小二乘回归降低61%和53%,R方提升46%和43%,对直线型数据序列而言,其修补精度较逐步回归模型提升明显,平均相对误差降低43%,R方提升12%,较偏最小二乘回归模型略有提升,平均相对误差降低9%,R方提升6%。
图2 三种方法数据修补效果对比图
表1 两种方法修补效果对比表
2.2 不同缺失比例的修补效果分析
为分析不同数据缺失比例下基于偏最小二乘回归的数据缺失迭代修补方法的适用性,仍选择周期型数据序列P94测点和直线型数据序列TP19测点,采用随机设置缺失数据的方法进行分析,见表2。不同方法的数据修补精度对比如表3和图3—4。
表2 不同缺失比例的对比方案表
表3 不同缺失比例下的修补精度对比表
从图表中可以看出,不同缺测比例下,基于偏最小二乘回归的数据缺失迭代修补方法的精度均明显优于逐步回归方法,特别是在数据缺失比例超过10%时尤其明显。当缺失比例不超过20%时,两种方法均有效,R方大于0.5,但数据缺失迭代修补方法较逐步回归的平均相对误差降低超过50%。当数据缺失比例超过30%时,逐步回归法失效,R方低于0.5,而数据缺失迭代修补方法仍有效,特别是对周期型数据,当其缺失比例达到40%时,其R方仍大于0.5,满足工程最低要求。
3 结语
(1)针对常用缺失数据修补方法在缺失比例高、模型拟合精度差等情况下精度较差的问题,本文以偏最小二乘回归模型为基础,引入迭代修补思路,提出了基于偏最小二乘回归的缺失数据迭代修补方法,通过不断迭代消除缺失数据的不利影响,有效提高模型预测精度和缺失数据修补精度。
(2)对比分析表明,缺失数据迭代修补方法较偏最小二乘回归、逐步回归等方法的缺失数据修补精度明显提升,R方基本能提高至0.8以上,平均相对误差降低约50%。
(3)工程校验表明,缺失数据迭代修补方法对大坝安全监测常见的周期型和直线型数据序列修复的适用性较好,可修补的最大数据缺失比例由传统的20%分别提升至40%和30%。
图4 缺失比例不超过20%时缺失修补效果对比图
图5 缺失比例超过20%时缺失修补效果对比图