APP下载

基于主成分分析与支持向量机的渠道闸前冰输移与堆积判别模型1)

2021-04-22梁乃生脱友才贾云霄

力学学报 2021年3期
关键词:闸孔浮冰堆积体

梁乃生 脱友才 邓 云 贾云霄

(四川大学水力学与山区河流开发保护国家重点实验室,成都 610065)

引言

输水渠道是解决水资源时间和空间分布不均衡而修建的水利设施,闸门是渠道中调控水量的水工建筑物,而在冬季冰凌随水流运动到闸门前段范围时,由于闸前水流条件的变化,浮冰可能会在闸前形成堆积体,导致过水断面束窄,上游水位雍高,影响输水效率[1-3].因此,有效预测冰凌在闸前的输移与堆积状态,对于渠道输水效率和安全运行具有重要意义.

闸前水流受到闸孔出流收缩断面的影响,流线发生弯曲形成湍流漩涡,漩涡强度与闸前水深和出口流速有关[4-6].闸前浮冰在这种浮力-水力作用下的堆积和输移状态的判别较为复杂,目前主要通过物理模型实验来开展研究[7-8].Ashton 等研究了闸门中孔淹没出流条件下浮冰在闸前的输移与堆积情况,采用回归分析方法拟合判别函数对浮冰在闸前的状态进行判别[9].Fu 等研究了浮冰在倒虹吸口前的输移与堆积状态,采用回归分析方法拟合临界数据点得到判别函数[10].Mu 和吴艳等采用回归分析的方法分析了浮冰通过桥墩墩柱断面所需的临界水力判别条件[11-12],但是由于边界条件的不同,物理模型实验数据回归拟合得到的结果差异较大,且存在一定的主观因素.

由于闸前浮冰输移与堆积是一个非线性发展过程,基于数据驱动算法的机器学习模型在处理非线性边界值问题上具有优势[13-14].Sun 采用机器学习方法对加拿大的开河时间以及开河时的流量峰值进行预测研究,预测结果显示基于数据驱动的统计模型具有良好的性能[15-16].Seidou 等[17]将人工神经网络模型与热力学湖泊冰模型分别应用在加拿大湖泊和水库冰层厚度研究中,发现在数据质量和数量不充分的情况下,人工神经网络模型具有较高的预测精度.王涛等[18]采用改进BP 神经网络方法对黄河宁蒙河段的冰情问题进行预测,通过融合影响冰情发展的多个因子来提高预测的精度.支持向量机(support vector machine,SVM)是一种基于小样本统计学习理论的算法,可以解决实际问题中出现的非线性和高维数等问题[19-21].刘彦涛[22]基于神经网络和支持向量机模型对冰塞水位进行预测,得到支持向量机模型在小样本条件下预测精度高于BP 神经网络模型.Kalke 等[23]采用支持向量机算法对无人机拍摄的河冰图像进行分类研究,从图像中提取并计算了表面冰浓度,将其用于后续模型计算中.主成分分析(principal components analysis,PCA)方法是从特征元素中提取相互独立的有效信息从而降低输入维度一种统计分析方法[24],Ren 等[25]采用主成分分析的方法剔除了冗余信息,有效分析了影响黄河上游水温的主要因素,Noori 等[26]采用PCA-SVM 方法对伊朗Soficha 河流量进行预测,发现PCA-SVM 模型预测准确率高于普通SVM 模型.闸前冰输移与堆积状态的判别,具有非线性过程且高维特性,符合采用机器学习模型研究的特征,但目前未见该类方法在闸前冰状态方面的研究.

本文首先通过室内物理模型试验开展了平板闸孔自由出流条件下闸前冰堆积与输移的试验,采用PCA 方法对输入特征进行降维处理,提取第一主成分和第二主成分作为模型的输入特征,建立基于主成分分析与支持向量机(principal component analysis and support vector machine,PCA-SVM)的闸前堆冰判别模型,识别闸前冰输移与堆积的主要影响因素,模型输出结果可直接用于平板闸孔前冰堆积与输移的预测.本文建立的PCA-SVM 闸前堆冰判别模型对冬季输水渠道调度管理和安全运行具有重要的参考价值.

1 试验设计与数据来源

1.1 试验装置

本文的明渠闸前输冰物理模型试验在长20 m,宽0.4 m,高1 m 的循环式玻璃水槽内开展.水槽底部用金属框架固定,在距离进水口约1 m(A-A’)和1.5 m(B-B’)两个位置布置两道消能栅,进水口底部采用卵石铺垫,进行水流消能,以保证进水水流的平稳.平板闸门安装在距离进水口约13 m 位置处,闸门与水槽边壁接触位置采用防水胶处理,保证其密闭性,闸孔出流方式为自由出流,在靠近BB’位置布设冰块投放箱,以保证冰块自由运动到闸前,下游距离闸门约7 m 处有冰块收集箱,试验装置示意图如图1 所示.试验中模拟冰块(简称冰块)为聚乙烯材质,其比重为0.91.冰力学模型试验要求浮冰运动相似,模型中的浮冰密度弗汝德数和真冰相等,即模型冰的密度和真冰相等,因此模拟冰选择了密度为910 kg/m3的聚乙烯材质塑料块.根据华北地区多年天然河道冰情概况,确定原型冰厚度在0.10∼0.55 m[27],冰盘的大小约为2 m,按照比尺1:50,模型冰厚度在0.002∼0.011 m,经过前期的预试验,为了更好的模拟浮冰在闸前的堆积与输移过程,试验选择长和宽为0.04 m 的浮冰,厚度为0.006 m 冰块,浮冰数量共约2000 块.流速测量在C-C’位置,测量设备为南京水利科学研究院生产的旋桨流速仪,流速测量范围为0.01∼3 m/s.

图1 实验装置示意图Fig.1 Schematic diagram of experimental device

1.2 工况与方法

经过预实验发现,来流条件和闸孔开度是影响闸前冰输移与堆积的因素.因此,实验设置4个闸孔开度下不同的水位变幅条件,试验共设置7 组107 个工况.每组工况下固定闸孔开度,调整进水阀门,使闸前水位按照工况设计表变化,详细工况设置如表1 所示.试验步骤为:(1)调整闸孔开度至预设值;(2)调整进水流量阀门按工况水位范围变化,水位变化幅度0.05 m/次;(3)待水流平稳以后,将冰块从投放箱推入水槽中,观测记录冰块在闸前的运动状态,测量上游断面平均流速V、闸前水位H和闸前冰堆积体厚度ti.在冰块堆积上游C-C’位置处横断面布置9 个测点测量流速.其中I 和III 测线距离边壁约0.05 m,II 测线距离边壁约0.2 m,表面流速测点(1,2,3)距离水面约为总水深的0.25 倍,中心测点(4,5,6)距离水面约为总水深的0.5 倍,底部测点(7,8,9)距离水面约为水深的0.75 倍,详细测点布置如图2 所示,平均流速V为这9 个测点流速的平均值.

表1 工况设计Table 1 Operating condition design

图2 C-C’位置测点布置图Fig.2 The measuring point arrangement of section C-C’

2 现象与结果分析

2.1 试验现象

冰块在闸前的运动状态,可总结为通过闸门、在闸前形成平衡稳定堆积体和形成平铺上溯堆积体3 种情况.研究将后两种情况视为浮冰在闸前堆积.当浮冰输移通过闸门时,有两种情况:一是当水深和闸孔开度相当时浮冰运动到闸前直接通过闸门;二是水深较深,浮冰运动到闸前时,受到闸前卷吸漩涡的影响,翻转下潜通过闸门,其示意图如图3 所示.当浮冰在闸前形成平衡稳定堆积体时,继续来冰时,冰块下潜输移通过闸门,形成堆积体大小与淹没水深和闸孔开度有关,堆积体的主视图如图4 所示.本实验过程中受到冰块数量和水槽高度的限制,该工况下上游来冰多数在闸前堆积,少量冰块通过闸门,我们在研究中定义该状态为浮冰堆积.当浮冰在闸前形成平铺上溯堆积时,发现随着冰流量增加和水流量的增加,浮冰沿渠道向上游堆积发展,没有冰块通过闸门,堆积体示意图如图5所示.

图3 浮冰下潜通过闸门示意图Fig.3 Ice entrainment through the submerged gate

图4 平衡稳定堆积体示意图Fig.4 Schematic of balanced and stable accumulation

图5 平铺上溯堆积体示意图Fig.5 Juxtapositioning of ice at the submerged gate

2.2 结果分析

根据试验数据,绘制闸门上游水流弗汝德数(Fr1)与闸门相对开度(H/e)的散点图,如图6所示.采用最小二乘法对数据进行拟合,拟合公式如式(1),均方误差(mean square error,MSE)为1.9×10−4.图6 数据显示随着上游水流弗汝德数的减小浮冰逐渐由下潜通过闸门演变为在闸前堆积,图6 中圈出的部分为临界区,若采用回归分析的方法寻找该区域的分界点比较困难.于是,采用质量守恒方程求闸门出口水流弗汝德数(Fr2)并绘制其与闸门相对开度(H/e)之间的散点图,绘制结果如图7 所示,采用最小二乘法拟合数据点得到式(2),MSE 为1.5×10−3,图7 中圈出了数据的临界区域.由图6 和图7 中的临界区域可以看出,在平板闸孔自由出流条件下,采用回归分析方法拟合临界数据点存在以下问题:临界工况数量有限,拟合的分类函数适用范围有限.

图6 上游水流弗汝德数与闸孔相对开度关系Fig.6 The relationship between the Fr1versus H/e

图7 闸孔出口弗汝德数与闸孔相对开度关系Fig.7 The relationship between the Fr2versus H/e

浮冰运动到闸前时出现下潜行为与闸前水流弗汝德数和卷吸漩涡密切相关[28-29],当浮冰在闸前发生堆积时,采用Fr1与冰块相对厚度(ti/H)关系绘制散点图如图8 所示.当Fr1大于0.13 时,即位于图8 中的A区域时,冰块随水流通过闸门,闸前没有堆积体.当Fr1的范围在0.07∼0.13,即位于图8 中的B和C区域时,浮冰在闸前形成堆积体.堆积体形状分为两种:一是Fr1的范围在0.096∼0.13 时,即图8 中的B 区域,浮冰在闸前形成平衡稳定堆积体,堆积体形状如图4 所示.二是当Fr1的范围在0.07∼0.096,即图8 中的C 区域时,浮冰在闸前形成平铺上溯堆积体,堆积体形状如图5 所示.当水流弗汝德数较小时浮冰容易在闸前形成平铺上溯堆积体,随着水流弗汝德数的增大浮冰容易在闸前形成平衡稳定堆积体.

图8 Fr1与ti/H 的变化关系Fig.8 The relationship between Fr1versus ti/H

3 判别模型

由水槽试验结果可知,冰块在闸前呈现输移与堆积的特征,其堆积体形状因水流条件和闸孔开度不同而存在差异.为此,将影响闸前浮冰状态的Fr1,Fr2,H/e,H1/H和浮冰在闸前的输移状态作为输入特征,建立基于PCA-SVM 的闸前冰输移与堆积判别模型,对冰块在闸前的状态进行分类.

3.1 数据预处理

首先对各特征数据进行相关性分析,设样本特征表示原始样本中第i个样本的第j个特征,i=1,2,···,n,n为样本个数;j=1,2,···,m,m为特征个数.将收集到的试验数据集定义为矩阵(3)

对各变量进行相关系分析,求变量间的皮尔逊相关系数,计算公式为式(4)

式中,表示原始样本中第i个样本的第j+τ 个特征,τ

图9 各影响因素皮尔逊相关性系数Fig.9 The coefficient of Pearson correlation of variable

由相关性分析结果可知,输入特征之间存在较强的信息重叠,本研究采用PCA 方法对标准化后的样本数据进行处理,提取输入变量的主要信息,以综合考虑各影响因素的基础上提高分类的准确率[24].主成分分析的核心思想是将高维相关联的特征降为少数不关联特征,同时尽可能多的反映原来的信息[30].为保证数据在输入尺度上具有同样的重要性,先采用标准化的方法对数据进行预处理,使结果映射在0 ∼1 之间,标准化公式如式(5)所示

式中,是原始数据,是标准化后的样本数据,i是输入数据的样本数,j是输入数据的特征维数,n是样本数据的个数.经过归一化处理后的特征矩阵X(1)如式(6),协方差矩阵S的计算如式(7)

式中,X(1)T表示X(1)的转置,通过求解特征方程得到协方差矩阵S的m个非负特征λk(k=1,2,···,m),并使其按照从大到小的顺序排列为λ1>λ2>··· >λm≥0,求解其对应的正交单位特征向量µk,则其主成分计算公式为式(8)

式中,Zk表示第k个主成分(k≤m),第k个主成分Zk的贡献率vk的计算公式为式(9)

合适的输入特征是模型计算精度的关键[31],根据相关性分析结果,选择闸门淹没水深(H1/H)、闸孔相对开度比(H/e)、上游水流弗汝德数(Fr1)和闸孔出口水流弗汝德数(Fr2)四个特征进行PCA 分析,提取第一主成分和第二主成分作为SVM 的输入.研究受到水槽尺寸和流量限制,试验得到的冰堆积样本数较少,为了减小因样本划分不同而引入的差异,采用5 折交叉验证的方法对模型进行训练.输入数据划分时,将标准化后样本的70%划分为训练集并记为X1∼X7,剩余30%划分为验证集并记为X8∼X10.对于训练集部分X1∼X7,将其等分成5 份(即fold1∼fold5),依次选择其中一份作为测试集,其余作为训练集,完成5 折交叉验证[31].模型交叉验证的方案示意图如图10 所示.

图10 交叉验证程序的方案Fig.10 The scheme of the cross-validation procedure

3.2 判别算法

SVM算法是基于结构风险最小化原则,适合于小样本数据集知识挖掘的方法[19,32].对于样本分类问题,设样本数据集为Zi=[Zi1,Zi2],yi为Zi对应的标签,浮冰在闸前堆积标记为“+1”,浮冰输移通过闸门标记为“−1”.则样本分类超平面式为式(10),分类决策函数为式(11)

式中,ω=(ω1,ω2,···,ωm)为Z对应的权值向量,b为位移项,决定了超平面与原点之间的距离,sign()表示符号函数,该问题求解的拉格朗日函数可描述为式(12)

其中,α=(α1,α2,···,αp)为拉格朗日算子,αi≥0.求解函数式(12)得到ω 和b,并代入式(11)得式(13)

为了解决标准化后样本数据在原始空间不可分的问题,将标准化后的样本数据在原始空间作映射变换,则变换后的空间内积函数的值可变成核函数的直接计算值,计算公式如式(14)

式中,ϕ(Zi),ϕ(Zh)为原始空间的映射变换函数,函数k(Zi,Zh)为核函数.本研究用到的核函数类型有多项式核(polynomial kernel function,POL)、高斯径向基核(radial basis kernel function,RBF)和Sigmoid 核(sigmoid kernel function,SIG),计算公式如式(15)∼式(17)所示

其中,Zi和Zh表示不同的输入特征,γ 为高斯核带宽参数,tanh 是双曲正切函数.引入松弛变量ξi和hinge损失函数,可将式(12)写成式(18)

其中,ui≥0 为拉格朗日算子.

核函数中的参数取值是决定计算准确的关键.采用网格搜索方法(GridSearchCV,GS)确定最优核参数[33-34].GS 算法将搜索数据组成网格空间,采用穷举的方法对每一个网格点中的数据取值.本研究最优值的搜索结果如图11 所示.其中,RBF 参数C 搜索范围为32.0 ∼512.0,γ 搜索范围为0.0625 ∼1.0,最优参数C=137.8,γ=0.27;SIG 的参数C 搜索范围为0.01 ∼1010,γ 搜索范围为10−9∼103,最佳参数C=104,γ=0.1;POL 的参数C搜索范围为1.0∼8190,γ 搜索范围为0.031 25∼32.0,最佳参数C=1.0,γ=19.5.

图11 GS 搜索的结果Fig.11 The parameter of kernel function with GS such

图11 GS 搜索的结果(续)Fig.11 The parameter of kernel function with GS such(continued)

模型分类结果通过混淆矩阵进行评价[34].闸前冰输移与堆积的混淆矩阵如表2 所示,当冰在闸前堆积时,PCA-SVM 模型预测正确记为TP,预测错误记为FN.当冰下潜通过闸门时,模型预测正确记为TN,预测错误记为FP.引入准确率(Accuracy,Acc)、精确率(Precision,Pre)、召回率(Recall,Rec)和F1-Score计算各核函数的得分情况,计算公式如式(19)∼式(22)所示,其中F1-Score是精确率和召回率的综合评价指标.各核函数的得分情况如表3所示.RBF 的精确率在测试集上为0.87,在验证集上为0.94,高于SIG 和POL 核函数;其次,对于准确率和F1-Score值的得分情况,RBF 核函数也显示出优势.因此,选择RBF 作为SVM 模型的核函数来开展试验数据的分类研究

表2 闸前冰输移与堆积混淆矩阵Table 2 Confusion matrix of ice transportation and accumulation in front of the gate

表3 分类报告Table 3 Classificatio report

3.3 模型输出

模型输出的各主成分贡献率如图12 柱状图所示,其中各主成分的占比为86%,7%,4%和3%,图中阶梯折线图为各主成分的累计贡献率.提取前两个主成分信息,以解释93%的原数据信息.用PCA1 作为第一轴和PCA2 作为第二轴绘制分类结果如图13.由图13 可知当闸孔开度不变时,不同来流条件的数据点沿PCA1 轴方向变化,而第一主成分贡献率为86%,因此认为在输入特征中主要影响因素是Fr1和Fr2.在相同来流条件下,关于闸孔开度变化的变量沿PCA2 轴方向变化,结合第二主成分贡献率为7%,认为H1/H和H/e是次要影响因素.

图12 主成分分析法提取浮冰闸前状态信息Fig.12 PCA was used to extract the information of floa ice before the gate

图13 PCA-SVM 模型在平板闸孔出流试验中的应用Fig.13 Application of PCA-SVM model in classificatio of floatin ice in front of fla sluice

4 模型应用

采用Fu 等文献[10]中的试验开展模型应用分析,其试验装置如图14 所示,出流方式为淹没出流,Fu 等采用回归分析的方法拟合了函数曲线,拟合结果如图15 中标注所示.应用本文建立的支持向量机模型对Fu 等试验数据进行分类,模型输入为闸门相对淹没水深、上游水流弗汝德数和闸前冰状态.核函数选择RBF,核参数C=100,γ=0.8.将模型输出结果和Fu 等的结果进行对比,对比结果如图15 所示,分类结果基本与原作者方法一致.SVM 分类结果的ACC为97%,REC为93%,F1-Score为97%.从分类结果看出支持向量机模型在倒虹吸淹没出流试验数据中,能很好的学习到数据规律,并完成堆积与输移状态的分类.

支持向量机模型作为一种机器学习方法从数据本身规律出发,挖掘数据潜在的知识信息,完成数据的分类预测.本研究开发了基于Python3 语言的PCA-SVM 分类模型,在应用时通过替换输入数据和核参数取值,可以完成对闸前浮冰堆积与输移状态的分类.

图14 倒虹吸试验装置示意图Fig.14 Schematic diagram of inverted siphon test device

图15 SVM 模型在倒虹吸试验中的应用Fig.15 Application of SVM in the inverted siphon test

5 结论

针对明渠输水闸前冰的输移与堆积的问题,开展了水槽试验研究,提出了一种闸前冰输移与堆积状态判别的PCA-SVM 模型.模型输入数据包括影响冰堆积的上游水流弗汝德数、闸孔出口弗汝德数、闸门相对开度和闸门相对淹没水深4 个因素,采用PCA 的方法对输入数据进行降维,提取前两个主成分作为模型输入.在此基础上,模型对比分析了RBF、SIG 和POL 核函数在闸前冰输移与堆积问题上分类的性能,通过混淆矩阵的评分得到RBF 核函数具有较优的分类性能.分类结果显示,上游水流弗汝徳数和闸孔出口水流弗汝徳数是影响闸前冰输移与堆积的主要因素,闸门相对淹没水深和相对开度是次要因素.本研究拓宽了明渠水流中闸前浮冰状态分类预测的研究思路,未来可根据实际渠道中闸门布置形式及更复杂的水力条件对模型进行进一步优化,使其得到更广泛的应用.

猜你喜欢

闸孔浮冰堆积体
Pollution reaches new height 污染到达新高度
前置式闸孔电站在水闸的应用
——以淮阴闸为例
后退式注浆技术在隧道突涌堆积体加固处治中的应用
隧道黄土堆积体施工技术
越来越暖是咋回事儿?
大型堆积体滑坡治理施工技术研究
冰水两相流中浮冰运动特性研究
高密度电法在寻找泥石流堆积体中的应用研究
山东德州四女寺南进洪闸过闸流量分析
宽顶堰平板闸门闸孔出流水力计算的实验研究