基于主成分分析仓С窒蛄炕的人工加糙渠道糙率系数预测模型
2018-11-13葛赛赵涛吴思吴洋锋
葛赛 赵涛 吴思 吴洋锋
摘要:以矩形人工加糙渠道为研究对象,采用主成分分析支持向量机方法建立糙率系数预测模型。根据前期试验研究成果,选取佛汝德数Fr、绝对粗糙度Δ、渠道平均水深h、底坡i这四个主要影响因素,采用主成分分析方法提取两个主成分,获得影响糙率系数大小的综合性指标并用于支持向量机对数据的训练、测试及预测。研究结果显示:模型的训练集均方根误差RMSE为3.85×104、预测相关系数R为0.997,测试集均方根误差RMSE为5.37×104、预测相关系数R为0.992、预测相对误差小于5%。研究结果表明,基于主成分分析支持向量机所建模型适合人工渠道糙率系数的预测。
关键词:人工渠道;糙率系数;预测;主成分分析;支持向量机
中图分类号:TV135.3文献标志码:A文章编号:16721683(2018)03016906
Prediction model of roughness coefficient of artificially roughened channels based on
principal component analysissupport vector machine
GE Sai1,ZHAO Tao1,WU Si2,WU Yangfeng1
(1.College of Water Conservancy and Civil Engineering,Xinjiang Agricultural University,Urumqi 830052,China;
2.Yellow River Engineering Consulting Co.,Ltd.,Zhengzhou 450003,China)
Abstract:With the rectangular artificially roughened channel as the research object,we established a prediction model of roughness coefficient using the principal component analysissupport vector machine method.According to the preliminary experimental results,we selected four main influence factors: Froude number Fr,absolute roughness Δ,channel average water depth h,and bottom slope i.We used the principal component analysis method to obtain two main components,and obtained the comprehensive indexes influencing roughness coefficient,and used them for data training,testing,and prediction of the support vector machine.The research results showed that the RMSE and prediction correlation coefficient R of the training set were 385×104 and 0997 respectively,while those of the test set were and 0992 respectively.The relative error was less than 5%.The results showed that the model based on principal component analysissupport vector machine is suitable for predicting the roughness coefficient of artificial channels.
Key words:artificial channel;roughness coefficient;prediction;principal component analysis;support vector machine
明渠[1]以多种形式存在,明渠水流的水力计算广泛应用于水利、航运、城建和环境保护等多种行业的工程计算中[2]。其中,糙率系数的取值问题一直是明渠水流水力计算向精准计算方向发展的最大阻碍。糙率就其本义而讲,是衡量河床边壁粗糙程度对水流影响的一个系数,在一般情况下,边壁越粗糙,糙率系数就越大[35]。明渠根据其特性可分为天然渠道和人工渠道,人工渠道相对于天然渠道而言,过水断面的形状和尺寸以及表面的粗糙程度等沿程变化相对较小。采用人工加糙渠道进行糙率系数研究,进一步简化天然渠道复杂多变的水力要素并完善人工渠道单一边壁条件的不足,有助于客观全面的分析问题。
目前,查表法和公式法得到的糙率系数应用到实际中还存在诸多的问题[68]。有许多学者[916]希望通过明晰糙率系数与关键水力要素的相关关系推求出更为精准的糙率值,而糙率系数是一个复杂的非线性系统,此方法得到的结论在某些情况下带有一定的局限性。有学者通过建立模型进行糙率系数预测并取得一系列成果,Becker等[1718]将单纯形法融入到数学模型进行糙率预测,金忠青等[19]采用复合形法构建河网糙率预测模型,董文军等[20]通过参数辨识理论建立预测模型,程伟平等[21]构造带参数的卡尔曼滤波糙率预测模型,涨潮[22]等采用基于数据挖掘的BP神经网络构建预测模型。但是以上学者所使用的数学模型仍存在着一些不足,需要大量的樣本数据训练,容易陷入局部最优,过度依赖初值的设置,微小变化都有可能引起数值的较大摆动导致预测精度较低。随着人工智能技术的发展,作为处理小样本结构风险最小化的数学模型工具支持向量机(Support Vector Machine,SVM)脱颖而出并在许多领域出色的完成任务[23]。在建立渠道糙率系数预测模型时,往往需要考虑多种因素,因素之间难免会出现信息重叠,这样会对模型的预测精准度产生影响。主成分分析(Principal Component Analysis,PCA)通过提取特征信息去除冗余信息,将原始数据划分为少数几个具有综合指标的主成分,为支持向量机模型进行精准可靠的预测提供保障[24]。
第16卷 总第96期·南水北调与水利科技·2018年6月葛赛等·基于主成分分析支持向量机的人工加糙渠道糙率系数预测模型本文通过对吴思矩形人工加糙渠道试验数据[25]进行分析,对影响糙率系数的主要影响因素进行主成分分析并建立支持向量机预测模型。通过对模型预测结果进行精确度计算,得出模型拟合效果相关数据信息。此预测模型通过学习训练掌握糙率系数的变化规律,可为实际中受试验条件限制的试验研究提供预测数据以弥补数据信息的不足,并可根据已建成模型对相应实例中糙率系数选取的合理性提供参考。
1试验布置及方案
物理模型试验在新疆农业大学水利与土木工程学院水工实验室进行,试验渠道采用长20 m、宽0.4 m、深0.3 m的矩形PVC材质人工渠道。试验系统由供水装置、静水箱、可进行坡度调节的渠道、尾门、量水堰、回水装置等组成,试验系统见图1。其中,渠道前后端分别安设的静水箱和尾门,是用以平稳水流,保证上下游水位一致形成均匀流;调节支撑,可获取不同底坡条件;量水堰采用矩形薄壁堰,测量得到渠道流量值。通过调节渠道坡度与过流量获取不同试验条件下的数据。
渠道底部及两侧分别用清漆将砂粒均匀粘贴,采用水准仪量测砂粒凸起度是否满足要求。选取4种不同边壁条件进行模型试验,分别为光滑壁面条件、边壁粘贴砂粒粒径d为1~2 mm、2~3 mm、3~5 mm的边壁条件,相应的绝对粗糙度Δ分别为0015 mm、15 mm、25 mm、4 mm。调节0004~003共8种不同底坡,每种底坡下选取10组流量进行试验,流量变化范围为12~41 L/s。取距进水口后3 m处、距出水口前3 m处分别作为测量段的起始点和终止点,在测量段每间隔1 m取为一个测量断面,每个断面上布设3个测点。当在某一边壁条件下,利用水准仪测算得到渠道底坡,读出量水堰此时流量值,当达到预设数值要求时,采用水位测针量测每个测点的水深从而得出渠道的平均水深,并由相关已知条件计算得出相应的佛汝德数及糙率系数值。物理试验由4种边壁条件、8种底坡及10组流量分别组合,共进行了320组试验。
2基于PCASVM预测模型试验结果及分析
2.1主成分分析PCA
主成分分析PCA通过特征分解法从变量中提取出主要影响因子即主成分因子,主成分因子间线性无关,综合全面描述影响事物的本质因素。主要影响因素间存在相关性,数据信息具有重复性弊端,带入模型可能会降低系统识别的准确率,并且输入变量的个数也会影响模型的运算速度,故对数据先进行主成分分析做降维处理提取主成分。本试验研究借助SPSS数据分析软件对数据进行主成分分析。
数据标准化处理。共有320组样本数据,每组样本数据对应4个原始变量,数据矩阵A为,由于原始变量间量纲不同且数值之间存在较大差异,采用数据标准化处理来消除影响。
相关系数矩阵。判别原始变量间是否存在相关性,通过对标准化后数据计算相关系数,得到相关系数矩阵见表1。其中,X1、X2、X3、X4分别表示经标准化处理后的绝对粗糙度Δ、佛汝德数Fr、渠道平均水深h、底坡i。相关系数值存在大于03的情况,说明数据间存在相关性,适合进行主成分分析对数据进行处理。
mi=Miλi(1)
式中:mi表示第i个主成分的特征向量;Mi表示第i个主成分对应的成分向量;λi表示第i个主成分对应的特征值,其中λ1 =2.503,λ2=1.011(i=1,2)。
式中:Y1、Y2分别表示第一主成分、第二主成分。
2.2支持向量机SVM模型
支持向量机是一种基于统计学习理论(Statistical Learning Theory,SLT)VC维思想和结构风险最小化原理的数学模型[26]。在解决非线性回归问题时,支持向量机通过引入核函数(kernel function)成功的克服了样本数据线性不可分问题,将样本数据映射到高维特征空间后变为线性可分,简化在低维特征空间的非线性问题。在进行模型建立时,除应选择合理的核函数外,还应对参数进行寻优以确保模型的准确性。支持向量机在模型预测时避免陷入局部最优,具有良好的泛化能力。本试验中使用LIBSVM软件包进行支持向量机模型预测。
2.3PCASVM 模型建立
为合理构建基于主成分分析支持向量机的糙率系数预测模型,需进行如下模型运算过程。
数据归一化处理。将由主成分分析提取的2个主成分因子与所对应的糙率系数组成的矩阵B,对数据矩阵在[0,1]进行归一化处理,减小因数值差异对模型的干扰,提高数据矩阵的整体性。
划分测试集和训练集。为保证模型的可靠性及说服性,将320组样本数据随机抽取240组作为训练集进行模型训练,余下80组作为测试集进行效果测试。
选择核函数。核函数是支持向量机模型建立最为重要的部分,对模型的精确性起决定性作用。常见的核函数有线性核函数、多项式核函数、Sigmoid核函数和径向基核函数(RBF)。其中,RBF在解决非线性问题时具有极强的优势,其出色的表现被许多领域广泛应用。本试验将4种常见核函数代入模型后发现RBF更适合此试验情况,故选择RBF为核函数。
寻找最优参数。交叉验证法搜索最优参数是目前应用最为广泛、搜索效率极为快捷的一种參数寻优方法。对惩罚因子C与核函数参数g应用交叉验证法进行寻优,最终得到最优的惩罚因子C为857419 ,核函数参数g为17.1484。
模型学习训练。根据支持向量机前期的各种条件设置,分别对训练集及测试集进行支持向量机模型训练预测,并对数据进行反归一化处理。为检验模型学习效果,计算训练集与测试集的均方根误差RMSE与相关系数R。其中均方根误差RMSE是衡量预测值和观测值之间偏差程度的一个量,其值越小代表模型误差越小;相关系数R是模型经训练学习后与真实数据趋势拟合的优劣程度的评判参考,其值越接近1拟合效果越好。公式分别如下。
RMSE=1n∑ni=1(observedi-predictedi)2(4)
式中:observedi表示第i个观测值;predictedi表示第i个预测值;n为预测样本总个数。
R(X,Y)=Cov(X,Y)Var[X]Var[Y](5)
式中:Cov(X,Y)代表X与Y的协方差;Var[X]、Var[Y]分别表示X及Y的方差,此公式中X和Y分别代表观测值与预测值。
2.4PCASVM模型试验结果及分析
结合主成分分析提取主成分进行支持向量机建模,系统内部经过一系列黑箱处理掌握糙率系数的变化规律。模型对糙率系数进行预测,测试集预测效果图见图2。其中,训练集与测试集的均方根误差RMSE分别为、,训练集与测试集的相关系数R分别为0997、0992。测试集的部分样本糙率拟合结果见表5,相对误差小于5%,最大为4930%,最小为0498%。由此可见,此模型对随机抽取的样本数据进行了出色的预测,可用此训练模型进行糙率系数的预测。
通过对数据进行主成分分析提取主成分,减少自变量个数,综合全面的对数据特性进行描述,将主成分因子融入到支持向量机模型建立中,降低模型的复杂程度,加快模型的运算速度。为考察支持向量机模型在糙率预测方面相对于其它计算模型是否更具优势,对采用主成分分析的样本数据进行支持向量机与神经网络模型建立,测试集预测效果相应物理量见表6,糙率拟合效果见表5。由支持向量机与神经网络预测模型的均方根誤差RMSE对比可以看出,前者在精度方面高出一个数量级;表征拟合优度的相关系数R值达到0992,高于神经网络相关系数R值0843,在拟合优度评判上更具优势;支持向量机预测相对误差较小,模型拟合更为精准。综上,支持向量机在糙率预测方面具备独特的优势条件,为糙率系数的研究提供一种可供参考的模型预测方法。
3结论
(1)本试验结合前期试验研究成果提取4个主要影响因素,并无对影响因素进行取舍,对糙率系数的变化规律描述得更为全面具体。影响因素间存在一定的相关性,数据信息具有重复现象,会影响模型的信息识别造成模型预测精确性下降。通过对影响因素进行主成分分析提取主成分因子,综合全面的对影响糙率系数的因素进行描述,同时主成分分析降低数据维度还有利于提高模型的运算速度。主成分分析有助于支持向量机模型的预测效果及效率的提高。
(2)基于主成分分析进行支持向量机糙率预测模型建立,用均方根误差RMSE及相关系数R进行模型预测误差评判,结果显示,训练集与测试集的均方根误差RMSE分别为、,训练集与测试集的相关系数R分别为0.997、0.992,预测相对误差小于5%。由均方根误差的数量级、相关系数接近于1及较小的预测相对误差,可印证此模型的精确性及可靠性。
(3)糙率系数的物理模型研究,经常会受到各种条件因素的限制,以至于不能获得充足的研究数据,同时,在对长距离渠道进行糙率系数测算时可能会投入过多的工程量。结合主成分分析的支持向量机糙率系数模型可通过对小样本数据学习训练掌握规律,当模型经训练后精度达到要求时可进行糙率系数的预测,为糙率系数的研究提供参考。
参考文献(References):
[1]邱秀云.水力学[M].乌鲁木齐:新疆电子出版社,2008.(QIU X Y.Hydraulics[M].Urumqi:Xinjiang Electronic Press,2008.(in Chinese))
[2]张志昌,魏炳乾,郝瑞霞.水力学[M].北京:中国水利水电出版社,2011.(ZHANG Z C,WEI B Q,HAO R X.Hydraulics[M].Beijing:China Water & Power Press,2011.(in Chinese))
[3]何建京.明渠非均匀流糙率系数及水力特性研究[D].南京:河海大学,2003.(HE J J.Roughness Coefficient and Turbulent Characteristics for nonuniform flow in Open Channels[D].Nanjing:Hohai University,2003.(in Chinese))
[4]张小峰,杨雯婷,陈建良,等.壅水情况下非均匀流糙率系数研究[J].泥沙研究,2014(5):6571.(ZHANG X F,YANG W T,CHEN J L,et al.Study on roughness coefficient of nonuniform flow in backwater[J].Journal of Sediment Research,2014(5):6571.(in Chinese)) DOI:10.16239/j.cnki.0468155x.2014.05.002.
[5]徐慧敏.关于水利工程中河道糙率的研究[J].水利科技与经济,2010,16(11):12531256.(XU H M.Research on roughness of river in water conservancy projects[J].Water Conservancy Science and Technology and Ecomomy,2010,16(11):12531256.(in Chinese)) DOI:10.3969/j.issn.10067175.2010.11.023.
[6]李凌云,范北林,王家生,等.黄河下游河道河床阻力计算研究评述[J].水力发电学报,2015,34(6):144146.(LI L Y,FAN B L,WANG J S,et al.Study of riverbed resistance calculation for the lower Yellow River.A review[J].Journal of Hydroelectric Engineering,2015,34(6):144146.(in Chinese))
[7]张小琴,包为民,梁文清,等.河道糙率问题的研究进展[J].水力发电,2008,34(6):98100.(ZHANG X Q,BAO W M,LIANG W Q,et al.Recent studies and progress of the river roughness[J].Water Power,2008,34(6):98100.(in Chinese))
[8]杨克君,曹叔尤,刘兴年.复式河槽综合糙率计算方法比较与分析[J].水利学报,2002,36(7):780784.(YANG K J,CAO S Y,LIU X N.Comparison and analysis of calculation methods for comprehensive roughness of compound[J].Journal of Hydraulic Engineering,2002,36(7):780784.(in Chinese)) DOI:10.13243/j.cnki.slxb.2005.07.003.
[9]翟艳宾,吴发启,王健,等.不同人工糙率床面水力学特性的试验研究[J].水土保持通报,2012,32(6):3842.(ZHAI Y B,WU F Q,WANG J,et al.Experimental study on Hydraulic characteristics of artificial surfaces with different roughness[J].Bulletin of Soil and Water Conservation,2012,32(6):3842.(in Chinese)) DOI:10.13961/j.cnki.stbctb.2012.06.037.
[10]楊岑,路泽生,栾维功,等.矩形渠道人工加糙壁面阻力规律试验研究[J].长江科学院院报,2011,28(1):3438.(YANG C,LU Z S,LUAN W G,et al.Experimental study on friction law of artificial roughwall rectangle channel[J].Journal of Yangtze River Scientific Research Institute,2011,28(1):3438.(in Chinese))
[11]马吉明,史哲.南水北调典型宽浅渠道糙率系数研究[J].水力发电学报,2007,26(5):7679.(MA J M,SHI Z.Research on the absolute roughness of the typical channel of the south to north water diversion project[J].Journal of Hydroelectric Engineering,2007,26(5):7679.(in Chinese))
[12]张罗号.黄河河槽糙率异常原因及其解决途径[J].水利学报,2012,43(11):12611264.(ZHANG L H.Yellow River Rivers Roughness Abnormal Reason and Its Solution[J].Journal of Hydraulic Engineering,2012,43(11):12611264.(in Chinese)) DOI:10.13243/j.cnki.slxb.2012.11.004.
[13]赵锦程,邱秀云,杜利霞,等.底坡对人工渠道糙率影响的试验[J].水利水电科技进展,2013,33(6):4851.(ZHAO J C,QIU X Y,DU L X,et al.Experimental study on effect of bottom slope on the artificial channel roughness[J].Advances in Science and Technology of Water Resources,2013,33(6):4851.(in Chinese)) DOI:10.3880/j.issn.10067647.2013.06.010.
[14]齐鄂荣,罗昌.库区河道非恒定流糙率的选取及特性[J].武汉大学学报(工学版),2003,36(2):14.(QI E R,LUO C.Method for Selecting roughness of reservoir′s river course with unsteady flow and its characteristics[J].Engineering Journal of Wuhan University,2003,36(2):14.(in Chinese))
[15]张靖,拾兵,薛旖云.糙率变化对明渠水深影响的探讨[J].人民黄河,2012,34(9):121122.(ZHANG J,SHI B,XUE Y Y.Discussion on the influence of roughness variation to the open channel flows[J].Yellow River,2012,34(9):121122.(in Chinese))
[16]拜亚茹.人工渠道糙率系数影响因素的试验研究[J].水资源与水工程学报,2014,25(4):230232.(BAI Y R.Experimetl on influence factors on roughness coefficient of artificial channel[J].Journal of Water Resources and Water Engineering,2014,25(4):230232.(in Chinese)) DOI:10.11705/j.issn.1672643X.2014.04.047.
[17]BECKER L,YEH W W G.Identification of parametersin unsteady open channel flows[J].Water Resources Research,1972,8(4):956965.
[18]BECKER L,YEH W W G.Identification of multiple reach channel parameters[J].Water Resources Research,1973,9(2):326335.
[19]金忠青,韩龙喜,张健.复杂河网的水力计算及参数反问题[J].水动力学研究与进展(A辑),1998,13(3):280285.(JIN Z Q,HAN L X,ZHANG J.Hydraulic calculation and inverse problem of complex river network[J].Journal of Hydrodynamics,1998,13(3):280285.(in Chinese))
[20]董文軍,姜亨余,喻文唤.一维水流方程中曼宁糙率的参数辨识[J].天津大学学报,2001,(2):201204.(DONG W J,JIANG H Y,YU W H.Parameter identification of manning roughness in one dimensional flow equation[J].Journal of Tianjin University,2001,(2):201204.(in Chinese)) DOI:10.3969/j.issn.04932137.2001.02.017.
[21]程伟平,毛根海.基于带参数的卡尔曼滤波的河道糙率动态反演研究[J].水力发电学报,2005(2):123127.(CHENG W P,MAO G H.Study on channel friction parameter inversion based on Kalman filter with unknown parameter vector[J].Journal of Hydroelectric Engineering,2005(2):123127.(in Chinese)) DOI:10.3969/j.issn.10031243.2005.02.027.
[22]张潮,毛根海,张土乔,等.基于数据挖掘的河网糙率直接反演方法[J].水力发电学报,2009,28(1):108112.(ZHANG C,MAO G H,ZHANG T Q,et al.Direct inversion method of river network roughness based on data mining[J].Journal of Hydroelectric Engineering,2009,28(1):108112.(in Chinese))
[23]VAPINK V.The nature of statistical leaning theory[M].New York:SpringerVerlag,1995.
[24]王磊.基于主成分分析的支持向量机回归预测模型[J].信息技术,2008(12):5859.(WANG L.Regression forecast model of support vector machine based on principal component analysis[J].Information Technology,2008(12):5859.(in Chinese)) DOI:10.13274/j.cnki.hdzj.2008.12.050.
[25]吴思.人工渠道糙率与明渠流态关系的试验研究[D].乌鲁木齐:新疆农业大学,2016.(WU S.Experimental study on the relationship between roughness of artificial channel and flow regime of open channel[D].Urumqi:Xinjiang Agricultural University,2016.(in Chinese))
[26]CORTES C,VAPNIK V.Support vector networks[J].Machine Learning,1995,20(3):273 297.