基于SVM的输电线路造价指标因素的分析及预测
2015-05-30
[摘 要]本文应用支持向量机算法,基于以往输电线路典型工程量和造价之间的映射样本数据,利用SVM自动选择最优复杂度模型的能力,建立起分析影响输电线路造价指标体系的模型。
[关键词] SVM;输电线路;造价指标
doi:10.3969/j.issn.1673 - 0194.2015.10.103
[中图分类号]TM752;F426.61 [文献标识码]A [文章编号]1673-0194(2015)10-0-03
本文利用数据挖掘中的支持向量机算法,完全排除人为的干预因素,通过机器学习在高维空间中找到一个最优分类面,生成一个最优复杂度模型,得到影响输电线路造价的主要指标因素并通过以往的经验数据对模型进行自主学习和训练,模型为今后电网建设全寿命造价管理和控制以及辅助决策提供一个理论指导和依据。
1 数据挖掘机器学习——支持向量机算法
支持向量机(Support Vector Machine,SVM)是Vapnik等人根据统计学习理论提出的一种针对小样本的机器学习理论。与传统的以神经网络为代表的机器学习方法相比,通过实践证明如果过于追求训练误差最小,会导致模型的泛化能力下降出现过拟合问题。Vapnik等人通过研究指出,需要同时控制经验风险和学习机容量,才能使模型获得良好的泛化能力,该理论的核心思想是通过引入结构风险最小化准则来控制学习机的容量。
SVM的算法很好的实践了上述思想,通过引入核函数,甚至不需要知道非线性变换的具体形式,只需将核函数引入计算即可实现某种非线性变换,将低维空间映射到高维特征空间,再在高维特征空间中构造线性判别函数来实现原空间中的非线性判别函数。问题就转化为如何在新的映射高维空间中求取最优分类面。最优分类面就是存在这样的分类超平面,它不但能够将所有训练样本正确分类,而且使训练样本中离分类面最近的点到分类面的距离(定义为间隔)最大。通过使间隔最大化来控制分类器的复杂度,实现较好的推广能力,摆脱高维数的冗余,使其算法复杂度与样本维数无关,这正是SVM的优势所在。
支持向量机最关键的步骤是核函数的选取,也是影响模型拟合最重要的部分,常用的核函数有。
在实际应用中,关于核函数参数选择的问题还没有很好的解决,如多项式学习机器的阶数问题,径向基学习机器中的函数宽度问题,以及Sigmoid机器中函数的宽度和偏移问题等,统计学理论目前对这些问题只是给出了一些建议和解释。
目前,SVM方法被越来越多地用于包括模式识别、回归估计和密度估计等多个研究领域中。本文创造性的将该方法引入输电线路工程造价指标影响因素的分析和输电线路工程项目造价预测的研究中,由于其所具有的推广能力强、解的唯一性与全局最优性等优点,使得以此方法为基础的输电线路造价模型具有较好的应用效果。针对本文所涉及的应用,其算法流程如图1所示。
2 输电线路工程造价指标的建立
2.1 110kV输电线路造价指标体系
利用原始的国家电网公司110kV输电线路典型方案工程量指标和造价的关联建立造价指标体系。
图2 输电线路工程造价指标体系
其共有19个影响输电线路工程项目造价的因素,其中地线型号基本一致,对于110 kV电压等级的常规线路来说,基面开方、护坡、保坎产生的工程量很少,也很少用到间隔棒,除非大容量多分裂导线,从技术经济的角度分析与其如此,不如新建更高一级电压等级的线路,导、地线可归一为线材,塔材、基础钢、接地钢可归一为钢材,基坑、接地开方也可以合并,塔基数属于后评价指标,对造价形成没有影响。特别地,回路数、气象条件、导线型号共有2×4×2=16种情况,可以将其三者合并用1~16的数据表示。
2.2 输电线路工程造价的主成分分析和工程特性的选取
电网工程特性是决定工程造价的决定性因素,因此所选的工程因素首先要全面,如若考虑不全面,造价的特殊性和差异性就体现不出来。实践证明,工程的任何一个特征都会影响到总的工程造价,如果将所有的因素都考虑进去,所建模型就没有实际意义。因此,只能挑选那些对工程造价有较大影响的工程特性。因此,工程特性只有结合工程实际的客观规律来挑选,它的选取要“全”而“精”,尽量选取独立的因素,因素之间没有任何相关度。本论文采用主成分分析法筛选决定电网工程造价的工程特性。
主成分分析(Principal Component Analysis,PCA)是一种数据压缩和特征提取的多变量统计分析技术,能够有效去除数据间的相关性。它的基本思路是降维,即保证数据损失尽可能最小的前提下,经过线性变换和舍弃一小部分信息,以少数新的综合变量(称为主成分)取代原始采用的多维变量,即对原来提出的p个指标综合成尽可能少的m个综合性指标,且要求这m个指标既能充分反映原来的p个变量反映的信息,又能使这m个综合变量之间互不相关,运用这m个综合变量进行样本的综合评价。在经济研究中,主成分分析法在预测领域、评定综合指标问题等领域都有广泛的应用。下面就详细展开介绍。
由于原始指标之间不可避免地存在信息量的重复,而且指标数量过多不利于直接计算,所以利用主成分分析的方法对原始指标进行筛选。设经过预处理的数据为n*m维矩阵,n为样本数,m为评价指标数。
(1)首先对数据进行标准化
(4)
式中 , (5)
(2)计算样本相关矩阵R=(rjk)n×m (6)
式中, (7)
(3)计算特征值和特征向量
由R的特征方程|R-λi|=0求相关矩阵R的m个特征值λ1,λ2,…,λm(λi≥0)及相应的特征向量C1,C2,…,Cm。
(4)计算主成分的贡献率,每个主成分的贡献率代表了原数据占总信息量的百分比
(8)
(5)筛选主成分
将各主成分贡献率由高到低排列,当前s个主成分贡献率的和(累计贡献率)达到信息反映精度(一般累计贡献率达到85%即可)的要求时,取这s个主成分Z1,Z2,…,Zs作为下一阶段模型的评价指标。
(6)构造新的样本矩阵
根据Zi=X*Ci(i=1,2,3,…,n),计算每一个主成分的各样本值,构成新的n×s维样本矩阵,其中,n为样本数,s为指标数,即
根据介绍的主成分分析法,首先对原始数据矩阵进行标准化,再利用Matlab工具的princomp函数对标准化后的数据进行主成分分析,得出各成分的贡献率以及各成分的累积贡献率。
经过上述的处理,依据各成分的累积贡献率由高到低排序,可以将支持向量机的输入信号个数由19个减少到8个,分别是:线路综合情况、导地线(t/km)、杆塔基础接地钢材(t/km)、基面基坑接地开方(m3/km)、混凝土(m3/km)、绝缘子片数(片/km)、防震锤(个/km)、挂线金具(t/km),输出则是电力线路工程的单位路径长度造价(万元/km)。
2.3 指标数据的收集及标准化处理
由于选取的指标数据之间的量纲不同,数据差别较大,为使小的数据不被大的数据所淹没,在对其进行样本学习时,必须消除这些差别所带来的影响。样本数据的标准化处理利用线形插值,把输入节点和输出节点的信号控制在[0.1,1]之间。
取a=max{Xi}赋予相应的权值1,取b=min{Xi}赋予相应的权值0.1,对任意样本xi的线形插值计算公式为:
(9)
表1是国家电网公司110kV典型方案工程造价样本经过线性插值标准化后的数据。
3 数据仿真分析及预测
仿真数据来源于国家电网公司110kV典型方案工程,如表1所示,依据上文所预处理的样本数据,在Matlab软件平台上利用工具箱的图形用户界面实现了SVM数据挖掘模型的建立。本文在输电线路造价影响因素分析的基础之上,把影响输电线路造价的指标因素X1i,X2i,…,X8i作为SVM的输入,把输电线路的造价yi作为SVM的期望输出,用SVM方法进行机器学习。选取前28组样本数据作为训练样本,其余11组为预测检验样本,核函数K(xi,yi)采用径向基(Radial Basis)核函数。
(10)
具体的参数设置为:C=1 000、ε=0.001、σ=2,在Matlab软件环境下用SVM进行仿真拟合,训练结果见表2,拟合比较见图3。
从以上仿真结果可看出,用检验样本仿真评价的输出结果和专家评价的结果基本一致,最大相对误差为19.26%,最小相对误差为9.58%。模型输出值与实际的数值其平均误差百分比(Mean Absolute Percentage Error)是13.886 36%,在检验集上预测误差平方和(Prediction Error Sun Of Squares)是0.085 37,表明基于SVM的该模型有着良好的函数逼近能力,而且整体的推广、泛化能力也很好。
主要参考文献
[1]谢颖,高犁难,石振武.基于最小二乘支持向量机的公路工程造价预测模型[J].中外公路,2007(27):242-245.
[2]刘振亚.国家电网公司输变电工程典型造价:110kV输电线路分册[M].北京:中国电力出版社,2006.
[3]陶树人.技术经济学[M].北京:经济管理出版社,1998.
[4]颜七笙,徐辉.基于支持向量机的企业自我实现能力综合评价方法[J].中国管理信息化,2007(10):55-56.