基于聚类的输电线路工程造价综合智能预测方法
2019-06-03王胜毅蔄晓琨
王胜毅 ,蔄晓琨 ,于 振 ,夏 君
(1.国网山东省电力公司,山东 济南 250001;2.国网山东省电力公司建设公司,山东 济南 250001;3.国网济南供电公司,山东 济南 250012)
0 引言
随着我国电力系统特高压交流、直流输电线路的相继建设,分布式发电装置的大量接入,储能电池技术的不断升级,电力系统输电网络必须进行更新和扩建以满足日渐严苛的输配电要求,近年来用于输电线路工程项目的投资额不断上升[1-2]。
输电线路的工程造价,是某项输电线路工程建设所花费的费用总额,受到自然、社会、经济等多种因素的制约和影响[3-6]。输电线路工程是关系国计民生的公共事业,对其造价费用的精准预测具有重要的意义:首先,造价预测可以为输电线路建设预算的确定提供依据;其次,造价预测可以为输电线路造价的审核提供标准;再次,造价预测可以对输电线路建设项目的投资进行评价和分析;最后,造价预测还可以用于优选不同的输电线路建设方案。
工程造价预测研究的历史可以推溯到几百年前,英国皇家测量师协会、美国工料测量和评估系统基于大量的实际工程项目,建立了最初的造价预估和评价体系。1974年工程项目唯一性理论的提出,证明了传统方式下单纯用已完成的工程项目来对规划中的项目进行评估是不严谨的,调整系数的确定也相对复杂。进入20世纪90年代,计算机和通信技术飞速发展,神经网络[7-8]、遗传算法、支持向量机[9-10]等智能算法相继出现并在造价预测领域展现出广阔的应用价值,不同的智能算法有不同的数学特性和适用场景,有必要针对输电线路的实际工程造价问题进行对比和分析。数据聚类可以对原始数据进行预处理,排除特殊样本,聚拢相似数据,进而提升智能预测模型的精度[11],常用的数据聚类方法包括:K-Means 聚类[12]、层次聚类[13]以及模糊聚类[14]方法。
1 输电线路工程造价预测模型
1.1 传统预测方法
传统预测方法分为定性预测方法和定量预测方法两类。定性预测方法主要包括:专家会议法、德尔菲法以及主观概率法,定性预测方法的特点是要收集专家对于项目的意见和期望,过程烦琐且预测结果不可避免会引入专家的主观因素。
定量预测方法包括:移动平均法、指数平滑法、趋势外推法、卡尔曼滤波法、灰色预测法等。定量预测方法不受主观因素影响,大量应用于实际工程的预测,然而对于复杂的建设项目,原始数据繁杂多样,数据规律性差,该方法对于数据间的交互效应及非线性关系的处理能力较差。
1.2 现代智能预测方法
人工神经网络。BP(back propagation)神经网络是一种用于前馈多层的反向传播学习算法。计算过程中,组成前馈多层网络的各人工神经元之间的连接权值会不断进行修改,最终能够使输入该前馈多层网络的信息转化成所期望的输出内容。如图1(a)所示为BP人工神经网络的计算流程。
支持向量机。支持向量机SVM(Support Vector Machine)是一类按监督学习方式对数据进行二元分类的广义线性分类器,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解,程序流程如图1(b)所示。支持向量机算法应用核函数原理,基于结构风险最小化方法来寻找归纳统计设计模型,进而实现最小风险泛函,将数据从低维空间映射到高维空间,有效避免了“维数灾难”,在电力预测、文本分类等诸多领域取得了广泛应用。
图1 现代智能预测方法计算流程
2 现代智能预测方法的改进
2.1 K-Means聚类算法
K-Means聚类算法也称为K-均值聚类算法,K是指最终聚集的类别数。假设选取的输入样本为S=X1,X2,…,Xn则该算法的执行步骤为:
a)输入样本中任取K个样本点作为K个类别的初始中心 μ1,μ2,…,μk;
b)对每一个样本点 Xi,i=1,2,…,n 计算它们与各中心的距离,将它归入距离最小的中心所在的类别;
c)待所有样本点归类结束,将K个类别的中心更新为属于该类别样本点的均值;
d)重复 b),c)过程,直至各类别的中心变动都小于某个阈值。
如图2和图3所示,分别为含噪声的输入样本和去噪后的输入样本的K-Means聚类过程,聚类簇数设定为3,可以得出结论:特殊的噪声信息会对K-Means聚类的结果产生较大的影响。
图2 K-Means聚类算法(含噪声)
图3 K-Means聚类算法(去噪后)
2.2 层次聚类算法
层次聚类算法不指定具体的簇数,而只关注簇之间的远近,最终会形成一个树形图。如图4所示,以5个初始样本为例进行介绍,经过4层聚类后,所有样本都完成聚类,噪声样本同样会对最终的聚类结果产生影响。它的基本过程如下:
a)将每个样本点都划分成一个类别;
b)计算各个类别之间的距离,将距离最近的两个类别聚合成一个新的类别;
c)重复b)过程直至最后只剩一个类别,形成树状结构图;
d)依据用户设定的聚类层数,确定若干聚类后的样本集数量,计算得到各样本集的中心点。
图4 层次聚类树状图
2.3 模糊聚类算法
模糊聚类算法FCM (Fuzzy C-Means)是一种无监督的模糊聚类方法,在优化目标函数的基础上对输入样本进行聚类。聚类结果表达为每一个数据点对聚类中心的隶属程度,该隶属程度用一个数值来表示。FCM的理论基础完善,已经应用于多个领域并取得了较好的效果。然而,该算法在执行前需要先假定若干参数,若参数选取不当则聚类效果不佳;其次,当输入样本的数目较多时,该算法的实时性较差。 假设选取的输入样本为 S=X1,X2,…,Xn,算法的执行步骤为:
a)随机划分隶属度矩阵U,初始化k个聚类中心;
b)计算聚类中心 ci,i=1,2,…,k;
c)更新隶属度矩阵U;
d)重复 b),c)过程,直至所有中心点不再变化或者隶属度矩阵U变化很小。
2.4 基于聚类的综合智能预测方法
特殊的噪声样本对3类聚类方法最终的聚类结果都会产生一定的影响[15]。在输电线路的历史工程中,难免会有一些特殊的工程样本,该类工程的造价与常规工程造价差别很大,参考性不强,称为噪声样本。噪声样本的引入会严重干扰到支持向量机、BP人工神经网络等智能预测模型的训练准确性,降低预测精度。
输电线路工程的造价样本数量往往十分庞大,部分样本呈现相同或相似的建造环境和造价特性,可以对该类样本进行聚类,得到该类别样本的平均属性,从而进一步弱化噪声样本的干扰,缩小输入到支持向量机、BP神经网络算法中的训练样本体积,提高智能预测模型的预测效率以及普适性,避免出现局部最优的情况。所述的3类聚类方法均可以用于智能预测模型的输入样本预处理。
因此,提出了基于聚类算法的综合智能预测方法,程序流程如图5所示:首先将输入的历史输电线路工程造价数据分为训练样本和测试样本;其次,去除训练样本中的噪声后,分别利用K-Means聚类、层次聚类、模糊聚类3种聚类方法对训练样本进行聚类,得到可行聚类样本 1,2,3;再次,分别将 3种聚类后样本作为数据源,完成BP神经网络和支持向量机算法的训练;最后,利用两种智能算法对测试样本进行预测,并与测试样本的真实造价进行比对,量化3种聚类方法对2类智能预测模型的预测精度的提高幅度。
图5 基于聚类算法的综合智能预测方法
3 算例分析
3.1 无聚类的智能预测
选取某区域电网2015—2016年新建的80组220 kV输电线路工程的造价数据作为数据源。排除其中的10组特殊建造工程,剩余70组工程数据,将其中的60个样本作为训练集,其余的10个样本作为测试集,分别利用BP神经网络和支持向量机SVM预测算法进行计算和分析。
如表1所示,在利用BP神经网络和支持向量机SVM预测算法对220 kV输电线路工程造价进行预算时误差都控制在20%以下;预测误差最大的工程均为8号工程(17.36%和18.11%);BP神经网络的平均预测误差为9%,支持向量机SVM的平均预测误差为6.87%,平均预测误差均控制在10%以下,两种方法在预测220 kV输电线路工程造价时均有较高的精度。
表1 BP神经网络和支持向量机SVM预测结果
3.2 基于聚类的综合智能预测
继续使用以上70组去噪220 kV输电线路的工程造价数据。首先,分别利用K-Means聚类、层次聚类和模糊聚类算法对该数据进行聚类,依据聚类结果排除掉6组单独成类的样本(视为特例),剩余64输入数据,选取56组数据作为训练组,8组数据作为测试组;之后基于3种聚类后的数据完成BP神经网络和支持向量机SVM算法的预测过程;最后将聚类前和聚类后的预测误差进行比对,得到表2和表3所示的结果,聚类1表示K-Means聚类,聚类2表示层次聚类,聚类3表示模糊聚类。
表2 3种聚类方法对BP神经网络预测的影响 %
如表2所示为采用了BP神经网络预测算法在数据聚类前和执行3种数据聚类算法后的误差值,聚类前平均预测误差为8.39%,K-Means聚类后平均预测误差为8.09%,层次聚类后平均预测误差为7.77%,模糊聚类后平均预测误差为8.07%,可得结论:3种聚类方法均可以降低BP神经网络算法对220 kV输电线路工程造价预测的误差,层次聚类法降低误差的效果最显著。
表3为采用了支持向量机SVM预测算法在数据聚类前和执行3种数据聚类算法后的误差值,聚类前平均预测误差为6.10%,K-Means聚类后平均预测误差为5.82%,层次聚类后平均预测误差为5.79%,模糊聚类后平均预测误差为5.66%,可以得到结论:3种聚类方法均可降低支持向量机SVM算法对220 kV输电线路工程造价预测的误差,模糊聚类的误差降低效果最显著。
表3 3种聚类方法对支持向量机SVM预测的影响 %
4 结语
BP神经网络和支持向量机SVM是常用的两种智能预测算法,分别介绍了两类智能预测算法的执行过程以及适用场景,详细讨论了K-Means聚类、层次聚类和模糊聚类3种典型的聚类方法,并将其应用于提升BP神经网络和支持向量机SVM算法的预测精度,提出了一种输电线路工程造价的综合智能预测方法。基于某区域电网2015—2016年新建的80组220 kV输电线路工程造价数据开展算例测试,结果表明:两种智能预测模型均能将预测误差控制在20%以内,层次聚类对BP神经网络算法的误差降低效果最为显著,模糊聚类对支持向量机SVM算法的误差降低效果最为显著。