一种基于Adaboost和变量筛选的LSSVM工程造价估计方法
2016-05-22黄文涛程锦翔
黄文涛,周 萍,程锦翔
(1.东南大学 电气工程学院,江苏 南京 210096;2.建业恒安工程管理股份有限公司,江苏 江阴 214400;3. 南京航空航天大学 机电学院,江苏 南京 210016)
一种基于Adaboost和变量筛选的LSSVM工程造价估计方法
黄文涛1,周 萍2,程锦翔3
(1.东南大学 电气工程学院,江苏 南京 210096;2.建业恒安工程管理股份有限公司,江苏 江阴 214400;3. 南京航空航天大学 机电学院,江苏 南京 210016)
为了实现利用较少的工程信息,快速准确的估计出工程项目的造价,提出了一种基于Adaboost-VIP的工程造价估计方法。首先采用变量投影重要性指标(variable importance in projection, VIP)法对影响工程造价的多个因素进行特征提取,然后利用最小二乘支持向量机作为非线性逼近器,建立工程造价的估计模型。为了进一步提高模型的估计精度,将自适应提升算法(Adaboost)与VIP相结合,利用Adaboost将多个弱造价估计模型进行集成,得到强造价估计模型。同时将该方法应用到建筑案例中,结果表明:VIP方法能有效地对影响因素进行筛选,简化模型结构;Adaboost-VIP模型与单一的工程造价估计模型相比,具有更高的估计性能。
道路工程;工程造价;自适应提升法;变量投影重要性指标;最小二乘支持向量机
0 引 言
在项目建设前期,快速、准确地估算出工程项目的造价,可以为工程的分析、评估、决策以及科学有效地控制工程成本、提高投资效益提供技术支持和保障。但由于工程造价受多个因素影响,因素之间存在相互制约,且许多因素存在较大的不确定性,使得工程造价的估计模型具有非线性、多变量、强耦合的特性,模型难以建立。因此如何挖掘构建估计模型的重要因素以及研究新型的估计技术具有重要的意义。
目前常见的工程造价估计方法有很多。传统方法有定额法、类比法,回归分析法等[1]。定额法是通过编制预算文件进行估算,时间长、程序繁杂;类比法利用类比工程的相似性来确定工程造价,精度较差;回归分析法是一种线性建模方法,无法表征估计模型的非线性特性。可见,传统的工程造价估算方法难以满足造价管理的需求。
随着计算机和非线性建模理论的发展,一些新的估计技术不断出现。魏道升等[2],杨华龙等[3]提出的基于灰色预测的工程造价方法,能够在小样本工况下做出准确预测,在较短时间内预测样本的变化趋势,解决样本预测的不等时序问题,但在灰色预测模型求解中,生成一次累加序列的紧邻权重系数设定单一,没有理论依据;刘婧等[4],王建茹[5]采用神经网络方法对工程造价进行估计,具有较强的非线性逼近能力,但训练需要大量的样本且易于陷入局部最优;舒隽等[6],胡庆国等[7]采用极限学习机方法对电力线路和高速公路造价进行估计,相对于传统神经网络,具有训练速度快、权重范数小、泛化性能强的优点,但在如何选择合适的参数来控制模型复杂性方面的研究尚有欠缺;周建永[8],郝宽胜等[9]提出最小二乘支持向量机方法,克服了传统方法依赖大样本要求,能够在训练样本较少的情况下,获得较好的估计效果,相比支持向量机,训练时间短,目前在电机、电力、发酵等领域得到了广泛应用。
另外估计模型中关键因素的筛选至关重要。冗余信息的剔除和压缩能够降低模型的复杂度,提高模型估计精度。黄崇等[10],段晓晨等[11]利用PCA对影响因素进行主成分分析,以组合变量代替原始变量,降低了数据维度,但PCA是一种常用的无监督算法,在进行特征提取时易导致样本间有用类别信息丢失,且组合后的变量对于工程造价模型失去了物理意义,不易于后期工程造价成本的直接优化控制;彭丽群等[12]采用贡献分析的方法,减少了影响因素个数,但该方法依赖神经网络权值的变化,而由于神经网络权值的初始化具有随机性,使得筛选出的影响因素不固定。
针对上述问题,在最小二乘支持向量机基础上,笔者提出了一种基于Adaboost-VIP的工程造价估计方法。主要思想是通过变量投影重要性指标方法对影响因素进行特征提取,利用最小二乘支持向量机作为非线性逼近器,建立工程造价估计模型。同时为进一步提高上述模型估计精度,将Adaboost与VIP相结合,得到工程造价强估计模型。仿真结果表明,所提方法估计精度高,具有一定实际应用价值。
1 变量投影重要性指标
变量投影重要性指标反映自变量在解释因变量作用时的重要性[13]。第i个自变量的表达式为
(1)
式中:k为自变量个数;whi为自变量xi在主成分上的权重,即轴wh的第i个分量;th为得分矩阵T的第h个列分量;Rd(Y;th)为第h个主元对Y的解释能力。
换而言之,Vvip的值是PLS权重系数的加权平方和,其考虑了PLS的每一个主元的方差贡献率。Vvip,i值选取将按文献[14]进行选取。
2 Adaboost-LSSVM算法
Adaboost是一种迭代提升算法,基本思想是把多个不同的弱估计器加以集成,构成一个强估计器[15]。笔者首先通过VIP对影响工程造价的因素进行筛选,得到最优影响变量,同时利用LSSVM建立估计模型。Adaboost-LSSVM算法是以LSSVM建立的模型作为弱估计器,然后通过Adaboost算法得到由多个弱估计器组成的强估计器,从而实现对工程造价的多模型估计,提高模型估计精度。具体算法流程如下:
Step 1: 训练集样本{(x1,y1),(x2,y2),…,(xm,ym)},其中xi为样本点,yi为对应估计值,确定LSSVM作为弱估计器;确定判断预报值正确与否的阈值φ(0<φ<1),假定进行T次循环迭代,初始化迭代次数t=1;
Step 2: 当t=1时,初始化训练数据的权重分布Dt(i)=1/m,并根据输入输出维数,确定LSSVM的结构,初始化误差εt;
Step 3: 依据训练数据权重分布训练LSSVM弱估计器,建立估计模型ft(x)→y,然后计算训练集误差:
(2)
计算ft(x)的误差率:
(3)
(4)
式中:Zt为标准化因子;同时更新迭代次数t=t+1。
Step 5: 若t≤T,返回Step 2;否则执行Step 6。
Step 6: 组合强估计器:
(5)
3 工程造价估计模型构建
影响工程造价的因素有很多,如何筛选影响最大的因素至关重要。传统方法通常采用PCA,但PCA是对原始因素的线性组合,得到的变量失去了变量本身实际的物理意义,对工程造价的控制带来了困难。因此,笔者采用VIP原理对影响因素进行筛选,计算各个因素对工程造价的Vvip值,通过与阈值比较,筛选出最优建模变量。
将优选的数据作为新输入集,进行归一化处理,同时利用LSSVM构建工程造价估计模型。在此过程中,Adaboost算法通过不断分配训练样本,训练得到不同的弱估计模型,然后根据权重比例将各弱估计模型进行集成,得到最终的强估计器。模型构建原理如图1。
图1 模型构建原理Fig.1 Principle of constructing models
4 实验验证
4.1 数据描述
笔者选取21组特征较为相似的建设工程为样本[5]。经过数据检验和分析发现在这些实例中的分项工程(如基础工程、砌筑工程、门窗工程、装修工程、地面工程和安装工程等)占总造价比例相对较大,其中工程类别、建筑面积、混凝土供应方等因素对工程造价的影响较大。因此,选取工程等级、混凝土供应方、基础类型、桩基、建筑层数、门窗工程、砌筑工程、内墙装饰、外墙装修、地面工程、天棚装饰、安装工程、建筑面积等13个工程指标作为影响工程造价的主要因素,其中定量指标为建筑层数以及建筑面积,其余为定性指标。对于定性指标需要进行量化处理,量化原则如表1,量化后的数据如文献[5],其中10组为训练数据,另外11组为测试数据。
表1 定性指标的量化处理
4.2 实验结果与分析
上述案例中,所选的13个影响工程造价的关键因素都是根据经验选取,相互之间可能存在高度耦合,理论性不高。为了选择对工程造价影响最大的因素以及同时降低估计模型的复杂度,笔者使用基于Adaboos-VIP的工程造价估计方法。
4.2.1 数据处理
为了避免处于不同数量级的影响因素对模型建立的干扰,需要对影响因素进行归一化处理,归一化公式如式(6):
(6)
式中:x′为归一化后的数据;xmax,xmin分别对应各输入影响因素的最大值和最小值。
4.2.2 计算变量投影重要性指标
根据VIP理论,利用MATLAB编写程序,计算出每个影响因素的Vvip值,同时将其按从大到小的顺序排序,结果如图2。图2中直方图上数字为工程特征编号,虚线标识处为优化的Vvip阈值参考线。
图2 Vvip值排序Fig.2 Sorting of Vvip
4.2.3 优化Vvip阈值
通常Vvip理论值为1,但由于该原则约束性较强,根据此原则筛选出的影响因素缺乏全面性,所建模型估计精度不高。利用文献[14]中的改进方法,对Vvip阈值进行优化,优化过程中G作为敏感性和特异性的平方根在[0 1]的范围内变化,Vvip值则在0和理论值1之间变化,G和Vvip随模型输入变量数目的变化而变化,优化过程结果如图3。其中G越接近1,则说明建模效果越高,此时G=0.936 8,对应的Vvip=0.47,输入变量为9。
图3 Vvip阈值优选Fig.3 Optimization of Vvip threshold values
4.2.4 建立模型
由图3可知,在优选Vvip阈值0.47的作用下,优选出9个变量分别为:建筑面积、安装工程、工程类别、建筑层数、地面工程、门窗工程、桩基、外墙装修、混凝土供应方。与经验常识中将建筑面积,工程级别以及楼层高度等作为主要影响因素一致,说明该方法筛选的影响因素可靠性高。利用上述变量构建造价估计模型。笔者选择10组弱估计器,LSSVM进行非线性建模。建模过程中,由于LSSVM模型的估计性能和泛化能力与模型超参数:核参数宽度c和正则化参数g有很大关系,为此,采用交互验证方法对每一个弱估计器参数进行优化,结果如表2。
表2 模型优化参数
对表2中10组弱估计模型,利用Adaboost算法对不同模型进行权重分析集成,得到最终的强估计器。以11组数据作为测试数据,估计误差绝对值如图4。由图4可知,经Adaboost集成后的工程造价强估计器,比单一的估计器具有较高的估计精度,且估计稳定,误差变化较为平稳,基本集中在100万上下波动。其中测试样本3,4,5,6的估计误差较低,虽样本9估计误差与单一模型估计误差基本接近,但强估计器的总体误差优于单一估计模型,精度得到了提高。
图4 估计误差绝对值Fig.4 Absolute value of estimation error
5 结 论
针对目前工程造价模型影响因素多而耦合,非线性程度高,单一模型精度低的特点,笔者提出了一种基于Adaboost-VIP的工程造价估计方法。该方法解决了以下几点问题:
1)通过计算各影响因素对工程造价的Vvip值,确定最优影响因素,使得影响因素的选择既具有理论依据,又能符合实际经验。
2)传统工程造价智能估计模型,往往建立在大量数据驱动的基础上,而实际案例数据采集有限,属于小样本数据。LSSVM适用于小样数据的建模,利用LSSVM建模增加模型的可靠性。
3)针对单一工程造价估计模型估计精度不足的问题,笔者利用Adaboost提升算法对不同工程造价估计模型进行集成,实现工程造价的多模型估计,提高了精度。
4)实际案例仿真结果表明,所提方法由于影响因素进行了理论筛选,与传统的模型相比结构上更为简单。同时通过Adboost算法提升,与单一的模型精度相比精度有所提高,估计结果符合实际,具有一定的应用价值。
[1] 刘洁.基于属性约束的公路造价优化控制方法研究与仿真[J].科技通报,2014,30(2):38-40. LIU Jie. Highway cost optimization control method and simulation based on the attribute constraints[J].BulletinofScienceandTechnology, 2014, 30(2): 38-40.
[2] 魏道升,李淑燕.基于灰色关联分析的工程造价控制[J].重庆交通大学学报(自然科学版),2013,32(2):321-324. WEI Daosheng, LI Shuyan. Construction cost control based on grey correlation analysis[J].JournalofChongqingJiaotongUniversity(NaturalScience), 2013, 32(2): 321-324.
[3] 杨华龙,刘金霞,郑斌.灰色预测GM(1,1)模型的改进及应用[J].数学的实践与认识,2011,41(23):39-46.YANG Hualong, LIU Jinxia, ZHENG Bin. Improvement and application of grey prediction GM(1,1) model[J].MathematicsinPracticeandTheory, 2011, 41(23): 39-46.
[4] 刘婧,叶青.采用BP和RBF神经网络的厦门市工程造价预测模型[J].华侨大学学报(自然科学版),2013,34(5):576-580. LIU Jing, YE Qing. Project cost prediction model based on BP and RBP neural networks in Xiamen city[J].JournalofHuaqiaoUniversity(NaturalScience), 2013, 34(5): 576-580.
[5] 王建茹.基于BP神经网络的建设工程造价预测方法[J].沈阳建筑大学学报(社会科学版),2014,16(1):42-45. WANG Jianru. Prediction method of construction cost based on BP neural network[J].JournalofShenyangJianzhuUniversity(SocialScience), 2014, 16(1): 42-45.
[6] 舒隽,甘磊.极限学习机方法在电力线路建设成本估算中的应用研究[J].现代电力,2011,28(4):78-83. SHU Jun, GAN Lei. Research on cost estimation of power lines construction projects based on extreme learning machine method[J].ModernElectricPower, 2011, 28(4): 78-83.
[7] 胡庆国,宋新智.基于优化极限学习机的高速公路造价预测[J].公路与汽车,2014(2):208-213. HU Qingguo, SONG Xinzhi. Highway construction cost prediction based on optimization of extreme learning machine[J].Highways&AutomotiveApplications, 2014(2): 208-213.
[8] 周建永.支持向量机修正灰色模型在工程价格预测中的应用[J].科技通报,2013,29(7):147-150. ZHOU Jianyong. Support vector machine grey model in the application of engineering price forecast[J].BulletinofScienceandTechnology, 2013, 29(7): 147-150.
[9] 郝宽胜,张桐林.基于模糊最小二乘支持向量机的建设工程造价快速预测方法研究[J].铁路工程造价管理,2012,27(3):1-4. HAO Kuansheng, ZHANG Tonglin. Research on project cost fast forecasting method based on the fuzzy least square support vector machine[J].RailwayEngineeringCostManagement, 2012, 27(3): 1-4.
[10] 黄崇,甘国融.基于PCA-BP的高速公路工程造价预测模型[J].公路与汽运,2014(5):210-214. HUANG Chong, GAN Guorong. Predicting construction cost model for high-speed road based on PCA-BP[J].Highways&AutomotiveApplications, 2014(5): 210-214.
[11] 段晓晨,郭兰英,张新宁.新建高铁工程非线性造价估算方法研究[J].铁道学报,2013,35(10):114-122. DUAN Xiaochen, GUO Lanying, ZHANG Xinning. Research on nonlinear estimating methods of whole life-cycle cost for China high-speed railway project [J].JournaloftheChinaRailwaySociety, 2013, 35(10): 114-122.
[12] 彭丽群,张欣莉.基于贡献分析的神经网络集成法在工程造价预测中的研究[J].经营管理者,2009(22): 173-177. PENG Liqun, ZHANG Xinli. Contribution analysis based neural network integration means research in engineering cost prediction[J].Manager’Journal, 2009(22): 173-177.
[13] ZHANG Yonghong, XIA Zhining, QIN Litang, et al. Prediction of blood-brain partitioning: a model based on molecular electronegativity distance vector descriptors[J].JournalofMolecularGraphicsandModelling, 2010, 29(2): 214-220.
[14] CHONG L G, JUN C H. Performance of some variable selection methods when multicollinearity is present[J].ChemometricsandIntelligentLaboratorySystems, 2005, 78(1/2): 103-112.
[15] 姚旭,王晓丹,张玉玺,等.基于AdaBoost和匹配追踪的选择性集成算法[J].控制与决策,2014,29(2):208-214. YAO Xu, WANG Xiaodan, ZHANG Yuxi, et al. Selective ensemble algorithm based on AdaBoost and matching pursuit[J].ControlandDecision, 2014, 29(2): 208-214.
An Estimation Method of Engineering Cost Based on Adaboost and Variable Selection with LSSVM
HUANG Wentao1, ZHOU Ping2, CHENG Jinxiang3
(1. School of Electrical Engineering, Southeast University, Nanjing 210096, Jiangsu, P.R.China; 2. Jianye Heng’an Project Management Incorporated Co., Ltd., Jiangyin 214400, Jiangsu, P.R.China; 3. School of Mechanical & Electrical Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, Jiangsu, P.R.China)
To realize the fast and accurate prediction of construction engineering cost by using less engineering information, a novel estimation method of engineering cost based on Adaboost-VIP was proposed. Firstly, variable importance in projection (VIP) method was used to extract the multiple factors affecting the engineering cost, and then least squares support vector machine (LSSVM) was used as a nonlinear approximation to establish the estimation model of engineering cost. In order to further improve the estimation precision of the model, Adaboost method was combined with VIP. Some weak predictors were integrated by Adaboost and then a strong predictor was obtained. Meanwhile, the method was applied to the case study of construction. The results indicate that: variable importance in projection method can effectively choose the key influence factors and simplify the structure of the model; compared with the single engineering cost estimation model, the Adaboost-VIP model has higher estimation performance.
highway engineering; engineering cost; Adaboost; variable importance in projection (VIP); least squares support vector machine (LSSVM)
10.3969/j.issn.1674-0696.2016.03.12
2015-05-04;
2015-10-14
江苏省青年自然科学基金(BK20140538)
黄文涛(1989—),男,江苏常熟人,博士研究生,主要从事智能预测、动态测量方面的研究。E-mail:hwt109@126.com。
程锦翔(1987—),男,江苏兴化人,博士研究生,主要从事机电控制方面的研究。E-mail:chengjinxiang528@126.com。
U415;TU723
A
1674-0696(2016)03-054-04