水利工程项目工期延误风险预测方法研究*
2022-09-07敖瑞泽强茂山
敖瑞泽 强茂山
(清华大学项目管理与建设技术研究所,北京 100084)
0 引言
进度作为传统项目管理目标的“铁三角”之一,一直以来备受业界关注。由于项目施工过程复杂多变,项目内外部的不确定性因素会影响项目工期,进而导致工期延误[1-2]。
当前,我国水利工程项目建设速度逐年提升。由于水利工程项目规模大、周期长、涉及面广,在实施过程中普遍存在工期延误问题,对项目利益相关方造成一定的负面影响。“十四五”规划提出,构建智慧水利体系,引入和推广机器学习技术,对解决水利工程项目工期延误问题具有重要意义。基于此,本文以神经网络为基础,探究水利工程项目工期延误风险预测方法,构建水利工程项目工期延误风险预测模型,旨在提高水利工程项目进度管理水平。
1 研究假设与模型构建
水利工程项目施工工期受众多因素的复杂作用影响[3]。挣值分析法(EVM)的评价指标具有简洁性和科学性,能够较为集中地反映工程项目的资金、资源、进度、难易度等多种影响因素的综合作用结果[4-5]。但是,基于EVM的工期预测多采用线性假设[6],与工期和各因素间的高度非线性关系不符,因此具有一定的局限性。通过梳理和分析相关研究可知,使用非线性激活函数和深层神经网络能够近似模拟任何连续函数[7-8]。基于此,本文采用神经网络模型对EVM预测方法进行改进。
1.1 确定模型的输入和输出变量
基于以往学者提出的项目工期影响因素,选择具有代表性且容易量化的因素与EVM变量指标相结合。
1.1.1 模型的输入变量
(1)EVM变量指标。在EVM变量指标中,与项目进度密切相关的指标包括计划值(PV)、挣值(EV)、进度偏差(SV)以及进度绩效指标(SPI)。其中,SV和SPI能够反映实际进度与计划进度的差异。但相比SV,SPI更有利于神经网络模型训练,因此选择PV、EV和SPI。
(2)工期影响因素。工期影响因素包括环境因素、人为因素和资源因素[9]。将“雨雪天数”“大风天数”作为环境因素;将“合同金额变化率”“劳动力投入变化率”作为人为因素;将“材料设备质量合格率”作为资源因素。
(3)项目自身的静态因素指标。除了以上能够反映项目施工的动态性因素,还应选择项目自身的静态因素指标。将“合同总金额”“总库容”“总装机容量”和“最大坝高”[10]作为静态输入变量。
(4)项目施工过程中易获取且有价值的信息的利用率。
(5)实际施工工期(随时间同步增加)。该指标与模型输出变量“剩余施工工期”具有一定的互补性和相关性,能够提高模型的预测精度。
1.1.2 模型的输出变量
将水利工程项目施工过程中某一时间节点的“剩余施工工期”预测值作为模型的输出变量,既符合施工过程的动态性,又能够实现预测项目工期并识别进度偏差的目标。
综上所述,将输入变量进行归一化或无量纲化处理,得到水利工程项目工期延误风险预测模型的输入和输出变量,见表1。
表1 水利工程项目工期延误风险预测模型输入和输出变量
1.2 模型网络结构
前馈神经网络(FNN)采用全连接的网络结构,通过对输入进行线性组合和非线性激活输出结果,实现“原因→结果”;利用循环神经网络(RNN)对序列数据(如时间序列)建模,将之前和现在的结果序列数据作为输入,输出未来的序列数据,实现“结果→结果”。据此,采用FNN处理输入变量中的静态特征及工期影响因素,采用RNN处理EVM变量指标。
此外,输入RNN的变量应为时间序列变量[11],即选择在时间维度上趋势性明显的变量,以提升预测结果的精准度。基于表1中的输入变量,首先将“实际施工工期”“PV/BAC”以及“EV/BAC”作为时间序列变量输入RNN,将其余输入变量输入FNN;其次,将两个网络的输出组合相连接;最后,由输出层输出预测结果。其中,RNN部分采用“无状态RNN”并选取时间步长为5。由此,构建水利工程项目工期延误风险预测模型网络结构,如图1所示。
图1 水利工程项目工期延误风险预测模型网络结构
2 评价方法与案例应用
2.1 评价方法
2.1.1 工期延误风险评价
假设R1表示项目可能发生的工期延误程度,R2表示项目发生该程度工期延误的概率,利用指标R1和R2评价水利工程项目工期延误风险。随着实际施工时间的持续增加,R2在项目总工期中的占比逐渐变大,说明在施工中项目进度可调整的空间越来越小,纠正进度偏差的难度越来越大,即项目工期延误风险越来越大。具体公式如下
(1)
(2)
式中,EDAC表示项目实际总工期预测值;EDTC表示剩余施工工期预测值;(EDAC-EDTC)表示实际施工工期;PD表示计划总工期。
2.1.2 模型预测性能评价
模型预测性能评价旨在比较和分析预测值与实际值的接近程度。“剩余施工工期”的预测是一个典型的回归问题,最常用的精度评价指标是均方误差(MSE)。此外,可采用以下4个指标更加全面地评价模型预测性能。公式如下
(3)
(4)
(5)
(6)
2.2 案例应用
本文以贵州省5个水利工程项目为例,分别用A、B、C、D、E表示。各项目建设期为2010—2021年,实际总工期为3~5年。
从工程概况、项目合同、施工月报、已报价工程量清单以及施工总进度计划中梳理出各输入和输出变量,将每月的项目执行情况汇总为1条数据,即时间间隔为1个月。由于各项目所处地区在施工期间均未出现6级及以上大风天气、各项目施工月报中记录的材料设备供应情况未出现不合格问题、项目D和项目E没有发电功能,因此,剔除输入变量“大风天数”“材料设备质量合格率”和“总装机容量”。此外,相关数据基于时间维度整理且模型采用无状态RNN,因此,将“合同金额变化率”直接并入“合同总金额”。
综上所述,归纳出9个输入变量(其中3个为时间序列变量)和1个输出变量。经过数据整理和清洗后,共得到230条有效数据。
3 数据分析与研究结果
该模型采用Python 3.7编程软件,通过 TensorFlow神经网络技术,利用Selenium、NumPy、Pandas、Matplotlib等软件进行数据的采集、处理和分析。
输入FNN1是(n,6)的二维张量,其中,n表示样本数量且每个样本包含其对应月份的6个非时间序列变量;输入RNN是(n,5,3)的三维张量,其中,n表示样本数量且每个样本包含近5个月的3个时间序列。该模型取训练集比例为90%,验证集比例为10%。
3.1 模型验证结果
通过多种超参数组合比选出模型的最优超参数组合。在此最优组合下,采用10折交叉验证,结果见表2。
表2 工期延误风险预测模型的10折交叉验证结果
(续)
由表2可知,模型的训练精度和验证精度相差不大,说明模型未发生过拟合。模型验证集的平均RMSE为0.011 27,表明模型的预测误差约为项目计划总工期的1.13%。经换算可知,工期预测误差为8~13天。
由于模型的预测误差分布较均匀,残差分布具有随机性和不可预测性,因此仅以项目A为例进行分析。项目A剩余工期的预测值与实际值对比如图2所示。从图2可以看出,该模型对“剩余施工工期”预测精度较高,与实际值十分接近。
图2 项目A剩余施工工期的预测值与实际值对比
3.2 评价分析
3.2.1 模型预测性能评价分析
采用挣值分析法预测工期时,假设剩余项目计划工期遵循SPI变化趋势,公式如下
(7)
式中,ED表示当前已完成工程量对应的计划工期。
基于式(7)计算结果,比较该模型与挣值分析法的预测性能,结果见表3。
表3 工期延误风险预测模型与挣值分析法预测性能比较
由表3可见,挣值分析法的预测性能明显低于工期延误风险预测模型。这是由于水利工程项目受多种因素综合影响,在项目前期使用挣值分析法预测得到的结果准确性较低。该案例验证了工期延误风险预测模型的适用性,说明神经网络强大的非线性拟合能力和时间序列预测能力与水利工程施工复杂程度高、周期长等特点相匹配。
3.2.2 工期延误风险评价分析
利用该模型样本集的预测结果,计算工期延误风险评价指标R1、R2的预测值,并与实际值进行比较,结果如图3和图4所示。
图3 项目A的R1预测值与实际值对比
图4 项目A的R2预测值与实际值对比
由图3和图4可以看出,R1、R2的准确性取决于工期预测的准确性。从预测结果来看,R1值波动较小,R2值随时间逐渐增大。从R1、R2的整体趋势来看,在项目施工前期,由于R1值较大,项目的工期延误风险较大;随着时间的推移,R1值未明显减小且R2值越来越大,说明项目发生工期延误的概率越来越大。因此,若能在项目早期准确预测R1,可以及时采取有效管理措施,避免R2值增大导致严重的工期延误。
3.3 两种建模方式比较分析
SPI能够准确描述当前时刻项目的实际进度与计划进度的偏差。因此,保持输入变量不变,将输出变量改为3个月后的EV,由此计算SPI值,使模型的输入和输出中都包含同一变量,但两者处于不同时间。由此构建的模型也称为因果模型[12]。采用10折交叉验证得到的结果见表4。使用预测结果计算项目各时间点的SPI,比较预测值和实际值,结果如图5所示。
图5 项目A的SPI预测值与实际值对比
表4 输出变量改为3个月后EV/BAC的模型的10折交叉验证结果
通过对比上述两种建模方式发现:采用第一种方式预测从当前时刻到项目施工结束的“剩余施工工期”,预测精度较高,有助于管理者从整体评价项目工期延误风险,并根据需要采取相关措施。但是,该方法不能监控施工进度的阶段目标,不利于制定和实施短期措施。采用第二种方式预测项目一段时间后的EV,并根据进度计划计算对应的SPI,有助于管理者预知一段时间后项目的进度情况,并在这段时间内采取措施尽量纠正进度偏差。但该方法存在两个缺点:一是精度相对较低,且预测值整体偏大,说明预测得到的SPI趋势偏乐观,可能会误导管理者;二是只能局部预测,不能整体把握项目的工期延误风险。因此,为了得到更加准确的项目进度评价结果,应综合使用上述两种建模方式。
4 研究结论与应用分析
4.1 研究结论
(1)工期延误风险预测模型具有良好的预测性能,明显优于传统的挣值分析法。在最优超参数组合下,模型验证集的MSE为1.316 1×10-4,RMSE为0.0112 7,即该模型的工期预测误差约为项目计划总工期的1.13%,换算后为8~13天。由此可见,该模型能够作为管理者评价项目进度执行情况和预测工期延误风险的工具,有助于相应进度管理措施的制定与实施。
(2)上述两种建模方式具有一定的互补性。将两种方法相结合能够从整体和局部把握项目进度,得到更加准确的工期延误风险预测结果。此外,可以结合其他建模方式,综合评价项目工期延误风险,提高项目进度管理水平。
4.2 应用分析
在实际应用中,项目管理者应根据自身经验识别和纠正数据中的错误,准确计算出EV、PV和SPI,从而获得更加完整、准确的施工进度管理数据。同时,管理者可以根据需要选择时间序列数据的时间间隔,而不局限于以月为单位,以提高模型预测精度。此外,该模型适用于项目各利益相关方。借助该模型,各利益相关方能够掌握项目实际进度,降低工期延误概率。因此,水利工程项目工期延误风险预测模型具有较高的应用价值。
为了在实践中有效地使用该模型,应强化施工管理人员的数据管理意识,建立和完善项目资料归档管理制度。同时,应制定模型的持续更新策略。随着新项目不断建设完成以及项目内外部环境的改变,模型的泛化能力将逐渐降低,因此需要持续对模型进行更新。
5 结语
在“十四五”期间,水利建设仍然是我国重要的战略发展目标,提高水利项目建设管理水平具有重要的意义和价值。
随着智慧水利的推进实施,我国水利建设越来越重视数据的收集、存储以及数字化应用。同时,强调算法、算力等基础技术的支撑作用以及预测、预警、预报等功能的实现。由此可见,通过工期延误风险预测模型能够有效解决我国水利工程建设的进度管理和工期延误问题。具体建议如下:
(1)扩大研究数据的范围和数量,提高模型的预测精度和泛化效果。
(2)将关键路径法与挣值分析法相结合,更加精准地描述项目关键路径进度。对关键路径进行挣值分析,计算关键路径上的EV、PV和SPI,以弥补挣值分析法存在的缺陷。
(3)探究集成回归方法在水利工程工期延误风险预测中的应用,通过综合多种机器学习方法最大限度地降低预测结果误差。