遗传神经网络模型在水电工程投资预测中的应用

2019-09-24廖元元

水电站设计 2019年3期

廖元元，王月

(1.中国电建集团成都勘测设计研究院有限公司，四川成都 611130；2.四川省工程咨询研究院，四川成都 610020)

0 前言

水电工程项目是一项复杂的系统工程，工期长、投资大、参与人员广泛、大型机具多、工程占地范围大、施工环境复杂、受自然条件影响大，具有实践性、复杂性、风险性、多样性和独特性等特点，这增加了水电工程投资估算的难度，给投资预测和控制带来了很大的困难。在整个项目建设的前期决策、项目开发、项目实施、竣工验收及项目后评价的五个阶段中，工程造价工作贯穿整个工程投资过程，成为工程投资必不可少的内容。估算项目总资金投入，是项目决策阶段的首要任务，在这个阶段，造价人员要估算出整个工程投资所需要的金额，为流域规划选点各方案提供经济性的基础指标，为投资的可行性研究提供参考，也为下一阶段成本控制提供依据。因此，要加强投资前期的投资预测和分析，合理有效地确定和控制工程造价，重视人力、物力、财力的合理应用，充分发挥投资效益。

1 水电工程投资基本现状的分析

1.1 水电工程造价估算现状

由于水电工程建设周期长，建设施工条件复杂多变，不确定性因素多样，造成了部分水电工程建设投资失控，完成工程的总造价超投资估算现象存在。投资估算是建设项目前期阶段投资决策的一个重要组成部分，它全面衡量项目建设所需投入的资金量及其构成，是投资决策的重要参考依据，也是下一阶段成本控制的依据。目前，在这个阶段常用的估算方法有很多，但估算的过程不够系统化，估算结果缺乏定性和定量相结合分析，尚有需要改进和提高之处[1]。

投资估算工作十分重要，估算的结果对整个投资计划起指导作用，可直接影响该项目的投资决策。另外，估算的造价一经批准，便是建设工程造价的最高限额，不可任意突破。因此，我们要重视投资估算。

1.2 水电工程投资失控原因分析

水电工程投资失控的原因是多方面的，基本上可以归纳为两个方面：一是投资估算目标确定得不合理；二是在项目实施过程中未能进行有效的全过程控制。通过对水电工程投资的研究，我们不难发现，由于水电工程建设项目的个体差异性较大，因而在投资估算过程中的可模拟性较差，这样为投资控制管理带来了极大的难度。所以，找出一个更为适用于水电工程投资的预测模型，为投资估算提供更为准确的目标就显得十分必要。

2 遗传神经网络的基本理论研究

近年来，国内外对水电工程投资预测的模型进行了大量的研究工作，也产生了一些成熟的投资预测方法[2]。但每种方法都有其适用条件，有一定的局限性。随着神经网络理论和遗传算法理论的广泛应用，本文将二理论联合引用到水电工程投资预测模型的建立中。下面简要介绍神经网络和遗传算法理论。

2.1 神经网络的理论基础

2.1.1 人工神经网络模型

人工神经网络的基本构成是神经元，神经元的基本数学模型如图1所示[3]。

其中，X1、X2，…，Xn是神经元的输入，即来自前级n个神经元轴突的信息；θi是i神经元的阈值；W1i、W2i，…，Wni分别是i神经元对X1、X2，…，Xn权值连接，即突触的传递效率；yi是i神经元的输出；f是传递函数，决定i神经元受到输入X1、X2，…，Xn的共同作用达到阈值时以何种方式输出。

对于具有不同拓扑结构的人工神经网络，运行过程大体可以分成两个阶段：网络的学习阶段(或称之为训练)和网络的联想阶段。

网络的学习过程就是通过不断地向网络输入一些样本模式，网络遵循一定的学习规则(即：算法)，来不断地调整网络的各层权重，使网络的输入和输出以一定精度向给定的样本模式逼近。学习的实质就是网络通过输入和输出信息识别存在信息之间的内在规律。

完成训练的神经网络已将学习样本的信息存贮于网络中，这时网络具备了映射功能，通过某种方式，使已经存贮在网络中的有关信息从输出层复现出来的过程就完成了网络的联想。

2.1.2 BP网络模型

1986年，Rumelhart和McClelland领导的科学家小组在《并行分布处理》一书中，对具有非线性转移函数的多层前馈网络的权重进行调整，提出了误差反传播的算法(BP算法)。采用BP算法的多层前馈网络是至今为止应用最广泛的神经网络，网络的结构如图2所示。

BP网络是一种两层或两层以上的阶层型神经网络，即：输入层、隐层和输出层。上下层之间各神经元实现全连接，而每层各神经元之间无连接。BP算法是在教师指导下，适合于多层神经元网络的一种学习，它建立在梯度下降法的基础上。当输入信息时，首先传播到隐含层节点上，神经元激活，把隐含节点的输出信息传播到输出节点，最后给出输出结果。网络的学习过程由正向和反向传播两部分组成。在正向传播过程中，每一层神经元的状态只影响下一层神经元网络。如果输出层不能得到期望输出，就是实际输出值和期望输出值之间存在误差，从而转入反向传播，将误差信号沿原来的连接通路返回，通过修改各层神经元的权值，逐次向输入层传播去计算，故得名“误差逆传播算法”。再经过正向传播过程，这两个过程反复运用，使得误差信号最小。BP神经网络的流程如图3所示[4-5]。

图2 基于BP算法的神经网络的结构示意

图3 BP网络的计算流程示意

2.2 遗传算法的基本理论

遗传算法(GA)是一种基于自然选择与遗传机理的随机搜索算法。与传统搜索算法不同，遗传算法从一组随机产生的称为“种群(population)”的初始解开始搜索过程。种群中的每个个体是问题的一个解，称为“染色体(chromosome)”。染色体是一串符号，比如一个二进制字符串。这些染色体在后续迭代中不断进化，称为遗传。在每一代中用“适值(fitness)”来测量染色体的好处，生成的下一代染色体称为后代(offspring)。后代是由前一代染色体通过交叉(crossover)或者变异(mutation)运算形成的。在新一代形成过程中，根据适度的大小选择部分后代，淘汰部分后代，从而保持种群大小是常数。适值高的染色体被选中的概率较高，这样经过若干代之后，算法收敛于最好的染色体，它很可能就是问题的最优解或次优解。GA的计算流程如图4所示[4-5]。

图4 GA的计算流程示意

2.3 遗传神经网络模型

遗传算法的特点在于算法的群体搜索策略并使用评价函数，不要求目标函数的可微性。其优势在于收敛的全局性、计算的并行性与结果的鲁棒性，且适应性强，缺点是易早熟且局部微调能力差。BP网络具有高度的非线性映射能力、泛化能力、容错性以及易实现性，局部微调能力强，不过它存在着收敛慢、易于局部收敛的不足。

GA-BP网络模型是以BP网络为基础，先用GA优化BP网络权值与阀值，进行网络的初调；然后把初调后的神经网络权值、阈值向量赋予BP网络；再利用神经网络的局部搜索能力得到网络的近似最优值。该模型理论上不仅避免了BP网络收敛慢和易陷入局部极小值的缺点，也充分发挥了GA的全局收敛性的优点，同时也利用了BP网络较强的局部微调能力，加快了算法的收敛速度。

GA-BP网络模型采用M语言编写，编译环境是MATLAB 7.1。网络模型程序编写利用了MATLAB 7.1提供的神经网络工具箱(NNT4.0)和遗传算法工具箱(GAOT5.5)中的函数。

本文建立的GA-BP模型的流程如图5所示，具体流程如下[4-5]：

(1)初始化种群；

(2)确定GA的有关参数及终止条件；

(3)初始化GA并执行操作；

(4)评价，解码给BP网络计算各个染色体的适应度；

(5)判断GA网络是否达到终止条件，若达到终止条件，则计算结束，转入步骤(8)继续执行；若没有达到终止条件，则执行以下步骤；

(6)GA操作：选择，交叉，变异；

(7)产生新一代的染色体，转到步骤(4)，进行循环操作；

(8)利用BP网络对GA搜索到的近似最优值进行微调，提高解的精度，直到满足条件后进入下一步骤；

(9)利用样本计算的BP网络模型，输入测试样本进行对比分析；

(10)利用得到的网络进行预测分析。

图5 GA-BP算法流程示意

3 遗传神经网络模型的构建

水电工程具有工程量大、工期长、规模大、投资大、易受自然条件影响的特点，而且需要修建临时导流工程、施工工厂，其临时设施多，专业工种多，技术复杂。这些因素不仅给施工带来了困难，也给投资的预测分析增加了难度，很难用准确的数学方程进行描述。

本文在对国内外水电工程造价估算的模型和算法进行了总结和研究后，将BP网络和遗传算法理论相结合，引入到水电工程投资估算中，建立了遗传神经网络模型。该模型立足于总体投资，通过输入工程特征值(比如工程所属地区、坝高、坝长、坝型等)得到总投资。

由于每个水电工程的工程特征值都有其自身的特殊性，若简单将工程特征值按传统方法进行回归分析和曲线拟合，并得出总造价，根据类似工程的实践经验可知，采用这种传统回归方法通常难以适应各工程特征值的强非线性变化。因此，本文引入遗传神经网络的理论和方法解决这一困难。

建模分析和预测时发现，直接采用BP网络建模存在局部极小、收敛慢、稳定性差等问题。为此本文引入遗传算法先对样本数据序列进行优选，再对优选后的样本数据序列建立BP网络模型。此方法收敛速度快、迭代过程平稳，能较好地克服BP网络的缺点，不会出现预测值明显偏离期望值的情况。

遗传神经网络是模仿人脑结构和功能的一种信息处理系统，能采用非线性映射的方式模拟多个输入量和输出量的非线性关系。它具有良好自适应性、非线性、组织性、容错性和抗干扰能力的优点，对样本个数要求不高，能适应各工程特征值的非线性变化分析和总投资预测。

3.1 遗传神经网络模型的建立

3.1.1 工程特征选取

综合考虑水电站的组成、设计的重要指标，特征因素的选取应以能代表该工程特点的、对工程造价影响最大的结构特征作为代表工程特征的元素。

全面搜索和考察水电站的工程特征，对工程所有特征一一进行分析统计。项目特征选取越适当，模型预测效果就越好。如果对特征考虑不全面，造价的特殊性和差异性就体现不出来，会严重影响模型的预测能力。当然，工程的任何一个特征都会影响到总的工程造价，但是有些因素对工程造价影响较大，有些因素对工程造价影响较小，若不考虑各因素对工程造价影响程度的大小，全部统一对待，那么所建模型不仅庞大冗余而且没有实际意义，不具有可操作性，所以要对工程特征相互对比，综合考虑。

通过对搜集到的资料和相关数据的分析，笔者对国内30个大型水电站[6]的经济指标及其投资总额进行对比权衡，拟定影响工程造价的因素为：工程所在地、坝型、坝高、坝长、地震基本烈度、装机容量、土石方工程、混凝土工程、钢筋工程、水库总库容、搬迁人口及淹没耕地。

3.1.2 模型和参数的建立

要建立遗传神经网络模型，就是要确定输入层、隐含层和输出层。本文建立的是带有一个隐含层的三层遗传神经网络模型，具有一个隐含层的三层遗传神经网络模型，只要隐含层的节点足够多，就能以任意精度逼近到有界区域上的任意连续函数。

根据前文对水电工程特征的选取，本文遗传神经网络模型输入层的神经元确定为12个，分别为：工程所在地、坝型、坝高、坝长、地震基本烈度、装机容量、土石方工程、混凝土工程、钢筋工程、水库总库容、搬迁人口及淹没耕地。

隐含层神经元的作用是从样本中提取并存储其内在规律，每个隐含层神经元有若干个权值，而每个权值都是增强网络映射能力的一个参数。它的数量取决于训练样本的个数、样本噪声的大小以及样本中蕴涵规律的复杂程度。隐含层神经元的选取对整个模型的效果影响很大，应恰当选取，不能过多或过少。若隐含层神经元过多，就会把样本中非规律性的内容提取并记忆，引起所谓“多度吻合”问题，造成网络的泛化能力降低；若隐含层的神经元的数量太少，网络从样本中获取信息的能力差，不能全面概括和体现训练样本中的规律。通常采用“试凑法”来确定隐含层神经元的个数。把隐含层神经元的个数假定为初始值3，对网络进行训练，然后逐渐增加隐含层神经元的个数，对同样数据训练。在所有假定个数的结果中进行比较，选择使网络误差最小的作为隐含层神经元个数。

本文遗传神经网络模型建立的目的是投资估算。因此，该模型输出层的神经元只有一个，即：水电工程总投资。

3.1.3 样本的规范化处理

前文选取的工程特征有两种表现形式：一种是用文字描述来表示的，如工程所在地、坝型等；另一种是用数值来表示的，如坝高、坝长、地震基本烈度、装机容量、水库总库容、搬迁人口及淹没耕地等。

样本的工程特征都需要进行预处理。因为用文字描述表示的变量是不能直接输入到神经网络的，需要对其进行量化处理；而数值形式的变量尽管不需要量化，但数量值相差程度应该得当，如变量值过大会严重影响神经网络的学习过程，而变量值过小又不能引起反应。因此，要在模型训练前使得输入变量规范化、标准化，将所有的输入变量归一到[0，1]之间，使网络所有权值都在一个不太大的范围之内，以此来减轻网络训练的难度，提高网络训练的准确度。

3.2 遗传神经网络模型的应用

根据以上分析，确定输入层指标为工程所在地X1，坝型X2，坝高X3(m)，坝长X4(m)，地震基本烈度X5，装机容量X6(MW)，土石方工程量X7(万m3)，混凝土工程量X8(万m3)，钢筋用量X9(万t)，水库总库容X10(亿m3)，搬迁人口X11(人)和淹没耕地X12(亩)；输出层指标为工程总投资Y1(亿元)；输入输出之间的关系为：Y=f(X)。

本文模型使用的样本来自于文献[6]，数据可能比较早，但是准确可信。参照文献中的数据，选取了18个中国大型水电工程作为样本实例，其中1～17号样本作为训练样本，18号样本作为测试样本。

模型选取的工程特征中，需要对工程所在地和坝型进行量化处理。其中，工程所在地量化为：1-华北、2-东北、3-华东、4-中南、5-西南、6-西北；坝型量化为：1-混凝土双曲拱坝、2-土质心墙堆石坝、3-混凝土重力坝、4-混凝土面板堆石坝、5-土石坝。经过整理后得到网络样本参数，见表1。

表1 网络样本

根据前文所介绍的方法，将数据做规范化、标准化处理，使其归一到[0，1]之间，使网络所有权值都在一个波动不太大的范围之内，来减轻网络训练时的难度。

按上述遗传神经网络模型并在MATLAB中编程，结合样本数据对工程投资估算进行建模预测，可获得不同工程特征下投资估算预测值。

遗传神经网络模型输入层为12个单元，输出层为1个单元。为确定隐含层合理的神经元个数，采用“试凑法”，让隐含层神经元个数由3个开始逐渐增加到20个，记录每次的误差。比较选取误差最小的状态，对应网络的隐含层神经元个数作为本文模型的隐含层神经元个数，经比较确定本文模型隐含层神经元个数为8。

利用1～17号样本作为训练样本，按照前文建立的遗传神经网络进行训练。通过训练好的网络模型对18号样本进行测试。测试样本的期望值为57.30亿元，预测值为51.78亿元，相对误差为9.63%，模型预测精度达到90%。

结果表明，基于遗传神经网络模型的估价模型较以前的估算方法提高了预测速度，尤其是在流域规划选点阶段，做到了让投资单位更快捷、更方便地对整个项目的总投资额有了整体上的把握，为决策者提供更可靠的投资预测分析依据。鉴于我们将要做的投资估算是在流域规划选点阶段，工程只是有了大概的轮廓，细部信息还不完整，因此这样的预测结果是比较令人满意的，用遗传神经网络模型来估算水电工程流域规划选点阶段的投资是有效可行的。

4 结论与建议

4.1 结论

水电工程投资预测是一个典型的复杂信息处理问题，采用传统方法经常出现工作复杂繁重而效果不理想的情况，并且耗费大量人力、物力和财力。鉴于计算机技术的迅猛发展，本文尝试采用较新的技术来分析处理这一问题。通过结合典型水电工程，针对水电工程的复杂特点提取了工程特征，应用遗传算法和神经网络理论，建立了水电工程投资预测遗传神经网络模型。

遗传神经网络模型是水电工程投资估算的一种新方法，通过在MATLAB软件中编程可快速、方便得出总投资，在本文的样本参数测试中，模型取得了较好预测效果。这为水电工程流域规划选点投资估算提供了一个新的有效的方法，也为投资决策者提供了更可靠、快捷、方便的投资预测分析依据。同时应用遗传神经网络模型对水电工程投资进行估算，可以获得良好的推广性能，推广到其他的投资估算领域。