基于机器学习的高铁站评价模型
2021-07-15徐亚楠魏海平李芹芹张露月
徐亚楠,曹 宇,魏海平,李芹芹,张露月
(辽宁石油化工大学计算机与通信工程学院,辽宁抚顺113001)
高铁建设是我国经济增长的重要组成部分,选择适当的位置建设高铁站对经济发展至关重要。政府在高铁站选址和建造过程中,出于对民众生活质量、拆迁成本等因素的考量,将一些高铁站设在偏远地点,导致人们出行不便;而将高铁站建设在距市中心较近,则又存在拆迁成本高、影响市民生活质量等诸多弊端。故高铁站选址不仅是一个自然科学问题,且涉及到社会科学。
沈海燕等[1]将指标分为定性和定量两类,认为高铁站选址既要符合城市规划,又要考虑现有的人文、环境等因素,还要注重可持续发展性。陈远胜[2]从宏观上对指标进行考量,认为高铁站选址依赖于中间站的选址,选址中应考虑地形地貌、现有的铁路设施、城市未来的规划与城市的交通状况。文献[3-5]认为高铁站选址规划的优劣有赖于对火车站功能的理解。刘楷[6]以用户效益最大化为根本原则,用综合模糊神经网络评价模型构建综合评价体系,改体系可以比较合理地反映客观实际,但本质上还是依赖于经验,评价结果主观性强。杨晓姗等[7]采用综合集成赋值法求权重,采用多级模糊评价方法构造综合评价模型,使获取的定量指标权重更客观严谨。彭春燕[8]将质量功能展开(QFD)方法和模糊理论结合,解决了传统选址评价模型对经济指标的评价依赖问题。罗霞等[9]通过对AHM(属性层次模型)进行补充,将定性和定量属性融入AHM模型,使其具有计算量小、操作简单、适用性强等特点。罗圆等[10]将离差法和三角模糊数结合实现了对定性指标的量化,方法原理较清晰,计算方法更简单,在进行定性分析时可以充分利用专家经验的同时避免主观性。
综上,目前国内呈现的高铁站选址评价模型大多采用定性与定量相结合的方式[11⁃14],但评价指标中缺少高铁站建成前后各项数据对比,模型大多采用模糊综合评价法,尚有改进之处[15⁃17]。
本文利用主成分分析法,建立以建设投入、施工耗时、换乘方便度、经济贡献率等为输入,最终得分为输出的高铁评价模型,并通过运用该评价模型,对沈阳北站、大连北站和本溪站的选址进行了评价。本文方法在内容和使用方法上均有创新。
1 高铁选址评价指标
高铁站的功能在于调度旅客集散,车站选址既需要考虑建设的投入、规模、地点,也需要考虑用户的方便、商业的发展,以及城区规划的需要[16⁃17]。
1.1 指标选取原则
为了建立合理且有效的高铁站评价模型,有必要科学地选取相应的评价指标,为此要遵循以下几点原则[18⁃19]:
(1)定量指标的可获取性。定量指标的数据来自于网络电子地图(https://map.baidu.com/)、省统计年鉴(http://www.ln.stats.gov.cn/),数据客观性强。受各方面的制约,有些指标的数据很难获取,故在定量指标的选取过程中,要保证指标的可获得性。
(2)定性指标的可量化性。定性指标一般通过专家经验转化为定量指标供模型使用,故选择的定性指标应该可以通过量化方式,转化为不同的定量因素。
1.2 指标确定
高铁站评价指标及指标解释(计算方法)如表1所示。
表1 高铁站评价指标及指标解释(计算方法)
2 基于灰色预测法的经济贡献率
灰色系统理论主要研究“小样本”“不确定信息”“贫信息”[19],灰色动态预测(GM(1,1))模型则是基于灰色系统理论的小样本预测模型。通过鉴别系统因素间的发展趋势,即进行关联分析,寻找因素间的变动规律,生成有较强规律性的数据序列,建立微分方程模型,满足预测系统发展趋势。灰色预测法可以通过极少的已知样本对未知样本进行预测,随着灰色预测法的不断完善,其预测的可参考性也逐渐增加[20]。
张丽等[21]运用灰色预测法,并通过与线性回归分析法结合,得到武汉高铁线路开通对武汉市的经济贡献率。首先利用城市的客运量与经济指标(GDP)建立回归方程,再利用灰色预测法预测未修建高铁站时该城市的铁路客运量,代入回归方程,得到未修高铁站时该城市的GDP。对比未修高铁和修高铁后的GDP,得到该高铁站的经济贡献率。
2.1 客运量与经济指标回归模型
从统计年鉴中,找到建高铁站的城市未修高铁站之前的GDP 和客运量,进行线性拟合,设线性回归模型为[21]:
式 中 ,Xt为t年 的 铁 路 客 运 量 ,万 人/a;Yt为t年GDP,亿元;α、β为调整参数。
通过该模型,得到GDP 与铁路客运量的线性关系,后续通过灰色预测法得到未建高铁站的客运量预测值Xt后代入式(1),可得到未建高铁站的GDP预测值。
2.2 灰色预测法
2.2.1 基于累加方式的时间序列 原始时间序列为:
式中,X(0)(i)为第i检测年的实际客运量;X(n)为第n检测年的实际客运量。
一次累加生成序列为:
紧邻均值(MEAN)生成序列:
式中,Z(1)(k) 为前k年累加客运量,Z(1)(k)=0.5X(1)(k)+0.5X(1)(k-1)。
2.2.2 GM(1,1)预测模型的建立 GM(1,1)微分方程为:
解微分方程,可得预测模型:
式中,a、b为最小二乘法估计参数。
2.2.3 预测 根据式(6)预测可得X^(1)(k)序列。
2.3 高铁站建设经济贡献率
将X^(0)(k)代入式(2)得到该城市不修建高铁站的经济指标。通过经济贡献率公式计算出高铁车站的经济贡献率:
3 基于主成分分析法的高铁站评价模型
3.1 主成分分析法
主成分分析(PCA)通过对原始变量相关矩阵内部结构研究,找出影响高铁站选址的几个不相关的综合指标,来线性地表示原始变量指标。该方法利用降维思想,把原来的有一定相关性的变量信息重新组合成少数几个新的互相独立的变量并代替原来的变量,将这些新变量归结为主成分,使问题简单化。
主成分分析方法具有可操作性、系统性、合理性等特点,可以借助SPSS16.0 软件进行分析。与其他方法相比,更适合用于高铁站选址的指标评价体系。
3.2 主成分分析方法的基本步骤
(1)确定研究对象的变量个数,获取研究样本的具体指标数据。
(2)对指标数据标进行标准化处理。
(3)根据标准化后的样本指标数据求因子的协方差矩阵,即原始样本指标数据的相关矩阵。
相关系数的计算如式(10):
(4)计算相关矩阵R的特征数值λk、Lk和ρk。
(5)计算选定主成分的累计贡献率(D)为:
(6)确定主成分的数量。累计贡献率达到85%~95%的主成分;所有特征值λi≥1 的主成分;累计特征值乘积大于1 的主成分。
(7)得出综合评价值。第i个高铁站选址得分用式(13)计算:
式中,bk为第k个主成分的方差贡献率,即:
4 案例分析
以沈阳市、大连市和本溪市的3 个高铁站为例。先计算各城市的高铁站经济贡献率,再运用主成分分析法结合各项指标进行高铁站选址评价,并给出优劣排序。
4.1 贡献度指标求解
先结合回归模型、灰色预测法计算未建高铁站的经济指标,再结合目前建成高铁站后的经济指标,通过式(11)计算经济贡献率。
4.1.1 各城市回归模型的建立 通过查阅各市的统计年鉴,获得沈阳市、大连市和本溪市的客运量与城市经济指标,如表2 所示。
表2 客运量与城市经济指标
根据公式(1)建立客运量与GDP 的回归模型,分别得到了沈阳市、大连市和本溪市的客运量与GDP 回归方程:
沈阳市:Y=5.551 9X-5 489.80,R2=0.81
大连市:Y=7.040 6X-3 715.70,R2=0.74
本溪市:Y=1.227 8X-201.29,R2=0.99
4.1.2 高铁站对各城市的经济贡献率 通过灰色预测法计算各城市的预测经济指标,即未建成高铁站本年的GDP。依据2007—2011 年铁路客运量,结合Matlab 软件来预测2012—2015 未建成高铁站的铁路客运量。高铁站对各城市经济贡献率如表3 所示。
表3 高铁站对各城市经济贡献率
4.2 基于评价模型的优劣评价
基于主成分分析法的高铁站评价模型,结合各项评价指标进行高铁站选址评价,并给出优劣排序。
4.2.1 评价指标的确定 受专家经验限制,定性指标暂时无法进行量化,故先选取可被量化的定量指标进行建模。通过查询辽宁省统计年鉴,并利用百度地图等工具获得施工耗时、建设投入、换乘方便度、噪声污染指数、旅客交通时间成本、经济贡献率、客流量等指标(见表4)。
表4 评价指标
4.2.2 评价结果 通过SPSS16.0 软件对3 个高铁站的上述7 个指标进行了主成分分析,得方差贡献如表5 所示。从方差解释表中可以看出,前3 个主成分的累积百分比达到88.232%,本着特征值大于1 的原则提取特征,用前3 个主成分作为评价的综合指标进行评价。
表5 方差解释表
前3 个特征值的特征向量如表6 所示。
表6 主成分对应的特征向量
根据式(14)可得主成分F1、F2和F3与 7 个指标之间的关系为:
由表5 可得地铁选址评价的系统计量模型为:
由式(15)—(18)可得综合指数,综合指数及排名如表7 所示。
表7 综合指数及排名
从表7 可知,选址最为成功的案例为沈阳北站。对比3 个城市的分析数据可知其原因如下:沈阳北站距离市中心较近,客运量大,对城市经济拉动较大,出行时间成本低。
5 结 论
将经济贡献率指标运用至高铁站选址评价模型中,利用主成分分析法,建立以建设投入、施工耗时、换乘方便度、经济贡献率等为输入,最终得分为输出的高铁站评价模型。运用该评价模型,对沈阳北站、大连北站和本溪站的选址进行评价,得出沈阳北站的选址较为合理。主成分分析法以其科学性和可操作性可以很好地解决高铁站选址问题,由于选址过程中涉及的因素繁杂,提出的模型仅适用于选址参考。