APP下载

基于机器学习的机场用水量预测方案设计

2019-09-16张玄弋张潇霄徐英超

关键词:超平面用水量机器

张玄弋 张潇霄 徐英超

北京首都国际机场股份有限公司 北京 100000

引言

随着近几年不断发展,机场航班数量以及旅客的吞吐量不断上升,机场水资源的消耗也随之同步增长,例如北京首都国际机场,据了解,2016年的首都国际机场实际总用水量就达到了1089.9511万立方米,用水量惊人,但机场高用水量与水资源利用水平却存在着矛盾,表现在机场用水规划不合理,用水浪费,供水方水资源分配不合理,供水水压过大或过小,本文简单构思并举例介绍了机器学习在机场用水方面的应用,讨论了建立用水量预测模型的方法,从而有助于实施节水措施,更加合理的分配水资源供给,使机场朝着绿色机场的方向发展,保障机场水资源服务质量。另一方面,机器学习与深度学习技术的快速发展,算法落地实际场景解决实际问题的可行性越来越高;深度学习与机器学习相比,存在明显的可解释性弱,维护成本大的问题;本文以机器学习算法为例,深度分析机器学习算法应用于机场用水量预测的问题。

1 场景分析

机场的用水量影响因素有很多,主要影响因素就是机场进出港人数以及影响其人流量的各种因素,比如天气与气温、季节、是否节假日、机场当地是否有大型活动、以及政治因素等等。

2 机器学习算法简述

机器学习的本质是在大数据的基础上的统计学习,拥有深厚的数学理论支撑。机器学习算法发展至今已经演化出了多种建模角度、几何或物理意义的算法,例如逻辑回归算法、支持向量机算法、决策树算法以及集成学习类的随机森林、梯度提升决策树等。

2.1 SVR

支持向量机(Support Vector Machine, SVM),是一类试图在多维度、多特征的数据中寻找能够分隔不同类别数据的超平面的算法,引入核函数的SVM算法对高维数据有很好的适应性,对分类结果也有较强的可解释性。SVR(支持向量回归)是SVM中的一个重要分支,多用来解决回归问题,回归通俗意义上讲就是寻找一堆数据的内在关系,不论这堆数据由几种特征值构成,回归结果得到一个超平面又或是一个函数,使所有的样本点距离这个超平面或者函数的距离最小。传统回归是所有样本点完全处在某个超平面或者完全符合某个函数才认为是预测正确,而SVR是事先设置好一个阈值,只要样本点距离超平面或函数的距离偏离程度小于此阈值,就认为预测正确。

公式 1 SVR最优化表达式

公式 2 超平面解析式

图表 1 SVR示意图

图表 2 SVR几何意义

图表 3 实验流程图

2.2 集成学习

集成学习是机器学习算法思想的又一次创新,其核心思想可以简单用一句中国经典谚语——“三个臭皮匠赛过诸葛亮”来概括。顾名思义,集成学习在机器学习经典算法的基础上,采用多模型融合的思想,将例如:逻辑回归、决策树、支持向量机等单一模型作为元模型,然后将元模型组合或叠加,综合决策结果作为最终输出,已经证明多模型融合的决策的合理性理论上高于单模型决策,集成学习以多个元模型为基础,具体决策方案分为boosting和bagging两种[3];boosting在训练时,元模型的粒度上是串行的,用前一个元模型的输出与真实值的差距作为下一个元模型的输入,循环这一过程直至满足条件就得到了最终模型,常见的boosting算法有gbdt、xgboost、lightgbm等;bagging是另一类算法,训练时元模型粒度上是串行训练,决策时元模型同时决策,然后对元模型的结果进行加权平均即可得到最终的预测结果,常见的bagging算法有random forest、extra random forest等。

3 模型构建

3.1 问题分析与建立模型

机场的用水量是连续型的数值,外界影响的因素很多,存在峰值波动幅度较大的特点,对于每天累计的用水量预测,可将其看做分类问题,查看历史流量波动、历史平均用水量等数据,将用水量数值按照频次分位数分为100等份,即将此问题转化为一个多分类问题;另一方面每天累计的用水量预测也可直接作为回归问题处理。对于上述两种方法在不同的场景下各有优劣,本文以回归问题为例继续讨论。

3.2 数据预处理

使用地下管网水流量传感器分时段统计用水量信息,并记录对应日期的外界条件,比如:天气状况、日平均气温以及每日出入港人数等;对收集到的相关数据整理,对于连续型特征,若存在缺失值,则采取补0、填充中位数或平均数等操作,然后对其使用最大最小归一化;对于离散型特征,若存在缺失值,则将其单独作为一类处理或填充出现次数最多的类别。

3.3 日供水量简单预测模型

此模型适用于机场在一个短周期内每日出入港人数变化波动较小的情况下,此时不考虑机场每日出入港人数的影响,把7天作为一个周期,将连续的7天内每日用水量作为一个训练集,采用支持向量机算法,可使用matlab中libsvm工具来实现,来预测第8天的用水量。

图表 4 样本用水量数据表

3.4 复杂预测模型

此模型相比前两个模型需要的数据维度更为广泛,所以预测的结果也会更为准确,我们将进出港人数总和,季节,天气气温,是否节假日,当地是否有大型活动等一切可以量化的指标都作为训练样本的特征,例如,我们将春夏秋冬分别设定为1、2、3、4,节假日设为1,非节假日为0,有大型活动为1,无大型活动为0,以及其他可量化并且与用水量有一定相关性的特征都添加到训练样本中,增加样本的特征数量来提高模型的泛化能力,以及提高预测的准确率。

图表 5 样本数据特征表

3.5 模型调优与评估

以上述结构化数据作为模型的训练数据,对SVM和集成学习GBDT模型进调优;SVR模型作回归分析预测的时候需要调节的参数主要是惩罚参数c和核函数g,集成学习GBDT算法的主要参数有迭代树的颗数n_estimators、学习速率learning_rate以及抑制过拟合的正则化参数等。

选取合适的参数能够使预测模型预测准确率大大提高,对于SVM和GBDT算法,搜索超参数以及模型评价的方法一般采用交叉验证(CV,Cross Validation) 的方法。常见的CV方法如下:

(1)多折交叉验证 (K-fold Cross Validation, K-CV)

原始数据被平均分为K组,将每一组数据轮流分别做一次测试集,剩下的K-1组作为训练集,一共会得到K个模型,将这K个模型最终分类准确率到平均数作为此K-CV下的评估指标。

(2)留一法 (Leave-One-Out Cross Validation, LOO-CV)

假设一共有N个样本,将每个样本都单独作为一次测试集,剩下的N-1个样本作为训练集,训练后会得到N个模型,将这N个模型最终分类准确率的平均数作为LOO-CV下分类器的评估指标。

将搜索的结果比对评价指标,得到性能最优的超参数组合放入模型即可训练出最终模型。

4 总结

机场地下管网系统作为机场基础服务的保障,水量供给方面需要做到未雨绸缪,合理高效的对机场用水量进行预测可以很好地解决这个问题。而另一方面随着机器学习、深度学习技术的不断向前发展,算法落地的配套设施更加完善,实际应用人工智能算法解决实际场景的复杂问题成为了可能。本文对机场地下的用水量预测这一问题进行了适当的讨论,探讨了应用传统机器学习为机场用水量预测的可行性与合理性,并对具体的操作流程做出来适当的描述总结。

猜你喜欢

超平面用水量机器
机器狗
机器狗
新疆生产建设兵团某师用水水平分析与评价
全纯曲线的例外超平面
你的用水量是多少?
涉及分担超平面的正规定则
你的用水量是多少?
澳大利亚研发出新型农业传感器可预测农作物用水量
以较低截断重数分担超平面的亚纯映射的唯一性问题
未来机器城