基于多组群教学优化的随机森林预测模型及应用
2019-09-10李月玉崔东文高增稳
李月玉 崔东文 高增稳
摘要:为有效提高水文预测预报精度,提出了一种基于多组群教学优化(MGTLO)的随机森林(RF)预测方法,利用MGTLO算法对RF两个关键参数进行优化,构建MGTLO-RF预测模型,并与基于MGTLO算法优化的支持向量机(SVM)、BP神经网络两种常规预测模型作对比分析。以云南省龙潭站月径流和年径流预测为例进行实例研究,利用前44 a和后10 a资料对MGTLO-RF等3种模型进行训练和预测。结果表明:所提出的MGTLO-RF模型具有更好的预测精度和泛化能力,可作为水文预测预报和相关预测研究的一种有效工具。
关 键 词:径流预测; 多组群教学优化算法; 随机森林; 参数优化
1 研究背景
提高径流预测精度一直是水文预测预报中的热点和难点。由于受自然条件、人类活动等众多确定性因素和随机因素的影响,径流的形成和变化过程非常复杂,致使常规的回归分析、数理统计等方法用于径流预测预报难以达到理想的应用效果。近年来,一些非常规方法被尝试用于径流预测预报,并获得较好的预测效果,如BP、GRNN、RBF神经网络法[1-3]、支持向量机法[4-5]、集对分析法[6-7]、投影寻踪回归法[8]、小波分解混合法[9-10]、组合预测法[11]。随机森林(random forest,RF)是由Leo Breiman提出的一种集成机器学习方法,可应用于分类问题、回归问题以及特征选择问题,主要利用Bootstrap重抽样方法从原始样本中抽取多个样本,对每个Bootstrap样本进行决策树建模,然后组合多棵决策树通过投票方式得出最终评价结果[12],可有效避免“过拟合”和“欠拟合”现象的发生,对解决多变量预测具有很好的效果,被誉为当前最好的机器学习算法之一[13-14],已在各领域及径流预测[15]中得到应用。在实际应用中,对于不同的预测对象,RF决策树数量ntree和分裂属性个数mtry是不同的,二者成为决定RF预测或分类性能的关键性因素。目前普遍采用试凑的方法[14-16]或网络搜索的方法[12,17]确定决策树数量、分裂属性个数,但取值效果往往不理想。此外,粒子群优化算法[18]、蜜蜂交配优化算法[19]和果蝇优化算法[20]尝试用于RF关键参数优化,并获得较好的优化应用效果。但基于智能算法优化决策树数量、分裂属性个数的RF模型用于水文预测预报的文献并不多见。
为进一步拓展智能算法优化RF两个关键参数的应用范畴,本文提出了一种基于多组群教学优化(multi-group teaching-learning optimization,MGTLO)算法优化的RF预测方法,利用MGTLO算法优化RF决策树数量和分裂属性个数两个关键参数,构建MGTLO-RF预测模型,并构建基于MGTLO算法优化的支持向量机(SVM)、BP神经网络两种常规预测模型作对比分析,以云南省龙潭站枯水期12月径流和年径流预测为例进行实例研究,旨在验证MGTLO-RF模型用于水文预测预报的可行性和有效性。
2 MGTLO-RF预测模型
2.1 多组群教学优化算法
多组群教学优化(MGTLO)算法是文献[21]提出的一种基于多组群改进的教学优化算法,已被证明其寻优精度和稳定性优于TLBO、粒子群优化等算法。MGTLO算法利用分组策略定义学生(种群)数量、组数和每组学生数量,通过选择每组学生中适应值度最好的学生作为该教师并对各组教师适应度值进行比较,最终确定所有组学生中适应度值最好的学生作为教师,即待优化问题最优解。参考文献[21],MGTLO算法简述如下:
(1) 定义学生数量N和组数G,确定每组学生数量S=N/G;随机将S个学生分配给每个组(G-1),将剩下学生分配给最后一个小组。
4 结 语
本文鉴于水文预测预报的复杂性和不确定性,基于多组群教学优化(MGTLO)算法良好的全局搜索能力和随机森林(RF)强分类集成器二者的优点,提出MGTLO-RF水文预测模型,以云南省龙潭站枯水期月径流、年径流预测为例进行实例验证,并与MGTLO-SVM、MGTLO-BP两种常规预测模型作对比分析。结果表明,无论是训练样本还是预测样本,MGTLO-RF模型均表现出更高的预测精度和泛化能力,不但可作为水文预测预报的有效工具,而且可为相关预测研究提供参考。
参考文献:
[1] 崔东文,金波.花授粉算法-BP神經网络模型及其在月径流预测中的应用[J].人民珠江, 2016, 37(4): 36-40.
[2] 覃光华,宋克超,周泽江,等.基于WA-GRNN模型的年径流预测[J].工程科学与技术,2013,45(6):39-46.
[3] 黄剑竹. 改进RBF-Adaboost模型及其在年径流预测中的应用[J]. 人民珠江, 2015, 36(1): 32-36.
[4] 崔东文,金波.基于改进的回归支持向量机模型及其在年径流预测中的应用[J].水力发电学报, 2015, 34(2): 7-14.
[5] 崔东文.几种智能算法与支持向量机融合模型在中长期月径流预测中的应用[J].华北水利水电大学学报(自然科学版),2016,37(5):51-57.
[6] 欧源,张琼,王文圣,等.基于秩次集对分析的年径流预测模型[J]. 人民长江, 2009, 40(3): 63-65.
[7] 王延亭,王建群,张玉杰.基于加权秩次集对分析法的年径流预报模型[J]. 水电能源科学, 2012 (3): 17-19,67.
[8] 崔东文,金波.鸟群算法-投影寻踪回归模型在多元变量年径流预测中的应用[J]. 人民珠江, 2016, 37(11): 26-30.
[9] 周婷,金菊良,李荣波,等. 基于小波支持向量机的径流预测性能优化分析[J]. 水力发电学报, 2017, 36(10): 45-55.
[10] 纪昌明,李荣波,张验科,等. 基于小波分解的投影寻踪自回归组合模型及其在年径流预测中的应用[J]. 水力发电学报,2015, 34(7): 27-35.
[11] 崔东文.多重组合神经网络模型在年径流预测中的应用[J].水利水电科技进展,2014,34(2):59-63.
[12] 温博文,董文瀚,解武杰,等.基于改进网格搜索算法的随机森林参数优化[J]. 计算机工程与应用, 2018, 54(10): 154-157.
[13] 王盼,陆宝宏,张瀚文,等.基于随机森林模型的需水预测模型及其应用[J].水资源保护,2014(1):34-37.
[14] 赖成光,陈晓宏,赵仕威,等.基于随机森林的洪灾风险评价模型及其应用[J].水利学报,2015,46(1):58-63
[15] 赵文秀,张晓丽,李国会. 基于随机森林和RBF神经网络的长期径流预报[J]. 人民黄河, 2015, 37(2): 10-12.
[16] 温廷新,张波,邵良杉. 煤与瓦斯突出预测的随机森林模型[J]. 计算机工程与应用, 2014, 50(10): 233-237.
[17] 陈元鹏,罗明,彭军还,等.基于网格搜索随机森林算法的工矿复垦区土地利用分类[J].农业工程学报,2017,33(14):250-257.
[18] 王杰,程学新,彭金柱.一种基于粒子群算法优化的加权随机森林模型[J].郑州大学学报(理学版),2018,50(1):72-76.
[19] 周博翔,李平,李莲. 改进随机森林及其在人体姿态识别中的应用[J]. 计算机工程与应用, 2015, 51(16): 86-92.
[20] 赵东,臧雪柏,越宏伟.基于果蝇优化的随机森林预测方法[J]. 吉林大学学报(工学版),2017,47(2):609-614.
[21] Kommadath R,Sivadurgaprasad C, Kotecha P.Single Phase Multi-Group Teaching Learning Algorithm for Single Objective Real-Parameter Numerical Optimization (CEC2016)[C]∥IEEE World Congress on Computational Intelligence, 2016:2989-2995.
[22] Breiman L. Random Forests[J]. Machine Learning,2001, 45(1):5-32.
[23] 崔東文,金波.基于随机森林回归算法的水生态文明综合评价[J].水利水电科技进展,2014,34(5):56-60.
[24] 黄永刚,李龙,基于随机森林算法的矿井涌水量预测[J].煤炭技术,2017,36(1):220-221.
(编辑:常汉生)