APP下载

支持向量机方法在南京太阳总辐射推算中的应用

2017-05-30杨光谭言科吴凡

大气科学学报 2017年5期
关键词:支持向量机日照时数

杨光 谭言科 吴凡

摘要利用1981、1996和2001年逐日南京站太阳总辐射和日照时数观测资料,建立了基于支持向量机(support vector machine,SVM)方法的太阳总辐射推算模型,预测了1982、1997和2002年的太阳总辐射,并把推算结果和采用线性的气候学方法所得到的推算结果分别与实测值进行对比。采用线性方法得到的1982、1997和2002年的太阳总辐射预测值与实测值间基于1:1线的决定系数(R2)分别为0800、0859和0838,均方根误差(RMSE)分别为3250、2649和2925 MJ·m-2·d-1。采用SVM方法得到的1982、1997和2002年的R2分别为0894、0938和0936,RMSE分别为2353、1726和1804 MJ·m-2·d-1。SVM方法得到的太阳总辐射预测值与实测值之间的误差较小,预测精度高于线性方法,更适用于实际太阳总辐射的计算。

关键词太阳总辐射;支持向量机;日照时数

太阳辐射是地球上各种物理过程和生命活动过程的能量来源,为气候系统中的热量和水分循环提供了动力,是地球上天气气候形成的根源。很多学者从不同角度分析了太阳辐射(马金玉等,2012;马琪等,2012),并指出了引起太阳辐射变化的原因(孙一等,2015)。此外,利用数值模拟的方法对太阳辐射进行的研究也取得了新的进展(卢鹏等,2015;韩振宇等,2016)。

到达地球表面的太阳总辐射,包括通过大气圈直接到达地面的太阳直接辐射和来自天空各个方向的太阳散射辐射两部分(孙卫国,2008)。在实际利用太阳能资源时,需要计算太阳总辐射。我国太阳能资源十分丰富,但是太阳辐射的观测台站比较少而且分布不均匀,需要根据气象资料间接推算太阳总辐射。理论上,到达地球表面的太阳总辐射量就等于大气上界的天文辐射量乘以大气透明度系数。由于大气中水汽和尘埃的影响,确定大气透明度系数比较困难,实际工作中常采用其他方法推算。

早在1919年,Kimball(1919)就指出日照时间和太阳总辐射之间存在线性关系,之后ngstrm(1924)提出了根据太阳总辐射和日照时间建立线性回归方程的方法。近年来,许多学者对太阳总辐射进行了研究,建立了大量描述太阳总辐射变化规律的模型。胡家敏等(2008)利用贵州省仅有的3个辐射观测站资料,比较了用日照百分率拟合与全国通用公式两种方法计算的总辐射的误差,结果表明用日照百分率的計算方法效果明显优于用全国通用公式。康雯瑛等(2008)比较了三种计算太阳总辐射的方法,发现经验公式法计算误差较小,但系数不易计算;多因子综合法易于计算,但误差相对较大;Prescoff公式法计算结果误差很大,不适用于太阳总辐射的计算。曹雯和申双和(2008)在对日照时数、日最高气温、日最低气温等实测资料的分析研究的基础上,确定了以日照百分率为主导因子,气温日较差为订正项的太阳日总辐射量的估算方法,利用回归分析法建立了以日照百分率和气温日较差为主要相关因子的各地日总辐射估算模型。Lu et al.(2010)采用年日照时数、年均总云量、年均水汽压、维度等常规气象要素及地理要素为解析变量,建立起估算全国范围内太阳年辐射总量的多元逐步回归模拟模型。曹双华和曹双枞(2006)针对影响太阳逐时总辐射的气象、地理等因素和历史数据进行了分析,建立了CONN(Chaos Optimization Neural Network,混沌优化神经网络)预测模型,预测了宝山气象站的太阳逐时总辐射。张礼平等(2010)基于SVM(Support Vector Machines,支持向量机)和EOF(Empirical Orthogonal Function,自然正交分解)的预报方法,设计了一种多因子对多预报量非线性预报方案,实现了逐日逐时辐射量预报。何晓凤等(2015)采用中尺度气象模式WRF(Weather Research Forecast)对北京地区的太阳辐射进行了逐时预报试验。

SVM方法是一种有坚实理论基础的小样本学习方法,能够很好地处理高度非线性分类、回归等问题(陈永义等,2004;王革丽等,2008)。本文以南京站为例,对基于SVM的太阳总辐射的推算进行了研究,比较了采用SVM方法和线性的气候学方法推算的逐日太阳总辐射的精度,并用实际观测资料进行了验证。

1资料

所用的气象数据为南京站1981—1982、1996—1997和2001—2002年的逐日太阳总辐射值、逐日日照时数。逐日天文辐射量由理论计算得到。选取这3个时间段的资料进行研究,主要是因为该时间段资料序列中缺测数据少,观测资料的精度高。在进行太阳总辐射推算之前,首先对观测资料中个别缺测、错测的记录进行了订正。为了避免气象数据各个因子之间的量级差异,提高对太阳总辐射的预测精度,对气象数据进行了归一化处理,使处理后的气象数据落入[0,1]区间。

图1给出了南京站2001年逐日太阳总辐射值随时间的变化曲线。可以看出,从冬季到夏季随着太阳高度角的增大,白昼时间不断加长,地面接受的太阳辐射能量增多,太阳总辐射值逐渐增大。太阳总辐射值从夏季到冬季又逐渐减小,在冬季达到最小。太阳总辐射值表现出明显的年变化特征,最大值出现在7月,达到2756 MJ·m-2·d-1,最小值出现在1月。因受梅雨天气的影响,6月日照时间缩短,南京太阳总辐射值在6月出现了一个相对的低值。

2推算方法

实际计算太阳总辐射时,传统的气候学方法仍被广泛采用。太阳总辐射的气候学计算公式(翁笃鸣,1997)为

Q=Q0(a+bs)。

其中:Q为总辐射;Q0为起始值;s为同期日照百分率;a、b为经验系数。太阳总辐射计算公式中常用的起始值主要有3种,分别为晴天太阳总辐射、天文总辐射和理想大气总辐射。鞠晓慧等(2005)对总辐射气候学计算公式中a、b系数的地理分布和季节变化特征,分析了辐射气候学计算的可能误差,得到了用日照资料估算总辐射的误差范围。

SVM是建立在统计学习理论(Vapnik,1998,2000)基础上的机器学习方法。他基于VC维理论和结构风险最小化理论,在特征空间中建立最优超平面,其推广能力明显优于一些传统的学习方法。该算法最终转化成为一个二次规划问题的求解,得到的是全局唯一的最優解,可以避免神经网络方法中的结构选择和局部极值问题。

定义K(xi,xj)满足Mercer条件的核函数,其表达式为

K(xi,xj)=<(xi),(xj)>。 (1)

引入适当的核函数K(xi,xj),不用知道映射函数的具体形式,就可以将高维特征空间中的点积运算转换为低维输入空间中的核函数运算。这样就巧妙地解决了维数问题,其算法复杂度与样本维数无关。本文选择径向基函数作为核函数。

采用SVM方法得到的太阳总辐射非线性回归预测函数为

f(x)=∑xi∈SV(αi-α*i)K(xi,x)+b。 (2)

其中:xi为支持向量;αi、α*i和b为确定最优超平面的参数。

基于Vapnic提出的ε不敏感误差函数,寻求最优回归超平面问题最终等价于求解一个线性约束的二次规划问题

min12‖w‖2+C∑i(ξi+ξ*i)。 (3)

约束条件为

yi-(w·xi)-b≤ε+ξi;

(w·xi)+b-yi≤ε+ξ*i

ξi,ξ*i≥0。(i=1,…,l);

其中:w,x,xi∈Rn,b∈R;C为正常数,是先给定的惩罚系数;ξi与ξ*i分别对应于最优回归超平面上方和下方的样本点。

定义关于(3)式的Lagrange函数,对他关于w、b、ξi、ξ*i求偏导数并令偏导数为零,然后进行整理,从而求解最优回归超平面转化为求解如下的优化问题

max-12∑li,j=1(αi-α*i)(αj-α*j)<(xi),(xj)>+∑li=1yi(αi-α*i)-ε∑li=1(αi+α*i)。 (4)

约束条件为

∑li=1(α*i-αi)=0

αi≥0,α*i≤C(i=1,…,l)。

其中,αi、α*i分别为对应的ξi与ξ*i的Lagrange乘子,通过求解以上的二次规划问题,可以求得αi、α*i和b。

本文以南京站的日照时间和天文辐射量为输入,采用上述SVM回归模型进行太阳总辐射的训练和预测,并把预测结果与采用线性的气候学方法预测的太阳总辐射值进行了对比。为定量验证模型对太阳总辐射的预测效果,采用RMSE(Root Mean Square Error,均方根误差;单位:MJ·m-2·d-1)作为误差指标进行比较和评价。均方根误ERMSE差定义为

ERMSE=∑nt=1(Q(t)-Q0(t))2n。 (5)

其中:Q0(t)为在时间t的实测值;Q(t)为在同一时间的预测值;n是样本数。

3计算结果和分析

利用1981年南京站的逐日天文辐射量、逐日日照百分率和逐日太阳总辐射值作为样本进行训练,建立SVM回归模型。再利用1982年的逐日日照百分率和逐日天文辐射量作为输入,用建立的模型预测1982年的逐日太阳总辐射值。通过比较1982年逐日太阳总辐射值的实测值与预测值来判断SVM方法的预测精度。采用相同方法,可以判断SVM方法对1997和2002年太阳总辐射的预测精度。

类似地,以1981、1996和2001年南京站的逐日天文辐射量、逐日日照百分率和逐日太阳总辐射值作为样本,采用气候学方法拟合出一个线性关系式,就可以对1982、1997和2002年的太阳总辐射进行预测。把太阳总辐射的预测值与相应年份的太阳总辐射实测值进行对比,可以得到线性方法对太阳总辐射的预测误差。

采用线性方法和SVM方法对南京太阳总辐射的模拟结果如图2所示。可以清楚地看到,采用线性方法预测得到的太阳总辐射误差比较大,模拟精度会随季节的不同而发生显著变化。而采用SVM方法得到的南京太阳总辐射的模拟值和实测值基本吻合,对太阳总辐射的模拟精度全年都比较高。显然,采用SVM方法对太阳总辐射的模拟效果比线性方法好。另外,还可以发现这两种方法对夏季南京太阳总辐射的模拟效果都不是很理想,特别是采用线性方法得到的夏季南京太阳总辐射的预测值和实测值偏差特别大。这可能是由于此时江淮流域正值梅雨期,南京多阴雨天气,雨量充沛,相对湿度大,云量和水汽会对到达地面的太阳总辐射产生影响。

图3给出了采用线性方法和SVM方法得到的南京太阳总辐射预测值和实测值的散点分布。当太阳总辐射实测值小于10 MJ·m-2·d-1时,线性方法所得到的太阳总辐射预测值散点很分散,特别是当太阳总辐射实测值小于5 MJ·m-2·d-1时,散点在拟合直线两侧分布很不均匀,此时误差较大。采用线性方法得到的1982、1997和2002年的预测值与实际观测值基于1:1线的决定系数R2分别为0800、0859、0838,相关关系比较显著。

对SVM方法得到的1982、1997和2002年太阳总辐射预测值与实测值进行对比分析,可以发现散点在拟合直线两侧分布比较均匀,也相对集中。采用SVM方法得到的1982、1997和2002年的预测值与实际观测值基于1:1线的决定系数R2分别为0894、0938、0936,相关关系比线性方法更为显著。

表1给出了线性方法和SVM方法计算得到的南京太阳总辐射的误差对比。采用线性方法得到的1982、1997和2002年的RMSE分别为3250、2649、2925 MJ·m-2·d-1,采用SVM方法得到的1982、1997和2002年的RMSE分别为2353、1726、1804 MJ·m-2·d-1,这3年的RMSE都比采用线性方法得到RMSE要小。上述分析清楚地表明,采用SVM方法比采用线性方法对太阳总辐射的预测精度要高。

4结论与讨论

本文以日照时间和天文辐射量作为输入,采用SVM方法对南京站1982、1997和2002年太阳总辐射分别进行了预测,并对比了采用该方法与采用线性的气候学方法得到的太阳总辐射预测结果。研究结果表明:1)采用线性方法對太阳总辐射进行预测时,预测值和实测值的误差较大,误差分布会出现明显的季节变化;2)采用SVM方法对太阳总辐射的预测误差分布全年都比较均匀,预测精度比采用线性方法得到的太阳总辐射要高。

针对南京太阳总辐射所建立的SVM回归模型比较准确地反映了太阳总辐射变化规律,模型输入参数少,计算精度高,在实际应用中有明显的优势。采用SVM方法模拟的太阳总辐射的误差比线性方法明显较小,但其计算模型更为复杂。在数据量比较大时,会有处理速度慢等缺点。在解决大数据量的时间序列预测和模式分类等问题时,如何提高它对气象数据处理的实时性,缩短样本训练时间,还需要进一步研究。

在建立模型时,本文使用的输入因子只有日照时间和天文辐射量,实际上影响太阳总辐射的因素很多,还可能有温度日较差、降水量等。另外,对夏季南京太阳总辐射的模拟结果不理想,可以考虑对不同季节进行模拟推算。在采用SVM方法所建的模型中加入更多的影响因子,对南京太阳总辐射的模拟效果进行改进,将是下面要进一步开展的研究工作。

参考文献(References)

ngstrm A,1924.Solar and terrestrial radiation[J].Quart J Roy Meteor Soc,50:121126.

曹双华,曹家枞,2006.太阳逐时总辐射混沌优化神经网络预测模型研究[J].太阳能学报,27(2):164169.Cao S H,Cao J C,2006.Study of chaos optimization neural networks for the forecast of hourly total solar irradiation[J].Acta Energiae Solaris Sinica,27(2):164169.(in Chinese).

曹雯,申双和,2008.我国太阳日总辐射计算方法的研究[J].南京气象学院学报,31(4):587591.Cao W,Shen S H,2008.Estimation of daily solar radiation in China[J].J Nanjing Inst Meteor,31(4):587591.(in Chinese).

陈永义,俞小鼎,高学浩,等,2004.处理非线性分类和回归问题的一种新方法(Ⅰ)—支持向量机方法简介[J].应用气象学报,15(3):355365.Chen Y Y,Yu X D,Gao X H,et al.,2004.A new method for nonlinear classify and nonlinear regression Ⅰ:Introduction to support vector machine[J].Journal of Applied Meteorological Science,15(3):355365.(in Chinese).

韩振宇,王宇星,聂羽,2016.RegCM4对中国东部区域气候模拟的辐射收支分析[J].大气科学学报,39(5):683691.Han Z Y,Wang Y X,Nie Y,2016.The radiation budget in a regional climate simulation by RegCM4 for eastern China[J].Trans Atmos Sci,39(5):683691.(in Chinese).

何晓凤,周荣卫,申彦波,等,2015.基于WRF模式的太阳辐射预报初步试验研究[J].高原气象,34(2):463469.He X F,Zhou R W,Shen Y B,et al.,2015.Preliminary study on solar radiation forecasting with WRF Model[J].Plateau Meteor,34(2):463469.(in Chinese).

胡家敏,吴战平,陈中云,等,2008.贵州省太阳总辐射计算及其分布规律[J].气象科技,36(1):9194.Hu J M,Wu Z P,Chen Z Y,et al.,2008.Calculation method and distribution characteristics of solar global radiation in GuizhouProvince[J].Meteorological Science and Technology,36(1):9194.(in Chinese).

鞠晓慧,屠其璞,李庆祥,2005.我国太阳总辐射气候学计算方法的再讨论[J].南京气象学院学报,28(4):517521.Ju X H,Tu Q P,Li Q X,2005.Discussion on the climatological calculation of solar radiation[J].J Nanjing Inst Meteor,28(4):517521.(in Chinese).

康雯瑛,焦建丽,王君,2008.太阳总辐射计算方法对比分析[J].气象与环境科学,31(3):3337.Kang W Y,Jiao J L,Wang J,2008.Comparative analysis of global solar radiation calculation method[J].Meteorological and Environmental Sciences,31(3):3337.(in Chinese).

Kimball H H,1919.Variations in the total and luminous solar radiation with geographical positions in the United States[J].Mon Wea Rev,47(11):769793.

盧鹏,张华,荆现文,等,2015.长波区间太阳辐射对气候模拟的影响[J].大气科学学报,38(2):175183.Lu P,Zhang H,Jing X W,et al.,2015.Effect of solar radiation in longwave region on climate simulations[J].Trans Atmos Sci,38(2):175183.(in Chinese).

Lu Y M,Yue T X,Chen C F,et al.,2010.Solar radiation modeling based on stepwise regression analysis in China[J].Journal of Remote Sensing,14(5):852864.

马金玉,罗勇,申彦波,等,2012.近50年中国太阳总辐射长期变化趋势[J].中国科学:地球科学,42(10):15971608.Ma J Y,Luo Y,Shen Y B,et al.,2012.Regional longterm trend of ground solar radiation in China over the past 50 years[J].Sci China:Earth Sci,42(10):15971608.(in Chinese).

马琪,杜继稳,延军平,等,20121961—2009年大同市太阳辐射变化特征及其与气象要素的关系[J].气象与环境学报,28(2):2227.Ma Q,Du J W,Yan J P,et al.,2012.Variation of solar radiation and its relationship with meteorological elements from 1961 to 2009 in Datong,Shanxi Province[J].Journal of Meteorology and Environment,28(2):2227.(in Chinese).

孙卫国,2008.气候资源学[M].北京:气象出版社.Sun W G,2008.Summary on climate resources[M].Beijing:China Meteorological Press.(in Chinese).

孙一,管兆勇,马奋华,等,2015.夏季东亚地区AOD与地面太阳辐射变化的联系及季风环流异常:季节趋势影响[J].大气科学学报,38(2):165174.Sun Y,Guan Z Y,Ma F H,et al.,2015.Linkage between AOD and surface solar radiation variability in association with East Asian summer monsoon circulation changes:Role of seasonal trends[J].Trans Atmos Sci,38(2):165174.(in Chinese).

Vapnik V N,1998.Statistical learning theory[M].New York:John Wiley & Sons,Inc.

Vapnik V N,2000.The nature of statistical learning theory[M].New York:Springer Verlag.

王革丽,杨培才,毛宇清,2008.基于支持向量机方法对非平稳时间序列的预测[J].物理学报,57(2):714719.Wang G L,Yang P C,Mao Y Q,2008.On the application of nonstationary time series prediction based on the SVM method[J].Acta Physica Sinica,57(2):714719.(in Chinese).

翁笃鸣,1997.中国辐射气候[M].北京:气象出版社.Weng D M,1997.Radiation Climate in China[M].Beijing:China Meteorological Press.(in Chinese).

张礼平,陈正洪,成驰,等,2010.支持向量机在太阳辐射预报中的应用[J].暴雨灾害,29(4):334336.Zhang L P,Chen Z H,Cheng C,et al.,2010.Application of support vector machines in the solar radiation forecasting[J].Torrential Rain and Disasters,29(4):334336.(in Chinese).

猜你喜欢

支持向量机日照时数
福州市近70年日照变化趋势分析
西昌近60年日照时数的变化特征分析
1961~2020年曲麻莱县日照时数变化特征
1980年~2017年大冶市日照时数变化特征分析
依安县近30 a日照变化及统计分析
1963—2016年久治地区日照时数变化特征分析
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径