基于支持向量机的绿潮灾害影响因素的权重分析
2015-08-25何世钧唐莹莉谢圣东于克锋何培民上海海洋大学信息学院上海0306上海海洋大学水产与生命学院上海0306上海海洋大学海洋科学研究院海洋生态环境与修复研究所上海0306
何世钧,唐莹莉,张 婷,李 煜,谢圣东,于克锋,何培民,3(.上海海洋大学信息学院,上海 0306;.上海海洋大学水产与生命学院,上海 0306;3.上海海洋大学海洋科学研究院,海洋生态环境与修复研究所,上海0306)
基于支持向量机的绿潮灾害影响因素的权重分析
何世钧1*,唐莹莉1,张 婷1,李 煜1,谢圣东1,于克锋2,何培民2,3(1.上海海洋大学信息学院,上海 201306;2.上海海洋大学水产与生命学院,上海 201306;3.上海海洋大学海洋科学研究院,海洋生态环境与修复研究所,上海201306)
根据2012~2013年南黄海海域绿潮浒苔遥感监测分布面积数据及温度、天气状况、风向、风力、浪高5个影响绿潮浒苔扩散的气候因子,建立了相应的支持向量机回归模型.通过模型中各影响因素权重的变化分析绿潮灾害的发展过程,并与传统的单因素分析法进行对比,支持向量机回归更能准确得出各影响因素的权重及权重的变化规律.通过对权重变化规律的分析,给出在绿潮发生过程中漂浮、爆发和消亡阶段的划分依据.
支持向量机回归;影响因子;权重分析;灾害过程
浒苔(Ulvaprolifera)属绿藻门,绿藻纲[1],虽然无毒,但大量繁殖的浒苔(绿潮)会对海洋环境、景观、生态服务功能以及沿海社会经济造成严重影响.近年来绿潮在黄海中部南部等海域相继爆发,给日照、青岛、烟台等地造成不同程度的经济损失和社会、环境影响,黄海绿潮的发生原因越来越成为人们关注的焦点[2-3].目前对于黄海绿潮灾害的发生过程分析主要局限于单因素分析法[4-6],而单因素分析法只考虑单一影响因子对绿潮分布面积的影响.绿潮发生的原因比较复杂,与诸多环境因子具有高维非正态、复杂性、非线性相关[7],因此仅仅利用单因素分析法,并不能准确预测其各个影响因子的权重(W).
支持向量机(SVM)是小样本学习理论[8-9],正成为机器学习领域新的研究热点,目前 SVM已广泛应用于人脸图像识别、手写识别、水质评价、文本分类、土壤评价,遥感图像分析等领域[10-13],这些应用皆是建立在基于SVM的分类或回归问题上,而目前尚很少见将 SVM应用于权重分析中.SVM能够将数据从观测空间映射到特征空间并进行推理学习,而绿潮观测数据稀少,且成因具有较高的复杂性,因此本文以黄海绿潮为研究对象,利用 SVM对其灾害发展过程中各影响因素的权重进行分析.
绿潮的生成和灾害爆发与营养盐、盐度等有关[14],故其生成源地在富营养化的长江口水域,随后随着长江冲淡水不断飘向东北方向贫营养区的黄海南部[15-16].本文旨在为黄海绿潮业务化预报提供依据,重点研究在绿潮灾害已经爆发的条件下,对其在黄海中的扩散影响比较大且便于测量的因素,营养盐、盐度等影响绿潮生成的因素不在考虑范围内.根据文献总结得出影响绿潮灾害发生扩散的主要因素包括温度(T)、天气现象(WP)、风向(WD)、风力(WF)和浪高(WH)[5-6,17-18].主要探讨 SVM的建模过程和评价效果,旨在对 SVM模型技术在绿潮或其他海洋生物的灾害过程分析中提供借鉴,同时讨论在绿潮发生过程中的漂浮、爆发和消亡阶段[17]的划分依据.
1 基于SVM的权重分析法
SVM是 1995年由 AT&T贝尔实验室的Vapnik及其研究小组提出的一种小样本理论.下面针对绿潮灾害成因分析的问题说明支持向量机权重分析法.
1.1支持向量机回归理论
对于支持向量机回归(SVR)问题[19],就是对于给定的l个数据样本{(x,y),i=1,…,l}∈(Rn×Yi),xi∈Rn,y∈Y⊂R ,来找到一个可将样本分离的超平面(决策平面),支持向量回归的目标就是求下列回归函数:
考虑以下最优化问题:
其中:C是惩罚参数,用来控制模型复杂度和逼近误差的折中,C越大则对数据的拟合程度越高.引入拉格郎日乘子,α*=,...,并转换为如下的对偶问题:
对于非线性可分的情况,可使用映射Φ将 X映射到特征空间中,再在高维特征空间建立优化超平面,相应的超平面为wTΦ(x)+b=0,支持向量回归机理论只考虑高维特征空间的内积运算K( x,y)= Φ(x)·Φ(y),因此,最终的最优超平面为
1.2权重分析
对于线性可分的情况,求得上述回归结果后,式(4)中权重向量wT各分量的绝对值大小分别代表向量x∈Rn各分量在决策函数中的权重[20].对于绿潮灾害发生过程分析的问题而言,因综合其5个影响因子,故式(4)中,设在回归点=[T,WP,WD,WF,WH],则有回归结果
2 应用实例分析
2.1基于SVR的绿潮面积回归
目前相关部门已经利用卫星、航空、船舶等不同监测平台对绿潮灾害开始进行实时、动态的立体监测[21-23].本文主要对 2012,2013年黄海绿潮的发生过程进行分析,文中绿潮面积数据由“黄海绿潮业务化预测预警关键技术研究与示范”专项获取,实际观测的2013年绿潮分布面积(DA)如图1所示.由图1可知,绿潮的发生阶段为5~8月,而实际获得的绿潮卫星遥感监测数据只有42d的数据,因此需要对连续观察数据中缺失的数据进行恢复.
图1 实际观测的绿潮分布面积Fig.1 The observed distribution area of green tide
2.1.1数据预处理 综合影响黄海绿潮发生过程的因子T,WP,WD,WF和WH.其数据来自气象台天气后报[24].根据绿潮藻在不同温光条件下的特定生长率[25],WP分别数值化为:晴即 14,多云及阴 24,雨即 21,T的数值化处理方式为:T= (T)/((14+24+21)/3).表层流的流向决定海洋中绿潮漂流方向,在夏季,黄海沿岸海域表层海流基本上是由东南向西北方向流动[26],且 2012,2013年黄海绿潮的漂移方向也是西北方向,因此根据风向与绿潮漂移方向的夹角大小,对WD的数值化如图2所示.WF,WH则使用气象台发布的原始数值.
2.1.2回归计算 对2012,2013年黄海绿潮卫星遥感监测数据的绿潮DA进行回归,利用基于SVR的绿潮面积预测模型建模.由于在绿潮的整个生存阶段min(DA)< <max(DA),为了保持回归过程中相对误差(RE)小于20%以获得较准确的回归结果,根据局部最优解原理,分别对 5月、6月、7月和8月的绿潮DA进行回归,具体步骤如下(以对 6月的绿潮 DA进行回归为例):
图2 风向Fig.2 Wind direction
(1)训练集(Train)和测试集(Test)的选取.针对6月绿潮 DA的观测数据Data={Datai=(xi,yi),i=1,…,n}∈(Rn×Y)n,选 取Test={Datai(1≤i≤10),Dataj(11≤j ≤20),Datak(21≤k≤30)},Train=Data-Test.
(2)模型的建立.利用基于SVR的绿潮DA预测的原理,对Train进行建模并确保RE<20%.
(3)绿潮DA回归.利用模型预测临近测试点的DA的预测值(PV),将其加入Train,重新建模,若 RE<20%,更新 Train=Train+{PV},重新选择Test.以此类推直到恢复数据的连续性.
回归的最终结果如图3所示.
图3 绿潮分布面积的回归结果Fig.3 The regression result of distribution area of green tide
2.2基于SVM的绿潮灾害发生过程分析
2.2.1单因素分析法 利用单因素分析法分析T和WF对绿潮DA的影响.图4是绿潮分布面积差分(记为ΔDA)与温度差分(记为ΔT)和风力差分(记为ΔWF)的对比(为了方便分析,将图示中ΔT 和ΔWF各扩大1000倍).从图4中可以看出ΔT和ΔWF的规律性不强,并不能分析它们间的关系.
图4 ΔDA与ΔT, ΔWF对比Fig.4 The comparison of ΔDA with ΔT,ΔWF
2.2.2基于SVR的权重分析法 为了求得影响绿潮DA各个因素的权重,建立基于SVR的黄海绿绿潮DA预测模型,选用线性核,利用5折交叉验证法对参数 C进行寻优[27],SVR训练结果为f(x)= wT·x+b,其中wT=[w1,w2,w3,w4,w5],其绝对值大小分别代表T、WP、WD、WF和WH在绿潮发生过程中的影响权重.
利用SVR求取WT、WWP、WWD、WWF和WWH具体步骤如下:
(1)选取第1d至第nd的数据做为训练集,利用5折交叉验证法进行参数寻优,得到最优模型的决策函数f(x)=wT·x+b ,从而确定此时间段各个因素的权重;
(2)将n从第一组数据循环至最后一组数据,最终得到各影响因子在不同时间段的权重向量WT、WWP、WWD、WWF和WWH.
图5、图6为绿潮生存期其DA与WT、WWP、WWD、WWF和WWH的关系.
图5 绿潮DA与WT, WWD和WWF的对比Fig.5 The comparison of DA with WT,WWD,WWF
图5表示绿潮DA与WT、WWD和WWF的对比,图5(b)中,虚线为WT,粗实线和细实线分别为WWD和 WWF.由图 5(b)可知,在绿潮的整个生存期,WT的变化与 DA的变化保持较高的一致性,且具有较好的平滑性.随着绿潮的生长,WT越来越大,在绿潮的爆发阶段,WT最大,这说明,T与绿潮大规模的形成有密切关系,在绿潮的消亡期,WT慢慢变小.同样可以很直观的看出,在绿潮生存期间,WWD和 WWF的变化呈现一致的规律,且它们的变化规律与DA的变化具有一致性,在绿潮刚生成时,WWD和 WWF较小,随着绿潮的规模性形成,WWD和WWF慢慢变大,WF成为绿潮在海洋中移动的主要强迫力,持续的强风成为 DA慢慢扩大的主要外界强迫力.分析图6可知在绿潮的生存阶段,WWP的变化毫无规律,这说明WP对绿潮的暴发并无明显的影响.观察曲线WWH可知,在绿潮即将消亡时期,WH影响卫星遥感对绿潮DA的监测.
图6 绿潮DA与WWP和WWH的对比Fig.6 The comparison of DA with WWP,WWH
由图5(b)WT、WWD和WWF值的大小对比可知,在绿潮发生的气候影响因子中,WT最大,于是分析ΔWT可得到图7.
图7中,当ΔWT产生跳变时,DA始慢慢变大,当ΔWT达到最大时,绿潮进入爆发阶段,随着ΔWT的减小,绿潮慢慢进入消亡阶段.因此,可根据ΔWT的变化,来确定当年绿潮漂浮、爆发和消亡阶段时间分界点.对 2012年黄海绿潮观测数据用同样方法进行分析,得出其生长过程中DA与ΔWT的对比如图8所示.由图8可以看到,结果与上述结论一致.
图8 2012年黄海绿潮DA与ΔWT的对比Fig.8 The comparison of DA with ΔWTin 2012
3 结论
基于SVR模型技术,综合影响黄海绿潮发生及扩散的条件因素包括T,WP,WD,WF和WH,分析它们对绿潮DA的影响权重.首先利用单因素分析法分析各影响因素对绿潮DA的影响,并没有得到某种相关性关系,且不能得出各个影响因子的权重.接着将这些影响因素与相应的绿潮DA建立相应的SVR模型,求取WT、WWP、WWD、WWF和 WWH,并分析各个因素的权重.结果表明:可用SVR对复杂问题进行权重分析,给出时间序列上的权重的变化规律;T对绿潮灾害发生过程的影响是最大的,因此在绿潮的监测中应首要考虑T;ΔWT的值由小变大的分界点,即为绿潮从漂浮阶段过渡到爆发阶段的时间分界点,ΔWT的值由大变小的分界点,即为绿潮从爆发阶段到消亡阶段的时间分界点.
曾呈奎,张德瑞,张峻甫.中国经济海藻志 [M]. 北京:科学出版社,1962:50-76.
Liu D Y, Keesing J K, Xing Q G. World's largest macroalgal bloom casused by expansion of seaweed aquaculture in China [J]. Marine Pollution Bulletin, 2009,58(6):888-895.
Hu C M, Li D Q, Chen C S, et al. On the recurrent Ulva prolifera blooms in the Yellow Sea and East China Sea [J]. Journal of Geophysical Research, 2010,115C:05017.
李德萍,杨育强,董海鹰.2008年青岛海域浒苔大爆发天气特征及成因分析 [J]. 中国海洋大学学, 2009,39(6):1165-1170.
衣 立,张苏平,殷玉齐.2009年黄海绿潮浒苔爆发与漂移的水文气象环境 [J]. 中国海洋大学学报(自然科学版), 2010,40(10):015-023.
张苏平,刘应辰,张广泉,等.基于遥感资料的2008年黄海绿潮浒苔水文气象条件分析 [J]. 中国海洋大学学报, 2009,39(5):870- 876.
刘桂梅,李 海,王 辉,等.我国海洋绿潮生态动力学研究进展 [J].地球科学进展, 2010,25(2):147-152.
Vapnik V N. An overview of statistical learning theory [J]. IEEE Transactions on Neural Networks, 1999,10(5):988-999.
Cortes C, Vapnik V. Support vector networks [J]. Machine Learning,1995,20(3):273-297.
Hugo Carrao, Paulo Goncalves, Mario Caetano. Contribution of multispectral and multitemporal information from MODIS images to land cover classification [J]. Remote Sensing of Environment, 2008,112(3):986-997.
周建国,张希刚.基于粗糙集与灰色SVM的中国CO2排放量预测 [J].中国环境科学, 2013,33(12):2157-2163.
李柞泳,张正健.基于回归支持向量机的指标规范值的水质评价模型[J]. 中国环境科学, 2013,33(8):1502-1508.
姜 雪,卢文喜.应用支持向量机评价土壤环境质量 [J]. 中国环境科学, 2014,34(5):1229-1235.
高 嵩,范士亮,韩秀荣,等.浒苔绿潮与南黄海近岸海域水质的关系[J]. 中国环境科学, 2014,34(1):213-218.
徐兆礼,叶属峰,徐 韧,等.2008年中国浒苔灾害成因条件和过程推测 [J]. 水产学报, 2009,33(3):430-437.
黄 容,马 艳,郭丽娜,等.2008-2011年浒苔影响青岛的海面风观测资料特征分析 [J]. 海洋预报, 2013,30(2):30-35.
张 浩.黄海绿潮爆发机制分析及防治研究 [D]. 大连:大连海事大学, 2013.
范士亮,傅明珠,李 艳,等.2009-2010年黄海绿潮起源与发生过程调查研究 [J]. 海洋学报, 2013,34(6):187-194.
Vapnik V N. The nature of statistical learning theory [M]. New York:Springer, 1995:70-256.
Nello Cristianini, John Shawe-Taylor. An introduction to support vector machines and other kernel-based learning methods [M]. Beijing: Electronic Industry Press, 2004:9-17.
顾行发,陈兴峰,尹 球,等.黄海浒苔灾害遥感立体监测 [J]. 光谱学与光谱分析, 2011,31(6):1627-1632.
Gower J, Hu C, Borstad G, et al. Ocean color satellites show extensive lines of floating sargassum in the Gulf of Mexico [J]. IEEE Transactions on Geoscience and Remote Sensing, 2006,44(12):3619-3625.
Hu C. A novel ocean color index to detect floating algae in the global oceans [J]. Remote Sensing of Environment, 2009,113(10):2118-2129.
中国气象局.天气后报[EB/OL].http://www.tianqihoubao.com/,2014-01-01/2015-04-07.
张 宇.线性硬毛藻的生理生态学特性的初步研究 [D]. 青岛:中国海洋大学, 2014.
梁兼霞,庞重光,白学志.夏季南黄海海风漂流的不同计算方法的对比分析 [J]. 海洋科学, 2005,29(9):60-75.
邓乃扬.支持向量机-理论,算法与拓展 [M]. 北京:科学出版社,2009:152-154.
Weight analysis of each influence factor of the green tide disaster based on SVM.
HE Shi-jun1*, TANG Ying-li1,ZHANG Ting1, LI Yu1, XIE Sheng-dong1, YU Ke-feng2, HE Pei-min2,3(1.College of information, Shanghai Ocean University, Shanghai 201306, China;2.College of Fisheries and Life Sciences, Shanghai Ocean University, Shanghai 201306, China;3.Institutes of Marine Sciences, Shanghai Ocean University, Shanghai 201306, China).
China Environmental Science, 2015,35(11):3431~3436
According to the green tide algae -Ulvaprolifera remote sensing data of the Southern Yellow Sea in 2012~2013,climate factors including temperature, weather, wind direction, wind force and wave height which effect theUlvaprolifera diffusion, the corresponding support vector regression model (SVR) was established. By analyzing the development of the disaster using the model's weight change, the result of SVM was more accurately draw the right weight of each factor and weight conversion lawcompared with traditional single factor analysis method. Then through the analysis for the change rule of weight, give the division basis of the various stages of green tide.
support vector regression;impact factor;weight analysis;disaster process
X55
A
1000-6923(2015)11-3431-06
2015-04-07
国家科技支撑计划项目课题(2012BAC07B03)
* 责任作者, 教授, heshijun6@163.com
何世钧(1965-),男,河南郑州人,教授,博士,主要从事海洋信息处理、预测模型等研究.发表论文40余篇.