基于DINEOF方法的水色遥感数据的重构研究
——以黄、渤海区域为例
2014-08-01王跃启刘东艳
王跃启,刘东艳
(1.中国科学院烟台海岸带研究所 海岸带环境过程与生态修复重点实验室,山东 烟台 264003;2.中国科学院大学,北京 100049)
1 引 言
海洋水色遥感具有成本低、数据量大,可实现大范围连续观测等优点,并且与传统监测方法有很好的互补性,在海洋生态系统的研究中扮演着越来越重要的作用[1-4]。近年来,海洋水色遥感技术发展迅速,尤其是SeaWiFS(Sea-viewing Wide Field-of-view Sensor)和MODIS(Moderate Resolution Imaging Spectrotadiometer) 等传感器的业务化运行,不仅为海洋研究提供了长时间序列的水色遥感数据产品,而且实现了多传感器的同步、互补观测,为海洋生态系统的长期研究提供了丰富的数据源。
随着海洋水色遥感数据的不断积累,目前海洋水色遥感数据产品的应用仍面临着两个关键的问题:一方面,受云覆盖、大气校正、传感器技术问题等的影响,获取的数据面临着较高的缺失问题,需要有效的空间插值方法来提高数据的时空完整性;另一方面,不同传感器的运行时间和寿命不同,需要有效的融合方法将不同的传感器数据进行准确的融合和承接,最大限度地获得长时间序列的完整数据,以满足对海洋环境的长期连续观测要求[5]。为了解决上述问题,国内外学者发展了一系列的插值和融合方法。传统的海洋水色遥感数据的插值方法主要包括地统计插值法(geostatistical filling)[6-7]、最优插值法(Optimal Interpolation,OI)[8]、奇异谱分析法 (Singular Spectrum Analysis,SSA)[9]等;而遥感数据的融合方法主要包括简单或加权平均[10]、主观分析算法[10]、神经网络算法[11]和生物光学模型方法[12]等。
经验正交分解插值方法(Data Interpolating Empirical Orthogonal Function,DINEOF)[13-14]是近年发展起来的一种高效的数据重构方法,它自适应能力强,无需任何先验知识便可以快速有效地使用的内插方法,在处理高缺失量的大数据集上效率更高,结果更好,在长时序海洋水色遥感数据重构中发挥越来越重要的作用[14-15]。许多国内外学者通过对该方法的不断改进,满足不同的重构需求,如Beckers等利用DINEOF和OI方法结合,在完成数据重构的同时,对数据的误差进行了定量的估计[16];Alvera-Azcárate等利用DINEOF方法结合数据本身的空间相关性对插值数据的“异常值”进行有效剔除[17];Alvera-Azcárate等基于DINEOF方法利用不同变量之间的时空相关性对多变量进行了有效的重构[14]。以上的研究表明,DINEOF方法在海洋水色遥感数据重构中有很强的适用性和改进性。
SeaWiFS和MODIS/Aqua是目前海洋水色遥感研究中广泛应用的两种传感器。SeaWiFS传感器自1997年9月开始获取数据,到2010年12月结束寿命,提供了13年的观测资料;MODIS/Aqua传感器自2002年7月至今仍在轨运行。两种数据在2002年~2010年间的同步观测,有利于两种数据的对比融合,而两种数据不同的运行寿命,又为海洋水色参数的长期、连续观测提供了依据,因此对两种数据产品的有效重构和对比融合能够为海洋生态系统的持续研究提供数据支持。
黄、渤海区域(图1)是中国最重要的半封闭陆架浅海区,其叶绿素a浓度的遥感反演受多种因素的影响,精度和覆盖率均较低,因此影响了遥感数据在该海区的应用。目前该海区的海洋叶绿素a的遥感研究,主要集中于遥感反演精度的验证[15]或者直接利用有缺失数据的遥感产品来粗略的分析叶绿素a浓度的动态机制[16-17],对不同传感器数据缺乏系统的比较,更是较少地涉及到数据完整性重构的系统研究,因而也限制了该海区水色遥感产品的应用。
本文以传统的DINEOF方法为基础,以SeaWiFS和MODIS/Aqua海表叶绿素a浓度数据的一致性为依据,借助多变量组合DINEOF方法,对两种水色遥感数据进行了有效的组合重构,获得了自1997年9月至2012年6月期间较为完整的海表叶绿素a浓度数据集,为海洋水色遥感数据的应用提供一定的借鉴价值和方法依据。
图1 研究区
2 数据与方法
2.1 数据来源
本文应用的数据来自于美国国家航空航天局提供的SeaWiFS和MODIS/Aqua(MODISA)海表叶绿素a(Chl-a)遥感产品,考虑到数据覆盖率和数据处理速度,本文采用全球标准算法8天合成的海表叶绿素a三级数据产品作为实验数据源。提取两种数据在重叠时段(2002年7月4日至2010年12月18日) 的所有数据,共388个时段,两种数据的空间分辨率均为9km×9km,原始数据通过掩膜处理,提取117oE~127oE和31oN~41oN范围内的数据。
2.2 DINEOF重构的基本原理
DINEOF方法是一种基于经验正交分解的插值方法,它不需要先验知识,在处理大数据量和高缺失率数据时有着明显的优势[15,18],近年来被越来越多的国外学者用于重构海表温度[18]、悬浮物质[19]以及叶绿素a[20]等遥感数据。其基本原理是借助经验正交分解方法,通过对数据集的多次迭代分解和合成,获得最小的交叉验证误差,进而获得对缺失数据点的最佳重构。具体方法在相关文献中已经有了详细的介绍[15-16,18],这里不再详述。这种方法最主要的优点:①该方法是一种自组织、自适应的数据重构方法,在重构前不需要对数据先验知识获取;②该方法基于数据集中所有数据点、所有时段的信息,因此插值结果更能反映数据集的整体特征;③该方法操作简单,可控性强,与传统方法相比,运算时间大大缩短(如运算时间仅是最佳内插方法的1/30)。
本文对DINEOF方法重构过程中的相关参数做以下设置:从原始数据集随机抽取3%的数据点作为交叉验证数据;EOF分解迭代终止的准则为:前次分解的均方根误差与本次分解的均方根误差的差值大于前次均方根误差的1e-4倍。整个DINEOF重构方法的源代码基于matlab平台自行编写。
2.3 DINEOF组合重构的原理
DINEOF组合重构方法是利用两组或者多组变量之间的时空相关性,对组合后的数据进行DINEOF重建,提高数据的重构效果,其最初是被用来对海表温度、叶绿素a浓度和海面风场数据等短期不同变量的数据集进行重构[14]。本文首次尝试将该方法应用于长时间序列的多源水色遥感相同变量(叶绿素a)产品的组合重构,以弥补单一时段某一数据集的完全缺失现象。组合数据集为两种数据空间维上的组合:
(1)
其中,XA为组合后的数据集矩阵,XS为SeaWiFS/Chl-a数据集的初始矩阵,XM为MODISA/Chl-a数据集的初始矩阵。
2.4 重构精度的评价
由于大尺度空间的水色遥感数据缺乏有效的实测数据来对重构结果进行评价,当前的精度评价方法多是基于数据集自身进行[19,21-22]。评价方法建立在初始图像中有数据的象元(有效数据点)基础上,每次重构之后,计算有效数据点的实际值和重构值之间的相关参数来评价重构效果,这些评价参数包括相关系数、均方根误差、相对偏差、方差贡献率等。
图2 SeaWiFS和MODISA数据的时空覆盖率
3 结果与讨论
黄、渤海海区(图1)是典型的近岸二类水体,叶绿素a遥感产品受其他悬浮物质的影响,绝对精度较低,需要结合实测资料进行验证或者建立适合该区域的反演算法[23]。本文承认这种误差的存在,但是不将其作为研究的内容,而仅侧重于对SeaWiFS/Chl-a和MODISA/Chl-a全球算法产品的对比,及DINEOF传统和组合重构方法对两种数据重构效果的分析。
3.1 两种数据时空覆盖率的比较
图 2 显示了两种数据在研究时段内的时间覆盖率和空间覆盖率。图2(a)、图2(b)是两种数据的时间覆盖率的空间分布特征(图中的黑色实线是覆盖率为5%的等值线),两种数据时间覆盖率的空间分布形势基本一致,近岸地区覆盖率明显低于离岸地区,最低覆盖率出现在渤海西南部和江苏近岸浅滩等水深较浅的区域。图2(c)、图2(d)是两种数据的空间覆盖率随时间变化的统计图,两种数据空间覆盖率的时间波动明显,SeaWiFS数据的空间覆盖率变化范围为0.43±0.26(图2(d)),自2007年之后,空间覆盖率出现明显减小趋势,甚至出现无有效数据覆盖的时期(2008年~2009年);而MODISA数据(图2(c))的平均空间覆盖率为0.49±0.24,略高于SeaWiFS数据,但是波动较小。总体来看,两种数据的时空覆盖率存在着显著的同步性(R=0.79,p<0.001)。因此,针对这两种数据产品的融合并不能较大程度的提高数据的时空覆盖率,但是可以有效地填补单一传感器(SeaWiFS)某些时段的数据完全缺失状况,提高其在长时间序列分析中的可用性。
表1 两种Chl-a数据的数值统计特征
3.2 两种数据数值特征的比较
将SeaWiFS和MODISA两种数据的时空重叠部分的数值特征进行统计比较,对两种数据的一致性进行评价,两种数据集共有9,311,661个有效重叠象元。表1是两种数据原始和以10为底的对数转化后的数值统计特征。结果显示两种原始数据集的偏度远大于0,呈现明显的正偏态;SeaWiFS数据的峰度偏大,说明数据分布更为集中;MODISA数据的平均值、中值、标准差和变异系数均略高于SeaWiFS数据集,说明MODISA数据集所反演的叶绿素a浓度值略高于SeaWiFS数据集,并且相对变动也较大。进行以10为底的对数转化后,数据更接近正态分布,呈现微弱的负偏态。因此,两种数据均呈现对数正态分布[24],在重构和统计分析前,需要对数据进行转化处理。
图3 SeaWiFS和MODISA数据的对比,灰度指示了数据点的分布密度
图3为两种叶绿素a数据的对数散点图。相关分析结果显示,两种数据线性回归的斜率为1.04,截距为0.02,相关系数为0.88,两种数据在研究区域内呈现较好的一致性,两者的均方根偏差(RMSE=0.17)小于遥感数据本身的平均算法误差(RMSE=0.22)[25]。图3显示该海区叶绿素a浓度多集中于1mg·m-3~10mg·m-3的范围内,在低值区MODISA数据略低于SeaWiFS数据,在高值区MODISA数据略高于SeaWiFS数据。总体上看,两种数据在该海区有着高度的一致性,尤其考虑到黄渤海区域大部分海区为二类水体,叶绿素a遥感反演算法本身受多种因素影响,数据反演误差较大[26-27],但是两者的数值仍然保持高度一致性,所以SeaWiFS/Chl-a和MODISA/Chl-a数据能相互补充,为该海区叶绿素a浓度的长周期研究提供依据。
3.3 DINEOF重构结果
通过前面的结果可知,两种数据的时空覆盖率(图2)存在明显的缺失情况,SeaWiFS数据的平均缺失率为59.0%,MODISA数据的平均缺失率为52.9%,总体来看,两种数据的缺失率较高,并且缺失率随时间变化较大,甚至出现某些时段图像的完全缺失情况,导致单一数据集在时空尺度上的不完整性,限制了对长周期规律的探索,因此需要对缺失数据进行有效的重构,以保持数据集在时空尺度上的完整性。首先,利用DINEOF方法对两种数据进行了单独重构实验,然后利用SeaWiFS和MODISA两种数据的数值特征的一致性,采用DINEOF组合重构方法对两种数据进行重构,有效地弥补单一数据源的数据完全缺失情况。
在进行重构前,对原始数据进行预处理,对数据值取10为底的对数转换;然后去除过低时间覆盖率的数据点,仅保留两种数据时间覆盖率均大于5%的数据点,将两种数据中空间覆盖率小于5% 的图像去除;最终所有的数据组成M×N维矩阵(M是空间维,N是时间维),经过处理后SeaWiFS数据组成7347×345的矩阵,MODISA数据组成7347×376的矩阵,组合数据组成14694×388的矩阵,然后利用DINEOF方法分别对3种数据集的缺失值进行重构。
图4 DINEOF重构过程中交叉验证点的均方根误差变化
图4是DINEOF重构的交叉验证过程(交叉验证点),箭头指示了收敛点及模态数和最小均方根误差。表2是有效数据点重构结果。从结果来看,两种数据集的单独重构和两者的组合重构均取得较好的重构效果,重构误差均处在合理的范围内,均方根误差小于叶绿素a算法本身的误差(RMSE=0.22)[25]。SeaWiFS数据集利用35个模态可获得均方根误差的收敛,而MODISA数据要利用50个模态才能获得均方根误差的收敛,原因可能是MODISA数据相对于SeaWiFS数据的分布较为分散,变异较大;组合数据利用39个模态获得最佳重构效果。整体上来看,3个重构过程的效果基本一致,均方根误差(RMSE)为0.1左右,明显小于数据本身算法误差(0.22)以及两种数据之间的偏差(0.17),所以基于DINEOF方法的单独重构和组合重构均取得了理想的效果。
表2 DINEOF重构结果及验证
图5 有效数据点的单独重构值和组合重构值的对比
图6 SeaWiFS数据和MODISA数据单独重构结果
图7 SeaWiFS数据和MODISA数据组合重构结果
为了定量地对比组合重构和单独重构的结果,在重构之后,将两种方法在有效数据点的重构值进行了比较,图5是SeaWiFS和MODISA数据中有效数据点两种重构值的对比图。结果显示,两种方法的重构值没有明显的偏差,组合重构和单独重构精度基本一致。
图6是2003年1月25日至2月1日平均叶绿素a浓度数据的单独重构结果。从图上可以看出,在存在较大缺失值的情况下,该方法仍能获得较好的重构结果,在近岸地区,尤其是长江口附近,存在大量缺失数据的情况下,重构数据仍然较好地反映近岸和河口的高值区,符合前人的研究结果[28-31]。图7是2009年4月23日至30日平均叶绿素a浓度的组合重构结果。从结果看,虽然SeaWiFS数据在该时间段内完全缺失,但是DINEOF的组合重构方法仍然能很好地对其进行重构,重构后的叶绿素a浓度(图7(b))与MODISA数据时空特征相似,并且很好地突出了近岸和河口地区的高值,以及春季在黄海中部出现的浮游植物藻华现象[32-33]。
4 结束语
SeaWiFS/Chl-a和MODISA/Chl-a数据产品在黄、渤海区域有着相似的统计特征,两种数据的时空覆盖率和数值特征均具有显著的一致性,进一步验证了MODIS/Aqua数据可以作为SeaWiFS数据在叶绿素a长时间尺度研究上的有效承接。
利用DINEOF传统方法和组合重构方法对SeaWiFS/Chl-a数据集、MODISA/Chl-a数据集进行了时空缺失值的重构,虽然两种数据产品在二类水体中的算法存在较大的误差,但是DINEOF方法对叶绿素a浓度的重构仍然取得了稳定、理想的效果。另外,对两种数据的组合数据集的DINEOF重构可以有效地填补单一数据集的时间尺度不连续现象,而且并未给重构结果带来明显的额外误差,重构后的完整数据更有利于该海区生态系统的长期、连续研究需求。
DINEOF方法是近十年发展起来的高效的数据插值重构方法,其在海洋水色数据的插值重构中的应用仍在探索和发展,许多国内外学者也针对其具体应用进行改进。另外,该方法目前主要在海洋环境数据重构中应用,但是根据其原理和效果推断,该方法亦适用于对陆地、大气等领域时序数据的重构分析,后续的研究也将尝试该方面的研究。
参考文献:
[1] GREGG W W,CONKRIGHT M E.Decadal changes in global ocean chlorophyll[J].Geophysical Research Letters,2002,29(15):1730-1733.
[2] TANG D,KAWAMURA H,LEE M A,et al.Seasonal and spatial distribution of chlorophyll-a concentrations and water conditions in the Gulf of Tonkin,South China Sea[J].Remote Sensing of Environment,2003,85(4):475-483.
[3] GREGG W W,CASEY N W,MCCLAIN C R.Recent trends in global ocean chlorophyll[J].Geophysical Research Letters,2005,32(3):L03606.
[4] VANTREPOTTE V M,LIN F.Inter-annual variations in the SeaWiFS global chlorophyll a concentration (1997-2007)[J].Deep Sea Research Part I:Oceanographic Research Papers,2011,58(4):429-441.
[5] BARNES R A,CLARK D K,ESAIAS W E,et al.Development of a consistent multi-sensor global ocean colour time series[J].International Journal of Remote Sensing,2003,24(20):4047- 4064.
[6] TANG S,DONG Q,LIU F.Climate-driven chlorophyll-a concentration interannual variability in the South China Sea[J].Theoretical and Applied Climatology,2011,103(1-2):229-237.
[7] IIDA T,SAITOH S I.Temporal and spatial variability of chlorophyll concentrations in the Bering Sea using empirical orthogonal function (EOF) analysis of remote sensing data[J].Deep Sea Research Part II:Topical Studies in Oceanography,2007,54(23-26):2657-2671.
[8] REYNOLDS R W,SMITH T M.Improved global sea surface temperature analyses using optimum interpolation[J].Journal of Climate,1994,7(6):929-948.
[9] SCHOELLHAMER D H.Singular spectrum analysis for time series with missing data[J].Geophysical Research Letters,2001,28(16):3187-3190.
[10] POTTIER C,GARCON V,LARNICOL G,et al.Merging SeaWiFS and MODIS/Aqua ocean color data in north and equatorial atlantic using weighted averaging and objective analysis[J].IEEE,2006,44(11):3436-3451.
[11] LOYOLA D,COLDEWEY-EGBERS M.Multi-sensor data merging with stacked neural networks for the creation of satellite long-term climate data records[J].EURASIP Journal on Advances in Signal Processing,2012,2012(1):1-10.
[12] MARITORENA S,DANDON O H F,MANGIN A,et al.Merged satellite ocean color data products using a bio-optical model:Characteristics,benefits and issues[J].Remote Sensing of Environment,2010,114(8):1791-1804.
[13] MILES T N,HE R.Temporal and spatial variability of Chl-a and SST on the South Atlantic Bight:Revisiting with cloud-free reconstructions of MODIS satellite imagery[J].Continental Shelf Research,2010,30(18):1951-1962.
[14] ALVERA-AZCARATE A,BARTH A,BECKERS J M,et al.Multivariate reconstruction of missing data in sea surface temperature,chlorophyll,and wind satellite fields[J].Journal of Geophysical Research,2007,112(C3):C03008.
[15] BECKERS J M,RIXEN M.EOF calculations and data filling from incomplete oceanographic datasets[J].Journal of Atmospheric and Oceanic Technology,2003,20(12):1839-1856.
[16] BECKERS J M,BARTH A,ALVERA A.DINEOF reconstruction of clouded images including error maps.Application to the sea-surface temperature around corsican island[M].European Geosciences Union,2006.
[17] ALVERA-AZC R A,SIRJACOBS D,BARTH A,et al.Outlier detection in satellite data using spatial coherence[J].Remote Sensing of Environment,2012,119:84-91.
[18] ALVERA-AZCARATE A,BARTH A,RIXEN M,et al.Reconstruction of incomplete oceanographic data sets using empirical orthogonal functions:Application to the Adriatic Sea surface temperature[J].Ocean Modelling,2005,9(4):325-346.
[19] NECHAD B,ALVERA-AZCAR TE A,RUDDICK K,et al.Reconstruction of MODIS total suspended matter time series maps by DINEOF and validation with autonomous platform data[J].Ocean Dynamics,2011,61(8):1205-1214.
[20] SHAW P T,CHAO S Y.Surface circulation in the South China Sea[J].Deep Sea Research Part I:Oceanographic Research Papers,1994,41(11-12):1663-1683.
[21] GANZEDO U,ALVERA-AZC RATE A,ESNAOLA G,et al.Reconstruction of sea surface temperature by means of DINEOF:A case study during the fishing season in the Bay of Biscay[J].International Journal of Remote Sensing,2011,32(4):933-950.
[22] SIRJACOBS D,ALVERA-AZC RATE A,BARTH A,et al.Cloud filling of ocean colour and sea surface temperature remote sensing products over the Southern North Sea by the data interpolating empirical orthogonal functions methodology[J].Journal of Sea Research,2011,65(1):114-130.
[23] SISWANTO E,TANG J,YAMAGUCHI H,et al.Empirical ocean-color algorithms to retrieve chlorophyll-a,total suspended matter,and colored dissolved organic matter absorption coefficient in the Yellow and East China Seas[J].Journal of Oceanography,2011,67(5):627-650.
[24] CAMPBELL J W.The lognormal distribution as a model for bio-optical variability in the sea[J].J Geophys Res,1995,100(C7):13237-13254.
[25] O'REILLY J E,MARITORENA S,SIEGEL D,et al.Ocean color chlorophyll a algorithms for SeaWiFS,OC2,and OC4:Version 4[R].SeaWiFS Postlaunch Technical Report Series,Part 3.Greenbelt,Maryland:NASA Goddard Space Flight Center,2000.
[26] SATHYENDRANATH S.Remote sensing of ocean colour in coastal and other optically complex waters[R].Reports of the International Ocean-Colour Coordination Group,No.3.Dartmouth,Canada:IOCCG,2000.
[27] GREGG W W,CASEY N W.Global and regional evaluation of the SeaWiFS chlorophyll data set[J].Remote Sensing of Environment,2004,93(4):463-479.
[28] YAMAGUCHI H,KIM H C,SON Y B,et al.Seasonal and summer interannual variations of SeaWiFS chlorophyll a in the Yellow Sea and East China Sea[J].Progress in Oceanography,2012,105:22-29.
[29] SHI W,WANG M.Satellite views of the Bohai Sea,Yellow Sea,and East China Sea[J].Progress in Oceanography,2012,104:30-45.
[30] 伍玉梅,徐兆礼,崔雪森,等.1997~2007年东海叶绿素a质量浓度的时空变化分析[J].环境科学研究,2008,21(6):137-142.
[31] 丛丕福,牛铮,蒙继华,等.1998~2003年卫星反演的中国陆架海叶绿素a浓度变化分析[J].海洋环境科学,2006,25(1):30-33.
[32] ZHENG X,WEI H,LI K,et al.Analysis of chlorophyll concentration during the phytoplankton spring bloom in the Yellow Sea based on the MODIS data[G].International Conference on Life System Modeling and Simulation,LSMS,2010:254-261
[33] XUAN J L,ZHOU F,HUANG D J,et al.Physical processes and their role on the spatial and temporal variability of the spring phytoplankton bloom in the central Yellow Sea[J].Acta Ecological Inica,2011,31(1):61-70.