APP下载

WOD09的PFL数据和Argo数据的比较

2011-01-10张志迅

海洋技术学报 2011年4期
关键词:观测站浮标剖面

陈 帅 ,王 丹 ,张志迅

(1.海军潜艇学院卫星遥感军事应用研究所,山东 青岛 266071;2.解放军92721部队,浙江 舟山 316000)

WOD09的PFL数据和Argo数据的比较

陈 帅1,王 丹1,张志迅2

(1.海军潜艇学院卫星遥感军事应用研究所,山东 青岛 266071;2.解放军92721部队,浙江 舟山 316000)

WOD09(World Ocean Database 2009)数据库的PFL(Profiling Float Data)数据集中包含了Argo浮标数据,同样在中国Argo数据中心也可以下载到Argo浮标数据。这两个来源的Argo浮标数据由于经过了不同的数据排重和质量控制过程,数据的数量和数据的质量并不完全相同。从多源数据应用的角度出发,首先介绍了对Argo浮标数据必要的排重步骤,接着从数据数量、数据质量两个方面,分析了PFL数据集的Argo浮标数据和中国Argo数据中心提供的Argo浮标数据的异同,为综合应用这两个数据资料提供了理论基础。

WOD09数据库;PFL数据集;Argo浮标数据;数据重复;质量控制标记符

目前有很多开放的海洋数据资源,中国Argo数据中心提供的全球Argo浮标数据和美国国家海洋数据中心(National Oceanographic Data Center,NODC)提供的实测资料数据库WOD09(World Ocean Database 2009)是其中两个比较常用的数据源。全球Argo计划是以剖面浮标为观测手段,数据供世界各国使用的全球海洋观测计划。到2011年6月21日,全球已经投放了7 733个浮标,其中活跃浮标数为3 080个[1]。最新的实测数据通过位于法国和美国的两个全球Argo资料中心(Argo Global Data Assembly Centers,GDACs)在24 h内进行发布,因此可以得到近乎实时的观测资料[2]。WOD09数据库将不同来源的数据进行统一的格式转化、数据排重、质量控制,形成了由海表面数据集(Surface-only Data,SUR)、剖面浮标数据集(Profiling Float Data,PFL)、海洋观测站数据集(Ocean Station Data,OSD)等11个数据集组成的大型数据库[3]。WOD09数据库数据的数量要明显大于Argo数据,但是该数据资料每3个月更新一次,相对于Argo数据来说更新较慢,不能及时得到最新数据。WOD09数据库将来源于Argo计划的数据全部收录于PFL数据集中,在数据录入过程中可能对数据进行排重和修改,造成PFL数据集中的Argo浮标数据(以下简称PFL)和中国Argo中心提供的Argo浮标数据(以下简称Argo)的差异,本文的主要目的是比较两者的差异,为下一步综合应用这两个数据资料提供理论基础。

1 数据来源

本文使用在 WOD09官方网站(http://www.nodc.noaa.gov/OC5/WOD/pr_wod.html)下载的PFL数据集的数据和在中国 Argo数据中心网站(http://www.argo.gov.cn/argo-china/index.asp)下载的Argo浮标数据,地理范围是0°N~40°N,105°E~160°E,包括中国近海、西太平洋和日本近海。时间范围为2006—2008年。

2 数据分析

2.1 数据排重

2.1.1 排重标准

数据排重工作是对数据进行分析的第一个步骤。由于Argo资料的特殊性,Argo浮标每隔10d发送一组取自2000m到海面的温度和盐度剖面资料[4],同一Argo浮标在一日之内不可能有两次观测资料,所以本文应用的排重检测标准如下:(1)儒略日相差小于1 d;(2)Argo浮标号相同。同时达到上述两个标准的数据即为重复。

2.1.2 检测结果

经过上述检验,在2006—2008年间的Argo数据中,共发现了157个重复的观测剖面,占数据总量(29 485个观测剖面)的0.5%。对重复数据进行如下比较:

首先比较两个Argo数据文件的表头部分(以Argo浮标号为2900444,循环号为008和056的数据为例,表1),有以下异同:(1)Argo浮标号(PLATFORMNUMBER)相同,即出自相同的Argo浮标。(2)测量日期(DATE)相同,儒略日(JULIAN DAY)相差32 min,稍有差别。(3)循环号(CYCLE NUMBER)不同,即在不同的循环测得的数据,应当出自不同的观测时间。(4)数据文件创建的时间(DATE CREATION)不同,循环号大的数据文件创建时间也要晚。(5)经纬度分别相差了0.009°和0.036°,略有偏差。相同的观测日期却有不同的循环号,说明数据录入出现了问题。同时,如果以相同经纬度、相同儒略日为排重标准,将无法检测到重复。

其次检查重复数据的Argo浮标号,发现Argo浮标号相对集中,157处重复数据共涉及13个Argo浮标。查看2006年2月中浮标号为2900444的3处重复数据,其中循环号为006的数据与054的重复,007与055重复,008与056重复,都是大的循环号与小的重复,其它月份也有相同的情况(图1)。

最后比较两个重复数据的数据体(图2),数据体并不是完全相同,总是先创建数据文件的(图2中星号代表的数据)在100~200 m深度范围内数据缺失。

综合以上的异同,说明Argo数据重复的原因是Argo浮标一次测得的数据先后录入了两次。并且前后两次的数据体不同,说明数据来源也不同。这与各国资料处理中心向全球资料中心重复传输数据,而全球资料中心没有实施重复检验和剔除有很大关系[5]。在PFL中,由于经过了严格的排重步骤,只保留了重复数据中的一个,比较数据体(图3),发现PFL只保留了一个来源的数据,没有偏好保留数据体较为完整的数据。

表1 Argo重复数据表头部分字段的比较

图1 Argo浮标号为2900444,2006—2008年大循环号与小循环号数据的儒略日重复情况

2.2 数据量比较

经过排重后Argo与PFL的观测站位分布见图4。比较二者在观测站位数量上的差异,在2006—2008年中,PFL比Argo的观测站位总共多出了2 406个,占PFL总数(31891个)的7.5%,并且多出的观测站位平均分布在每个月份中(图5)。在空间分布上的比较,PFL比Argo多出的观测站位在日本海分布比较密集,其它海域分布较均匀(图6)。在仔细检查PFL数据后发现,其所有的观测剖面记录都有一个Argo浮标号,且每个浮标号都可以在Argo数据的元数据(metadata)中找到相应浮标的信息,说明了PFL中数据全部都是Argo浮标数据。虽然PFL和Argo都来源于Argo浮标数据,但是PFL比Argo多出了7.5%观测站位,这表明中国Argo中心提供的数据并不完整,PFL中有它没有录入的Argo浮标数据。

图2 2006年2月,在Argo中浮标号为2900444的三组重复数据的数据体的比较

2.3 数据质量的比较

2.3.1 Argo与PFL质量控制简介

数据的质量,即数据的可信度,是使用者在应用数据时最关心的问题之一。错误数据对分析结果的影响很大,一个错误数据就有可能干扰对结果的分析。Argo有两个资料质量控制模式:一个称为“实时(24~72 h以内)质量控制模式”,它包括常规的尖峰检验、范围检验、稳定度检验以及气候学检验等方法[6],其特点是处理快速、时间短,数据质量不高;另一个称为“延时(90 d以内)质量控制模式”,该模式主要针对Argo浮标盐度数据漂移所建立的订正模式,如Wong等[7]开发的Argo浮标盐度数据的延时订正方法。PFL对数据进行了严格的质量控制,其中有类似Argo中实时质量控制模式的范围检验和梯度检验,还有类似延时质量控制模式的与高分辨率数据比较的过程(表2)。

图3 2006年2月,分别在Argo和PFL中浮标号为2900444的三组测量数据的比较

2.3.2 Argo质量标记符与质量检验

图4 2008年Argo和PFL观测站位分布图

Argo中各物理量的每个测量值都有一个质量标记符(Flag),代表了单个物理量的质量情况。在每一个深度测量的所有物理量之后还有总质量标记符(Flag ofall),代表了在一个深度测量的所有物理量的综合可信度。Argo质量标记符不同值的含义见表3,它反应了数据在质量控制过程中,是否达到质量控制若干标准的情况。在实际使用数据时,单一质量标记符和总质量标记符是剔除问题数据的最直接最有效的标准。在Argo中共发现15条温度记录的单一质量标记符为3(有可能被校正的坏数据)或者4(坏数据)。而检查Argo的总质量标记符,共有8 178条记录的总质量标记符为3或者4。这说明有些温度数据的单一质量标记符为1(好数据),但是该测量深度的总质量标记符可能为3或者4。以浮标号为2900325,2006年7月30日测量温度剖面为例说明这些数据的质量情况(图7)。图7中标记的A、B两点明显偏离温度变化的趋势,是奇异值点,应当剔除。A点温度的单一质量标记符和总质量标记符都为4,而B点温度单一质量标记符为1而总质量标记符为4。单看单一质量标记符的值,B点应为好数据,无法剔除,所以在使用Argo数据时还要考虑总质量标记符。单一质量标记符和总质量标记符只要有一项为3或者4都应剔除该数据。

图6 2008年PFL比Argo多出的测量站位的分布图

表2 PFL观测数据质量控制步骤[3]

表3 Argo数据质量控制标记符的含义

2.3.3 PFL质量标记符与质量检验

PFL的质量标志符分为两部分:最终标记符(Final Flag)和原始标记符(Original Flag),最终标记符为PFL在进行完范围检验、梯度检验等质量控制过程(表2)之后对数据作的标记,标记符数值的含义见表4。而原始标记符保留了Argo浮标数据在入库前自身的质量标记符。经过数据比对,发现在PFL中有5 471条温度记录的最终质量标记符为0(好数据)而原始质量标记符为4(坏数据),占数据总量(2 308 581条记录)的0.23%。以浮标号为2900325,2006年7月30日测量温度剖面为例说明这些数据的质量情况(图8)。图8中有3个明显的奇异值点,分别为A、B、C点,其中A、B两点的最终标记符都为0而原始标记符都为4,C点最终标记符为1(未通过范围检验)而原始标记符4。从最终标记符的数值都为0来看,A、B两点均通过了PFL的质量控制过程,而C点为1,没有通过范围检验。应用PFL质量控制标准,对这3点进行范围和梯度检验(表5),其中梯度计算方程为:

式中:v1,v2分别表示当前深度和下一深度的温度值;z1,v2分别表示当前层和下一层的深度值[2]。从表5可以看出,由于A、B两点的温度梯度的绝对值大于阈值0.7℃/m,均未通过梯度检验,显然与它的最终质量标记符为0不符。这说明PFL中存在最终质量标记符与实际数据质量不符的现象。

2.3.4 小结

Argo和PFL各有两种质量标记符,两种质量标记符综合应用才能有效剔除问题数据。单一质量标记符和总质量标记符只要有一项为3或者4都应剔除。在PFL中有些问题数据的最终质量标记符(Final Flag)为0,而原始质量标记符(O-riginal Flag)为4,所以在使用时要确保数据的质量,还要结合原始质量控制符来剔除问题数据。

3 结论

本文首先介绍了对Argo浮标数据必要的排重步骤,接着从数据数量、数据质量两个方面比较了中国Argo中心网站提供的Argo浮标数据和WOD09数据库PFL数据集中的Argo浮标数据的异同。本文的研究时间范围是2006—2008年,空间范围 0°N~40°N、105°E~160°E。结论如下:

表4 PFL质量控制标记符的含义[3]

表5 A、B、C三点的温度、深度和质量检验情况

图7 Argo中浮标号为2900325,2006年7月30日测量温度剖面的两个奇异值

(1)Argo每24 h更新一次,而PFL每3个月更新一次。在更新速度上Argo比PFL有优势。

(2)Argo具有数据重复的问题,分析原因是一个Argo浮标在某一时刻观测的数据在数据归档过程中录入了两遍。在利用Argo时需要进行数据排重,标准为:a.儒略日相差小于1 d;b.Argo浮标号相同。PFL没有数据重复的现象。

(3)在2006—2008年间,PFL的观测站位总数比Argo多了2 406个,占PFL总数(31 891个)的7.5%,数据量要比Argo丰富。并且多出的站位在日本海分布较密集,其它海域分布均匀。

图8 PFL中Argo浮标号为2900325,2006年7月30日测量温度剖面的三个奇异值

(4)Argo有两种质量标记符:单一物理量的质量标记符(Flag)和同一深度所有物理量的综合质量标记符(Flag of all)。单一质量标记符和总质量标记符只要有一项为3或者4就是问题数据,应当剔除。在PFL中有些问题数据的最终质量标记符(Final Flag)为 0,而原始质量标记符(Original Flag)为4,所以在应用PFL数据时候要综合考虑原始质量标记符和最终质量标记符。

[1] 中国Argo资料中心.Argo全球观测网[EB/OL]http://www.argo.gov.cn/argo-china/index.asp.

[2]Boyer TP,AntonovJ I,Baranova OK,et al.World Ocean Database 2009[EB/OL].ftp://ftp.nodc.noaa.gov/pub/WOD09/DOC/wod09_intro.pdf.

[3] Johnson D R,Boyer T P,Garcia H E,et al.World Ocean Database 2009 Documentation[EB/OL].ftp://ftp.nodc.noaa.gov/pub/WOD09/DOC/wod09readme.pdf.

[4] 杨胜龙,周甦芳,崔雪森,等.Argo数据研究应用现状与发展趋势[J].海洋渔业,2007,29(4):355-358.

[5] 薛惠芬,苗春葆,董明媚,等.全球ARGO浮标及其观测资料状况分析[J].海洋技术,2005,24(4):23-28.

[6] 许建平.阿尔戈全球海洋观测大探密[M].北京:海洋出版社,2001:30-33.

[7]WongAP S,Johnson GC,Owens WB.Delayed-mode calibration of autonomous CTD profilingfloat salinitydata by θ-s climatology[J].J Atoms O-ceanic Technol,2007,20:308-318.

Comparison of PFL Data from WOD09 and Argo Data

CHEN Shuai1,WANG Dan1,ZHANG Zhi-xun2
(1.Navy Submarine Academy Satellite Remote Sensing Military Application Institute,Qingdao Shandong 266071,China;2.PLA NO.92721 Troops,Zhoushan Jiangsu 316000,China)

Argo float data is contained in the PFL (Profiling Float Data)dataset of WOD09 (World Ocean Database 2009)and it can be download from China Argo data center’s website.As the two sources of Argo float data conducting different de-duplication and quality control procedures,Argo profiling data from two sources may have some differences.A necessary de-duplication procedure for Argo float data is introduced,followed by comparing differences between the two kinds of Argo float data in order to find out a better way of comprehensively using these Argo float data sources for better quantity and quality.

WOD09;PFL dataset;Argo float data;data duplication;quality control flag

P715;TP274

B

1003-2029(2011)04-0032-06

2011-07-20

陈帅(1985—),男,硕士研究生,研究方向为物理海洋。Email:chendatouha@163.com

猜你喜欢

观测站浮标剖面
受了委屈的浮标君
受了委屈的浮标君
受了委屈的浮标君
受了委屈的浮标君
GPS导航对抗数据质量特征实例分析
四川省甘孜州:航拍四川稻城高海拔宇宙线观测站
三点法定交叉剖面方法
——工程地质勘察中,一种做交叉剖面的新方法
基于曲线拟合的投弃式剖面仪电感量算法
去中心化时差频差直接定位方法
复杂多约束条件通航飞行垂直剖面规划方法