实时和延时海洋观测数据质量评估方法研究
2013-08-14于婷刘玉龙杨锦坤纪风颖邓增安
于婷 ,刘玉龙 ,杨锦坤 ,纪风颖 ,邓增安 ,3
(1.国家海洋信息中心,天津 300171;2.中国海洋大学 海洋环境学院,山东 青岛 266100;3.国家海洋局数字海洋技术研究重点实验室,天津 300171)
海洋世纪的到来极大地推动了海洋观测系统的发展,也促进了海洋观测仪器的技术革新以及海洋观测数据种类和数据量的快速增长。海洋观测数据的获取更新、整合处理、管理应用和共享服务等工作已经成为社会各界共同关注的议题。目前,面对来源众多、格式不一、数据量越来越大、时效性越来越高的多源观测数据,对其实行准确有效的数据质量控制和检验评估是海洋工作者面对的重大挑战之一。多源海洋观测数据的融合和同化将成为准确描述和预测近岸和开阔大洋的物理、生物、化学状态的关键技术,进而服务于科研和社会多种应用。而这一切的前提是对数据的质量有清晰明确的认识,即要求对各种海洋观测系统和平台所获取的数据有简便、可靠的质量描述。换而言之,海洋环境观测资料的可用性检验评估指标一直是一个隐性存在的问题。
海洋观测数据质量检验评估,是对数据真实性和可靠性等特性的科学、客观的评价。数据检验评估指标的高低,直接影响数据分析的科学性和决策的正确性。对海洋环境数据质量的检验评估,应建立在充分利用不同时间、不同范围和不同要素的各种数据,使检验评估指标能客观和准确地反映海洋环境资料的实际情况。本文介绍了一套基于多年数据处理和管理实践经验积累而研发的海洋环境数据质量评估指标,可以为多源海洋资料的质量提供参考依据,为海上安全、环境保护、应对气候变化和海洋科学研究等提供重要的海洋环境资料信息支撑。
1 质量控制和质量评估的概念
数据的质量控制是指采用一定方法、模型和参数,判断资料质量可靠性与准确性,并进行质量标识的处理过程。数据质量控制是数据质量评估的基础。对海洋观测数据进行适当的处理和质量控制,能够妥善解决资料中可能存在的问题,剔除资料中的错误,提高资料的可靠性与准确性。目前海洋数据质量控制中选用的检验方法主要包括:位置检验、气候学范围检验、合理性检验(季节性、局地性)、时间连续性、异常天气限制、双传感器检验、内部一致性检验、可视化图形绘制检验等(任芝花等,2007;王芳等,2009;杨萍等,2011;中国气象局,2005)。在要素质控方法的基础上根据资料观测时间和空间的差异以及要素特性,采用不同的质控方法,自动调整质控参数。
数据的质量评估是指对海洋观测、调查汇总和整理完毕后的数据进行科学的、实事求是的分析和评价。它不是一个仅靠简单的程序就能解决的问题,而是一个多维的概念,需要多方面衡量。质量评估检验的内容详见表1。
2 质量检验评估标准的制定
海洋观测数据的多源性决定了对数据质量的检验评估不能一概而论,实时海洋观测数据和延时数据或数据集就需要区别对待。
2.1 海洋实时观测数据
海洋实时观测数据的特点是时效性高,通常是在数据由仪器测量获取后,48 h内发布的数据。海洋实时观测数据的质量评估标准,至少应包括如下几个方面(Edward et al, 2004):
1)每个向用户发布的实时观测数据必须伴随质量符。
表1 数据质量评估的各个衡量方面(量度)
2)所有的观测必须进行自动的实时质量检验
3)为了满足一般用户和科学工作者的需要,实时数据的质量最好使用一个综合质量符来表示,并伴随有详细的质量检验记录(说明应用的每个质控检验)。综合质量等级推荐使用下列表述(顺序可认为调整):
● 9=缺测
● 0=质量未被评估
●1=坏
● 2=有疑问的
●3=好
4)质量符和质量检验说明必须在与数据相应的元数据中清楚的描述。
5)观测者在布放之前,应该独立地验证或校准传感器。
6)观测者应该在实时的元数据中描述验证和校准使用的方法。
7)观测者应该量化校准精度和相关预期误差范围的等级。
8)观测者必须提供自动程序的人工检验、收集的实时数据、在恰当的时间内观测系统的状态报告,以保证观测系统的连续性。
上述这些评估可以利用计算机自动质量检验评估程序实现,自动化的质量检验评估包括的各个检验参见表2。
表2 自动化的质量检验评估
上述这些检验的结果(例如0代表通过,1代表失败)应该存储在与数据配套的元数据之中,并详细的说明其含义。元数据应随实时观测数据一同发布。数据提供者可以使用最适合其观测系统的数据格式,但均需清晰地描述所选数据格式。例如,使用一个整型字节存储是否通过了检验,在元数据中按照检验顺序存储检验结果。实时数据的质量检验评估与质量控制类似,更倾向于自动化实现,呈现方便快捷的特点(NOAA,2008)。笔者认为,海洋实时观测数据的检验评估将向着可视化界面的趋势发展,使用户能够直观查看和获取评估结果。
2.2 海洋延时观测数据
延时海洋观测数据多指晚于观测时间6个月至1年内发布的数据,不同机构和组织往往对数据的处理标准和处理程度不一。对延时观测数据质量进行准确、直观的检验评估,则需对数据就多方面的检验指标进行描述。面对来源众多、内容庞杂、分类繁复的海洋数据,笔者开展了大量的综合分析工作,建立起了一整套的评价指标,包括数据质量有效性、数据可读性和表述一致性、数据测量精度、时间跨度和完整性、数据时间累计量、网格覆盖率、剖面深度上测量比率、口碑等。
2.2.1 数据质量有效性
主要指针对经过质量控制的海洋环境数据,分别提取并分析其正确、可疑、错误、缺测等情况的质量控制符,对存在的数据的有效性进行客观公正的评估。这是对数据最简单最直接的评价,给出了数据正确和可靠程度的基础信息。例如19000160号Argo浮标,从投放之初至观测周期结束,共计观测88个剖面,自第48个剖面开始,几乎所有的观测层次虽有数值却均为缺省值(Yu et al,2010),即剖面缺测率达到54%,则该浮标数据的有效性极低。
2.2.2 数据可读性和表述一致性
由于观测的仪器和方式不同,来源众多的海洋数据文件,存储的格式不一,在表述形式上各有不同。数据可读性是指数据使用恰当的语言、符号、单位和定义的程度。数据表述一致性则是指数据按照其表头(标题行/信息行)所标明的格式,使用统一格式表述的程度。数据的可读性和表述一致性直接影响着用户使用,一个格式和内容不明的数据,不能被用于科研和业务工作。
2.2.3 数据测量精度
数据测量精度是指采用观测仪器采集数据时,给出测量结果的精确度,采用仪器不同,测量精度可能会有较大差异,因此较高的数据精确度(仪器自身决定)将会给预报、分析、研究带来较多的指示信息。比如海温观测,假如仪器测量误差为1℃,那么Nino3.4区的海温异常信号将不能够得到有效地捕捉,对于预报和研究ENSO的科学家而言是一种极大的损失。因此,给出数据集中测量要素的精确度以衡量资料的数据分辨率对使用者而言具有较高的科学意义。
2.2.4 时间跨度和完整性
对各类资料集而言,时间跨度和完整性的计算方法会有所不同。
针对定点连续资料,时间跨度和完整性描述变得极为重要。时间跨度是指观测起始和终止的时间;时间完整性是指按照观测规范的要求频次(例如1 h)计算其频次上的数据存在率。
数据存在率是反映观测资料完整性的重要指标之一,缺测数据量越少,说明数据质量越好,其完整度相对越高。但只用数据存在率(缺测数据的个数)来反映资料完整情况又不够全面和有效,难以甄别出真正可用的资料信息。如当气温、气压等具有连续特性的定时观测数据缺测时,用前、后两定时数据内插已被证明可行,而连续多时的缺测则需要依赖同一时间段相邻站点的信息进行插值,若逐时缺测数据超过1个月以上,该数据资料的完整性就需要斟酌。为客观评估定点连续观测资料的缺测情况,不仅需要数据存在率这一指标,而且需根据数据缺测长度,对资料缺测情况进行分类。
针对大面观测资料,时间跨度是指所有观测资料的最早和最晚时间,时间的完整性指的是在要求的观测统计时间量级上(例如月)计算其当前量级上的观测时间网格覆盖率,求其均值作为时间完整性的量度。
数据时间完整性依据下式计算:
其中,Tobsi表示此时间频次上的有效观测记录,Tj表示第j个站点的总观测次数,n表示总的评价站点数,最终得出描述此类资料时间完整率Trate。
2.2.5 数据时间累计量
随着海洋观测仪器的不断发展,稳定、快捷的观测手段接连出现,观测数据时间连续性也逐渐提高,数据量也逐渐增大。因此,数据时间累计量对数据使用者挑选数据而言具有较高的价值,统计每个时间段的可用要素数据量,将其记录数作为此时段内的数据时间累计量,以降低大规模使用数据时挑选的难度。
另外,由于海洋过程通常都是长时间大尺度的,长时间序列的观测数据对于海洋科学研究和应用具有重要的意义。以政府间海洋学委员会(IOC)于1995年发起的全球海平面观测系统(GLOSS)计划为例,截至目前,累计管理和发布全球1240个海洋站逐时、逐日、逐月(月平均)、年平均的水位观测数据,某些站的观测时间最早可追溯至19世纪初,GLOSS数据集可谓在数据时间累计量上具有相当的优势,这对于海平面上升和气候变化研究极为有帮助。
2.2.6 网格覆盖率
水平空间网格覆盖率是指研究区域的海洋观测资料网络覆盖范围,以覆盖度作为指标,将全球以经纬度划分为1°×1°网格,每个单元格应存在1个以上观测数据,即认为观测覆盖该范围,在研究区域内筛选具有以上特征的观测数据的单元网格,计算这些网格的水平覆盖率。
其中:Nall为研究区域所有网格,Nland为以全球地形1°×1°网格得出的陆地值网格,Nvalue为有价值的观测数据格点数,由以上公式得出观测值的网格覆盖率Crate。
以世界海洋数据集(World Ocean Database)为例,温度和盐度的网格覆盖率为99.21%(图1),因此在此项评估指标上国际WOD温盐数据集表现优异。
图1 世界海洋数据集WOD09温盐观测在中国近海及西北太平洋海域的网格覆盖情况
图1世界海洋数据集WOD09温盐观测在中国近海及西北太平洋海域的网格覆盖情况,蓝色由浅至深代表数据量依次递增,白色代表无观测。
2.2.7 剖面深度上测量比率
剖面深度上测量比率是指研究区域的剖面测量数据以观测规程水深或全水深作为基数的测量最大深度的比例。
其中Hobs为观测深度,Hall为该地点的全水深。通常剖面深度在浅海海域会测量到海底,在深海海域会有观测规程对其加以限制,造成全水深数据采集不完整或者超出全水深值,因此评测水深测量比率成为一个剖面数据的重要考核指标,将有助于了解剖面测量的情况,从侧面反映剖面数据的完整性和区域代表性。通常使用美国发布的ETOPO2v2地形数据进行水深比对,也可进一步对测量水深进行质量控制。
图2 海洋观测剖面资料观测深度和该点全水深示意图
资料集的剖面观测深度比率计算:
其中n表示进行的n次剖面观测,Hobsi表示第i次观测的最大深度,Halli表示第i次观测地点的理论深度,若单点深度比率超过100%,则数据可疑,需输出错误数据,进一步查验。
2.2.8 口碑
观测数据的质量好坏直接影响其在用户中的口碑。反过来,用户会更加倾向于选择使用口碑良好的观测数据和数据集产品。以Argo计划为例,作为目前国际海洋研究中最活跃和规模最大的观测计划,它可谓海洋观测历史上的一场革命,它第一次建立了一个实时的、高分辨率的全球立体海洋观测网。Argo资料以其快捷、高分辨率、时空连续性高等特点深受广大海洋学者和工作者的青睐,在全球拥有广大的用户群体。因此,数据乃至数据观测/数据集制作机构的口碑将也是衡量数据或数据产品的一个方面。
3 结语
随着科技和经济的发展,不仅仅是海洋科学工作者,社会各界对高质量的海洋观测数据、信息和相关产品的需求均快速增长。海洋观测数据是国家海洋战略决策、海洋环境保护、海洋资源可持续利用、海洋防灾减灾、气候变化与应对策略研究、社会公益性服务等的基础。但是,目前多数观测资料的全球网络覆盖率较低,经纬度单元网格内数据源分布不均匀,长时间尺度的观测序列记录有限,且不同年代记录数量存在显著差异,大量站点观测连续性差,由此造成未经评估的资料集要素统计值可信度偏低。对海洋观测数据的有效检验评估,是海洋数据综合集成与服务的前提(图3)。本文提到的各种检验评估指标不一定适用于所有的海洋观测数据,也不尽全面。海洋观测数据的检验评估是一个多层次的过程,使用每个检验指标来评估数据只是初级层次,系统的评估最终还需将评估指标的结果进行综合考虑,例如加权平均,得到对于海洋环境水文气象数据的检验评估模型。笔者撰写本文的目的,在于为读者提供一种评价多源海洋观测数据的参考方法,以期使用户在浩如烟海、良莠不齐的众多来源海洋观测资料面前,能够有据可依的做出初步的判断。然而仅仅是初步判断显然不够严谨,笔者下一步的工作,将是对各评估指标的权重及组合方式进行算法研究,给出一个多维组合的数据可用性的初步评估模型。这个模型将是综合海洋观测系统服务平台的一个重要组成部分,将进一步促进海洋观测数据的整合应用,并推动多层次、高水平的海洋数据共享服务。
图3 海洋观测数据处理流程示意图
致谢:国家海洋信息中心的张冬生研究员对本文的撰写给予了多项指导在此一并致谢。
任芝花,熊安元,2007.地面自动站观测资料三级质量控制业务系统的研制.气象,33(1):19-24.
王芳,葛全胜,陈泮勤,2009.IPCC评估报告气温变化观测数据的不确定性分析.地理学报,64(7):828-837.
杨萍,刘伟东,仲跻芹,等,2011.北京地区自动气象站气温观测资料的质量评估.应用气象学报,22(6):706-715.
中国气象局,2005.地面气象观测数据文件和记录薄表格.北京:气象出版社,18-26.
Edward K,Catherine W,Mark B,2004.First Workshop Report on the Quality Assurance of Real-Time Ocean Data.National Data Buoy Center,NWS/NOAA,Stennis Space Center,MS.
NOAA,Integrated Ocean Observing System(IOOS)Program Office,2008.Data Integration Framework(DIF)Customer Implementation Project Summary and Performance Assessment Plan Version 1.1.
Yu T,Han G J,Guan C L,et al, 2010.Several Important Issues in Salinity Quality Control of Argo Float.Marine Geodesy,33(4):424-436.