波浪滑翔器海洋观测数据质量控制研究
2023-05-19于佩元孙秀军桑宏强
周 莹 ,于佩元 ,孙秀军 ,桑宏强
(1.中国海洋大学 海洋高等研究院,山东 青岛,266100;2.中国海洋大学 信息科学与工程学部,山东 青岛,266100;3.中国海洋大学 物理海洋教育部重点实验室,山东 青岛,266100;4.天津工业大学 机械工程学院,天津,300387)
0 引言
波浪滑翔器作为利用海洋自然能源的新型自主航行无人水面平台,具有体积小、持续供能、续航能力强等优点,能够长时间工作、大范围机动,是无人平台长期机动进行海洋观测的有效手段[1-7]。获取准确、可靠的海洋观测数据,是建立基于波浪滑翔器平台的高质量海洋科学数据库的必要条件,也是对海洋进行综合评估的有效数据支撑手段[8]。数据质量控制是数据驱动科学研究中的基础任务之一,经由一个良好的质量控制系统产生的高质量观测数据集对推动海洋科学多学科交叉研究、模式评估、业务预报和灾害预警等具有重要意义[8]。波浪滑翔器集成小型化、低功耗的海洋传感器获取的数据存在一定程度上的质量问题:仪器偏差、仪器故障、平台动态扰动、解析或通信误码等,这些问题会极大影响科研人员对观测数据分析研究的结果。因此,有效的数据质量控制方法是推动波浪滑翔器数据可靠推广应用必不可少的技术手段。
针对此,文中提出一种新型海洋观测数据质量控制方法,利用“黑珍珠”波浪滑翔器集成的AIRMAR-BP200 和GILL-GMX600 气象传感器进行比对试验并获取大量数据样本,将该样本数据用于反向传播(back propagation,BP)神经网络模型训练。质量控制分析结果表明,该方法可有效提高观测数据的准确性。
1 国内外研究现状
目前,波浪滑翔器、水下滑翔机[9-11]、浮标[12-13]和潜标[14]等无人平台在海洋观测中应用广泛,其观测数据的准确度和可信度是各型海洋无人观测平台数据质量控制的核心。以气温、气压和水温等标量观测数据为例,标准的数据质量控制包括缺测检验、范围检验、连续性检验和综合分析检验等[15]。
海洋无人平台中波浪滑翔器和海洋浮标为水面观测平台,可进行气温、气压、海表水温和波浪等标量要素观测。Thomson 等[16]通过比对波浪滑翔器的波浪和风数据,验证了波浪滑翔器获取高精度海洋环境数据的可行性。海洋浮标的质量控制方法主要包括日期检验、位置检验、格式检验、范围检验、气候特征检验、尖峰检验、梯度检验和连续性检验等[15]。任焕萍[12]、李涛等[13]针对浮标采集的水温和盐度数据进行数据质量控制研究,可有效剔除数据异常值。水下滑翔机和潜标作为水下观测平台,可进行海水温度、盐度等标量要素观测。目前常用的水下滑翔机数据质量控制主要是进行科学校正,采用修正系数、误差估算、标准偏差和参考数据等多种方式进行[17]。Wang 等[11]提出了一种用于温盐深数据修正的热滞后校正方法,可有效提高水下滑翔机采集温盐深数据的准确性。陈子飞等[14]通过流速误差与相关幅值对海流数据进行质量控制,可有效去除异常数据。目前国内波浪滑翔器现有文献多关注于其性能提升,针对观测的海洋数据质量控制研究还暂未涉及。
波浪滑翔器是海气界面观测的有效手段,海气界面环境包含风、波浪、太阳辐射和水汽等多重扰动,与大型浮标等无人观测平台相比,波浪滑翔器观测的海气界面气象参数因其工作环境复杂多变,观测数据包含多重扰动因素。因此,开展波浪滑翔器海洋环境数据质量控制研究十分必要。波浪滑翔器标配AIRMAR-BP200 气象传感器,该型气象传感器主要适用于海洋无人移动平台进行气温、气压和风参数观测。因此,文中针对波浪滑翔器平台集成的AIRMAR-BP200 气象传感器观测的数据进行数据质控算法研究,以提高海气界面观测要素准确度。
波浪滑翔器数据质量控制包括数据检验和数据修正算法。目前常用的气象数据修正算法包括神经网络算法[18-19]和关联规则算法[20]等。其中,BP 神经网络算法多用于陆地气象观测数据质量控制过程中,相比于海洋环境中的海气界面相互作用等因素,陆地观测的数据干扰相对较少。Wang等[18]通过训练BP 神经网络模型建立太阳辐射与温度误差的关系,进行气温数据修正,修正前的气温最大偏差为6.5 ℃,平均偏差为2 ℃,修正后的气温最大偏差为1.7 ℃,平均偏差为1 ℃。侯飙[19]应用BP 神经网络算法进行陆地气温异常数据修正,对BP 神经网络算法的有效性验证过程采用人为增加扰动的方式,但未进行真实工况应用验证。因此,现有文献主要针对陆地气象数据进行修正,对于海洋气象数据的质量控制研究涉及较少。文中针对海上波浪滑翔器观测的气象数据进行数据质量控制研究,通过采用大量详实的高低精度数据样本进行模型训练,对经过数据检查检验后的气象数据进行进一步修正,提高数据准确性。
2 数据质量控制
基于波浪滑翔器的海洋观测数据质控流程为:以气温和气压2 个要素参数为例,在波浪滑翔器集成标配传感器AIRAMR-PB200 基础上,额外集成高精度气象传感器GILL-GMX600,经过长期的比对试验,获取2 个传感器大量的气温和气压数据,通过神经网络以高精度气象数据(GILL-GMX600)为参考样本,对标配气象传感器(AIRAMR-PB200)数据进行数据修正,以提高波浪滑翔器标配传感器的数据准确性。
2.1 观测平台
该数据质量控制方法研究使用的是由中国海洋大学和天津工业大学自主研发的“黑珍珠”波浪滑翔器,如图1 所示,该型波浪滑翔器包括水面母船、铠装缆和水下牵引机三部分,水面母船中部法兰集成AIRMAR-BP200 和GILL-GMX600 两型气象传感器。
图1 “黑珍珠”波浪滑翔器整体结构Fig.1 Overall structure of the“Black Pearl”wave glider
文中主要针对“黑珍珠”波浪滑翔器采集回传的气温和气压要素进行详细的数据质量控制,其他要素也可参考文中方法进行数据质量控制。“黑珍珠”波浪滑翔器主要指标参数如表1 所示。
表1 “黑珍珠”波浪滑翔器指标参数Table 1 The specifications of the“Black Pearl”wave glider
2.2 气象参数比对
数据质量控制过程中,气象数据的现场获取主要依靠波浪滑翔器母船上集成的AIRMAR-BP200和GILL-GMX600 两型传感器,传感器采集频率为1 Hz,数据回传频率为每组10 min,其指标参数的比对如表2 所示。
表2 气象参数比对Table 2 Comparison of meteorological parameters
2.3 数据质量控制
数据质量控制方法如图2 所示,波浪滑翔器设备端数据获取过程包括传感器实时采集,波浪滑翔器主控系统数据解析、范围检验和取均值处理,后经卫星回传至岸基监控系统。现场端的数据处理方式如图3 所示,每10 min 循环一次,采样时间为2 min,依次进行范围检验,取均值处理后将结果数据进行卫星回传。岸基端通过卫星终端接收波浪滑翔器上报的数据后进行进一步的范围检验、尖峰检验和算法修正。
图2 数据控制方法Fig.2 Data quality control method
图3 现场数据获取与回传Fig.3 Field data acquisition and return
1)范围检验
岸基端接收到波浪滑翔器观测数据后,首先进行范围检验,观测值xi满足
式中,Xmin和Xmax分别为该要素多年统计的最小值和最大值。
因此本文以汾河灌区为研究对象,利用灌区内的长系列数据(1951—2014年),分析灌区内的水量平衡,提出主要作物的灌溉计划,为灌区的粮食稳产增产提供数据支撑。
2)尖峰检验
观测数据经过范围检验后,对岸基端进行尖峰检验。尖峰检验的原则为:观测要素在空间和时间范围内的变化是有限的,若某观测值与周围观测值明显不同,出现尖峰,则判定为异常值。文中采用的尖峰检验方法为
式中,Hj1为尖峰检验参数,气压尖峰检验参数为Hj1_p=0.002 8,气温尖峰检验参数为Hj1_t=0.8。
波浪滑翔器观测数据完成范围检验和尖峰检验后,可初步消除波浪滑翔器海上观测因平台、海洋环境等扰动带来的数据异常影响。
3)质控算法
完成数据检验后,气象数据进入数据质量控制核心环节——神经网络算法修正环节,BP 神经网络算法具有强非线性逼近能力和抑制样本噪声等优点,因此选用其对观测数据进行进一步修正。
如图4 所示,神经网络结构为2 层前馈网络,包含Sigmoid 隐神经元和线性输出神经元,可以很好地拟合多维映射问题,只要其隐层数据一致且具有足够的神经元,就可以任意精度逼近一非线性函数。
图4 前馈神经网络结构Fig.4 Feedforward neural network structure
将试验得到的气温和气压数据作为训练样本,以AIRMAR-PB200 测得的数据Mi(ati api)作为网络输入,以GILL-GMX600 测得的数据Ti(gti gpi)作为真实值,将样本值输入网络,网络根据输入和真实输出的差值,修改每层网络的权值,直到所有样本差值最小。网络权值的学习算法采样Levenberg-Marquardt(LM)反向传播算法是非线性最小二乘问题的标准算法,在神经网络结构中具有良好的应用效果。
3 试验验证与分析
3.1 海试前期准备
为提高数据质量控制精度,通过海试获取大量详实的数据进行神经网络模型训练。试验现场如图5 所示,海试时间为2020 年7 月—2021 年2 月,试验区域为青岛近海海域。波浪滑翔器集成AIRMAR-PB200 和GILL-GMX600 进行为期半年的海试比对。经过此次长期比对,获取了大跨度、大范围的气温和气压比对数据,为高精度模型训练提供详实的数据支撑。
图5 海试现场Fig.5 Sea trial site
为了保证传感器测量的准确度,需要对每个气象传感器在使用前进行校准,对校准得到的数据采用最小二乘法[21]修正,得到测量值与真实值的函数关系,进而对测得的数据进行修正。两型气象传感器均进行了天津国家海洋标准计量中心的校准,校准后的数据满足表2 所示精度。同时,作为目标样本数据来源的GILL-GMX600 型传感器还进行了与白龙浮标的陆地静态比对验证,比对位置为青岛海洋科学与技术国家实验室,坐标为(120.664 4°E,36.343 5°N),比对时间为2020 年8 月2 日—2020 年8 月20 日。通过与白龙浮标进行数据比对验证(见图6),共同佐证了目标样本数据的高可信度和准确度。
图6 GILL-GMX600 型传感器与白龙浮标进行数据比对Fig.6 Data comparison between GILL-GMX600 sensor and Bailong buoy
如图7 所示,波浪滑翔器获取两型气压传感器数据经过现场筛选、取均值、卫星回传后,其比对情况可以看出,与GILL-GMX600 型传感器相比,AIRMAR-PB200 型传感器数据虽经过波浪滑翔器现场筛选取均值处理,但仍存在少许的尖峰数据,说明波浪滑翔器回传的传感器数据需要进行进一步的数据质量控制,提高海洋观测数据准确度,才可以高可信度的海洋数据服务于海洋科学研究。在进行神经网络模型训练前,岸基端数据处理的第一步是剔除图中所示的偏离主气压变化趋势以外的游离点位数据。
图7 传感器气压数据比对(未经过数据检验)Fig.7 Air pressure data comparison of sensors (Before data verification)
同样的,气温数据经过现场端和岸基端的尖峰异常值剔除处理,处理后的数据比对如图8 所示。
图8 传感器气温数据比对(经过数据检验)Fig.8 Air temperature data comparison of sensors (After data verification)
图7 和图8 都说明了波浪滑翔器标配传感器回传的海洋观测数据与高精度海洋传感器回传的数据相比在长时间跨度范围内存在一定的偏差,需要进行进一步的数据修正。经过大跨度时间的数据比对,气压和气温数据涵盖温压大部分采样范围,且单要素训练样本数量多达7 000 个样本点,通过此比对数据进行神经网络模型训练,其模型可靠性得到大范围数据支撑。
3.2 海试数据分析
应用上述数据质量控制方法,对“黑珍珠”波浪滑翔器海气界面观测任务中回传的气温和气压数据进行数据质量控制验证。海试时间为2020 年7 月—2020 年10 月。图9(a)所示为波浪滑翔器回传的AIRMAR-BP200 气压数据,从图中可以看出,仅经过波浪滑翔器设备端的初步数据范围检验和取均值处理,无法消除观测数据异常尖峰值,图中蓝色方框内(7 月1 日—7 月15 日)的异常尖峰出现尤为频繁。图9(b)所示为岸基端接收气压数据后,经过进一步范围检验和尖峰检验验后的气压数据图。气压范围检验取值为0.98~1.10 Bar,气压尖峰检验参数Hj1=0.002 8。通过比对可看出,观测数据经过范围检验和尖峰检验后可有效去除异常值。
图9 气压数据尖峰检验比对Fig.9 Peak test on the air pressure data
观测数据经过范围检验和尖峰检验后,进入BP 神经网络数据修正环节。经过范围和尖峰检验后的气温和气压数据通过上述的神经网络训练模型进行数据修正,修正前后的气压和气温数据比对如图10 和图11 所示。图10(b)和图11(b)分别展示了24 h 内的气温和气压数据修正比对结果。从气压数据质量控制前后对比图中可以看出,波浪滑翔器标配的AIRMAR-BP200 传感器气压采集存在一定的偏差,通过神经网络算法修正后气压数据与高精度气压数据高度一致,极大地提高了波浪滑翔器标配传感器的数据准确度。
通过气温数据质量控制前后比对图中同样可以看出,波浪滑翔器标配的AIRMAR-BP200 传感器采集回传的气温数据存在约1~2 ℃的偏差,且其变化起伏较大,气温采集受海气界面环境及光照辐射等外界因素影响存在一定程度的数据扰动,经过数据修正后,气温数据精度明显提高,与高精度气温数据的偏差减小。从图10 和图11 的试验数据比对中可以看出,经过数据质量控制后,波浪滑翔器回传的气象数据精度明显提高。
图10 气压数据质量控制前后比对Fig.10 Comparison before and after air pressure data quality control
图11 气温数据质量控制前后比对Fig.11 Comparison before and after air temperature data quality control
为充分验证数据质量控制方法的有效性,针对气象数据质量控制结果进行量化比对。观测数据样本点共计2 941 组,比对结果如表3 所示。应用平均偏差、中位数偏差、标准差和稳健标准差量化比对海试全程的气压和气温数据。从表中可看出,利用文中所提出的数据质量控制方法对数据修正后可集中逼近目标数据,气压数据修正后其平均偏差和中位数偏差相比修正前降低75%以上,气温数据修正后其平均偏差和中位数偏差相比修正前降低93%以上,修正后数据与目标数据有较高的匹配度。由标准差和稳健标准差数据比对结果可以看出,修正后的气温和气压数据与目标数据之间的离散程度降低,数据准确度提高。
表3 气温与气压数据量化比对Table 3 Quantitative comparison of air temperature and air pressure data
此外,为充分验证文中方法的有效性,与文献[19]给出的气象数据神经网络修正方法进行比对分析,文献[19]中量化结果为修正前的气温平均偏差2 ℃,修正后的气温平均偏差为1 ℃。通过比对表3 中的气温数据修正结果可以看出,文中方法对数据的修正效果更好,修正后的数据准确性更高。
4 结束语
文中提出一种适用于“黑珍珠”波浪滑翔器的观测数据质量控制方法。该方法包括数据检验和数据质量控制算法修正。数据检验包括范围检验和尖峰检验,可有效去除波浪滑翔器观测数据的异常值;数据质量控制算法修正通过BP 神经网络模型训练,对经过数据检验后的观测数据进行进一步数据修正,修正后的观测数据整体准确性得到提高。前期进行了长期海上数据比对试验,获取大量数据样本用于文中使用的神经网络数据修正模型训练,训练后的模型对波浪滑翔器观测数据进行数据修正,修正结果表明,所提出的数据质量控制方法可有效提高波浪滑翔器观测数据的准确性,可广泛应用于波浪滑翔器回传的海洋观测数据处理,同时波浪滑翔器海洋观测数据修正模型具有一定的通用性,也可应用于同类型的海洋观测无人水面平台的数据质量控制。从气温数据修正结果比对中可以看出,气温数据的准确性仍有提升空间,后续将继续优化数据质量控制方法,通过多观测因素耦合作用综合分析和优化数据质量控制过程。