基于向量自回归模型的高频地波雷达 海流异常值的识别算法研究
2021-11-02刘京城
方 今,刘京城
(1.上海市海洋监测预报中心,上海 200062;2. 湖北中南鹏力海洋探测信息系统工程有限公司,湖北 宜昌 443005)
海洋作为社会经济发展的重要依托和载体,是国家未来发展的新方向。监测海洋表面流场、风场和浪场等重要的海洋动力学要素,有助于保障海上和沿岸人类活动和安全以及海防事业,有利于发展海洋经济、预防海洋自然灾害和维护国家利益。高频地波雷达[1]可以全天候地对雷达波束内的中远距离(如200 km)海面进行实时监测,在海态参数监测中具有不可替代的作用。随着高频地波雷达在探测海洋表面动力学要素方面的应用和发展,海洋表面流场探测技术在海态检测领域已经趋于成熟,各方面的对比验证[2-3]表明其具有优秀的反演性能。目前,国外成型的高频地波雷达产品主要有美国SeaSoned系统、德国WERA系统、英国OSCR系统、俄罗斯“向日葵”系统和加拿大SWR-503系统等,国内成型的海态高频地波雷达产品主要分为阵列式高频地波雷达OSMAR[4]和便携式高频地波雷达OSMAR-S[5]。其中阵列式高频地波雷达分辨率更高、探测范围更远,而便携式高频地波雷达采用单极子/交叉环天线,占地面积更小。本文中所选用的数据为OSMAR-S100系统反演得到的海流结果。
由于雷达站所处电磁环境一般比较复杂,电离层的干扰、广播电台的干扰、瞬态干扰以及其他干扰,都会影响雷达回波的质量。虽然已有相应的干扰抑制算法[6-7],但这些算法不能一直奏效,因此,海流反演结果中经常会出现时间或空间上的异常值,异常值的存在会影响海流流速和流向的可靠性。一般的海流异常值识别方法[8-9]是在单一维度中进行的,能够识别部分异常值,由于忽略了另一个维度,存在误识别或漏识别的情况。
向量自回归(VAR)模型[10]是一种多变量预测模型,从纵向比较来看,它是单变量时间序列自回归(AR)模型在多元时间序列上的衍生;从横向比较来看,它是用线性关系刻画一个平稳的系统。VAR模型的特性使其在平稳的条件下,参数估计与最小二乘估计一致,并且统计上具有优良性质,便于区间估计、误差分析和模型诊断等,可用于刻画多变量之间相互影响的动态线性相关关系,该模型应用在风速预测中[11-12],取得了较好的结果。
本文基于海流流速在时间维度与空间维度是一个缓慢变化的过程,同一点的海流流速在时间维度与空间维度具有相关性,提出了基于VAR模型的海流异常值的识别算法,利用OSMAR-S100便携式高频地波雷达数据,结合时间域与空间域,通过VAR模型识别高频地波雷达海流异常值,从而提高数据准确度。
1 基于向量自回归模型的海流异常值识别算法
1.1 海态流场数据来源
本文海流异常值识别数据来源于基于单极子交叉环紧凑型天线阵OSMAR-S100便携式高频地波雷达,该雷达部署于上海鸡骨礁,坐标位于(122.388°E,31.1730°N),工作频率13 MHz,根据雷达指标,海流最大探测距离80 km,波束覆盖扇角范围120°,海流探测的径向角度和距离分辨率分别为3°和2.5 km,海流测量速度分辨率3 cm,该雷达系统每6.5 min输出一场海流数据。
下面以鸡骨礁站2020年7月5日数据为例,对雷达实际应用时的判断流程进行介绍。该日一共产生了221场数据。经过统计,数据点中存在大量缺失情况,图1展示了数据完整性统计的结果,横纵坐标代表经纬度,数值代表一天中有效数据的数量。图1结果表明,越靠近雷达站,数据完整性越高,越远离雷达站,数据完整性越低,在20个距离元之后的数据基本可以判定不存在或者数据可靠性较差。在进行数据分析时,选择的位置均位于20个距离元以内,尽量避免数据缺失所带来的不利影响。
图1 有效数据分布图
1.2 自回归模型
OSMAR-S100雷达系统一天数据可视为一个时间序列,海流流速具有时间相关性,某一时间海流流速与前后两个时间点流速具有时间相关性。图2展示了位置处于数据点(122.367°E,30.866°N)的海流观测值对于不同滞后阶数的自相关系数,海流流速自相关系数随着滞后阶数的增加而缓慢减小,这种自相关系数随滞后阶数增加而缓慢减小的特征被称为“ACF图拖尾”,是AR模型的显著特征,即AR模型适用于海流观测值的处理。
图2 海流流速不同滞后阶数的自相关系数图
AR模型是一种分析具有时间序列特性数据的重要模型,可以表示为:
式中:c为常数;φi为回归系数;p为AR模型的阶数;εt为随机误差,通常认为是白噪声序列,阶数p可从偏自相关系数随滞后阶数的变化情况估计得到,即利用AR模型的偏相关图(PACF图)截尾特征进行估计,其中偏相关性(PACF)是两个随机变量在排除了其余部分或全部随机变量影响情形下的净相关性或纯相关性,是两个随机变量在处于同一体系的其余部分或全部随机变量取给定值的情形下的条件相关性,偏相关性由偏相关系数决定。图3展示了上述地理位置的海流流速AR模型PACF图。平稳序列的偏相关图表现为截尾,当阶数为1的时候,偏相关系数值还是很大,为0.814;二阶长的时候突然就变成了0.125,后面的值都很小,认为是趋于0,这种状况就是截尾,可作为海流流速AR模型数据序列平稳的判断。
图3 海流流速AR模型PACF图
图中红线为显著性阈值,超出该值表示该阶滞后阶数显著不为0,反之则表示该阶系数不显著,可以理解为近似为0。海流观测值的偏自相关系数从二阶开始下降到红线以下,因此海流观测值符合一阶自回归模型。
1.3 VAR模型
AR模型同样仅考虑了时间维度,为了同时考虑时间维度和空间维度,我们选取了空间上5个较近位置的海流观测序列进行了分析,所选择5个位置的空间相对位置示意图如图4所示。
图4 选取海流的空间相对位置示意图
统计了数据有效范围内一周的所有数据点(黑色圆)的海流序列与其一阶滞后序列以及周围较近的4个位置(白色圆)的海流序列间的相关系数,统计结果的直方图如图5所示。其中数据点与其一阶滞后序列的相关系数代表了时间维度上的相关性,与周围的海流观测序列的相关系数代表了空间维度上的相关性。图中,80%以上数据点的前述5个相关系数都大于0.9,表明海流的观测值在时间维度和空间维度中都具有较强的相关性。因此,我们对上述5个序列建立了VAR模型,阶数仍沿用AR模型中确定的阶数,即建立的模型为一阶VAR模型,其表达式如下。
图5 所有数据点时空相关系数分布图
式中:
T为转置运算符;Xi为对应的海流序列;φi为对应的回归系数,其中,φf为前数据点的海流序列回归系数;φb为后数据点的海流序列回归系数;φs为数据点自身海流序列回归系数;φl为左数据点的海流序列回归系数;φr为右数据点的海流序列回归系数;Xt-1为数据点前一时刻海流数据,数据点X通过该时刻其前、后、左、右与前一时刻自身海流数据对现海流数据验证。
对式(2)稍做修改,得到式(5)。
式中:
对于式(5),可以利用最小二乘法求解其系数向量θ。
2 海流异常值识别
根据海流的时间维度与空间维度相关性提出的一阶VAR模型是一种线性预测模型,根据式(2),通过某位置前一时刻的海流以及临近4个位置的海流,可以预测该位置当前时刻的海流。预测海流与真实海流之间的差值被定义为残差,如式(9)所示。
式中:r为残差序列;X为真实海流序列;为预测海流序列,理论上,认为r是均值为0、方差不随时间改变的白噪声序列。
残差序列的标准差反映了残差整体的性质,残差标准差越大说明模型拟合效果越差,残差中还可能残留系统部分的信息。对于单个残差点而言,如果它的绝对值超过了3倍残差标准差,则说明该点在99%的显著性水平上不等于0,不满足白噪声序列的假设,则可以标记为海流异常值,对于标记出来的海流异常值,用VAR模型的估计值代替原始的异常值,从而实现对海流异常值的识别及修正。
3 结果与分析
本文通过对位于上海鸡骨礁的OSMAR-S100便携式高频地波雷达站海流反演数据进行分析与处理,验证了基于VAR模型的高频地波雷达海流异常值识别算法的有效性,并统计了海流异常值在空间和时间上的分布情况。
在对海流进行处理时,以天为间隔进行处理,共处理了一周的数据。针对检测点每一天的海流时间序列,利用最小二乘法估计出模型参数,建立一阶VAR模型,图6对比了一个位置海流时间序列VAR模型估计的海流与雷达输出的海流,二者结果非常接近,表明利用VAR模型预测某一时刻的海流切实可行。两条曲线之间的差值即为残差,根据残差的结果判断并标记出所有的海流异常值。图7展示了部分被标记为异常海流值的残差序列以及相邻的5个海流序列,海流曲线中红色实线代表检测点的海流序列,虚线部分代表周围4个点的海流序列,残差曲线中为判决阈值,超出红线范围的残差即被标记为异常值,对应位置的海流被标记为异常海流值。图7结果表明,当检测点的变化趋势与周围点的变化趋势明显不同,或者检测点本身出现较剧烈的变化时,检测点会被标记成为异常点,这与人们对于海流的认识(海流在空间和时间上是缓慢变化的)基本一致,即在时间维度和空间维度上变化剧烈的海流为异常海流值。
图6 VAR模型预测海流与雷达输出海流对比
图7 VAR模型识别的部分异常值及其残差
本文对一周内的海流数据进行了异常识别,结果表明对于孤立的异常值,该算法具有较好的识别效果,但是对于连续的异常值,可能由于后续变化趋势一致而无法被识别出来,见图7(a)和图7(b),这种比较复杂的情况需要进一步改进预测模型予以判断。同时,本文统计了海流异常值在时间和空间上的分布情况,统计结果如图8所示。受雷达波束和距离衰减的影响,在空间上海流异常值的数量随距离的增加而增加,且偏离阵列法线方向越远,异常值数量越多。而其在时间上的分布,近似于均匀分布,仅在少数时刻异常值数量偏大,表明该场次数回波受到了较强的外部干扰。
图8 海流异常值在空间维度和时间维度上的分布
4 结 论
高频地波雷达在海洋表面环境观测方面具有超视距、大范围、全天候的特性。针对高频地波雷达海流结果中的异常值,本文提出了基于VAR模型的高频地波雷达海流异常值的识别算法。由于本文算法通过空间与时间维度对海流流速进行趋势分析,在区域流速较大和较小时,这种异常点识别方法依旧能正常工作。通过对区域海流流速进行基于VAR模型的时间维度分析,可提高高频地波雷达海流数据的准确性。整体上看,基于VAR模型的高频地波雷达海流异常值的识别算法能够为海流产品和流场时空分布分析提供准确的数据。