基于三种机器学习算法的降水现象仪和雨量筒数据一致性检验
2022-10-24成振华周坤论黄剑钊
成振华,周坤论,陶 伟,黄剑钊,王 玮,景 坤
(广西壮族自治区气象技术装备中心,南宁 530022)
引言
降水现象仪在地面气象观测中逐渐地被普及使用,可以观测降水雨滴谱数据,得到降水过程中的各种参数(如降水粒子的直径、降水粒子的下落速度、不同降水粒子的数量等)。在人工影响天气、天气现象类型判定中具有重要作用[1]。南宁国家气象观测站于2017 年安装并使用至今,是南宁国家站智能观测天气现象的主要手段之一。降水现象仪是一种采用现代激光技术的光学测量仪器,它主要由激光发生器和激光接收器组成。工作时激光发生器向接收器发射激光束,当降水粒子从激光束中通过时,会遮挡激光束造成接收器端电压的变化,从而确定粒子大小。利用粒子从进入激光束的时间,到完全离开激光束的时间可以判定粒子的下降速度。测量粒子直径范围为0~24.5mm,速度最大可达20.8m·s-1,分钟降水量最大值为6mm,可以满足南宁市的降水观测需求[2]。随着自动气象观测的不断发展,“监测精密”对气象探测质量提出了更高要求。周坤论等对比了广西全区的降水现象仪与人工观测天气中存在差距[3]。刘平等指出81.8%的降水现象仪,得出的降水量绝对偏差和相对偏差都较大[4]。经过分析得出可能的原因,是由于计算过程中对降水现象仪的精度要求较高,在实际中可能会出现降水现象仪在预测过程中,将粒子直径或者速度误判的情况,因此造成较大偏差。
机器学习(machinelearning,ML)算法近年来发展成熟,广泛应用于医学、经济学、生物学、农学、气象学等领域[5]。相关人工智能算法也引入到降水预报业务中[6]。ML 技术在数据挖掘领域有较多应用,在算力充足时可以弥补传统算法建模复杂的问题[7]。按照是否需要训练数据,机器学习分为监督学习和无监督学习两类。其中监督学习主要有线性回归(linearregression)、逻辑回归(logisticregression)、K 近邻算法(K-Nearest neighbor,K-NN)决策树(decisiontrees,DTs)等。无监督学习主要有聚类算法(Clustering Algorithm)以及主成分分析法等(principalcomponentanalysis,PCA)[8]。在数据处理中高维稀疏数据带来的冗余数据会影响算法模型的准确率,并且提升时间和空间存储的复杂度。通过数据降维可以减少数据冗余,提升算法的表示性能。本文尝试采用机器学习算法对降水现象仪和雨量筒的数据进行拟合试验,从而检验降水数据的一致性情况。提升观测业务的准确性。
1 资料和方法
1.1 资料
本文的试验数据主要是南宁气象观测站2018年雨量筒数据和降水现象仪按分钟输出的雨滴观测数据。其中降水资料通过地面气象综合观测业务软件(ISOS)采集,观测粒子速度和直径分为32 级共1024 维,每个维度用4 位数表示该维度雨滴粒子的个数。
1.2 方法
在进行降水现象仪和雨量筒数据一致性检验试验时,本文主要利用PCA 算法将高维稀疏的降水现象仪输出数据降维,减少数据冗余。进一步分别采用多元线性回归算法、决策树算法、最近邻算法等3种机器学习算法对降维后的雨滴谱数据进行拟合计算,并分析各种算法性能差异化的原因。各种降维和机器学习算法介绍如下:
1.2.1 主成分分析法
主成分分析法(PCA)通过去除冗余信息可有效降低数据维度[9]。数据集样本协方差越小,则认为该维度的信息更不容易被区分,该维度携带的信息量越小;反之则认为该维度携带的信息量越大。由于协方差矩阵对称,因此选取的各个特征之间相互正交,保证了分解之后的各个特征之间不相关,使得分解结果的各个分量可以单独讨论。计算公式如(1)所示:
其中∑代表样本方差,xi为第i 个特征的样本数据,为样本均值。
1.2.2 多元线性回归
多元线性回归分析是根据给定的多维自变量数据,计算对应的因变量数据[10],其公式如(2)所示。本文进行雨量估计时,降水现象仪输出不同粒子直径、不同粒子数量的数据可以看作数据的自变量x。雨量筒输出的雨量数据,可以看作多元线性回归的因变量y。在计算中只需找到两者的对应关系,通过给定自变量x 和因变量y,可以求得对应的关系w。
其中:
1.2.3 决策树
决策树算法[11]以树形结构建立模型,在模型中,决策节点、叶节点和分支定义了一系列可用于案例分类的决策。通过对树的生长算法做小幅调整,这些树同样可以应用于数值预测。相对于比较常见的回归方法,决策树主要有以下优点:决策树能自动选择特征,允许决策树与大量特征一起使用。具有更多特征的决策树,对某些数据类型的适应能力比线性回归强。分析表明,在降水现象仪统计时,如果出现较多错误数据,则决策树回归模型预测效果相对较好,如果错误数据较少,则决策树模型拟合效果一般。
1.2.4 K 近邻回归
K 近邻回归算法凭借计算量小、可解释强等优点近年来被广泛应用于气象研究中。该算法通过计算目标值周围最近的数值结果,加权平均得到目标值的数据[12]。在计算过程中需要对数据维度进行正确地划分。在雨滴谱拟合降雨量的过程中,雨滴谱输出的每个降雨维度都可以作为降雨量的一个特征,具有相似雨滴谱特征的降雨量,也具有相似的雨量值,因此可以作为拟合雨量的算法。在实际使用中需要求已获得的数据样本足够多,可以在目标值周围产生足够的近邻选择。K 近邻回归算法不用担心雨滴谱中,各个维度之间的参数制约关系,数据即使不为线性数据也可以有较好的回归结果。
k 近邻回归的算法流程:
(1)找出距离目标值最近的k 个相似雨滴谱特征的雨量值;
(2)计算k 个雨量值的平均数作为预测值的实际雨量;
(3)不断重复筛选k 值使得结果最优。
2 一致性检验
试验中,首先采用PCA 算法对数据进行降维处理,其次分别采用多元线性回归算法、决策树算法、最近邻算法等3 种机器学习算法进行拟合计算。在进行机器学习算法降水数据集的构建中,筛选出降水现象仪与雨量筒观测的雨量数据记录共有309 个小时。本文将其中的80%作为训练集用以训练模型,20%作为测试集验证算法效果。
2.1 PCA 降维
雨滴谱将雨滴数据划分1024 维雨滴数据,分别对应不同的半径和粒子速度。其中南宁一整年的降雨过程没有雨夹雪和雪,因此在较高维度中数据为0,因此在计算过程中可以直接将该列数据删除。将空列数据删除后雨滴谱输出维度为426 维。
删除空维度后保证了每列数据均有不为0 的雨量记录,但是仍然存在大量为0 的单列数据。在进行计算时稀疏性的高维数据会使得计算值产生较大偏差,影响计算效果。
通过PCA 算法将高维数据降维,可以降低计算过程中的计算量,增加每个维度在计算中的占比权重。降维后还可以减少因雨滴谱设备本身性能问题带来的噪声信号。
2.2 多元线性回归
利用小时雨滴谱参数加权求和可以得到小时雨量,经过降维后多元线性回归方程写为:
其中y 表示雨量筒统计的小时降雨量。x 表示对应小时的雨滴谱降维数据。w 为小时雨滴谱各个维度对应的参数。
利用最小化损失函数:
即:
其中yi为雨量筒雨量,为回归预测雨量。
利用最小二乘法求参数w,等式两边对w 求导并令一阶导数为0 得到:
此时解出参数w 并可以预测雨量筒雨量yi的值。通过拟合估计得出基于多元线性回归的雨量预测如图1 所示:
图1 多元线性回归拟合雨量图
在雨量预测中训练集里的每个样本维度x 都会被赋予对应的系数w,因此在拟合中对样本雨强的数据平衡性依赖较低,不会因为某一种雨强较少而降低拟合准确率。可以很好地克服实际中暴雨出现较少的场景。
雨滴谱样本中存在426 维非空的数据,因为降雨过程中雨滴存在相关性(包含线性和非线性相关),预测雨量值时存在大量的冗余维度作为噪声,干扰多元线性回归系数的选取。通过PCA 降维算法抑制噪声后进行多元线性回归拟合,会取得较好的效果。从图1 中可以看出多元线性回归算法在预测值中,大部分的预测值与雨量筒值较为相近。经统计线性回归在降维成29 维时,预测准确率最高,其中有超过85%的预测值误差小于0.7mm。
2.3 决策树拟合
经过PCA 降维后的雨滴谱数据的每个维度,可以看作计算雨量值的一个特征。因此在计算过程中,可以利用决策树预测实际的雨量值。决策树算法首先构建根节点,将雨滴谱数据放入其中,筛选出根节点中条件最好的分类。然后按照此规则依次将各个分类的子集中的雨滴谱数据继续分类,直到得出叶子节点对应的雨量数据为止。如果重复完该过程后依旧有未成功分类的节点,则根据最优特征分类将雨滴谱数据归为其中。拟合结果如图2 所示:
图2 决策树拟合雨量图
分析图2 可知,决策树算法在预测值中大部分的预测值与真实值偏差较大。但总体预测稳定性较好。决策树算法通过判断每层逻辑分支进行拟合。当拟合数据维度较少时,会因数据特征重叠导致误判;当拟合数据维度较多时,又会导致分支数较多导致拟合性能下降。经统计,决策树的降维最佳维度为40 维,其中有超过70%的预测小时雨量值误差小于0.7mm。在三种算法中拟合效果最差。
导致这种情况的原因,是由于决策树拟合过程中,将目标训练数据作为离散的分类点。在进行测试数据拟合时,通过平滑离散点形成一条曲线。因此在拟合出的结果中几乎所有点都存在一定量的偏差。
2.4 最近邻拟合
通过找出一个样本的k 个最近邻居,将这些邻居的某个(些)属性的平均值赋给该样本,就可以得到该样本的值。最近邻算法预测结果如图3 所示:
图3 KNN 拟合雨量图
从图3 中可以看出KNN 算法在预测值中大部分的预测值,与真实值偏差总体不大。这是由于KNN 算法在预测中取周围点的平均值。在降雨过程中小时雨量超过7mm 的次数较少,测试集目标值周围的点不够均匀,因此KNN 算法对较大雨量的拟合准确率较低。而小雨量的目标值在样本中较多,可以充分取到周围的近邻点做平均,因此预测准备率较高。
对于近邻值K 的选择。当K 值选择较小时,会因选取点不够均匀,导致预测结果产生偏差;当K值选择过大时,会导致计算量和空间开销增加,并且会将原本无关的样本点归在一起进行预测。准确率随K 值变化如图4 所示,当K 值取6 时效果最佳,综合判定超过75%的预测值误差小于0.7mm。
图4 不同K 值下的准确率
2.5 不同机器学习算法估计的对比分析
对上述一致性检验试验的结果进行对比分析发现,3 种机器学习算法中多元线性回归算法的预测成功率最好。这表明降水现象仪输出中的各个粒子直径和速度的雨滴谱数据与雨量之间的确存在线性关系。通过计算各个粒子的权重,累和后可以得到雨量筒数据。计算过程中部分数据出现小时雨量超过0.7mm 以上情况主要分布在较大量级的雨量附近。分析发现造成这一现象的原因可能是雨量较大时雨量筒在翻转过程中存在一些外溢损耗,因此雨量筒未成功探测到雨量数据。
最近邻回归算法通过计算距离目标值最近的K个点的均值,代表目标值数据。通过分析小时雨量数据发现小时雨量超过50mm 的样本较少。在计算这部分雨量时,没有足够多的近邻数据进行加权平均,因此出现了较大误差。较多的小雨量样本使得在计算小雨量时,有足够多的相似近邻因此预测值较为接近,这也说明降雨过程的雨滴粒子直径和数量较为均匀。
决策树算法在三者当中,误差明显高于另外两种的原因是:决策树在进行回归计算时主要通过分类的方式进行。通过分类得到的决策树具有较好的可理解性,但是在线性拟合中将线性的结果,转化为分类结果会产生过拟合现象。
3 结论与讨论
本文采用三种机器学习算法,对2018 年南宁国家站降水现象仪观测数据与雨量筒数据,进行了一致性拟合试验。结果表明,不同的机器学习算法在预测中均有较高的拟合度。其中多元线性回归算法在拟合中预测中最多的小时降雨量,达到了85%;最近邻算法在预测中雨量较小时综合准确率为75%,在样本较多时具有很好的预测准确性。当设备稳定运行时决策树综合预测值最差只有70%。
在预测降水过程中并未克服传统机器学习存在的弊端,无法进一步提升算法的表示性能。在最近邻算法中,距离度量方法有多中,判定出的“近邻”也可能有显著区别,从而影响拟合效果。后续可尝试不仅使用欧式距离,改用马氏距离或其他距离作为选择度量。在最近邻算法中如果解决样本不均衡问题,可以获得更好的预测效果。线性回归中对设备稳定运行率有较高要求,设备出现过大值的原因主要因为设备运行稳定率不高导致。在后续工作中考虑将不同算法的优势结合起来,从而提高算法的效果。