一种基于距离相关方法计算非线性相关系数的算法*
2022-08-14蔡明季茜李培德
蔡明 季茜 李培德
1. 湖北省气象信息与技术保障中心 湖北 武汉 430074;2. 暴雨监测预警湖北重点实验室 湖北 武汉 430074
引言
相关关系是变量间客观存在的一种相互依存关系,是进行系统结构和功能分析[1-2]的基础。而相关系数作为用于量化变量间相关关系的统计指标[3-5],在如气象[6-7]、航空[8-10]、电子[11-12]等领域得到广泛应用。以往的相关性分析多使用简单相关、典型相关等建立于线性相关[13]基础上的分析方法,仅能反映变量间的线性相关程度,无法反映变量间的非线性相关程度,故存在一定的局限性。
本文引入距离相关方法,利用变量间距离信息取代传统相关性分析方法中的变量与其数学期望间差值信息,提出了一种适用于非线性相关分析的相关系数计算方法,并通过非线性函数对算法进行验证,实验结果表明,算法克服了传统相关性分析方法仅适用于线性相关分析的不足。
1 皮尔逊相关系数算法
传统的相关性分析方法包括皮尔逊相关[14]分析、肯德尔相关[15]分析和斯皮尔曼相关[16]分析,其中最为常用的是皮尔逊相关分析。
2 基于距离相关的相关系数算法
2.1 距离相关方法介绍
距离相关概念最早由Szekely,Rizzo和Bakirov于2007年提出。作为一种对于随机变量间关系的全新度量方法,距离相关具有同皮尔逊相关类似的真实相关性测度的性质,但是实际上使用的是变量间距离替代皮尔逊相关的协方差和标准差概念。也就是说距离相关性不是根据样本点和样本统计期望之间的距离来估计两个变量如何共同变化,而是根据样本点与其他样本点间的距离来估计变量是如何变化的,从而更好地捕捉变量间线性以及非线性依赖关系。
2.2 距离相关系数计算
2.2.1 距离相关统计。
2.2.2 距离相关系数计算。
距离相关系数R满足0≤R≤1,其中,当且仅当X和Y独立分布时,R=0;当且仅当X和Y的相关程度达到最大时,R=1。
需要注意的是,距离相关系数R为非负数,所以只能反映变量间彼此相关的程度,无法反映变量间呈现的是正的相关关系还是负的相关关系。
3 仿真与结果分析
3.1 仿真设计
3.2 仿真结果与分析
3.2.1 线性模型。使用以下线性模型进行验证:
得到的线性模型下的采样散点图如图1所示。
图1 线性模型下的样本点和最佳拟合直线图
由图1可知,随机采样得到的样本呈线性分布,且分布于最佳拟合直线两侧。仿真结果的具体统计参数如表1所示。
表1 线性模型下的统计参数
因此,如果两个变量线性相关,则使用皮尔逊相关系数或距离相关系数都可以很好地反映变量间的相关关系。
3.2.2 波形模型。使用以下波形模型进行仿真:
得到的波形模型下的采样散点图如图2所示。
图2 波形模型下的样本点和最佳拟合直线图
图2中,随机采样得到的样本呈波性非线性分布。仿真结果的具体统计参数如表2所示。
表2 波形模型下的统计参数
因此,波形模型仿真中,距离相关系数比皮尔逊相关系数更能反映出变量间的相关关系。
3.3 仿真结果分析
仿真结果显示:如果两变量线性相关,使用皮尔逊相关分析和距离相关分析算法都会得到相似的相关性分析结果;如果两变量非线性相关,则距离相关分析结果比皮尔逊相关分析结果更能体现变量间的真实关系。
4 结束语
本文将距离相关方法应用于变量间相关系数的计算中,提出基于距离相关的相关系数算法:使用变量间距离取代皮尔逊相关系数计算中变量与变量均值之间的距离,从而能更好体现变量间的真实依赖测度,可用于线性和非线性模型下的变量相关性分析场景,克服了皮尔逊相关系数应用存在的局限性。
由于距离相关系数计算结果为非负数的特性,决定了距离相关分析只能分析两变量间相关性的强弱而无法给出变量间呈现的是正相关关系还是负相关关系。
虽然存在以上不足,距离相关系数算法还是可以为变量间相关性分析提供一种新的思路和方法,具有一定的实践意义。