APP下载

单指标众数模型的Bayes局部影响分析

2023-11-14朱桂玲

保山学院学报 2023年5期
关键词:因变量样条扰动

朱桂玲

(昭通学院数学与统计学院,云南昭通 657000)

面对现实生活中的各种海量数据,当对这些数据进行加工清洗之后,还需根据新的数据集做出推断。近年来,Bayes方法受到众多研究者的厚爱[1]。例如,唐年胜、韦博成[2]系统阐述了非线性再生散度模型参数的Bayes 估计;陈雪冬[3]讨论了半参数再生散度模型的Bayes 分析;刘国旺等[4]采用MCMC 方法对ARFIMA 模型进行Bayes 分析;任晓龙[5]等研究了m维AR(p)模型的Bayes 分析;周在莹[6]对若干统计问题的Bayes 理论进行研究;朱万闯等[7]对近似Bayes 计算前沿进展及应用进行研究;李鑫等[8]对基于先验信息可信度的制导精度Bayes 分析进行研究。因此本文将讨论单指标众数回归模型的Bayes 局部影响分析,针对参数的后验分布,设定了扰动方法来揭示模型的因变量和自变量的扰动的本质[1]。

下面给出单指标众数模型Bayes估计的预备知识。

模型设定

单指标众数模型[1]:

其中,α是系数向量,g(.)是联系函数,Mode为众数。为了模型的可识别,

要求‖α‖= 1,α的第一个非零元素是正的[1]。

将基于样条和光滑先验分布提出一种可以得到参数和非参数的Bayes 估计方法,采用的是同时综合了Gibbs抽样和MH算法的混合算法。最后得出以下贝叶斯估计:

根据参数的先验分布公式,可以得到参数的联合后验分布为:

设(δ(j),α(j),k(j),ξ(j),(σ2)(j),j= 1,2,…,J) 是从(2)式中抽取的(α,k,ξ,δ,σ2)的随机样本,则α,k,ξ,δ,σ2的Bayes估计算式分别为

另外,对于未知的光滑函数g(αTXi),我们可以通过如下方式来进行估计:

1 单指标众数模型的Bayes局部影响分析

在本节中,我们主要针对单指标众数模型考虑因变量和自变量的扰动情形。首先写出参数α的条件分布:

1.1 因变量扰动模型

因变量扰动模型如下[1]:

其中,wT=(w1,w2,…,wn),w0T=(0,0,…,0)表示没有受到扰动,对该扰动模型取对数后得到:

其中,C0是与参数α无关的量,由(5)式可以直接计算可得

混合导数矩阵为,

通过公式(6)和(7),我们可以计算得到影响矩阵[1]:

1.2 自变量扰动模型

假设只扰动矩阵X=(x1,x2,…,xn)T的第t列Xt,即Xt扰动为

其中,st为Xt某种模,η=(η1,η2,…,ηn),η0=(0,0,…,0)T代表没有受到扰动,对该扰动模型取对数后得到[1]:

这里的ρt是一个q维单位向量(第t个分量为1),由上式经计算直接可得[1]:

其中,X(t)表示X的第t列变成Xt+stη,U和W的具体表达式为

U=diag{Y1-B((X1+stη1ρt)TαT)Tδ,Y2-B((X2+stη2ρt)TαT)Tδ,…,Yn-B((Xn+stηnρt)TαT)Tδ,W=diag{Y1-g(αT(X1+str1δt)),…,Yn-g(αT(Xn+strnδt))},

E(t)表示第t列全为1,其他位置皆为0的n×q矩阵,

把上面式子带入,即可求出影响矩阵[7]:

2 随机模拟和实例分析

在本节中,我们将通过一个模拟实验和一个关于波士顿住房数据来验证前面所提出的方法。

2.1 随机模拟

本小节将利用模拟研究来说明所提出的方法在有限样本下的效果。所用到的数据由以下模型“sine - bump”生成[1]

其中,Xi~U(0,1),且σ= 0.5,。显然,模型的未知参数是α和样条系数δ,考虑样本量n为200,对上述实验设计下产生的实验数据,我们打算用上面介绍的Bayes局部影响分析方法,来判断哪些点为异常值。

在给定上述信息情况下,将进一步考虑未知函数g(u)的样条参数的Bayes估计:

其中,节点数k=20,节点(ξ1,…,ξk)选择的是区间[umin,umax]的等距节点。umin和umax是u中的最小值和最大值。然后给定α和样条系数δ的初值,可以得到一条随机样本链。

求解出参数α的局部影响分析结果如下:

(1)图1 展现出了局部影响分析响应变量Y扰动的结果,从图1 中,可以明显地看到第117、169点的值比较大,这些点很可能是异常值。

图1 因变量Y的扰动

(2)图2展现出了局部影响分析反映变量X的扰动的结果,从图2中,可以看到第117、169号点的值比较大,它们对反映变量X有较大扰动,由此可以判断这些点可视为异常点。

图2 协变量X的扰动

2.2 实例分析

在本小节中,使用关于波士顿房价数据(Boston housing data)来证实所提出的方法。数据说明和模型假设均与前面相同,此数据一共收集了506住房信息[1]。

含有1 个因变量MEDV(the median value of owner-occupied homes in$ 1000)和13 个协变量。我们最感兴趣的,是研究MEDV 和其他13个协变量之间的关系。比较完整和详细的数据描述可以在StatLib中通过链接http://lib.stat.cmu.edu/datasets/boston 找到。在本实例研究中,主要考虑三个协变量RM,DIS和LSTAT(详细介绍请见表1)。

表1 波士顿房价的主要研究数据结构

为了更好地研究这些变量的特征,我们用单指标众数模型来抓住这些数据中隐藏的非线性关系和变量分布的有偏特征。这里εi~N(0,1),于是考虑如下单指标众数模型[1]:

为了得到α1,α2,α3的估计,需要先获得g(u)的样条估计,α的局部影响分析结果如下:

(1)图3 展现出了局部影响分析响应变量Y 扰动的结果,从图中,很明显的看到第35、343、379、387、411、433点的值比较大,这些点很可能是异常点。

图3 因变量Y的扰动

(2)图4,展现出了局部影响分析反映变量X的扰动的结果,从图中,看到第379、387、411、433号点的值比较大,它们对反映变量X有较大扰动,由此可以判断这些点可视为异常点。

图4 自变量X的扰动

3 讨论与结语

从Bayes 的角度,探讨了基于众数回归的单指标模型的Bayes 局部影响分析。针对参数的后验分布,设定了扰动方法来揭示模型的因变量和自变量的扰动的本质。

同时用上面的方法通过模拟研究和波士顿房价数据来说明提出的方法。从模拟结果中可以看出,不同的扰动模型,可能得到不同的异常点或强影响点,但是无论用什么扰动模型,最后研究结果中都含有第117、169 点,这说明这些点就是异常点。而真实数据的例子,通过综合所有结果,也得出了共同点,它们是第379、387、411、433点,这说明这些点就是异常点。研究结果证实,在检测异常值方面,本文提出的模型和方法是行之有效的[1]。

猜你喜欢

因变量样条扰动
Bernoulli泛函上典则酉对合的扰动
一元五次B样条拟插值研究
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
(h)性质及其扰动
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
三次参数样条在机床高速高精加工中的应用
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
偏最小二乘回归方法
基于样条函数的高精度电子秤设计
小噪声扰动的二维扩散的极大似然估计