LINEX损失下区间数据回归系数的贝叶斯估计
2022-01-24许岷
许 岷
(北京航空航天大学 经济管理学院,北京市 100191)
一、引言
随着大数据时代的到来,数据量级爆发式增长,数据维度不断增高,数据类型越来越复杂、多样。许多基于传统点数据的统计分析方法不再适用,亟待进一步更新与扩展。1987年,分类学家Diday[1]提出了符号数据的概念,即通过“数据打包”思想,将海量、高维数据按类打包成一个“符号”。区间数据是一类典型的符号数据。
近年来,基于区间数据的经典统计分析方法被广泛研究,区间数据的线性回归模型已发展的相当成熟。Billard和Diday[2]利用区间的中心表示区间数据,并建立了区间中心的线性回归模型。为了进一步挖掘区间内部信息,Lima Neto和Carvalho[3]提出了中心半长法,即使用区间的中心和半长表示区间,并分别建立区间中心和半长的线性回归模型。该方法的提出打开了区间数据分析的新局面,一系列基于中心半长法的模型相继被提出,如Lasso回归模型[4]、非参数模型[5]和考虑内部散点的回归模型[6]等。
从统计决策理论角度看,现有的区间数据回归模型的参数求解过程是通过最小化平方损失函数得到参数的估计。例如,在基于中心半长法的区间回归模型中,通过最小化平方损失得到回归系数的最小二乘估计[3]。平方损失是一种常用的对称损失函数,已经广泛使用在统计建模的各个领域。
对称的损失函数对高估或者低估某个参数赋予相同的风险测度,但在医学分析、可靠性分析、金融数据分析研究中,高估或者低估某一特定值常常会产生更大的风险。例如,股票投资中股民对股票价格的波动非常敏感,过高或过低的预测估计都会影响股民的投资决策和投资利益[7]。在可靠性分析领域,高估某件器材的平均寿命要比低估该器材的平均寿命带来的风险更大[8]等。此时,需要引入新的非对称损失函数解决参数高估或者低估问题。
Varian[9]提出的线性指数(linearexponential,LINEX)函数是一种典型的非对称损失函数。Zellner[10]将其拓展到贝叶斯数据分析领域。如今,各类基于LINEX损失函数的贝叶斯估计已被广泛研究。王茹和周菊玲[11]提出了复合LINEX对称损失下Kumaraswamy分布参数的贝叶斯估计。王理峰[12]研究了在LINEX损失下,多元正态分布熵的Stein型和Brester-Zidek型贝叶斯估计等。
利用区间数据刻画医学、地质学数据时也会遇到刻画参数高估或低估风险的问题。因此提出基于LINEX损失的区间线性回归模型有重要的理论与现实意义。
二、LINEX损失及性质
三、模型建立
本节阐述基于LINEX损失函数的回归系数贝叶斯估计值的求法。首先介绍模型的矩阵表示及贝叶斯框架;其次求解回归系数的后验边缘分布,并在LINEX损失条件下求解贝叶斯估计值。
(一)模型描述
(二)基于LINEX损失的后验推断
四、数值试验
本节利用模拟数据,比较基于LINEX损失函数的贝叶斯估计值和最小二乘估计值的风险。依次介绍模拟数据的生成方法和不同预测指标,最后对试验结果进行比较和讨论。
(一)数据生成方法
本节参照已有文献生成模拟数据,中心和半长数据可以按均匀分布生成,回归系数可以看成固定的常数。具体步骤如下:对第 i(i=1,2,…,n)个样本,
(二)评价指标
对每种样本量 n=20,50,100的模拟数据重复M=1000次,计算平均风险比较基于LINEX损失的贝叶斯估计值和最小二乘估计。本文选取在LINEX损失函数研究领域常用的LINEX风险及比率作为评价指标,设θ为真实参数值,则风险值R定义为:
风险值R越低表示估计值越有效。分别利用RLINEX和RLS表示基于LINEX损失的贝叶斯估计值和基于LINEX损失的贝叶斯估计值和最小二乘估计值。定义二者的比率RE:
其中,RE<1表示贝叶斯估计值的风险比最小二乘估计值小,即贝叶斯估计值更有效。反之,最小二乘估计值更有效,当RE接近于1时,表示两个估计值的有效性相近。
(三)试验结果与讨论
表1和表2展示了基于LINEX风险的比较结果。
表1 基于LINEX损失的风险比较(a=-2,-1)
表2 基于LINEX损失的风险比较(a=1,2)
由表1和表2可知,无论样本量n和参数a取何值,在LINEX损失下,基于LINEX损失的贝叶斯估计值的风险均小于最小二乘估计的风险。例如,当a=-2,n=100时,RLINEX和RLS值分别为2.405和4.457,二者的比值RE=0.54;当a=1,n=20时,RLINEX和RLS值分别为3.898和11.336,二者的比值RE=0.344。图1展示了不同参数a和样本量n条件下RE的变化,进而比较不同参数a和样本量n条件下风险的变化。
图1 基于LINEX损失的风险比较
图1中,随着参数a绝对值的增加,RE的值在降低,即当|a|较小时,基于LINEX的贝叶斯估计值与最小二乘估计相对比较接近,这与LINEX损失函数的性质保持一致。例如,当n=20时,a=-2时,比率RE=0.0123;但当n=20,a=-1时,比率RE增加到0.3968。
随着样本量n的增加,无论a取何值,比率RE都呈上升趋势,即在样本量较大时,基于LINEX的贝叶斯估计值与最小二乘估计相对比较接近。例如,当a=1,n=20 时,比率 RE=0.344,但当 a=1,n=50、100 时,比率RE逐步增加,分别为0.701和0.891。综上,在LINEX损失下,本文提出的贝叶斯估计相对优于已有的最小二乘估计。
五、结语
本文提出了基于LINEX损失函数的区间回归系数的贝叶斯估计。主要研究包括:(1)推导区间数据回归系数的后验边缘分布;(2)利用蒙特卡洛方法求解基于LINEX损失的回归系数估计值;(3)比较该估计与现有最小二乘估计的风险测度。模拟研究表明,本文提出的贝叶斯估计在LINEX风险测度下明显优于最小二乘估计。