APP下载

组合惩罚下联合均值与方差模型的变量选择

2014-09-07莹,新,

大连理工大学学报 2014年1期
关键词:方差惩罚均值

董 莹, 宋 立 新, 石 新 勇

( 1.大连理工大学 数学科学学院, 辽宁 大连 116024;2.大连民族学院 理学院, 辽宁 大连 116600;3.中国人民解放军68048部队, 陕西 宝鸡 721013 )



应用数学

组合惩罚下联合均值与方差模型的变量选择

董 莹1,2, 宋 立 新*1, 石 新 勇1,3

( 1.大连理工大学 数学科学学院, 辽宁 大连 116024;2.大连民族学院 理学院, 辽宁 大连 116600;3.中国人民解放军68048部队, 陕西 宝鸡 721013 )

在生产实践和计量经济领域中,控制产品质量的方差就能保证产品的合格品数相对稳定,所以当前学者对联合均值与方差模型的研究倍感兴趣.基于解释变量经常是具有相关关系的实际情况,提出了一种由SCAD惩罚和岭回归混合在一起的组合惩罚,该惩罚充分利用了岭回归能克服解释变量相关性过高对估计效果的影响,同时也证明了这样的惩罚具有相合性和Oracle性质.使用该组合惩罚对联合均值与方差模型进行了变量选择.最后的随机模拟结果表明该模型和方法是有效的.

组合惩罚;联合均值与方差模型;变量选择;惩罚极大似然估计

0 引 言

变量选择是一种特殊的模型选择问题,在统计研究中有着重要的意义.一般说来,根据问题本身的专业理论以及有关经验,人们罗列出来的可能与因变量有关的自变量往往有很多,其中有一些变量对因变量根本没有影响或影响很小.如果在建模中把这样的一些变量都包括进来,不但计算量大,估计和预测的精度也会下降.而且实际问题中,某些自变量的获得代价昂贵.因此,对模型自变量的选择做一些理论分析很有必要.

目前,对均值回归模型的变量选择已有大量的文献提出了相对成熟和有效的方法[1].但是在回归模型中,估计均值参数的有效性依赖于正确的模拟散布参数.因此对方差的讨论能更好地解释数据变化的原因和规律,这是数据分析中一个重要的发展趋势.这种思想体现在经济领域和质量管理等方面.控制期望值只表明性能指标的平均值合乎要求,但若方差比较大,则相当一部分产品仍然不合格,因而控制方差的大小与产品的合格率发生了紧密的联系.因此,可以试着对方差建模,将方差也看作解释变量的函数形式,进而了解方差的来源,知道哪些变量对方差具有主导作用.

最近几年,许多统计学家对正态分布联合均值与方差模型的研究也倍感兴趣.Harvey[2]给出了联合均值与方差模型的极大似然估计;Engel等[3]将联合均值与方差模型应用到Taguchi的稳健试验设计中;Smyth等[4]、Lee等[5],以及Wang等[6]在联合均值与散布参数建模的框架下,研究了广义线性模型和更广泛分布的统计推断.然而,对方差部分赋予一个模型结构后,关于均值和方差的联合建模结构下的变量选择问题尚待探讨.

吴刘仓等[7-8]对联合均值与方差模型的变量选择进行了探讨,得到了所提出的模型下的惩罚极大似然估计的优良性质以及其方法的有效性.本文在此模型下进一步探讨一些具有高度相关关系的变量有可能对因变量具有很强的影响的情形.在实际情况中,解释变量不相关的情况几乎是不可能的,特别是在经济及生物基因研究领域.Wang等[9]提出了组合惩罚(combined penalization,CP).这一惩罚将平滑削边绝对偏离(smoothly clipped absolute deviation,SCAD)惩罚和岭回归组合起来进行变量选择,这种惩罚充分利用了岭回归能克服解释变量相关性过高对估计效果的影响,同时也可以证明这样的惩罚具有相合性和Oracle性质.

本文基于组合惩罚对联合均值与方差模型进行变量选择,实现对均值模型和方差模型同时进行变量选择的目的.

1 基于组合惩罚下的极大似然估计变量选择

1.1 联合均值与方差模型

考虑联合均值与方差模型

(1)

其中xi=(xi1xi2…xip)T和zi=(zi1zi2…ziq)T是解释变量,yi是其相应的响应变量,β=(β1β2…βp)T是p×1的均值模型的未知参数向量,γ=(γ1γ2…γq)T是q×1的方差模型的未知参数向量.xi和zi可能包含不同或者相同的一些解释变量,或者包含相同的解释变量但却具有不同的影响方式.

1.2 组合惩罚极大似然估计

假设(yi,xi,zi)(i=1,2,…,n)是来自联合均值与方差模型的随机样本,记L(β,γ)为联合均值与方差模型的对数似然函数,类似于文献[10],可以定义组合惩罚似然函数为

(2)

其中λ和ι是调整参数,本文采用BIC准则来选择调整参数.此处P′λn是SCAD惩罚函数且定义为

其中a>2,θ>0,Pλn(0)=0.

为了叙述简便,重写组合惩罚似然函数(2)为

(3)

其中θ=(θ1θ2…θs)T=(β1β2…βp

2 条件与性质

为了得到惩罚极大似然估计的相合性和渐进正态性,需要给出以下正则条件:

(1)xi=(xi1xi2…xip)T和zi=(zi1zi2…ziq)T(i=1,2,…,n)是固定的;

(2)参数空间是紧的,真实参数θ0为参数空间的内点;

(3)xi和zi在联合均值与方差模型中是完全有界的,即它们中的所有分量是一个有限的实数;

定理2惩罚函数满足

(2)(渐近正态性)

注1定理1和定理2的证明类似于文献[10].证明略.

注2定理2表明组合惩罚下的极大似然估计具有Oracle性质.

3 算 法

下面给出计算组合惩罚之下的联合均值方差模型的极大似然估计的方法,同时给出调整参数ιn和λn的选择方法.

3.1 计算组合惩罚之下的联合均值与方差模型的极大似然估计

首先,注意到对数似然函数L(θ)的一、二阶导数是连续的,对给定的θ0,对数似然函数近似为

令组合惩罚部分为

这里

J′λ·,ι·(|θ0j|)=ι·θ0j+P′λ·(|θ0j|)sgn(θ0j)

当下标“·”取1时,j=1,…,p;当下标“·”取2时,j=1,…,q.

因此,除了相差一个与参数无关的常数项外,组合惩罚似然函数式(3)便可二次逼近为

其中

θ=(θ1θ2…θs)T= (β1β2…βpγ1γ2…γq)T

θ0=(θ01θ02…θ0s)T= (β01β02…β0pγ01γ02…γ0q)T

因此Q(θ)的二次最优化解可通过下列迭代得到:

(4)

其次,在本文探讨的模型下的对数似然函数L(θ)可写为

而且有

其中

同样地

其中

利用式(4),就可以找到联合均值与方差模型在组合惩罚下的极大似然估计的迭代值.

3.2 调整参数ιn和λn的选择

为了补充前面所介绍的方法,还需要对调整参数ιn和λn进行选择.事实上,有很多选择调整参数的工具,如CV、GCV、AIC及BIC等准则.

Wang等[11]提出BIC准则在模型选择中具有相合性,利用该准则能依概率1选择真实的模型.因此本文也采用BIC准则来选择ιn和λn,定义如下:

4 模拟研究

对联合均值与方差模型基于不同的样本量和惩罚函数在两种场景下的变量选择方法进行比较研究.从下面的联合均值与方差模型产生模拟数据:

情景1xi取自于均值为0,协方差为r|i1-i2|的多元正态分布,且是pn=10维向量(i,i1,i2=1,2,…,n).zj取自于均值为0,协方差为r|j1-j2|的多元正态分布,且是qn=15维向量(j,j1,j2=1,2,…,n).分别取r=0.1,r=0.9.该情景下的模拟结果汇总于表1.

通过观察表1的结果,可得到以下的结论:

(1)随着样本量n的增大,不论是均值模型还是方差模型的均方误差Ems都在逐渐变小,同时C与I的选择结果也越来越准确.

(2)相关性较高时,明显显示出了CP惩罚的优越性,说明了相关性较高的解释变量在CP惩罚下的结果更加完美.

情景2xi(i=1,…,n)是pn=10维的独立同分布的随机变量,对于xi的前6维分量,xik~N(0,1)(k=1,…,6).当k=7,…,10时,xik与和它强相关的变量xi,k-4有关,即xik用xi,k-4+ηk来代替,其中ηk是独立同分布且服从N(0,0.01) 的分布.zj(j=1,…,n)是qn=15维的独立同分布的随机变量,对于zj的前9维分量,zjt~N(0,1)(t=1,…,9).当t=10,…,15时,zjt=zj,t-6+ηt,其中ηt是独立同分布且服从N(0,0.01) 的分布.该情景下的模拟结果汇总于表2.

表1 基于情景1之下的联合均值与方差模型的变量选择方法比较研究

Tab.1 The comparative study of variable selection via combined penalization in the joint mean and variance models in Scenario 1

r模型方法n=100n=200EmsCIEmsCI0.10.9均值模型LASSO0.03085.565000.01565.660SCAD0.02405.142500.01155.270CP0.02186.487500.00946.560方差模型LASSO0.116110.820000.057211.16750SCAD0.07029.64000.00250.030510.04500CP0.071911.90250.03000.021111.94500.005均值模型LASSO0.11825.062500.05235.26750SCAD0.09364.987500.04485.18000CP0.08186.465000.04286.47250方差模型LASSO0.381810.37250.13250.152010.72250.0325SCAD0.20089.38750.08750.11039.64250.0300CP0.156811.81000.06000.110011.84250.0400

表2 基于情景2之下的联合均值与方差模型的变量选择方法比较研究

Tab.2 The comparative study of variable selection via combined penalization in the joint mean and variance models in Scenario 2

模型方法n=100n=200EmsCIEmsCI均值模型LASSO0.0385.60700.0155.6900SCAD0.0315.09000.0125.1550CP0.0276.42500.0096.5820方差模型LASSO0.12310.8900.0020.05411.0920SCAD0.0759.5880.0050.0319.6100CP0.07311.8900.0220.01511.9350

通过观察表2的结果, 可得到以下的结论:

(1)随着样本量n的增大,不论是均值模型还是方差模型的均方误差Ems都在逐渐变小,同时C的选择结果也越来越准确.

(2)在该情景之下,解释变量的生成本身就具有高度的相关关系,这里也明显显示出了CP惩罚对相关度较高的解释变量的作用之大.

5 结 语

本文在联合均值与方差建模的框架下,基于组合惩罚极大似然估计提出了一种变量选择方法.与均值模型类似,方差模型可能依赖于许多感兴趣的解释变量,同时对均值模型与方差模型进行变量选择可以避免建模的偏差和减少模型的复杂性是非常重要的.

本文运用CP组合惩罚将SCAD惩罚和岭回归混合在一起进行变量选择.该惩罚充分利用了岭回归能克服解释变量相关性过高对估计效果的影响,同时也证明了这样的惩罚具有相合性和Oracle性质.随机模拟的结果可以充分地说明该惩罚在给定模型下是十分有效的.今后可以试着将该模型推广到更一般的情形,同时仍然可以利用CP组合惩罚来研究相关性较高的解释变量的模型的变量选择问题.

[1]FAN Jian-qing, LYU Jin-chi. A selective overview of variable selection in high dimensional feature space (invited review article) [J]. Statistica Sinica, 2010,20(1):101-148.

[2]Harvey A C. Estimating regression models with multiplicative heteroscedasticity [J]. Econometrica, 1976,44(3):461-465.

[3]Engel J, Huele A F. A generalized linear modeling approach to robust design [J]. Technometrics, 1996,38(4):365-373.

[4]Smyth G K, Verbyla A P. Adjusted likelihood methods for modelling dispersion in generalized linear models [J]. Environmetrics, 1999,10(6):695-709.[5]Lee Y, Nelder J A. Generalized linear models for the analysis of quality-improvement experiments [J]. Canadian Journal of Statistics, 1998,26(1):95-105.[6]WANG Da-rong, ZHANG Zhong-zhan. Variable selection in joint generalized linear models [J]. Chinese Journal of Applied Probability and Statistics, 2009,25(3):245-256.[7]吴刘仓,张忠占,徐登可. 联合均值与方差模型的变量选择[J]. 系统工程理论与实践, 2012,32(8):1754-1760.

WU Liu-cang, ZHANG Zhong-zhan, XU Deng-ke. Variable selection in joint mean and variance models [J]. System Engineering — Theory & Practice, 2012,32(8):1754-1760. (in Chinese)

[8]黄 丽,吴刘仓. 基于对数正态分布下联合均值与散度广义线性模型的极大似然估计[J]. 高校应用数学学报:A辑, 2011,26(4):379-389.

HUANG Li, WU Liu-cang. Maximum likelihood estimator for joint mean and dispersion in generalized linear models of the Lognormal distribution [J]. Applied Mathematics a Journal of Chinese Universities:Ser. A, 2011,26(4):379-389. (in Chinese)[9]WANG Xiao-ming, Park T, Carriere K C. Variable selection via combined penalization for high-dimensional data analysis [J]. Computational Statistics and Data Analysis, 2010,54(10):2230-2243.[10]FAN Jian-qing, LI Run-ze. Variable selection via nonconcave penalized likelihood and its Oracle properties [J]. Journal of the American Statistical Association, 2001,96(456):1348-1360.

[11]WANG Han-sheng, LI Run-ze, Tsai C L. On the consistency of SCAD tuning parameter selector [J]. Biometrika, 2007,94(3):553-568.

Variableselectionviacombinedpenalizationinjointmeanandvariancemodels

DONG Ying1,2, SONG Li-xin*1, SHI Xin-yong1,3

( 1.School of Mathematical Sciences, Dalian University of Technology, Dalian 116024, China;2.College of Science, Dalian Nationalities University, Dalian 116600, China;3.Troops 68048, The Chinese People′s Liberation Army, Baoji 721013, China )

In the production and econometric area, controlling the variance of the quality of the product can guarantee the stable quality of products. So scholars are very interested in joint mean and variance models nowadays. In general, it is uncommon for explanatory variables to be uncorrelated. A combined penalization, which is mixed by the smoothly clipped absolute deviation (SCAD) penalty and ridge, is proposed. It can outperform the SCAD penalty technique when the correlation among predictors is high. At the same time, the consistency and the Oracle properties of the combined penalization are proved. Then, the combined penalization is used to select variables in joint mean and variance models. The results of stochastic simulation show that this model and method are effective.

combined penalization; joint mean and variance model; variable selection; penalized maximum likelihood

1000-8608(2014)01-0147-05

2013-04-01;

: 2013-11-28.

国家自然科学基金资助项目(61175041,11371077);国家自然科学基金青年基金资助项目(11101062);中央高校基本科研业务费专项资金资助项目(DUT12LK29);大连民族学院自主科研基金资助项目(DC120101115).

董 莹(1980-),女,博士生,E-mail:dongying@dlnu.edu.cn;宋立新*(1966-),男,教授,博士生导师,E-mail:lxsong@dlut.edu.cn.

O212

:A

10.7511/dllgxb201401022

猜你喜欢

方差惩罚均值
概率与统计(2)——离散型随机变量的期望与方差
神的惩罚
Jokes笑话
方差越小越好?
计算方差用哪个公式
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
惩罚
方差生活秀
真正的惩罚等