高维非正态总体协方差阵检验的检验统计量
2018-03-05闫梓心刘忠颖张兆元
闫梓心,刘忠颖,王 娇,张兆元
(1.长春师范大学数学学院,吉林长春 130032;2.长春师范大学工程学院,吉林长春 130032)
我们考虑单样本问题,即令X1,X2,…,XN是独立的p维随机向量,每个Xi能被表示为
(1)
其中,μ是p维常数向量,∑为p×p的正定阵.并且随机向量Zi=(Zi1,Zi2,…,Zip)′的均值向量为0p×1,协方差阵为p阶单位阵I,i=1,2,…,N.在对大维数据进行统计检验时,检验假设
H0:∑=Iv.s.H1:∑≠I.
被很多研究者关注[1-6].文献[1,4-6]在建立检验统计量时对tr(∑-I)2进行了估计.本文给出tr(∑-I)2的一个无偏估计量,证明它是相合的,并借助模拟实验说明我们提出的估计量的优良性.
1 tr(∑-I)2的估计量
在对tr(∑-I)2进行估计时,因为tr(∑-I)2=tr(∑2)-2tr(∑)+p,需要给出tr(∑2)和tr(∑)的估计量.众所周知,协方差阵的一个优良的估计量是样本方差阵
[指导教师]刘忠颖(1977- ),女,讲师,硕士,从事多元统计分析研究。
定理1 对于模型(1),tr(∑-I)2的无偏估计量为
为了说明相合性,我们沿用文献[8]提出的渐近框架和假设:
当N、P→时,
A1:N/p→c∈(0,),
A2:tr(∑2)/p→a∈(0,),
A4:‖∑∘∑‖<,‖∑‖<,
证明 由文献[8]中定理2,可以得到,在假设A1、A2和A3成立下,
记Zi=(Zi1,Zi2,…,Zip)′,∑=(σij)p×p.则
在下面的推导中将一直采用样本方差的这种表示方式.显然可以得到
则
其中,
同理,可以得到
则
及
在假设A2、A4和A5下,当N,p→时,D(trS/p)→0.由切比雪夫不等式,可得到
定理1和定理2说明了统计量T1是无偏的、相合的.
2 模拟与应用
利用Monte Carlo模拟说明我们提出的估计量的功效.
在模拟中,给出均值向量是零向量以及协方差矩阵∑=(0.2|i-j|).取样本量和随机向量维数为N,p=50,100,150,200,循环次数为5000.关于分布,取以下三种情况:
①Zi=(Zi1,Zi2,…,Zip)′中的Zi1,Zi2,…,Zip是独立同分布的,都服从标准正态分布N(0,1).
③令Zij=(ωij-8)/4,其中ωi1,ωi2,…,ωip是独立同分布的,都服从自由度是8的χ2分布.
在每一种情形下,计算f(∑)=tr(∑-I)2/p、T1/p、f(∑)与T1/p的标准误e1.一般容易想到的tr(∑-I)2的估计量是T2=tr(S-I)2,为了比较,我们还计算了T2/p、f(∑)与T2/p的标准误e2.
表1 基于①计算f(∑)、T1/p、f(∑)与T1/p的标准误e1、T2/p、f(∑)与T2/p的标准误e2
表2 基于②计算f(∑)、T1/p、f(∑)与T1/p的标准误e1、T2/p、f(∑)与T2/p的标准误e2
表3 基于③计算f(∑)、T1/p、f(∑)与T1/p的标准误e1、T2/p、f(∑)与T2/p的标准误e2
表1中数据是来自①的分布,表2中数据是来自②的分布,表3中数据是来自③的分布.从表1、表2、表3中的数据可以看出:无论是样本量和维数的大小关系如何(只要它们的比值收敛),T1/p的值都十分接近tr(∑-I)2/p的值,标准误非常小,而T2/p的值和标准误都不好,这充分地说明我们提出的估计量比T2要好.
我们收集了20个在校大学生的通话数据如表4所示.
表4 在校大学生的通话数据
将表4中数据都取了常用对数,然后利用MATLAB软件编程计算了这组数据的总体协方差矩阵与单位阵间的tr(∑-I)2/p的估计值为0.7910.因为我们提出的估计量的良好性质,可以认为这个数字是很接近真值的.
3 结语
本文给出了tr(∑-I)2的一个无偏及相合估计量,这个估计量不受样本量和维数的大小关系的限制(只要它们的比值收敛),同时对总体分布也没有限制,故它可以被用在多种多元分布中.而且利用Monte Carlo模拟给出三个表格,这几个表格中的数据说明了本文提出的估计量的值很接近真值.运用此估计量,对所收集的在校大学生通话数据的总体协方差阵函数进行了估计.
[1]Wang Cheng.Asymptotic power of likelihood ratio tests for high dimensional data[J].Statistics and Probability Letters,2014,88(2):184-189.
[2]Jiang Tiefeng,Yang Fan.Central limit theorems for classical likelihood ratio tests for high-dimensional normal distributions[J].The Annals of Statistics,2013(41):2029-2074.
[3]Chen Binbin,Pan Guangming.CLT for linear spectral statistics of normalized sample covariance matrices with the dimension much larger than the sample size[J].Bernoulli,2015(21):1089-1133.
[4]Ery Arias-Castro,Sebastien Bubeck,Gabor Lugosi.Detecting positive correlations in a multivariate sample[J]. Bernoulli,2015(21):209-241.
[5]Wang Cheng,Yang Jing,Miao Baiqi,et al.Identity tests for high dimensional data using RMT[J].Journal of Multivariate Analysis,2013(118):128-137.
[6]Wang Qinwen,Yao Jianfeng.On the sphericity test with large-dimensional observations[J].Electronic Journal of Statistics,2013(7):2164-2192.
[7]Thomas J Fisher.On testing for an identity covariance matrix when the dimensionality equals or exceeds the sample size[J].Journal of Statistical Planning and Inference,2012(142):312-326.
[8]Tetsuto Himenoa,Takayuki Yamada.Estimations for some functions of covariance matrix in high dimension under non-normality and its applications[J].Journal of Multivariate Analysis,2014(130):27-44.
[9]Cai Tony,Ma Zongming.Optimal hypothesis testing for high dimensional covariance matrices[J].Bernoulli, 2013(19):2359-2388.
[10]Chen Songxi,Zhang Lixin,Zhong Pingshou.Testing for high dimensional covariance matrices[J].Journal of the American Statistical Association,2010(105):810-819.