高维非正态总体协方差阵检验的检验统计量

2018-03-05闫梓心刘忠颖张兆元

长春师范大学学报 2018年2期

关键词：估计量样本量协方差

闫梓心，刘忠颖，王娇，张兆元

(1.长春师范大学数学学院，吉林长春 130032；2.长春师范大学工程学院，吉林长春 130032)

我们考虑单样本问题，即令X1,X2,…,XN是独立的p维随机向量，每个Xi能被表示为

(1)

其中，μ是p维常数向量，∑为p×p的正定阵．并且随机向量Zi=(Zi1,Zi2,…,Zip)′的均值向量为0p×1，协方差阵为p阶单位阵I，i=1,2,…,N.在对大维数据进行统计检验时，检验假设

H0:∑=Iv.s.H1:∑≠I.

被很多研究者关注[1-6]．文献[1,4-6]在建立检验统计量时对tr(∑-I)2进行了估计．本文给出tr(∑-I)2的一个无偏估计量，证明它是相合的，并借助模拟实验说明我们提出的估计量的优良性.

1 tr(∑-I)2的估计量

在对tr(∑-I)2进行估计时，因为tr(∑-I)2=tr(∑2)-2tr(∑)+p，需要给出tr(∑2)和tr(∑)的估计量.众所周知，协方差阵的一个优良的估计量是样本方差阵

[指导教师]刘忠颖(1977- )，女，讲师，硕士，从事多元统计分析研究。

定理1 对于模型(1)，tr(∑-I)2的无偏估计量为

为了说明相合性，我们沿用文献[8]提出的渐近框架和假设：

当N、P→时，

A1:N/p→c∈(0,)，

A2:tr(∑2)/p→a∈(0,)，

A4:‖∑∘∑‖<,‖∑‖<，

证明由文献[8]中定理2，可以得到，在假设A1、A2和A3成立下，

记Zi=(Zi1,Zi2,…,Zip)′，∑=(σij)p×p.则

在下面的推导中将一直采用样本方差的这种表示方式.显然可以得到

则

其中，

同理，可以得到

则

及

在假设A2、A4和A5下，当N,p→时，D(trS/p)→0.由切比雪夫不等式，可得到

定理1和定理2说明了统计量T1是无偏的、相合的.

2 模拟与应用

利用Monte Carlo模拟说明我们提出的估计量的功效.

在模拟中，给出均值向量是零向量以及协方差矩阵∑=(0.2|i-j|).取样本量和随机向量维数为N,p=50,100,150,200，循环次数为5000.关于分布，取以下三种情况：

①Zi=(Zi1,Zi2,…,Zip)′中的Zi1,Zi2,…,Zip是独立同分布的，都服从标准正态分布N(0,1).

③令Zij=(ωij-8)/4，其中ωi1,ωi2,…,ωip是独立同分布的，都服从自由度是8的χ2分布.

在每一种情形下，计算f(∑)=tr(∑-I)2/p、T1/p、f(∑)与T1/p的标准误e1.一般容易想到的tr(∑-I)2的估计量是T2=tr(S-I)2，为了比较，我们还计算了T2/p、f(∑)与T2/p的标准误e2.

表1 基于①计算f(∑)、T1/p、f(∑)与T1/p的标准误e1、T2/p、f(∑)与T2/p的标准误e2

表2 基于②计算f(∑)、T1/p、f(∑)与T1/p的标准误e1、T2/p、f(∑)与T2/p的标准误e2

表3 基于③计算f(∑)、T1/p、f(∑)与T1/p的标准误e1、T2/p、f(∑)与T2/p的标准误e2

表1中数据是来自①的分布，表2中数据是来自②的分布，表3中数据是来自③的分布.从表1、表2、表3中的数据可以看出：无论是样本量和维数的大小关系如何(只要它们的比值收敛)，T1/p的值都十分接近tr(∑-I)2/p的值，标准误非常小，而T2/p的值和标准误都不好，这充分地说明我们提出的估计量比T2要好.

我们收集了20个在校大学生的通话数据如表4所示.

表4 在校大学生的通话数据

将表4中数据都取了常用对数，然后利用MATLAB软件编程计算了这组数据的总体协方差矩阵与单位阵间的tr(∑-I)2/p的估计值为0.7910.因为我们提出的估计量的良好性质，可以认为这个数字是很接近真值的.

3 结语

本文给出了tr(∑-I)2的一个无偏及相合估计量，这个估计量不受样本量和维数的大小关系的限制(只要它们的比值收敛)，同时对总体分布也没有限制，故它可以被用在多种多元分布中.而且利用Monte Carlo模拟给出三个表格，这几个表格中的数据说明了本文提出的估计量的值很接近真值.运用此估计量，对所收集的在校大学生通话数据的总体协方差阵函数进行了估计.

[1]Wang Cheng.Asymptotic power of likelihood ratio tests for high dimensional data[J].Statistics and Probability Letters,2014,88(2):184-189.

[2]Jiang Tiefeng,Yang Fan.Central limit theorems for classical likelihood ratio tests for high-dimensional normal distributions[J].The Annals of Statistics,2013(41):2029-2074.

[3]Chen Binbin,Pan Guangming.CLT for linear spectral statistics of normalized sample covariance matrices with the dimension much larger than the sample size[J].Bernoulli,2015(21):1089-1133.

[4]Ery Arias-Castro,Sebastien Bubeck,Gabor Lugosi.Detecting positive correlations in a multivariate sample[J]. Bernoulli,2015(21):209-241.

[5]Wang Cheng,Yang Jing,Miao Baiqi,et al.Identity tests for high dimensional data using RMT[J].Journal of Multivariate Analysis,2013(118):128-137.

[6]Wang Qinwen,Yao Jianfeng.On the sphericity test with large-dimensional observations[J].Electronic Journal of Statistics,2013(7):2164-2192.

[7]Thomas J Fisher.On testing for an identity covariance matrix when the dimensionality equals or exceeds the sample size[J].Journal of Statistical Planning and Inference,2012(142):312-326.

[8]Tetsuto Himenoa,Takayuki Yamada.Estimations for some functions of covariance matrix in high dimension under non-normality and its applications[J].Journal of Multivariate Analysis,2014(130):27-44.

[9]Cai Tony,Ma Zongming.Optimal hypothesis testing for high dimensional covariance matrices[J].Bernoulli, 2013(19):2359-2388.

[10]Chen Songxi,Zhang Lixin,Zhong Pingshou.Testing for high dimensional covariance matrices[J].Journal of the American Statistical Association,2010(105):810-819.