极值指数的分布式矩率估计量①
2023-07-15罗心艺彭作祥
罗心艺, 彭作祥
西南大学 数学与统计学院,重庆 400715
设{Xn,n≥1}为独立同分布的随机变量序列, 其公共分布函数为F(x).若存在常数an>0,bn∈R使得对所有1+γx>0, 有
(1)
(2)
当分布函数F未知时, 对极值指数γ的估计是极值理论的一个重要组成部分, 受到了学者的广泛关注, 常用于金融、保险、自然灾害等领域.在分布函数形式未知的情况下, 文献[1]提出了著名的Hill估计量, 推断分布函数的尾部表现; 文献[2-4]在一定条件下证明了Hill估计量的相合性和渐近正态性; 文献[5]提出了矩率估计量, 并给出了其分布表示; 文献[6]提出了一系列基于二阶参数的外部估计得到的渐近无偏估计量, 并证明了其渐近性质; 文献[7]证明了包含Hill估计量和矩率估计量在内的一系列尾指数估计量的渐近正态性.关于尾指数估计量的更多研究, 见文献[8-10].
在大数据时代, 估计极值指数时, 常常会遇到被分开存储的数据, 例如分析来自不同保险公司的保险索赔时, 为了保护客户的隐私, 保险公司不能向外部分享具体的数据, 甚至不能分享任何索赔结果, 此时前文所提的Hill估计量和矩率估计量等都不可用.与大部分尾指数估计量的相关文献一样, Hill估计量等只使用了一部分秩序较高的统计量.文献[11]和文献[12]基于块方法提出了DPR估计量.当数据被分组储存且每组只有少数几个最大的样本可用于分析时, DPR方法是可行的, 但是它仅使用了每块中最大的两个样本, 很可能并不是尾指数的充分统计量.
(3)
受文献[13]启发, 本文基于矩率估计量提出如下分布式矩率估计量
(4)
(5)
(6)
1 相合性和渐近正态性
其中
(7)
2 定理的证明
定理1的证明由文献[14]的定理B.1.9知, 对x>1和t≥t0有,
(γ-ε)log((1-ε)x) (8) 则 (γ-ε)2(log((1-ε)x))2<(logU(tx)-logU(t))2<(γ+ε)2(log((1+ε)x))2 (9) 由(10)式和(11)式可得 (12) 由文献[15]的引理3.4知 其中{Ej(i),i=1, …,d}服从独立同分布的标准指数分布,j=1,…,k.因此 (13) (14) 对定理2的证明, 我们需要下面这个辅助引理. 引理1令Z(1)≥…≥Z(m)表示服从Pareto(1)分布的独立随机变量{Z1, …,Zm}的次序统计量, 则对任意ρ≤0, 有 证见文献[13]的引理S.3. (15) (16) (17) 对ρ<0, 存在δ>0使得ρ+δ<0, 应用不等式 可以得到 对于I2, 记 故 其后的证明方法与ρ<0的情况类似, 此处省略, 定理证毕. 本文提出了分布式矩率估计量, 下面将其与分布式Hill估计量进行有限样本表现的比较.以γ=1,ρ=-1, 机器数量一定时, Burr分布的表现为例, 其分布函数为F(x)=1-(1+x)-1.随机生成n个来自Burr分布的样本, 存储在k个机器中, 每个机器有m个观测, 对每一个机器, 从m个观测中选取d个超过数(d为自变量), 分别计算分布式Hill估计量和分布式矩率估计量的估计均值和均方误差, 每个实验重复s次并取平均值. 设置n=1 000,k=20,m=50,s=100,d的取值范围为1,…,30, 模拟结果如图1所示. 图1 Burr(1)的分布式Hill估计量和分布式矩率估计量的估计均值及均方误差3 模拟研究