随机缺失函数型数据的k近邻估计及其应用

2020-04-08程彦茹凌能祥

合肥工业大学学报（自然科学版） 2020年3期

关键词：样本量结节证明

程彦茹, 凌能祥

(合肥工业大学数学学院,安徽合肥 230601)

考虑函数型数据非参数回归模型：

Y=m(χ)+ε

(1)

其中,Y为响应变量(标量);χ为取值于无限维向量空间SH⊂H中的函数型解释变量;m(·)为从SH到R的未知回归算子;ε为随机误差,且满足:

E(ε|χ)=0,a.s.;0

文献[1]提出的函数型非参数回归算子的k近邻估计量,用交叉验证寻找最优的正整数k来代替传统NW核回归估计中的连续窗宽h,更符合函数型数据的局部结构,相关文献可参见文献[2-5]。

考虑到实际中观测手段、天气状况及仪器设备等影响,收集的数据常常是不完全的,响应变量随机缺失就是一种常见的情形。因此本文主要研究响应变量Y随机缺失时非参数回归模型(1)的k近邻估计,即当Y缺失时,δ=0;反之δ=1,并且满足给定χ时,δ与Y是条件独立的,即P(δ=1|Y,χ)=P(δ=1|χ)=p(χ),a.s.。

1 估计量的构造及主要结果

1.1 模型及估计

假设随机向量{(χi,δi,Yi)|1≤i≤n}来自总体(χ,δ,Y),Yi缺失时,δi=0;反之δi=1。则Yi=m(χi)+εi,i=1, 2,…,n。m(·)的k近邻回归估计定义如下:

(2)

其中,K(·)为实值核函数;d(·,·)为空间H上的半度量;Hn,k(χ)为随机窗宽,满足:

其中,B(χ,h)为以χ为中心,h>0为半径的小球。若Hn,k(χ)=hn(χ),其中hn(χ)为一列非随机正序列,且随着n→∞时,趋近于0,则(2)式转化为文献[6]提出的NW核估计量，即

(3)

为了通过熵的概念来证明H的子集SH上的一致结果,给出空间SH上Kolmogorovε熵的定义为ψSH(ε)=log(Nε(SH)),其中Nε(SH)为在空间H上必须覆盖SH的开球半径ε的最小值。

1.2 主要结果

由于篇幅有限,一些前提假设可见文献[4]中假设H1～H6。以下是估计量的渐近性质。

(4)

2 引理及定理证明

为证明定理1,需要如下2个引理。类似于文献[4],令{(Ai,Bi)|1≤i≤n}为取值于(Ω×R,A×(R))的随机向量,其中(Ω,A)为通常的可测空间。令SΩ为Ω的固定子集,G(·,·):R×(SΩ×Ω)→R+为函数,且∀χ∈SΩ,G(·, (χ,·))为可测的。同时对∀t,t′∈R,t

G(t,z)≤G(t′,z), ∀z∈SΩ×Ω。

对于∀χ∈SΩ,n≥1,定义:

(2) 当n→∞时,有

O(un)。

则有:

(5)

证明见文献[4]。

引理2 在文献[4]假设H1～H6下,有

(6)

证明见文献[7]。

下面在引理1、引理2的基础上给出定理1的证明。

严格意义上讲，甲状腺结节性病变从其发病特点上区分，可分为两类。第一类，单发性结节；第二类，多发性结节。在临床诊断治疗领域，需要密切关注的是病变性的结节特征。具体来看，包括结节的大小、部位、质地、功能等。如上所述，甲状腺结节病变主要呈现为单发性和多发性，包括有增生性、肿瘤性、胶体性、囊性、甲状腺炎性等。总之，在临床治疗尤其是早期控制阶段，对不同类型的甲状腺结节性病变予以对应的治疗措施是非常关键的。正如开篇所言，B超检查诊断的临床意义巨大。

3 模拟研究

本节通过模拟研究来验证k近邻回归估计的有效性,同时在有限样本下将本文提出的k近邻回归估计与文献[7]提出的NW核回归估计的预测效果进行对比。

t∈[0, π],

n=200的曲线样本如图1所示。同时,取核函数为K(u)=1-u2,u∈(0,1),半度量为：

∀χi,χj∈SH。

图1 n=200的曲线样本

其中，MSEj为第j个检验样本的MSE,具体结果见表1所列。本文缺失机制同文献[8],α越大,缺失率越小。

从表1可以看出,在相同样本量下,2种估计量的AMSE都随着缺失率的减小(α增大)而逐渐减小;在缺失率相同的情况下,样本量越大,2种估计量的预测效果越好;而在样本量与缺失率均相同的前提下,k近邻估计量的预测效果比NW核估计量的预测效果好。表中数据说明,k近邻估计量可以较好地处理缺失数据的预测问题；结合文献[1,2,9]的结论，可以发现在任何情况下,k近邻估计量与NW核估计量相比有明显的优势。