基于MATLAB 的核密度估计研究

2021-04-13王萌萌梁泸丹寇俊克

科技视界 2021年4期

王萌萌梁泸丹寇俊克

（桂林电子科技大学数学与计算科学学院，广西桂林 541004）

0 引言

在数理统计研究中，密度估计一直是一个极其重要的热门研究问题。其研究成果被广泛应用到经济学、社会学以及生物统计等领域[1-4]。特别是当前大数据时代，如何对数据进行高效地分析处理以便找出数据之间的特征规律就显得尤其重要。密度估计作为数据分析的一种有效工具，能够高效地找到数据所蕴含的分布规律，这为后续数据分析处理提供了重要的参考依据。密度估计研究的本质问题是如何高效地利用观测数据找到数据的分布规律。常规密度估计方法分为参数估计和非参数估计两类。参数估计方法需要事先假设数据满足某个特定的模型或者有先验知识可以参考。然而在实际应用中，对于获取的数据事先没有任何先验知识可以利用且无法确定数据满足哪些模型，因此，参数估计方法有一定的局限性，无法广泛应用。相反，非参数估计方法不需要借助任何先验知识，仅仅利用数据本身信息进行估计，因而在实际应用中得到了广泛的应用。

在非参数估计方法中，核密度估计方法以其原理简单易懂且操作便捷而备受关注。核密度估计方法不需要先验知识，且能够处理较为复杂的数据，同时其估计效果也十分理想。鉴于上述特点，核密度估计方法被广泛应用于公共事务、地理信息、医疗教育等多个领域[5-8]。核密度估计方法估计效果的优劣其关键在于核函数的选取以及带宽的选择。针对这一问题，本文将借助MATLAB 软件进行数值模拟实验，对比分析不同核函数、不同带宽以及不同样本容量对密度估计效果的影响。通过实验分析核密度估计方法参数选取的优劣性，以期为当前大数据处理提供理论依据。

1 核密度估计理论

核密度估计方法作为非参数密度估计的经典方法之一，在大数据处理中发挥着极其重要的作用。本文首先简要介绍核密度估计方法的原理。在某一事件概率分布未知的情况下，利用观测数据进行密度函数估计。另外，数据之间由于距离的远近也会产生不同程度的影响。故认为距离较近的数据互相之间产生的影响较大，而距离较远的数据产生的影响较小。核密度估计方法正是基于上述思想建立起来的。

设随机变量X1，X2，…，Xn是从总体中抽取的独立同分布样本，其密度函数为f（x），则核密度估计器（为其中，n 为样本容量，h 为带宽，K（x）表示核函数。作为核密度估计方法的核心，其核函数应具备以下条件：（1）非负性K（x）≥0；（2）对称性K（x）=K（-x）；（3）归一性∫RK（x）dx=1。针对核密度估计器（f（x）来说，通过观察发现该方法主要强调当随机变量Xi与变量x 的绝对值越小，则两者距离越小，进而随机变量Xi对点x 处的密度函数值影响越大。另外，核密度估计器只依赖于样本数据、带宽以及核函数，对于样本数据是否满足特定的模型或者规律不做要求。

针对核密度估计器来说，只要其核函数以及带宽选取得当，核密度估计方法可以以任意精度去逼近真实密度函数。常规核函数主要有表1 所示的几种。

表1

2 数值实验

针对核密度估计问题，不同核函数、不同带宽以及不同样本容量都会对估计效果产生影响。鉴于上述参数的重要性，本文下面将借助MATLAB 软件进行核密度估计数值实验对比分析[9-10]。

2.1 不同核函数实验

本节将分别选取高斯核、均匀核、三角核以及二次核函数进行实验对比分析。首先，利用MATLAB 软件随机生成1 000 个服从标准正态分布的随机样本数据；然后，针对这1 000 个样本数据分别选用高斯核、均匀核、三角核以及二次核进行密度估计实验，其实验结果如图1 所示。

从图1 可以看出，4 种核函数估计结果均呈现正态分布形态。这说明当样本数据大致呈正态分布的时候，上述4 种核函数都能取得不错的估计效果。但是，不同核函数的估计效果仍存在比较明显的差异，其差异性主要表现在X 轴的负半轴以及峰值附近。高斯核函数和二次核函数在X 轴负半轴的估计效果要优于三角核与均匀核。另外，在峰值处虽然估计值均比真实值小，但是高斯核峰值附近产生差异的区间要小于其他核函数。从整体上来说，4 个核函数的估计结果与真实密度函数大体保持一致，所得到的密度估计曲线基本相同。

图1 不同核函数估计结果

2.2 不同带宽实验

在核密度估计方法中，带宽的选取会对估计效果产生很大的影响。前文已经通过分析核估计器的函数特性说明了这一点。下面将通过数值实验对比分析带宽选择的优劣性。首先，利用MATLAB 软件生成100个服从正态分布的随机样本数据，核函数选择高斯核函数。为了更加充分地分析带宽选择对估计效果产生的影响，带宽依次选择h=1，h=3，h=5 以及h=10。其实验结果如图2 所示。

从图2 可以看出，对于同一组样本数据且核函数相同的情况下，当带宽为1 时，曲线波峰过多且参差不齐，过分细化导致密度估计波动太大，从而丧失了密度估计的意义。当带宽h=10 时，数据平均化过于突出，密度估计太过平稳，从而使得估计值与真实值偏差过大。由此可知，带宽选取过小或过大都会使密度估计值与真实值偏差过大。另外，从图2 也可以看出当带宽h=3 时估计结果与真实密度函数图像几乎完全重合，这就意味着在此带宽条件下估计效果最好。综上可知，带宽的选取对核密度估计效果具有显著的影响。

图2 不同带宽估计结果

2.3 不同样本容量实验

针对核密度估计问题，样本容量的大小也会对估计效果产生影响。一般来说，可以利用的有效数据越多，则估计效果就越好。为了充分分析样本容量对估计效果好坏的影响，在同一带宽和核函数的条件下对比分析不同样本容量的估计结果。分别进行样本容量为20、50、100、1 000 的数值实验，其实验结果如图3所示。

由图3 可知，当样本容量过小时（n=20），其估计结果与真实密度函数相差太大，尤其在峰值处更为突出。当样本容量过大时（n=1 000），虽然其估计结果与真实密度函数大体一致，但是在峰值处仍存在较大差异。当样本容量为100 时，其核估计结果与真实密度函数图像几乎重合，估计效果最好。另一方面，对比样本容量20，50，100 的估计结果可以得出，随着样本容量的增大，核密度估计效果越来越好。但是这并不意味着样本容量越大越好，这一观点可以从样本容量1 000 时的估计结果可以看出。

综上分析可知，在带宽固定的条件下，样本容量选取过小，数据细化作用突出，估计偏差较大，无法反映出真实数据的特性；样本容量选取过大，估计效果整体偏好，但是在峰值附近误差过大。

3 结论

针对密度估计问题，本文借助MATLAB 软件分析了核密度估计方法关键参数核函数、带宽以及样本容量对估计结果的影响。通过实验对比分析发现，核函数的选取对于估计效果的好坏影响不大，但是带宽以及样本容量的选取对于估计结果的影响程度较大。其次，带宽过小或者过大都会导致密度估计结果与真实密度函数偏差较大，因此，必须选择合适的带宽才能得到理想的估计效果。另外，样本容量并不是越大越好，而是应该在一个合理的范围之内。最后，对于密度估计问题，核密度估计方法必须依据数据的某些特征，合理恰当地选取核函数以及带宽，并利用一定数量的样本数据进行密度估计，以期得到更加理想的估计结果。