APP下载

非参数密度估计在电线线缆质量控制中的应用

2016-07-27孙其勇安徽江淮电缆集团有限公司安徽巢湖238371

中国新技术新产品 2016年13期
关键词:结果分析

孙其勇(安徽江淮电缆集团有限公司,安徽 巢湖 238371)



非参数密度估计在电线线缆质量控制中的应用

孙其勇
(安徽江淮电缆集团有限公司,安徽 巢湖 238371)

摘 要:本文用非参数密度估计构造了数学模型。该模型不假定数据序列相依形式和概率分布形式,不涉及模型参数估计,只依靠数据本身驱动,克服了参数估计普适性不高的特征。本文探索了非参数密度估计在电线线缆质量控制中的应用,探索了一种精确度较高的的分析方法。

关键词:核估计;窗宽;结果分析;拟合度

0. 引言

数理统计技术,是先进质量管理的重要课题。目前在电线电缆行业中应用较多的数理统计技术是传统的参数统计方法,其基本步骤是:

第一,收集数据;

第二,拟合参数模型;

第三,估计参数模型;

第四,指出拟合效果。

其核心思想是先假设确定的参数模型。这种方法对数据的分析通常有较好的精确度,比如假设正态分布模型,用矩估计、最大似然估计和最小二乘法求参数等等。但是这些方法的缺陷就是模型的假设对不同的样本不具有普适性。本文探索利用非参数密度估计对电缆导体单丝的电阻率进行分析,以寻求一种更为精确的统计方法。

表1  2.52mm模具拉出的铜单丝直径

1. 观察数据

本文首先给出标准直径为2.52mm的模具拉出的铜单丝直径的样本数据见表1(样本容量为100,分16组,组距为0.000022mm),图1为散点图,图2为直方图,了解其所属总体的基本性质:由上面的图形,尤其是直方图,我们能对这组样本数据的分布有一个初步的了解。可以初步估计,该样本数据所属总体是很不对称的,并且左端有较长的尾端,从左向右整体有上升的趋势,在最右端出现一个小的尾端。

2. 密度核估计理论

2.1 核估计定义:设K(x)为R上的一个概率密度函数,h>0是一个与n有关的常数,则

称fn为总体未知密度f(x)的一个核估计,其中函数K(x)称为核,h为窗宽。

2.2 K(x)的确定

研究表明,窗宽h确定时,不同核函数的作用是等价的。实际工作中,一般先选定核函数K(x),然后再寻求最优窗宽h。K(x)对fn的影响很小,因此满足以下基本条件的核函数都合适:

①∫K(x)dx=1;

②函数连续且光滑;

③一阶矩为零,方差有限。

常用的有均匀核,高斯核等。本文以高斯核为核函数。得到函数的核估计:

2.3 窗宽的确定

窗宽h越小,核估计密度对原数据的拟合度越大,但核估计的方差越大。反之,窗宽h越大,核估计的方差越小。通常选用LSCV法确定最佳窗宽,LSCV法是从现有的数据直接得到合理的窗宽,是计算最佳窗宽的经典方法之一。其主要思想是由样本作缺值估计来求最佳窗宽:

LSCV是基于积分平方误差ISE最小准则的一种计算方法,ISE为:

式(4)中最后一项与h无关。LSCV就是取式(4)中前两项进行最小化计算,实际上使式(5)达到最小:

将已知的各个样本点值代入表达式,即可求得用核估计的窗宽h为0.105时,ICE最小为-5177。

3. 应用结果分析

本文利用以高斯核为核函数的核估计对样本数据进行分析,这样就可以得到函数的核估计形式:

图1 20℃铜单丝电阻率散点图

图2 20℃铜单丝电阻率直方图

在统计方法中,不知道总体服从什么类型的分布,通常可以用皮尔逊Χ2拟合度检验来实现确定模型显著性是否可接受,以确定一批数据是否真正来自假定的分布模型。对于连续型数据,需先将样本数据划分成若干区间(即分组),要求分组后每组内包含的样本数不少于5个,若某些组内数据的频数小于5,则应将该组与相邻的组做适当合并,然后再进行检验。用fn估计总体密度f(x),所以检验问题等价于:

作为假设检验H0的统计量,在H0为真时近似有:

fi为第i组的样本频数,npi是按照核估计密度函数计算得到的理论频数,k为在H0下X可能取值的子集数,r为总体分布中需要估计的参数个数。该统计量近似服从自由度为k-r-1的Χ2分布,可知假设检验的拒绝域为:

α为显著性水平,检验的临界值为Χ2(1-α,k-r-1),当目标函数值大于临界值时拒绝原假设,认为密度函数不是核估计方法得到的密度函数;否则就不能拒绝原假设。

前文已经提到,在样本量很大的情况下,如果原假设成立,该统计量近似服从自由度为k-r-1的Χ2分布,在此k=9,r=1因此分布的自由度为7。参考任何带有统计附表的书籍,均可以查阅到各个显著性水平下自由度为7的Χ2分布临界值,在此我们查阅参考文献[5],查到α=0.05时,临界值而h=0.105时14.067,检验统计量实现值12.815小于该临界值,这就说明,在显著性水平为0.05时,不能拒绝原假设,即可以认为通过非参数核估计方法得到密度函数的表达形式符合实际的总体分布形式。因此,我们可以进一步相信上文选择的窗宽值是“最优”的,且在该窗宽取值下估计的总体密度函数是理想的。

结论

鉴于参数模型的缺陷,本文基于核估计理论提出了非参数随机模型。该模型避免了模型结构(线性或非线性)选择和参数不确定性问题,可以通过最终的拟合优度检验。由LSCV法计算最佳窗宽保证了核密度估计的计算精度,是计算窗宽的一种实用且安全的方法。进一步完善非参数密度估计方法在电线线缆质量控制中的应用,或许能为电线线缆质量的提高提供一种精确度较高的分析方法。

参考文献

[1]陈希儒,柴根象.非参数统计教材[M].上海:华东师范大学出版社,1993.

[2] Epanechnikov V A. Nonparametrie estimation of a multidimensional probability density [J]. Teory of probability and Application, 1969.

[3] Larry Wasserman.现代非参数统计[M].吴喜之译.北京:科学出版社,2008.

[4]盛骤,谢石千,等.概率论与数理统计[M].北京:高等教育出版社,2008.

[5]吴喜之.非参数统计[M].北京:中国统计出版社,1999.

中图分类号:O212

文献标识码:A

猜你喜欢

结果分析
民勤县玉米新品种田间比较试验探析
浅论创新教育视阀下“三固”教学模式引入当前大学课堂的意义
皇姑区孕妇尿碘检测及结果分析
2013~2014年我院年常住患者乙肝五项检查结果分析