APP下载

关于统计抽样推断中参数估计方面精确度问题的探讨

2012-12-29侯海桂

中国集体经济 2012年3期

   摘要:文章对抽样推断(包括回归分析预测)中精确度的定义及计算作了尝试性探索,认为精确度是一个评价抽样推断质量高低的重要指标,同时把精确度定义成一个数值越大越好的相对数,还针对点估计、区间估计等不同推断方式计算了不同的精确度指标。
   关键词:抽样推断;抽样估计;精确度;回归分析预测
   一、问题提出
   设有两个总体:第一班组全体工人和第二班组全体工人,我们从两个总体中各抽取一个样本进行日产量检查。一班组抽30人,二班组抽19人。经过对两个班组某天产量进行调查后算得,一、二两个班组的样本平均数分别是70件和80件,两班组的样本方差分别是102件和64.6件,两个班组的平均抽样误差都是1.84件。在95.45%的把握度下,对两个班组总体平均日产量推断的极限误差都是3.69件(见表1)。据此,我们对两个班组总体平均日产量做如下推断结论。
   一班组全体工人平均日产量位于[66.31,73.69]之间的可能性是95.45%;二班组全体工人平均日产量位于[76.31,83.69]之间的可能性是95.45%。
   虽然两个班组的推断结论十分相近(把握度和极限误差完全相同),但显然两种推断的质量是不一样的,因为两个班组的样本平均数不一样。上述这种推断掩盖了两个班组平均日产量推断的精确度高低问题,也未能反映两个推断的质量高低。本文试图就抽样推断中参数估计方面精确度的定义及计算提出个人看法,以供抛砖引玉之用。
   二、抽样推断精确度的定义及计算
   (一)精确度定义
   我们知道测量的精度是指测量值与实际值的差异大小,差异越小精度越高,差异越大精度越小。抽样推断精确度的道理与此相同,如果把样本统计量看作是测量值,总体指标就是实际值,则样本统计量与总体指标之间的距离(抽样误差)就是抽样推断的精确度(绝对数精确度定义)。按此定义,可得精确度的计算公式如下:
   绝对数精确度=|样本统计量-总体指标|①
   ①式计算结果是绝对数,因此又称之为绝对数精确度,其实质是单次抽样误差。该定义用总体指标到样本统计量的距离表达推断精确程度,使得其存在以下两方面的缺陷。一是计算结果越小越好,有违我们的思维习惯。二是精确度的绝对数性质使得它在评价推断精度及推断质量中带有不可比性。在样本统计量不等的条件下,同样绝对数精确度所代表的精确程度应该是不一样的。如表1数据所示,两个班组的平均抽样误差一样,我们假定两个班组的绝对数精确度也一样,但直观来看两个班组抽样推断的精确程度应该是不一样的。在理论上,样本统计量较小时,我们容许较小的误差;样本统计量较大时,我们容许较大的误差。这与购物称重的道理是一样的,较重的物品我们允许较大的绝对误差(几十公斤的货物我们可能允许1公斤的误差),较轻的物品我们允许较小的绝对误差(几十克的物品我们可能只允许1克的误差)。按此道理,我们直观上就可得到二班组推断精确度高于一班组的结论,因为二班组的样本平均数较高。
   因为以上两个理由,我们认为用绝对数精确度表达抽样推断精确程度的能力是有限的,抽样推断的精确程度高低应该是相对于样本统计量而言的。要能准确评价抽样推断精确程度的高低只有相对数才可以做到,因此精确度的计算及应用最好使用相对指标。
   结合绝对数精确度定义及精确度是相对指标这两个要求,我们把精确度定义为总体指标对样本统计量的接近程度(相对数精确度定义)。根据此定义,我们得到属相对数的精确度公式如下:
   相对数精确度=1-绝对数精确度/样本统计量②
   该定义用总体指标对样本统计量的接近程度表达精确程度,总体指标离样本统计量越近(绝对数精确度越小),精确度越大,反之精确度越小。②式计算结果是个正指标,数值越大越好,符合我们的思维习惯。
   相对数精确度的计算结果是一个小于等于1的实数。当绝对数精确度大于样本统计量的时候,相对数精确度小于0,表示抽样推断精确度非常差,但其可能性非常小,可以忽略不计;因此,可以把相对数精确度的取值范围看作是0-1之间。
   因为总体指标待估,所以绝对数精确度不可计算,最终相对数精确度也不可算。因为相对数精确度不可算,所以我们只能把它看作是精确度(后面所提到的精确度,若无特别说明均指相对数精确度)最基础的和最根本的定义。鉴于此,我们需要在精确度定义的基础上进一步寻找具体可算的引申精确度。
   (二)点估计的精确度(点精确度)
   因为点估计的误差是不可算的,因此我们只能用平均抽样误差代替绝对数精确度去计算点估计精确度(简称点精确度)。据此要求,我们可得到以下公式:
   点精确度=1-平均抽样误差/样本统计量③
   经计算,上述两个班组抽样推断的点精确度分别是97.4%(1-1.84/70)、97.7%(1-1.84/80)。可见,二班组抽样推断的精确度相对较高。
   根据③式及精确度的基础定义,我们可以引申出点精确度的定义如下:点精确度是总体指标对样本统计量的平均接近程度。所以,点精确度又可以叫做平均精确度。
   (三)区间估计的精确度(极限精确度)
   在区间估计中,在一定把握度下,推断的区间越宽,推断精度越低,反之推断精度越大。可见区间推断中精确度的高低,主要体现在区间的宽窄。区间的宽窄既与平均抽样误差有关,更与极限误差有关。因此我们可以用极限误差代替绝对数精确度来计算精确度,同时把该引申精确度称为极限精确度,其计算公式如下:
   极限精确度=1-极限误差/样本统计量④
   根据④式,我们可以算到上述两个班组的极限精确度分别是94.73%(1-3.69/70)、95.39%(1-3.69/80)。显然,二班组抽样推断的精确度较高(与点精确度评价结果相同)。
   根据④式及精确度的基础定义,我们可以引申出极限精确度的定义如下:极限精确度是在一定把握度下总体指标对样本统计量的最小接近程度。
   如上述一班组的样本平均数是70件,在95.45%的把握度下,总体平均数位于[66.31,73.69]之间,是其中某个可能的数。当总体平均数刚好等于66.31件(左限)时,总体平均数对样本平均数的精确度是94.73%(1-|66.31-70|/70);当总体平均数刚好是73.69件(右限)时,总体平均数对样本平均数的精确度也是94.73%(1-|73.69-70|/70);当总体平均数是[66.31,73.69]之间中间的任意一个数时,其精确度都高于94.73%,如当总体平均数等于69件时,其精确度将达到98.57%(1-|69-70|/70)。可见94.73%(极限精确度)是95.45%的把握度下,总体平均数对样本平均数70件的最小接近程度。
   三、抽样推断中方差推断的精确度计算
   在方差推断的点估计中,因为没有平均抽样误差概念,故无法计算点精确度。
   在方差推断的区间估计中,因为没有极限误差的概念,故其精确度计算不能直接套用上述极限精确度公式计算。方差区间估计中的精确度(简称方差精确度,下同)与上述极限精确度的意义是基本相同的,就是总体方差离样本方差越近,精确度越高,反之精确度越低。由于方差区间估计中没有极限误差概念,以及方差推断区间的两极与样本方差不成对称(见表2,把握度为95%),因而我们无法计算统一的最接近精确度。尽管如此,在方差的区间估计中,仍然存在左限的最小接近程度(左限精确度)和右限的最小接近程度(右限精确度)。其计算公式如下:
  
   左(右)限精确度=1-|总体方差估计左(右)限-样本方差|/样本方差⑤
   如上述一班组的左限精确度是63.36%(1-|64.6-102|/102),右限精确度是19.28%(1-|184.3-102|/102);上述二班组的左限精确度是57.1%,右限精确度是18.7%。计算结果表明,一班组方差推断的精确度较高。
   通过上述计算,我们还可以看到方差推断的精确度普遍较低,但在比较上还是带有一定的应用意义。
   四、精确度在回归预测中的应用
   回归分析(包括时间数列自回归)中的预测也有点预测和区间预测两种,其预测同样涉及到精确度问题。点预测的精确度可套用点估计的相对数精确度公式计算;区间预测精确度可套用区间估计的极限精确度公式计算。其中的平均抽样误差可用估计标准误代替,样本统计量用点预测值代替。
   设有表3的产量及单位成本数据,经相关分析认为它们存在线性关系。通过回归分析得到单位成本(因变量,y)与产量(自变量,x)的线性方程为y=13.46-0.05x。回归方程的判定系数是92.8%,估计标准误是0.19元(占因变量平均数10.17的1.9%),都说明了回归方程质量较高,具有较高的应用意义。设有两种生产方案A、B,两种方案的产量分别为50件和90件。在95.45%的把握度下,两种生产方案下的单位成本区间预测分别是[10.58,11.34]、[8.58,9.34](见表4)。
   根据前面公式我们可算到,两生产方案点预测的精确度分别是98.27%(1-0.19/10.96)和97.88%(1-0.19/8.96),两方案单位成DKlk0+OsAXnoj2VDk9fLvzBHni0eaXjuyfIwJIFrjnM=本区间预测的极限精确度分别是96.53%(1-0.76/10.96)和95.76%(1-0.76/8.96)。后者的精确度稍差。
   五、精确度的意义
   第一,精确度是评价抽样推断质量以及回归预测质量的重要指标。我们通过精确度的高低来评价抽样推断质量及回归预测质量的高低。在抽样推断及回归预测中,精确度越高,推断及预测的质量就越高,反之推断及预测的质量就越低。精确度指标的计算,能让我们在不同的推断方式(点估计、区间估计)下,在不同的样本统计量及推断把握度下,评价抽样推断质量的高低。在点估计中,我们用点精确度反映推断精确度的大小及评价抽样推断质量。在区间估计中,我们用极限精确度(包括左、右限精确度)反映推断精确度大小及评价抽样推断质量。
   第二,精确度可以用来完善抽样推断结论的表达。加上精确度叙述后,我们可以对上述两个班组的推断结论作如下表达。一班组全体工人平均日产量位于[66.31,73.69]之间的可能性是95.45%,其精确度是94.73%;二班组全体工人平均日产量位于[66.31,73.69]之间的可能性是95.45%,其精确度是95.39%。加上精确度的叙述后,抽样推断结论的表达将更加完善。
   参考文献:
   1.全国统计专业资格考试用书编写委员会.统计基础理论及相关知识[M].中国统计