APP下载

关于统计总体的界定、分类及其特征探讨

2011-03-16伍业锋

统计与决策 2011年16期
关键词:总体样本特征

伍业锋

(暨南大学经济学院统计学系,广州510632)

0 引言

任何学科在研究问题、观察世界方面都有着自己独特的思维方式和视角。而统计学认知世界基本的视角和思维起点应该是总体。虽然经典的统计教科书和各种专业文献都把总体作为一个首要概念,做过许多界定,但对总体在整个统计学的思维过程中的核心和关键地位阐述仍不够充分,甚至还存在着许多错漏和误区。

例如英国大不列颠百科全书和国内外许多流行的教科书将统计学界定为“一门研究如何收集、整理、分析和解释数据的科学”。此定义强调了统计学的方法论(工具)性质、量化特征和统计工作的流程表现,广为人们所接受。然而,该定义却略显宽泛,并没有给出统计学有别于其他学科的核心特征,因为不能据此认为任何研究收集、整理、分析、解释数据的科学都是统计学。实际上,几乎所有的学科如物理、化学、心理学等自然和社会科学都在搜集、整理、分析和解释其自身领域的数据方面积累了特殊的方法,这些方法中有些跟统计学有关,但更多的却不是统计学所能囊括和替代的,更不能说这些学科是统计学。实际上,严格来讲,当今的统计学是以分析、认识和解释研究总体的数量表现、数量变动和数量规律为目的,因而收集、整理数据的过程均应以统计上的分析、认识和解释为依据。如档案管理学、会计学、数据库管理都面临着大量的数据收集和整理过程,但是这些数据收集整理的目的并不仅仅是为统计分析做准备的,所以这些学科也不能被称为统计学。

另一方面,统计学的英文名称是“statistics”。而基于汉语的习惯,经典的中文统计学教材和文献,几乎都将“统计”一词给予了三个方面的解释:统计工作、统计资料和统计学,有些场合还做动词使用。可是中文名称为什么要将该学科称呼为“统计”或“统计学”而不是其他,几乎没有详尽解释。本文认为因为该名称正好体现了统计学的本质特点:“统而计之”,恰恰是统计学观察世界“以分门别类为线索,从总体全局去把握”的思维方式的概括。事实上,从《辞海》的字义解释来看,“统”有“从全局出发、全面”之意,这就是“总体”表达的全局观和整体观;而“计”带有“结算、算清、算法”等方面的含义,进一步可以解释和引申为“计算、计量、测量、测算、把握”等等,突出体现在对事物、现象从整体上进行数量方面的计算、测量、测算和把握,强调对事物现象的量的特征的把握和认识。而其他的涉及数据收集、整理、分析和解释的学科,却不一定从总体出发,也不一定特别关注数量方面的表现、特征和规律。

由此可见,“统”字及其具体体现——“总体”——是统计学区别于其他类似学科的根本之处。那么总体究竟是何含义、有何特征、作何分类、统计上如何把握和认识总体,很多文献都有阐述和介绍,但是几乎都有值得商榷的地方,或不够全面、或不够深入、或存在误区,甚至因为总体概念的不统一而导致了社会经济统计学同数理统计学之间巨大分歧。本文将对这些问题进行详细阐述,以期为统计学基本概念的统一和普适性做一些尝试和努力。

1 总体的界定与分类

1.1 总体的概念

统计总体是指统计研究的对象的全体,是由研究目的所指向的具有某种或某些共同特征的事物所组成的集合体,也可以称之为统计母体。统计总体的设定是以问题为导向的,是根据研究目的来设定的,因而既有其客观性,又有一定的主观性。一旦某个统计问题被提出来,首先要弄清楚该问题要研究的总体是什么。

根据研究目的人为设定的或客观存在的构成总体的相对独立的同质单位称为总体单位(Population unit)。如果这些总体单位是独立可计数的客观实体且不可进一步细分,则可称之为个体(Individual);若总体单位不存在实体,或无独立固定形状的实体且进一步细分仍有意义,则严格来讲只能称之为总体单位,不能称为个体。例如要评估一个池塘的水质状况,此时研究的总体是整个池塘的水体,然而构成这个总体的实体是流质的,没有固定的形状,不可以计数,没有独立的个体。但此时可以根据研究水质的目的,人为定义构成总体的单位。例如以一个容积为10ml量杯来取水作为样品,这样每一量杯水就是相对同质均匀独立的总体单位,这个池塘的水体可以想象成一定数量的10ml量杯装满池塘相对位置的水然后按照这些水的原有位置堆放在一起。很显然,此时总体单位是根据研究目的人为确定的,带有一定的主观性,比如可以是容积为10ml的量杯,也可以是容积为20ml的量杯,而且同容积的量杯其形状也可能不一样,如此对应的构成水体的总体单位就不一样,但是无论如何,最终都要保证(至少要假定)每一量杯的水自身是均匀同质(针对研究的特征)的,这样才是构成总体的一个总体单位。这种情形通常在总体是流质性(如液体、气体)或者粉末性的时候出现。例如要研究某厂家生产的水泥的品质,或要考察某家面粉生产企业的面粉质量时,面临的总体都是粉末性总体,也没有相对独立的个体,必须利用相应的容器人为定义总体单位。

值得注意的是,有些时候粉末性或流质性总体并不是散装的,而是已经有相应的容器包装存放在一起。例如要检验一个仓库的面粉的质量,这些面粉是以口袋包装好之后堆放在仓库当中。很显然,此时总体也无法区分出形状固定、相对独立可以计数的面粉个体。但是不是那些已经包装好的每袋面粉就是构成总体的总体单位呢?不一定。如果因研究需要取样检验时拟直接抽取的是一袋袋面粉,并将每袋面粉看作是均匀同质的,则可以将每袋面粉作为总体单位;但如果在抽取面粉样品时,是从其中某几袋(或每袋)面粉中抽取一定体积(可以用勺、碗、量杯等容器)的面粉,则相应约定容器容积的面粉才是构成总体的总体单位,而原有的袋装面粉称为构成总体的抽样单元,也可以称为构成总体的子总体。

总体单位和个体这两个概念在具体的实际总体尚有上述区别,而在后文论及的抽象总体当中,则更需要将构成总体的基本元素称为总体单位。也即,个体只是总体单位的一种形式,总体单位的概念涵盖个体。目前绝大部分中文统计文献都将总体单位与个体通用,这是不规范的,因为这种通用导致有关无限总体和有限总体分类的矛盾。

此外,对确定的研究目的而言,总体和总体单位的角色是固定的,不可以互换。但是,当研究目的改变的时候,一个研究目的下的总体,可能是另一个研究目的下的总体单位。例如,甲问题要研究的总体是2010年A大学的大三统计学专业的本科班全体学生,此时A校统计学专业大三本科生班的每位学生就是总体单位;而乙问题要研究的总体是2010年A大学的全体本科生班级,此时A学校的大三统计学专业的本科生班级(由该班全体学生构成)就成了一个总体单位了。所以,总体单位既可以是个体,也可以是包含其他个体的集合,在一定条件下可以转换成为另一个研究目的下的总体。

综上所述,血清脂蛋白相关磷脂酶A2水平升高、血清D-二聚体水平升高、血清高密度脂蛋白水平降低、高血压病史是急性缺血性脑卒中的独立影响因素。脂蛋白相关磷脂酶A2、D-二聚体水平、高血压史与急性缺血性脑卒中呈明显正相关;高密度脂蛋白水平与急性缺血性脑卒中发生呈负相关。

1.2 总体的分类

1.2.1 有限总体和无限总体

一般地,按照总体所包含的总体单位的数目是否有限可以将之分为有限总体和无限总体。有限总体是指由数目有限的总体单位构成的总体,总体单位的数目又称为总体总量、总体规模或总体容量,通常记为N。例如全体中国人,北京市的全部工业企业,某个池塘的水体①如果按照大部分中文文献所表述的“包含个体数目有限可数的总体是有限总体,其他都是无限总体”的话,则某个池塘的水体应该是无限总体,但这显然与事实和常识不符,因为该池塘的水从容积到重量都是有限的。因此,本文从“总体单位有限”的角度,就可以将池塘解释为有限总体。等等。而无限总体是指构成总体的总体单位的数目是无限的,这类总体通常是那些不断产生新总体单位的情形,即不断成长变化的总体,通常引入了时间因素或者思维抽象成分。例如某种条件下生产的产品总体,只要生产继续,这个总体就在不停地有新的单位加入;又如某种导弹的射程总体,只要可行,可以把这种类型的导弹发射无数次,得到无数个射程读数。一般而言,真正意义上的无限总体往往是存在于人们的思维抽象(假定)当中的抽象总体,现实世界的具体总体通常是有限的,只是总体规模N未必已知或未必可知而已。

1.2.2 具体总体和抽象总体。

总体按照其存在形态不同可以分为具体总体和抽象总体两类。具体总体是由现实中存在的具体物体所组成的总体,如前述的池塘水体、全体中国人等,这是统计应用研究通常面临的总体,目前的社会经济统计学主要研究的就是具体总体。抽象总体又称为设想总体,是由各个具体事物的概念抽象所组成的总体,如前述的某种导弹的射程总体,人的身高总体,此时组成总体的单位或元素不再是具体的导弹或个人,而是导弹的射程、人的身高等特征属性值,具体可能表现为数值和数据,是一种概念和符号抽象,从而也将总体也抽象成概念符号。这种抽象在统计学的发展上有着重要意义,它使得统计数据的处理和方法研究走向形式化、符号化和一般化,从而与数学联系起来变成科学严谨的学科。数理统计学研究的总体多是抽象总体。具体总体和抽象总体的划分,解决了社会经济统计学和数理统计学中“总体”概念的衔接与分野问题,也充分展示了统计学的两个分支学科之间的互补关系,为“大统计”学科体系的构建建立了重要的桥梁。

1.2.3 总体和子总体。

有时候,因为总体单位的客观组合形态,或者出于研究的需要,按照某些特征属性,将具有相同属性的部分总体单位归成一类或一组,这些部分总体单位构成的集合体就称为这个总体下的子总体。例如全体中国人就可以分成很多个子总体,如全体中国男人,全体中国女人,全体中国儿童等等。当总体很复杂而总体单位差异具有集聚性的时候,划分子总体对于科学认识总体是有很有用的。

2 样本与总体

2.1 样本的含义

样本是指从总体抽取的一部分总体单位构成的集合,样本中所包含的总体单位的数目称为样本量或样本规模(Samplesize),通常记为n。样本规模n可以大到与总体规模N相同(此时样本就是总体了),也可以小到只包含一个总体单位,但通常是处于1到N之间。

2.2 样本的重要性

因此,通过样本来研究总体有时候是无奈之举,有时候则是主动选择,而关键的问题在于:通过样本来认识总体,是否会存在偏差,有多高的准确性?

2.3 样本的代表性

通过总体的一部分(样本)来研究认识总体,以对部分的认识来推测甚至代替对总体的认识,肯定会存在偏差。然而,我们对世界的认识从来是存在偏差的,问题的关键是人们能否认识到这种偏差,能够接受多大程度的偏差,以及偏差是否可控。统计学的核心问题之一研究就是如何从总体中抽取样本,使得受关注的总体特征可以通过样本特征在可以容忍的可控偏差范围内表现出来,即如何保证样本在所关注的特征方面对总体特征具有较高的代表性。

3 总体特征、样本特征、参数和统计量

如前所述,总体是统计研究世界的基本视角,而其对总体单位的关注,最终目的是要研究这些总体单位构成的总体有着什么样的数量表现、数量变化和数量规律,这些通称为统计总体的数量特征,或总体的统计特征或总体特征。很显然,这种总体特征是总体单位汇聚在一起构成的集合特征。例如总体单位某方面的特性在总体当中的平均水平、最大值、最小值、比例等等(如研究某时刻全体中国人平均身高、平均体重就是当时全体中国人这个总体固有的总体特征)。很显然,一旦总体确定,那么总体的这些集合特征的具体数值就完全确定,也即这些数值特征是确定的总体所固有的,统计上给总体的这些数值赋予了一个专门名称——参数(Parameter)。参数就是总体固有的总体特征的数值表现,通常是研究者想要知道的。

与总体相对应,样本也是部分总体单位的集合,因此也会有相应的集合特征,统计上把这种特征称为样本特征。需要注意的是,从一个容量为N的总体中抽取容量为n的样本,根据抽取方法的不同会有很多种不同的样本,这样样本当中总体单位特征的集合特征的具体表现就会因为样本的不同而有所差异,也就是样本特征具体的数值会因样本的不同而不同,这样样本特征就成了一个可以变化的量,统计上称之为统计量(Statistic),而统计量在某个样本上的具体数值则称为统计量的值,这些值往往由研究者根据具体样本计算出来。例如,研究者随机抽取了100名中国人,然后一一测量到他们的身高值,据此计算这100名中国人的平均身高是1.70米,此时,100名中国人的平均身高就是此抽样条件下的统计量,而1.70米就是这个统计量基于这100名中国人所构成的具体样本的取值,即统计量的值。

总之,无论是总体特征还是样本特征,都是集合性的数量特征,前者随着总体的确定有着固定的取值,但往往未知;后者随着样本的不同而取不同的值,但可以根据对具体样本的考察得到相应的数值。统计上就是利用可以变动的已知的样本特征的值来推测固定的却未知的总体特征的值,而且设法让样本特征值与总体特征值的差距能处于可以容忍的范围,这就是统计由样本已知统计量的值推断总体未知参数的核心过程。

目前,几乎所有的统计学教科书都直接给出参数和统计量的概念,却没有将“总体特征”和“样本特征”作为基本概念给予深入阐述和说明,这显然不利于理解这些基本概念。

4 指标、标志、变量和数据

目前,很多文献将指标界定为只是表征总体数量特征的名称,这是不完整也是不符合事实的。实际上,统计理论和实践中,指标不仅仅可以表征总体特征,而且可以表征样本特征,可以认为它是表征集合特征的名称。

要弄清指标的含义,首先得从总体单位的特征及其属性的描述——标志——开始。

标志,也称标识,是总体单位特征名称的统称。对总体单位,人们总是设法从各个角度来观察、感知、测量它的特征和性质,才能更好地认识它、掌握它。例如某某班的一名同学,要认知这位同学,可能要从这个同学的姓名、性别、身高、体重、血型、星座、肤色、发型、出生地、性格等等各个方面来进行展开。显然,姓名、性别、身高等等这些特征名称是人们方便交流而定义出来的约定概念,有着各自特定的内涵,而统领这些特征名称的高一级的概念就是标志,即姓名、身高等等所有有关总体单位特征的名称,都是标志。

由此可见,标志是描述总体单位特征名称的统称,而指标是描述总体或样本统计特征的名称的统称。但是这种划分是相对的。如前所述,当总体在一定条件下转换成另一个总体的总体单位的时候,此时描述该总体的指标也就成了另一总体下的总体单位的标志了。而且,总体中每一个总体单位,均可以看作是该总体下容量为1的特殊样本,如此描述总体单位特征性质的标志就可以看作这个特殊样本的“指标”了。因此,指标和标志在一定条件下可以相互转换,基于此,可以进一步把表述总体(样本)特征和总体单位特征的名称统称为指标,或统计指标,这也是统计实践应用中常常使用“统计指标”而很少用“统计标志”这个术语的原因。

一般而言,统计指标通常包括以下几个方面的构成要素:指标名称;指标取值(或属性值)范围;计量单位(不一定存在)。

为了利用数学语言将统计学形式化,需要将统计指标符号化、抽象化,并与数学语言衔接,这就在统计学中引入了变量的概念。它既可以指代具体的统计指标(具体变量),又可以是对具体统计指标的理论抽象(抽象变量)。和指标一样,任何一个意义明确的具体变量至少要包含三个要素:变量名、变量取值范围(值域)、计量单位。而抽象变量则直接用符号指代变量名,不需要界定特定内涵,只需要以取值范围(值域)来界定其外延即可,更不需要计量单位了。在数学和数理统计学当中,通常面临的就是抽象总体和抽象变量。

实际上,对特定总体、样本和总体单位特征的具体表现和度量,最终在统计上就记录为“指标(变量)+指标(变量)取值(或属性表现)[+计量单位]”,这就构成了统计数据。如果针对一个总体(样本)或总体单位就是一条数据,如果是针对一批总体单位,就是一组或一批数据。由此可见,完整意义的统计数据必须有着如上构要素和特定内涵,它是统计来研究认识和把握总体的基本信息载体和“原材料”,其真实准确性、及时有效性和匹配合适性,是统计能够正确认识总体乃至世界的基本前提。

5 结论

综上所述,可以看到,统计对世界的认识和观察是从总体的界定开始的,而下属概念个体、总体单位,是构成总体的基本元素,对它们的考察均要放在某个总体的背景下来考虑。由于对总体所包含的所有总体单位进行全面考察存在着种种现实障碍,因此统计常常要通过对总体的一部分——样本——进行观察,来推测总体的情况。进一步,任何对总体、样本、总体单位的认识和研究都不可能面面俱到,必然根据研究目的将焦点集中在总体、样本、总体单位的某些方面的特征,于是统计就将总体特征、样本特征、总体单位特征分别用参数、统计量、指标、标志等概念来具体表述,对于具体的现实总体,这些概念可以统一表述为指标,而对于抽象总体,这些概念往往统一表述为变量。特定总体(或样本或总体单位)特定指标或变量的取值(或属性表现)加上可能存在的计量单位,就构成了统计研究总体(样本)特征的信息载体和“原材料”——统计数据。由此可见,以研究总体的数量规律和数量特征为核心,从对总体、总体单位的界定开始,到研究维度(指标、变量)的设定,再到获得真实、及时和合适的统计数据,最后利用合适的方法来分析、推断和展现总体的数量规律和特征,正是统计学真正区别于其他学科的根本所在。所以,总体是统计观察世界的独特视角。

[1]辞海(缩印本)[M].上海:上海辞书出版社,1989.

[2]陈希孺.统计学概貌[M].北京:科学技术文献出版社,1989.

[3]陈希孺.数理统计学简史[M].长沙:湖南教育出版社,2005.

[4]李金昌,程开明.经济学研究的统计思想探讨[J].商业经济与管理,2008,(8).

[5]徐国祥,王德发.新中国统计思想史[M].上海:上海财经大学出版社,1999.

[6]李金昌,苏为华.统计学(修订版)[M].北京:机械工业出版社,2009.

[7]谢启南,韩兆洲主编.统计学原理(第六版)[M].广州:暨南大学出版社,2006.

[8]贾俊平,何晓群,金勇进.统计学(第三版)[M].北京:中国人民大学出版社,2007.

[9]徐国祥.统计学[M].上海:世纪出版集团上海人民出版,2007.

[10]杜子芳.抽样技术及其应用[M].北京:清华大学出版社,2005.

[11]郭松云.关于统计学中几个基本概念界定的探讨[J].统计与决策,2007,(6).

[12]王尚武.论统计学中的几个基本概念[J].统计与决策,1997,(1).

猜你喜欢

总体样本特征
根据方程特征选解法
用样本估计总体复习点拨
2020年秋粮收购总体进度快于上年
外汇市场运行有望延续总体平稳发展趋势
不忠诚的四个特征
推动医改的“直销样本”
抓住特征巧观察
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本