卡方分布的探源
2018-08-10彭志发
彭志发
摘 要:卡尔·皮尔逊(KralPearson)是近代统计学史土最负盛名的统计学家之一。他在统计理论及统计方法上都做出了极大的贡献。皮尔逊于1900年提出了卡方检验,他不仅导出了测度,而且给出了它的分布,使其成为可计算的。卡方分布 (χ2分布)是概率论与统计学中常用的一种概率分布。k 个独立的标准正态分布变量的平方和服从自由度为k 的卡方分布。卡方分布常用于假设检验和置信区间的计算。统计学的发展表明,对于一系列应用来说,卡方的检验是一项极其有用的方法,其作用远远超过了皮尔逊提出这一概念时所想要解决的特殊问题,在现代统计理论中有着重要的地位。本文对卡方分布的起源进行探索,系统梳理卡方分布的发展历程。
关键词:卡方分布; 统计学; 卡尔·皮尔逊
1 引言
目前国际上统计界流行的观点是将统计学分为三大派:经典学派、贝叶斯学派和信任学派。经典学派是指由皮尔逊、奈曼等人从本世纪初到四十年代发展的一套理论和方法,它以概率的频率解释为基础,以有抽样资料为前提,因此又被称作频率学派或抽样学派。目前国内常见的概率统计教材,大都是讲这一学派的观点和方法的,所以大家都比较熟悉。而关于经典学派的皮尔逊,他的一大贡献就是卡方分布,统计学一直发展至今,卡方分布仍然起着非常重要的作用,所以本文对卡方分布的起源进行分析也具有重要的现实意义。
2 卡方分布的产生
正当皮尔逊作为一位应用数学教师和科学哲学家受到人们的尊敬时,有两件事改变了他的专业研究方向。其一是高尔顿的《自然遗传》在1889年出版,其二是1890年任命韦尔登为大学学院动物学乔德雷尔教席教授[1]。
2.1 相关和回归概念的产生
《自然遗传》概括了高尔顿关于遗传的相关和回归概念以及技巧方面的工作,明确思考了它们在研究生命形式中的可用性和价值。在该书出版那年,皮尔逊在前面提到的那个小俱乐部读了一篇评论此书的论文,他了解到相关和回归的数学问题并未弄清。他对高尔顿的相关概念的含义十分着迷,看到这是一个比因果性更为广泛的范畴,因果性只是它的极限。它把心理学、人类学、医学和社会问题引入数学处理的领域。皮尔逊立即决定全力为统计学这一新学科奠定基础,他在接着的15年内几乎是单枪匹马地奋战在这一前沿领域。韦尔登在1891年初受命后,开始应用、拓展、改善高尔顿的测量变异和相关的方法,以寻求支持达尔文自然选择理论的论据。这些工作不久使他在经典误差理论外碰到了一系列难题,这位剑桥动物学家的数学能力是难以解决它们的[2],韦尔登请求皮尔逊帮助。
皮尔逊结合准备格雷沙姆讲座和大学学院统计理论的两门课程(1891一1896),对来自生物学、物理学和社会科学的统计资料作了图示的、综合性的处理,讨论了概率理论和相关概念,并用掷硬币、抽纸牌和观察自然现象来证明它们。他引人“标准离差”术语代替麻烦的均方根误差,并论述了法曲线、斜曲线、复合曲线。他关于变差和相关的四篇材料发表在《哲学学报》上。他创造出3个、4个乃至n个变数的正态相关的一般理论,揭示出早先探索的斜相关和非线性回归的一般理论。
在之后的日子里,皮尔逊一直在对统计学进行研究,发表了上百篇的论文,将统计学的理论和应用更加深入,更加具体化了。皮尔逊发展了矩量法,又定义了曲线的类型,并讨论了曲线的应用。在随后的几十年中,生物学家和社会科学家广泛应用皮尔逊曲线来处理观察数据,结果消除了人们把正态分布作为生物、物理和社会现象的变差的唯一数学模型的信仰。该曲线系在统计理论和实践中取得了未曾料到的重要性。
2.2 皮尔逊相关系数的产生
皮尔逊还在高尔顿和韦尔登等人关于相关和回归统计概念和技巧的基础上,建立了极大似然方法,可以称为“皮尔逊相关系数”。随后,皮尔逊发表的论文中将多元正态相关的理论几乎发展成为一种实用的工具。皮尔逊之后又创造了斜相关理论和非线性回归,到了1926年,皮尔逊证明样本回归系数的分布分别是关于相关总数回歸系数对称的类型VII分布。尽管相关和回归分析的步骤今天不同于皮尔逊和他的同事原先提出的步骤,但是前者是建立在后者的基础上。皮尔逊在世纪之交采取的步骤无论如何在当时来说是开拓性的、富有独创精神的[3]。
2.3 卡方分布的产生
对于用来估计总体参数的样本函数在大样本中的标准误差问题的第一个普遍探讨,是由皮尔逊和年轻的法国数学证明者菲尔翁在“论频率常数的可能误差及随机选择对变异性和相关的影响”一文中给出的。皮尔逊后来发表了一组文章用来答复读者的询问。哲学杂志》1900年6月刊载了皮尔逊一篇有名的论文,他在文中引人了一个准则χ2=Σ[(fi-Fi)2/fi] ,它是观察和假设之间一致性的量度,用来作为确定概率的基础。其中差fi-fiχ2 fi-Fi(i=1,2,k) (i=1,.2..,k)以这样的概率共同地起因于随机取样的不可避免的涨落,fi表示在k个互斥范畴第i个中观察到的频率,Fi 是对应的理论频率。他导出χ2 在大样本中的取样分布是k的函数,发现它是类型三分布的特化形式,现称为“关于k一1自由度的χ2 分布”。 χ2 准则开创了统计决策的新纪元,它无疑是皮尔逊在统计理论和实践方面的最伟大贡献之一。1904年和1911年,皮尔逊又两次把他的χ2 准则加以推广,用来检验统计学的一些问题。
3.卡方分布的应用
皮尔逊从他1896年关于相关和回归的第一篇基础论文起就卷入到遗传和进化的研究中,他充分证明了他的新数学工具在解决这些问题中的价值。在“史前人种身高的再建”(1898)和“论亲族遗传定律”中(1898),他导出了各种亲族回归和相关系数的理论值,检验了高尔顿的身高资料,并提出推广了的高尔顿亲族遗传定律。他宣称:“……把全部复杂的遗传影响的迹象纳人简单的描述性的陈述中是十分可能的。如果达尔文的进化是与遗传结合的自然选择的话,那么必然可以证明,囊括整个遗传领域的单一陈述对生物学来说就象引力定律对天文学家一样是划时代的。”尽管后来,孟德尔学说牢固确立起来了,但并没有消除生物统计方法的用途和意义。皮尔逊的卡方分布在生物统计领域还起着重要的作用。
4.结论
皮尔逊对于统计学领域的作用是不容小觑的,其卡方分布作用也是不可小觑的,其在数学领域、统计学领域,甚至是生物基因领域等等方面,都起着非常重要的作用。通过对卡方分布的起源进行系统的梳理分析,对皮尔逊创作过程的了解熟悉,让我们了解了数学方法的奥妙之处,卡方分布可以从数学领域发展到生物领域,进而发展到其他领域,这是非常伟大的举措,是值得我们学习的。对于卡方分布的研究还任重而道远,卡方分布的作用之大,是无法想象的,其应用的领域是否还可以扩展是不可知的,还需要学者们进行进一步的努力和研究。
参考文献:
[1]姚存峰. 卡尔·皮尔逊──数理统计学的奠基者[J]. 数理统计与管理, 2011(4):37-38+65.
[2]丁海勇, 史文中. 利用卡方分布改进N-FINDR端元提取算法[J]. 遥感学报, 2013, 17(1):122-137.
[3]朱祖锐, 陈守全. 卡方分布序列最大值的收敛速度[J]. 西南大学学报(自然科学版), 2016, 38(9):137-142.