分类数据的显著性检验
2014-11-27杨元启
杨元启
摘 要:分类数据是定性数据,有别于定量数据,在数学上不易进行处理分析。本文对分类数据的显著性检验问题做了一些讨论。主要介绍了分类数据的X2-检验和似然比检验。
关键词:分类数据;定性数据; X2-检验;似然比检验
生活中存在着大量的数据,类型可分为定量数据和定性数据。定量数据常见于计量、计数等,易于用数学的方法处理分析;但生活中仍有许多不可量化的数据,如表示事物性质、规定事物类别的文字表述型数据,将其统称为定性数据。对定性数据的研究,有时作纯定性研究,没有或缺乏数量分析,其结论往往具有概括性和较浓的思辨色彩;为便于作定量分析,还得将这些数据合理量化,并建立相应的统计模型。
定性数据有时只表示事物的属性,如人的性别,婚姻状况,物体的颜色、形状。我们常用数"0"和"1"来表示其属性的分类。而有些事物的属性有一个顺序关系,如人的文化程度由低到高可分为文盲、小学、初中、高中、中专和大专、大学等5类。用数0,1,2,3和4分别表示文盲,小学,初中,高中,中专和大专,大学。有如顾客对某商场营业员服务态度的评价分为"满意"、"一般"、"不满意"三类,可分别用"3"、"2"、"1"表示。这些数只起一个顺序作用,这一类数据称为有序定性数据,简称有序数据。
本文将对分类数据的显著性检验问题做一些讨论。主要介绍分类数据的 -检验和似然比检验。
分类数据的显著性检验一般有如下提法。
设总体的某个指标数据被分为r类:A1,…Ar。根据相关理论,或从经验出发提出了一个原假设:
H■:类A■所占的比例为P■=P■(i=1,…,r)
其中:P■,i=1,…,r,■P■=1为已知的r个数。对该总体进行n次独立重复观察,每次观察一个个体,看它属于哪一类。此时,个体的观察值不是数,而是事物的属性。
设n个个体中属于Ai类的观察个数为n■i=1,…,r。显然,■n■=n。基于观察值n■i=1,…,r对原假设H■进行检验。
1 分类数据的X2-检验
如果原假设H■成立,则n个个体中属于Ai类的"期望个数"为np■■i=1,…,r。ni与np■■分别称为属于Ai类的实际频数与期望频数。当原假设H■成立时,对每一个i=1,…,r,实际频数ni都应该接近于期望频数np■■。用皮尔逊(Pearson)统计量X■=■■来作为衡量实际频数n■,…,n■与期望频数np■,…,np■ ∞的偏差的综合指标,分子说明实际频数与期望频数的差异,将其差平方是为累加差异。平方项除以期望频数,是给以权数,体现"相对性",当然也与统计量的渐进分布有关。
如果原假设H■成立, X2统计量的值应该比较小,若X2统计量的值比较大,说明实际频数与期望频数的差异较大,应该拒绝原假设H■。衡量统计量X2必须有一个临界值。皮尔逊证明了,在原假设H■成立时,该统计量的渐进分布为X2(r-1)分布,它的自由度为类别个数r减去1。记X21-a(r-1)为自由度为r-1的X2分布的(下侧)1-a分位数,则事件"x■≥x■■r-1"发生的概率为a。a是显著性水平,一个很小的数。这说明,"x■≥x■■r-1"是一个小概率事件,小概率事件在一次实验中不大可能发生,如果发生了我们可以做出"拒绝原假设H0" 的判断。拒绝原假设时,可能会犯"弃真"的错误,其概率不超过a。因此显著性水平为a的X2-检验的拒绝域为x■≥x■■r-1,其中,x■■r-1是自由度为r-1的X2分布的上侧a-分位数。
也可以通过计算P值完成检验的程序。P值等于自由度为r-1的X2变量大于等于X2统计量值的概率:P(X2(r-1)≥X2)。如果a≥P值,则在水平a下拒绝原假设H0;如果a
2 分类数据的似然比检验
分类数据的检验问题也可以用统计中常用的似然比检验方法。观察值ni(i=1,…,r)服从多项分布M(n,p1,…,pr),其分布律为pn■,…,n■=■p■■…p■■,■n■=n。
记n■,…,n■~Mn,p■,…p■ 。若r=2,则Mn,p■,p■=B(n,p1),即二项分布。故n1,n■~Mn,,p■,p■等价于n■~bn,p■ ,或等价于n■~bn,p■ 。
对M(n,p1,…,pr),观测值n■,…,n■的似然函数为LP■,…,P■=■p■■…p■■,将P■,…,P■看作变量,注意到■■p■■…p■■=1,因而对似然函数而言,可以略去也可以添上与参数P■,…,P■无关的任意一个因子,所以似然函数可以简记作Lp■,…,p■∞p■■…p■■
或者也可以写成 Lp■,…,p■∞p■■…p■■1-p■-…p■■
令Lp■,…,p■的偏导数为0,可以求出P■,…,P■的极大似然估计分别为■,…,■。
由此得检验问题的似然比为?撰=■=■=■■■
?撰的值在0与1之间,其值越接近1,则越倾向于认为检验问题的原假设Ho为真,所以在?撰的值越接近0,或者在-2ln?撰=-2■n■ln■的值比较大的时候拒绝原假设Ho。通常把-2ln(?撰)称为似然比检验统计量。
在分类数据的X2检验中,皮尔逊把式X■=■■作为衡量实际频数n■,…,n■与期望频数np■■,…,np■■的偏差的综合指标,而分类数据的似然比检验用式-2ln?撰=-2■n■ln■作为衡量实际频数与期望频数的偏差综合指标。X2-检验与似然比检验的差别可以认为在于它们采用了不同的衡量偏差的综合指标。
在原假设Ho成立时,-2ln?撰的渐进分布和皮尔逊的X2统计量的渐近分布相同,都是X2(r-1),起自由度都等于类别个数r减去1。事实上我们也可以根据似然比检验统计量的极限分布定理,从而在原假设Ho成立时,-2ln?撰有渐进分布X2(r-1),其中渐近X2分布的自由度可看作完全参数空间被估价的独立参数的个数与原假设成立时参数空间被估价的独立参数的个数的差。
显著性水平为a的似然比检验的拒绝域为-2ln?撰≥X21-a(r-1)。
也可以通过计算p值完成检验程序。p值为p=p(X21-a(r-1)≥-2ln?撰)。如果 ,则在水平a≥p下拒绝原假设Ho;如果a
参考文献:
[01]张尧庭, 方开泰. 多元统计分析引论[M]. 北京: 科学出版社, 1982.
[02]王静龙,梁小筠.定性数据统计分析[M].北京,中国统计出版社,2008.
[03]史希来. 属性数据分析引论[M]. 北京: 北京大学出版社, 2006.
[04]黄强.定性资料的数量分析[J].统计与决策,1997,(3).
摘 要:分类数据是定性数据,有别于定量数据,在数学上不易进行处理分析。本文对分类数据的显著性检验问题做了一些讨论。主要介绍了分类数据的X2-检验和似然比检验。
关键词:分类数据;定性数据; X2-检验;似然比检验
生活中存在着大量的数据,类型可分为定量数据和定性数据。定量数据常见于计量、计数等,易于用数学的方法处理分析;但生活中仍有许多不可量化的数据,如表示事物性质、规定事物类别的文字表述型数据,将其统称为定性数据。对定性数据的研究,有时作纯定性研究,没有或缺乏数量分析,其结论往往具有概括性和较浓的思辨色彩;为便于作定量分析,还得将这些数据合理量化,并建立相应的统计模型。
定性数据有时只表示事物的属性,如人的性别,婚姻状况,物体的颜色、形状。我们常用数"0"和"1"来表示其属性的分类。而有些事物的属性有一个顺序关系,如人的文化程度由低到高可分为文盲、小学、初中、高中、中专和大专、大学等5类。用数0,1,2,3和4分别表示文盲,小学,初中,高中,中专和大专,大学。有如顾客对某商场营业员服务态度的评价分为"满意"、"一般"、"不满意"三类,可分别用"3"、"2"、"1"表示。这些数只起一个顺序作用,这一类数据称为有序定性数据,简称有序数据。
本文将对分类数据的显著性检验问题做一些讨论。主要介绍分类数据的 -检验和似然比检验。
分类数据的显著性检验一般有如下提法。
设总体的某个指标数据被分为r类:A1,…Ar。根据相关理论,或从经验出发提出了一个原假设:
H■:类A■所占的比例为P■=P■(i=1,…,r)
其中:P■,i=1,…,r,■P■=1为已知的r个数。对该总体进行n次独立重复观察,每次观察一个个体,看它属于哪一类。此时,个体的观察值不是数,而是事物的属性。
设n个个体中属于Ai类的观察个数为n■i=1,…,r。显然,■n■=n。基于观察值n■i=1,…,r对原假设H■进行检验。
1 分类数据的X2-检验
如果原假设H■成立,则n个个体中属于Ai类的"期望个数"为np■■i=1,…,r。ni与np■■分别称为属于Ai类的实际频数与期望频数。当原假设H■成立时,对每一个i=1,…,r,实际频数ni都应该接近于期望频数np■■。用皮尔逊(Pearson)统计量X■=■■来作为衡量实际频数n■,…,n■与期望频数np■,…,np■ ∞的偏差的综合指标,分子说明实际频数与期望频数的差异,将其差平方是为累加差异。平方项除以期望频数,是给以权数,体现"相对性",当然也与统计量的渐进分布有关。
如果原假设H■成立, X2统计量的值应该比较小,若X2统计量的值比较大,说明实际频数与期望频数的差异较大,应该拒绝原假设H■。衡量统计量X2必须有一个临界值。皮尔逊证明了,在原假设H■成立时,该统计量的渐进分布为X2(r-1)分布,它的自由度为类别个数r减去1。记X21-a(r-1)为自由度为r-1的X2分布的(下侧)1-a分位数,则事件"x■≥x■■r-1"发生的概率为a。a是显著性水平,一个很小的数。这说明,"x■≥x■■r-1"是一个小概率事件,小概率事件在一次实验中不大可能发生,如果发生了我们可以做出"拒绝原假设H0" 的判断。拒绝原假设时,可能会犯"弃真"的错误,其概率不超过a。因此显著性水平为a的X2-检验的拒绝域为x■≥x■■r-1,其中,x■■r-1是自由度为r-1的X2分布的上侧a-分位数。
也可以通过计算P值完成检验的程序。P值等于自由度为r-1的X2变量大于等于X2统计量值的概率:P(X2(r-1)≥X2)。如果a≥P值,则在水平a下拒绝原假设H0;如果a
2 分类数据的似然比检验
分类数据的检验问题也可以用统计中常用的似然比检验方法。观察值ni(i=1,…,r)服从多项分布M(n,p1,…,pr),其分布律为pn■,…,n■=■p■■…p■■,■n■=n。
记n■,…,n■~Mn,p■,…p■ 。若r=2,则Mn,p■,p■=B(n,p1),即二项分布。故n1,n■~Mn,,p■,p■等价于n■~bn,p■ ,或等价于n■~bn,p■ 。
对M(n,p1,…,pr),观测值n■,…,n■的似然函数为LP■,…,P■=■p■■…p■■,将P■,…,P■看作变量,注意到■■p■■…p■■=1,因而对似然函数而言,可以略去也可以添上与参数P■,…,P■无关的任意一个因子,所以似然函数可以简记作Lp■,…,p■∞p■■…p■■
或者也可以写成 Lp■,…,p■∞p■■…p■■1-p■-…p■■
令Lp■,…,p■的偏导数为0,可以求出P■,…,P■的极大似然估计分别为■,…,■。
由此得检验问题的似然比为?撰=■=■=■■■
?撰的值在0与1之间,其值越接近1,则越倾向于认为检验问题的原假设Ho为真,所以在?撰的值越接近0,或者在-2ln?撰=-2■n■ln■的值比较大的时候拒绝原假设Ho。通常把-2ln(?撰)称为似然比检验统计量。
在分类数据的X2检验中,皮尔逊把式X■=■■作为衡量实际频数n■,…,n■与期望频数np■■,…,np■■的偏差的综合指标,而分类数据的似然比检验用式-2ln?撰=-2■n■ln■作为衡量实际频数与期望频数的偏差综合指标。X2-检验与似然比检验的差别可以认为在于它们采用了不同的衡量偏差的综合指标。
在原假设Ho成立时,-2ln?撰的渐进分布和皮尔逊的X2统计量的渐近分布相同,都是X2(r-1),起自由度都等于类别个数r减去1。事实上我们也可以根据似然比检验统计量的极限分布定理,从而在原假设Ho成立时,-2ln?撰有渐进分布X2(r-1),其中渐近X2分布的自由度可看作完全参数空间被估价的独立参数的个数与原假设成立时参数空间被估价的独立参数的个数的差。
显著性水平为a的似然比检验的拒绝域为-2ln?撰≥X21-a(r-1)。
也可以通过计算p值完成检验程序。p值为p=p(X21-a(r-1)≥-2ln?撰)。如果 ,则在水平a≥p下拒绝原假设Ho;如果a
参考文献:
[01]张尧庭, 方开泰. 多元统计分析引论[M]. 北京: 科学出版社, 1982.
[02]王静龙,梁小筠.定性数据统计分析[M].北京,中国统计出版社,2008.
[03]史希来. 属性数据分析引论[M]. 北京: 北京大学出版社, 2006.
[04]黄强.定性资料的数量分析[J].统计与决策,1997,(3).
摘 要:分类数据是定性数据,有别于定量数据,在数学上不易进行处理分析。本文对分类数据的显著性检验问题做了一些讨论。主要介绍了分类数据的X2-检验和似然比检验。
关键词:分类数据;定性数据; X2-检验;似然比检验
生活中存在着大量的数据,类型可分为定量数据和定性数据。定量数据常见于计量、计数等,易于用数学的方法处理分析;但生活中仍有许多不可量化的数据,如表示事物性质、规定事物类别的文字表述型数据,将其统称为定性数据。对定性数据的研究,有时作纯定性研究,没有或缺乏数量分析,其结论往往具有概括性和较浓的思辨色彩;为便于作定量分析,还得将这些数据合理量化,并建立相应的统计模型。
定性数据有时只表示事物的属性,如人的性别,婚姻状况,物体的颜色、形状。我们常用数"0"和"1"来表示其属性的分类。而有些事物的属性有一个顺序关系,如人的文化程度由低到高可分为文盲、小学、初中、高中、中专和大专、大学等5类。用数0,1,2,3和4分别表示文盲,小学,初中,高中,中专和大专,大学。有如顾客对某商场营业员服务态度的评价分为"满意"、"一般"、"不满意"三类,可分别用"3"、"2"、"1"表示。这些数只起一个顺序作用,这一类数据称为有序定性数据,简称有序数据。
本文将对分类数据的显著性检验问题做一些讨论。主要介绍分类数据的 -检验和似然比检验。
分类数据的显著性检验一般有如下提法。
设总体的某个指标数据被分为r类:A1,…Ar。根据相关理论,或从经验出发提出了一个原假设:
H■:类A■所占的比例为P■=P■(i=1,…,r)
其中:P■,i=1,…,r,■P■=1为已知的r个数。对该总体进行n次独立重复观察,每次观察一个个体,看它属于哪一类。此时,个体的观察值不是数,而是事物的属性。
设n个个体中属于Ai类的观察个数为n■i=1,…,r。显然,■n■=n。基于观察值n■i=1,…,r对原假设H■进行检验。
1 分类数据的X2-检验
如果原假设H■成立,则n个个体中属于Ai类的"期望个数"为np■■i=1,…,r。ni与np■■分别称为属于Ai类的实际频数与期望频数。当原假设H■成立时,对每一个i=1,…,r,实际频数ni都应该接近于期望频数np■■。用皮尔逊(Pearson)统计量X■=■■来作为衡量实际频数n■,…,n■与期望频数np■,…,np■ ∞的偏差的综合指标,分子说明实际频数与期望频数的差异,将其差平方是为累加差异。平方项除以期望频数,是给以权数,体现"相对性",当然也与统计量的渐进分布有关。
如果原假设H■成立, X2统计量的值应该比较小,若X2统计量的值比较大,说明实际频数与期望频数的差异较大,应该拒绝原假设H■。衡量统计量X2必须有一个临界值。皮尔逊证明了,在原假设H■成立时,该统计量的渐进分布为X2(r-1)分布,它的自由度为类别个数r减去1。记X21-a(r-1)为自由度为r-1的X2分布的(下侧)1-a分位数,则事件"x■≥x■■r-1"发生的概率为a。a是显著性水平,一个很小的数。这说明,"x■≥x■■r-1"是一个小概率事件,小概率事件在一次实验中不大可能发生,如果发生了我们可以做出"拒绝原假设H0" 的判断。拒绝原假设时,可能会犯"弃真"的错误,其概率不超过a。因此显著性水平为a的X2-检验的拒绝域为x■≥x■■r-1,其中,x■■r-1是自由度为r-1的X2分布的上侧a-分位数。
也可以通过计算P值完成检验的程序。P值等于自由度为r-1的X2变量大于等于X2统计量值的概率:P(X2(r-1)≥X2)。如果a≥P值,则在水平a下拒绝原假设H0;如果a
2 分类数据的似然比检验
分类数据的检验问题也可以用统计中常用的似然比检验方法。观察值ni(i=1,…,r)服从多项分布M(n,p1,…,pr),其分布律为pn■,…,n■=■p■■…p■■,■n■=n。
记n■,…,n■~Mn,p■,…p■ 。若r=2,则Mn,p■,p■=B(n,p1),即二项分布。故n1,n■~Mn,,p■,p■等价于n■~bn,p■ ,或等价于n■~bn,p■ 。
对M(n,p1,…,pr),观测值n■,…,n■的似然函数为LP■,…,P■=■p■■…p■■,将P■,…,P■看作变量,注意到■■p■■…p■■=1,因而对似然函数而言,可以略去也可以添上与参数P■,…,P■无关的任意一个因子,所以似然函数可以简记作Lp■,…,p■∞p■■…p■■
或者也可以写成 Lp■,…,p■∞p■■…p■■1-p■-…p■■
令Lp■,…,p■的偏导数为0,可以求出P■,…,P■的极大似然估计分别为■,…,■。
由此得检验问题的似然比为?撰=■=■=■■■
?撰的值在0与1之间,其值越接近1,则越倾向于认为检验问题的原假设Ho为真,所以在?撰的值越接近0,或者在-2ln?撰=-2■n■ln■的值比较大的时候拒绝原假设Ho。通常把-2ln(?撰)称为似然比检验统计量。
在分类数据的X2检验中,皮尔逊把式X■=■■作为衡量实际频数n■,…,n■与期望频数np■■,…,np■■的偏差的综合指标,而分类数据的似然比检验用式-2ln?撰=-2■n■ln■作为衡量实际频数与期望频数的偏差综合指标。X2-检验与似然比检验的差别可以认为在于它们采用了不同的衡量偏差的综合指标。
在原假设Ho成立时,-2ln?撰的渐进分布和皮尔逊的X2统计量的渐近分布相同,都是X2(r-1),起自由度都等于类别个数r减去1。事实上我们也可以根据似然比检验统计量的极限分布定理,从而在原假设Ho成立时,-2ln?撰有渐进分布X2(r-1),其中渐近X2分布的自由度可看作完全参数空间被估价的独立参数的个数与原假设成立时参数空间被估价的独立参数的个数的差。
显著性水平为a的似然比检验的拒绝域为-2ln?撰≥X21-a(r-1)。
也可以通过计算p值完成检验程序。p值为p=p(X21-a(r-1)≥-2ln?撰)。如果 ,则在水平a≥p下拒绝原假设Ho;如果a
参考文献:
[01]张尧庭, 方开泰. 多元统计分析引论[M]. 北京: 科学出版社, 1982.
[02]王静龙,梁小筠.定性数据统计分析[M].北京,中国统计出版社,2008.
[03]史希来. 属性数据分析引论[M]. 北京: 北京大学出版社, 2006.
[04]黄强.定性资料的数量分析[J].统计与决策,1997,(3).