含结构零的三维不完备列联表统计分析
2019-10-08韦杰曾萍
韦杰 曾萍
摘 要: 根据三维不完备列联表的拟独立性原理,使用R语言中的loglin函數进行期望频数极大似然估计和拟独立性检验。针对各种拟独立性的估计与检验问题,调试出loglin函数中适合结构零情况的margin和start等参数的设置,实现了含结构零的三维不完备列联表数据的统计分析。
关键词: 不完备列联表;结构零;拟独立性;R语言
中图分类号: O212.4 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.05.020
本文著录格式:韦杰,曾萍. 含结构零的三维不完备列联表统计分析[J]. 软件,2019,40(5):102105
【Abstract】: According to the principle of quasi-independence of three-dimensional incomplete array tables, the Loglin function in R language is used to estimate the maximum likelihood of expected frequency and to test the quasi-independence. Aiming at the estimation and testing of various quasi-independence, this paper debugs the setting of parameters such as margin and start, which are suitable for the zero condition of structure in the Loglin function, and realizes the statistical analysis of three-dimensional incomplete array data with zero structure.
【Key words】: Incomplete contingency table; Structure zero; Quasi-independence; R language
0 引言
列联表分为完备列联表和不完备列联表,完备列联表的格子中所有数据都不为零;不完备列联表格子中有的数据为零,它具有两种形式,一是“抽样零”,这是由于抽样的波动和格子概率相对地小而引起的。另一种是“结构零”,此类空格为“零”是事先知道的,通常空格中的数据用符号“—”表示,如小牛的二次感染数据问题[1],考虑了出生于佛罗里达州奥基乔比的156头小牛组成的一个样本,先根据它们在出生60天后是否感染了肺炎分成2类,等到初次感染治愈后再过2周又根据它们是否感染肺炎再分类,从理论上说,小牛若没有初次感染,就不存在二次感染,这样在相应的2×2列联表中初次无感染而有二次感染的那一格子就产生了结构零。现实中有不少的研究者有含结构零的不完备列联表数据而不清楚它是采用那一类方法分析,很多时候将结构零的格子用某些适合的数值来填空,或将数据折叠后使结构零消失;甚至有时结构零的出现会使研究者完全放弃数据分析,这样的做法常常会导致得到不合适的结论。由于含结构零的列联表统计分析有其特殊性,常用的卡方检验等不能充分提取资料信息,我们通过研究将提供处理结构零此类不完备列联表的标准方法。对于完备列联表其期望频数的估计有显式解,而不完备列联表难有其期望频数极大似然估计(MLE)的显式解,所以期望频数值可以通过极大似然估计的比例迭代算法完成或通过对数线性模型法完成,当期望频数值获得后就可以进行似然比检验和卡方检验。三维不完备列联表的检验,主要涉及到拟独立性检验、条件拟独立性检验和拟相关性检验。
1 不完备列联表拟独立性定义
根据完备列联表的独立性,进行推广得到不完备列联表拟独立性的定义[2]。设 为三维不完备列联表 中所有不含结构零的格子形成的集合。
定义:若存在 ( )、 ( )和 ( ),使得对任意的( ) ,都有 ,其中 ( ), 是( )格的观测值,则称属性A、B、C是拟独立的,记为(A,B,C)。
此外,属性A和(B,C)的拟独立性、B和(A,C)的拟独立性、C和(A,B)的拟独立性以及A给定后B和C条件拟独立性、B给定后A和C条件拟独立性、C给定后A和B条件拟独立性及AB、AC、BC拟相关性定义情况见表2。
一般情况下,三维不完备列联表其似然方程组难有期望频数极大似然估计的显式表示,因而三维不完备列联表各种拟独立性下的期望频数 的计算是通过比例迭代算法[3]和对数线性模型法这两种方法完成。由于迭代法收敛于显式解达到特定的精度,需要多次循环才能做到。因此,不完备列联表期望频数的极大似然估计的手工计算是非常复杂的,实践中属性A、B、C拟独立和其它拟独立性、拟相关性的极大似然估计值均可以借助统计软件来进行分析。
1.1 三维不完备列联表的对数线性模型
3 讨论
含结构零的三维不完备列联表分析,首先采用比例迭代算法计算有效的迭代值,然后由迭代值计算统计量值,但是手工计算迭代值是很困难的,我们通过R语言中的loglin函数进行很多次的参数设置、调试及验证才得以完成,形成从数据文件的建立到分析的标准过程,为实现不完备列联表资料的分析提供参考,有助于此类数据分析在教学和科研中进行推广和应用。如果对二维不完备列联表数据进行分析,需要将参数margin改为list(1,2),参数start中用1和0表示对应的非结构零和结构零。
参考文献
[1] 王顺芳, 王学仁. 不完全2×2列联表中基于置信区间的样本量研究[J]. 云南大学学报(自然科学版), 2007, 29(2): 109-113.
[2] 王静龙, 梁小筠. 定性数据统计分析[M]. 北京: 中国统计出版社, 2008.
[3] Y. M. M. Bishop等, 张尧庭译. 离散多元分析理论与实践[M]. 北京: 中国统计出版社, 1998.
[4] 薛毅, 陈立萍. 统计建模与R软件[M]. 北京: 清华大学出版社, 2007.
[5] 许汝福, 张蔚, 尹全焕. 高维列联表的交互作用[J]. 数理医药学杂志, 1996, 9(1): 62-64.
[6] 韦杰, 曾萍. 基于R的有序分类资料logistic回归分析[J]. 软件, 2014, 35(6): 56-57.
[7] 曾萍, 韦杰. 数据仓库技术在高校信息化建设中的应用研究[J]. 软件, 2014, 35(5): 108-110.