如何用EXCEL进行医学统计分析
2011-07-13周颖
周 颖
如何用EXCEL进行医学统计分析
周 颖
一、EXCEL在数据统计中的应用
在所有的科学研究中数据都是十分重要的基础,对数据的收集、记录、处理的过程是任何学科都离不开的。目前很多的数据处理软件都可以实现这样的功能,其不仅可以做简单的变量分析,而且还可实现各种繁杂的多变量的分析。不过在实际应用中,对数据的处理大部分都是简单的统计描述性数据,并需形成图表以便明确数据关系,或者是进行回归分析、t检验、方差分析等等。这时EXCEL软件就因为其优势获得了广泛的认可,和SAS、SPSS相比有其特有表现在于:1.EXCEL有着强大的自动的数据填充和公式计算功能;2.在数据编辑和透视性分析的过程中操作简单;3.在单元格的绝对引用和相对引用中可以灵活的处理;4.内置函数功能丰富,并有多种的图表形式可供选择。
EXCEL在数据处理的模块设计中提供了一些数据分析工具,使用这些现成的数据分析工具时,只需要将数据所在的单元格和必要的参数指示出来,即可利用系统的自动套用功能,来完成相应的数据处理,并给出正确的结果。而且有的工具在数据统计的时候可以生产图表。
二、利用EXCEL进行医学统计
1.EXCEL的数据描述
在使用EXCEL的时候首先应当利用软件功能对数据进行基本描述,其中有:1)数据集中指标处理,包括平均数、几何平均数、众数等等。主要是利用软件提供的函数套用和公式来进行这些指标的计算。2)变异指标的计算,主要包括百分数、四位数、方差、标准误和峰度系数等。其中方差、标准差、标准误、百分数等是医学数据处理中常常用到的分析指标。
2.利用EXCEL处理t检验数据
t检验是医学数据统计和分析当中最为常见的数据处理方法,主要是完成试验标准试样测定的结果平均值进行与标准值的比较,以此确定其是否具备统计学意义,也就是其结果是否可以作为参考。在EXCEL中“数据分析”提供了很多种不同条件下的t检验工具,例如:平均值的成对二样本分析,双样本等发差假设,双样本异方差假设等,以及其他统计用分析工具,当样本中数据存在互为配对的关系,这时可以利用“平均值的成对二样本”来进行t检验。例如:在试验中对一个样本组进行试验前后两次检测,这主要是为了测定样本在试验前后的变化平均值是否相等,这就可以利用成对t检验,这个t检验并不是假设两个结果的方差相等。具体看,如果在工作表中设定数据区域为A1-J2。处理数据时可以在“工具”中调用“数据分析”模块。在数据分析的窗口上选择t检验当中的“平均值的成对二样本分析”,这时在显示出来的“平均值的成对二样本分析”对话框中输入需要分析的变量范围,变量1所代表的区域,即输入分析的第1个数据区域的单元格引用。该区域必须是一个行或者列所构成的数据组。这个步骤可以点击输入框上的“按钮”,回到表格的初始数据中,利用拖动选取需要处理的单元格数据。此时分析工具中的变量1就为A1-J1,完成了自动的输入。
然后再利用同样的方式,将变量2输入到数据分析工具中,通过这个操作,使得变量2的数据区域与变量1相对应,为A2-J2。然后再假定平均差,就是在这里输入期望中样本的平均差值。如缺省,默认为0值,也就是假设样本的平均值使相同的。标志,如果在分析区域内的第1行或者列有包含标志的选项,就应选择此项为标志;如果在输入的区域中没有标志项,软件将在输出表中自动生成其认为的合理数据标志。如果选择这个标志数据,那么α在这个数据检验的统计意义为水平,范围是0-1,缺省的值为0.05。
3.统计方差统计和卡方的检验
在利用EXCEL进行数据分析时,数据分析工具库中有三种基本的方差分析类型为分析提供帮助。包括:单因素方差分析、重复双因素分析、无重复双因素分析,下面针对方差方分析进行简要的介绍:
单因素方差分析法,在进行这个分析方法前必须将试验所得到的基础数据输入到工作表中,而且格式是固定的,其中每种水平关系的试验数据放在同一个行或者列中,具体如在同一个试验中使试验前和后的数据就应当区分开,放在同一个行或者列中。数据填写完成后,和前面一样在工具中找到数据分析,选择数据分析对话框中的“单因素方差分析”,这时就会出现下一个对话框,然后操作分为以下步骤:1)输入数据区域,即选择分析数据所在的工作表区域,可以是行或者列,也可以选用标志,在针对表中的数据进行分析是选择;2)分组方式的选择,即提供行和列的选择,当同一个水平的数据在同一个行或列时,需作出相应的选择,行或者列。3)如选择的数据包中含有水平的标志,则需要选择标志数据位第一行;4)分析中的系数α为显著的水平,一般为0.05,也就是体现为95%以上的准确度;5)分析的输出,按照实际的数据保存情况,选择适当的输出结果的保存位置。
双因素无重复试验的方差分析总体看和单因素方差分析十分相似,在分析前也需要将数据按照工作表需要的格式输入到单元格中。数据输入后,同样在“工具-数据分析”中选择分析的方法,“双因素无重复方差分析”,这时出现一个对话框,按照内容输入1)输入区域的选择,即选择所要分析的数据,包括含因素水平的标志;2)如果输入的数据中含有因素水平的标志,则需要选择标志按钮;3)显著的水平性α,可以根据实际的分析要求进行,但一般为0.05。4)输出分析数据的选项和前面一样选择相应的存储位置。
可重复的双因素分析,这个分析方法与双因素无重复方差分析数据的差别就是在于增加了对重复试验数据的处理,即将重复试验的数据进行累计,使之参与到数据分析中。同样数据输入后在工具中选择数据分析,在数据工具库中选择“双因素可重复方差分析”然后利用和双因素无重复的数据分析操作方法相同,只是在每个样本的行数选择中输入试验的次数而已。如还需要对数据进行方差分析时,则在输入区选择其区域和因素的水平标记,在每个样本的行数位置输入试验的次数即可,而水平性选择仍然为0.05。最后在输出位置上选择合适的区域,也就完成了分析。
4.回归分析
这个分析方法是可以适应于,1)反映两个或者多个变量之间的关系描述出来,且具备方向和密度性质需求时;2)为了反映两个或者多个变量之间的相互依存的关系并建立回归方程,可以采用回归分析。在实际的应用中也是现将数据输入到工作表中,然后利用EXCEL提供的函数进行简单的回归性分析或者Spearman高等级的相关分析。在菜单中利用的是工具、数据分析、相关系数,就可与之相关的分析。应用其中的协方差工具就可以完成方差分析。同时也可以选择使用散点图来绘制直观的散点图形。
三、利用EXCEL进行医学统计的注意事项
1.统计方法设计需要准确
在统计分析中往往都需要进行假设检验,即利用随机、分组、数据采集等方式来得到试验的数据。因此在利用试验得到统计数据的过程中,需要完善数据得出的准确性,因为任何统计分析方法都不能弥补试验中的失误,或者纠正错误。
2.在统计分析中合理的选择标准
在对医学数据进行统计分析中,为了严谨普遍将0.05设定为数据的准确度标准,但是在有些试验中这个0.05并不适应试验的需求,因此在实际的操作中不要忘记在自动统计时确定准确度标准。同时也要利用多种试验方法来验证某个试验的准确性,尤其是医学试验或者数据采集,一定要进行多重的检验和大量的数据汇总,才能让统计分析数据准确。
(作者单位:浙江省安吉人民医院统计科)