基于R语言的两配对样本的均值差检验

2019-05-13常桂松孙艳蕊王洪曾

中国校外教育(下旬) 2019年5期

关键词：R语言

常桂松孙艳蕊王洪曾

【摘要】两总体均值差的检验是假设检验中的一个重要问题，常用在比较两个处理方法的差异的分析中，当两组样本不是独立时，不能利用独立样本的T检验。主要讨论两配对样本的均值差的T检验，介绍了两配对样本的均值差的T检验的统计理论，并结合R语言介绍了其在实践中的具体应用。

【关键词】 R语言 T检验配对样本

假设检验是统计推断的一个基本问题，实际生活工作中的很多问题利用统计方法分析，得到统计结论，进而有效地指导决策。利用两总体均值差的假设检验，比较两种处理方法的差异。当两样本X1，X2，L，Xn与Y1，Y2，L，Ym相互独立时，可以利用独立样本的均值差的T检验。当样本中测量到的两组数据是同一对象在不同条件下测试的结果时，不能视为两独立的样本，往往要对样本进行配对处理，再利用单样本均值差是否为零的T检验。如比较两种安眠药的安眠效果是否有差异，若试验是在分为对照组和实验组时进行的，此时两组样本是相互独立的。若试验是对一组试验对象在不同时间下进行的，此时两组样本就不是相互独立的，就不能利用独立样本的均值检验。再如要讨论高三学生最后一次模拟考试的数学成绩与高考真实的数学成绩有无显著差异？是否最后一次模拟考试的数学成绩高于高考真实的数学成绩？抽样得到的两组数据就不能视为两个独立样本，需要对样本数据进行配对后才能应用假设检验的理论进行分析。

一、理论及应用

1.检验的理论

由于配对样本的各观测具有对应关系，因此可将两个样本以观测为依据对应做差（得到的样本称为差值样本）。利用单样本T检验法检验差值样本的均值与零是否有显著差异，进而得到两总体均值是否有差异。

2. 检验的实例

R语言是目前应用最广泛的统计软件，由于R语言的开源性及其与一些软件具有良好的兼容性，越来越多的数据分析工作首选R语言作为分析数据的工具。另外，在这个被很多专家和学者命名的大数据时代，许多科技工者每天置身于数据的汪洋大海和崇山峻岭之中，高效利用R语言开展数据分析工作，毫无疑问会为科学研究做出高效的贡献，并为工作奠定良好的基础。目前，我国处于改革开放的转型时期，面临国际化的各个方面的激烈竞争，以高效的数据分析作为科学研究的手段，是促进国家科学发展，是国家在复杂多变的国际环境竞争中处于有利位置的重要战略决策。利用R语言分析数据除了调用软件内置的一些统计函数之外，用户还可以自定义函数实现数据的统计分析。

可以从R的官方网站www.r-project.org免费下载并安装R软件，R主页列出了R有关的各类信息，用户下载R时，需要首先用鼠标点击CRAN链接，选择一个镜像链接地址即可完成下载。成功下载R软件后，即可按照Windows软件的一般安装方式进行安装。

启动R软件后，用户可以在R工作空间创建和管理R对像，调用R软件中已加载包中的任何函数。在R语言中，两配对样本的均值差的检验对应的统计函数为t.test，格式为t.test（数值型向量名1，数值型向量名2，paired=TRUE，alternative=检验方向）

在统计函数t.test的参数调用中，数值型向量名1和数值型向量名2分别表示配对样本观测值的向量对应的名称;参数paired=TRUE，表明观测样本为配对样本，若paired=FALSE，则表示不对两观测样本时行配对;参数alternative表明对立假设的检验方向，双侧检验时，对应的alternative=“two.side”，单侧检验时，根据实际问题的背景，对应的对立假设的检验方向alternative=“less”或alternative=“greater”。

高考的數学成绩对每一位考生非常重要，通过分析最后一次模拟考试的数学成绩与高考真实的数学成绩的数据，对学生的高考真实成绩做出合理地指导。

假设讨论某中学的学生最后一次模拟考试的数学成绩与高考真实的数学成绩的问题中，随机抽取一部分学生最后一次模拟考试的数学成绩与高考真实的数学成绩。如下表所示。

检验最后一次模拟考试的数学成绩与高考真实的数学成绩是否有差异？

调用R语言的函数t.test（a，b，paired=TRUE，alternative=“two.sided”），这里a表示学生最后一次模拟模拟考试的数学成绩对应的数值型向量，b表示学生高考中真实的数学成绩对应的数值型向量，输出结果如图所示

由输出结果中可以看出，差值样本对应总体的均值的置信水平为95%的置信区间是（-3.18977，4.5897），这个区间包含0.另外，检验的p-值是0.6934，比较大，所以认为样本没有提供不利于原假设成立的显著性证据，因而不能拒绝原假设，即认为最后一次模拟考试的数学成绩与高考真实的数学成绩无显著差异。

二、总结

在比较两总体均值是否有差异的检验中，一定要确定两样本是否独立，不同情形对应着不同的统计方法，大多数数据分析工作者，很难区分两样本是否独立。当两组样本是在不同的试验对象中观测得到的，可认为两样本是独立的，可利用独立样本的均值差的T检验。当两组样本不独立时，样本值是同一组试验对象在不同方法下的观测值，常作配对处理，利用两配对样本的T检验，检验差值样本对应的总体均值与零是否有差异。

本文研究了R语言在两配对样本的均值差的T检验中的应用。首先，简要介绍了配对样本，接着介绍了配对样本的检验理论，最后接着介绍了R语言中配对板本的均值差的T检验的调用函数，并以具体实例讨论R语言在实际问题中的应用。

参考文献：

[1] 郑明，陈子毅，汪嘉冈.数理统计讲义[M].复旦大学出版社，2005.

[2]汤银才.R语言与统计分析[M].高等教育出版社，2008.

[3]薛毅，陈丽萍.统计建模与R软件[M].清华大学出版社，2007.