如何正确运用t检验<br/>——t检验的基本概念与前提条件

如何正确运用t检验
——t检验的基本概念与前提条件

2020-07-23刘媛媛李长平胡良平

四川精神卫生 2020年3期

高飞，刘媛媛，李长平，胡良平

（1.天津医科大学眼科医院、眼视光学院、眼科研究所，天津 300384；2.天津市眼科学与视觉科学国际联合研究中心，天津 300384；3.天津医科大学公共卫生学院，天津 300070；4.世界中医药学会联合会临床科研统计学专业委员会，北京 100029；5.军事科学院研究生院，北京 100850

在统计学中，为观测观察单位某项定量指标的数量大小而获得的资料称为计量资料（measurement data），该类型资料一般有度量衡单位，表现为数值大小，如高密度脂蛋白、血压、糖化血红蛋白等。假设检验（hypothesis testing）作为统计分析的重要组成部分，是由样本推断总体是否可能存在差异的一种统计推断方法[1]。以t分布为理论基础的t检验计算方便且检验功效较高，是最常用的计量资料假设检验方法。由于对实验设计类型、使用条件和资料性质等问题认识不清，科研工作者在使用t检验时存在大量的误用[2]。因此，本文对t检验的基本概念与前提条件进行介绍，阐明其正确的使用方法。

1 与t检验有关的基本概念

1.1 t分布的历史和定义

t分布最早由英国统计学家W.S.Gosset于1908年以笔名“student”发表，开创了小样本统计推断的新纪元[3]。

t分布的概率密度函数见式（2）：

在式（2）中，Γ（·）为伽玛函数。

t分布的概率密度函数见图1，t分布的特征如下：①t分布的曲线形状由自由度df决定，df越小则峰部越矮而两尾部越高；②t分布的概率密度函数曲线形状与标准正态分布概率密度函数曲线相似，其图形关于原点对称，单峰偶函数，但峰比标准正态分布概率密度函数曲线低，而两尾较高；③随着自由度的增大，t分布越来越接近于标准正态分布，t分布的极限分布是标准正态分布。

图1 t分布的概率密度函数图

1.2 t检验最常见的应用场合

t检验主要用于两组定量资料（包括计量和计数资料两种，通常指计量资料）的总体均数比较，是定量资料分析中最常用的假设检验方法，属于参数检验的一种。根据研究目的和实验设计类型，t检验可分为单组设计定量资料t检验、配对设计定量资料t检验和单因素两水平设计（以前习惯上称为成组设计）定量资料t检验三种[4]。这三种t检验对应的检验统计量见式（3）、式（4）、式（5）：

式（3）中，t为检验统计量的代号，它是一个服从t分布的随机变量，为定量观测指标n个观测值的算术平均值，μ0为与该定量观测指标对应的理论值或标准值，s为该定量观测指标n个观测值的标准误，其中s为该定量观测指标n个观测值的标准差，df为自由度，有时习惯用希腊字母ν表示。

式（4）中，n为对子个数，d为成对数据的差量。

当两总体方差相等时，用合并样本方差的方法计算t检验统计量：

式（5）中的s1和s2分别为两样本的标准差。

值得一提的是：式（1）定义了一个“随机变量”，而在实际应用时，所构造出来的“t检验统计量可以被视为式（1）的一个特例，前人已证明其服从“t分布”，故后人才可以不加证明地直接应用t检验。

1.3 t检验和t分布其他适用场合

1.3.1 估计某定量指标参考值范围或容许区间

当样本含量较小时，如n≤60，即使定量资料服从正态分布，也应运用t分布相关知识进行计算，可参考式（6）。若使用正态分布法估计个体值的100（1-α）%正常值范围，其结果范围过窄，假阳性率较大[4]。

1.3.2 求个体值的预测区间

在单组设计一元定量资料中，求在未来第k（k=1，2，…）次抽样条件下，定量指标X取值的100（1-α）%预测区间时，所用的公式类似式（6），此处从略。

1.3.3 估计置信区间

当σ未知且n较小时，计算单一总体均数的置信区间；计算两样本含量均较小时（如n1和n2均≤60）两总体均数之差的置信区间。

在直线相关分析和回归分析中，计算总体相关系数、总体截距、总体回归系数的置信区间。

1.3.4 均值的假设检验

在单组设计、配对设计和单因素两水平设计（简称成组设计）中，关于定量资料均值的假设检验（特指参数检验法），需要基于t分布进行t检验。

1.3.5 多重线性回归分析中某些参数的假设检验

在多重线性回归分析中，对总体截距项和各总体回归系数的假设检验，需要用到t检验。

2 涉及均值比较且基于实验设计角度考量时，t检验的前提条件

2.1 概述

涉及t检验的场合较多，都应满足一个共同的前提条件，即“所构造出来的t统计量必须服从t分布”。这是一个相当复杂的数学问题，以下仅针对“涉及均值比较且基于实验设计角度考量时t检验的前提条件”进行深入地解读。概括地说，主要包括三种实验设计类型、三要素和四原则。

2.2 三种实验设计类型

2.2.1 单组设计

单组设计的特点是对一组同质（即符合特定研究目的）的受试对象不按其他任何因素进行分组，直接观测或给予一种特定处理后观测这些受试对象某一个或某些定量指标的取值大小，仅涉及一个实验因素的一个特定水平。若希望对单组设计定量资料进行统计分析，必须提供定量观测指标的“标准值或理论值”。

2.2.2 配对设计

配对设计仅涉及一个实验因素的两个水平，其特点是相同指标的观测结果成对出现，主要包括以下三种情况：①数据来自同一个体，称为自身配对设计（如同一患者服用某种药物前、后对同一定量指标的测量）；②数据来自亲代相同的两个个体，称为同源配对设计（如每窝选两只条件相近的动物或每户选性别相同的两个双胞胎分别服用不同的药物或接受不同的处理）；③数据来自条件相近但并非同源的两个个体，称为条件相近者配对设计（如选择性别相同，年龄、病情、体重等各方面都非常相近的每两个个体配成一对）。

2.2.3 成组设计

单因素两水平设计（简称成组设计）的特点是相同指标的观测结果来自两个独立的总体，受试对象被完全随机分配到两个不同的处理组中去。实验中仅涉及一个具有两水平的实验因素，未对其他任何重要的非实验因素进行处理，仅希望通过随机化来平衡所有非实验因素在两组间对观察结果的干扰和影响[5]。

2.3 三要素

2.3.1 受试对象

受试对象就是实验研究中实验因素（如不同药物、不同特殊处理）作用的承受者，在选取时必须对其同质性予以重视，比如用动物作为受试对象时要注意种属、品系、年龄、性别、窝别、体重和营养状况等因素的影响；用样品作为受试对象，应考虑品种、批号、有效期和用量等影响因素；用人作为受试对象，若选取某病患者，应注意正确诊断、正确分期和对病情的把握，若选取正常人，应至少没有与所研究问题有关的疾病。

2.3.2 影响因素

影响因素分为实验因素和非实验因素。实验因素即外加于受试对象身上的，而且是研究者关心的、在实验中需要观察并阐明其处理效应的因素。对于t检验来说，根据不同的实验设计类型，一般仅涉及一个实验因素的一个或两个水平。除实验因素外，通常还有一些来自受试对象自身条件（包括心理因素）、研究者（如操作方法、与受试对象交流的态度等）和环境条件的影响，必需通过增大样本含量和采取合适的随机化等措施，使一切非实验因素对实验因素的不同水平组的影响达到均衡一致，以降低或削弱非实验因素对评价指标取值的干扰和影响。

2.3.3 评价指标

实验因素作用于受试对象的结果，通过评价指标来表达。采用t检验时，对评价指标的最低要求是应该为定量资料且服从正态分布，每次分析只涉及一个定量指标；若所研究的问题中有多个定量评价指标，仅当它们在专业上是彼此互相独立时，才可以对其每单个运用t检验，否则，需要采用多元假设检验方法，如T2检验或Wilks'λ检验。

2.4 四原则

2.4.1 随机原则

t检验与其他假设检验方法一样，要求所得样本是按照随机原则从总体中抽取并分配到不同组中。其作用是确保样本具有良好的代表性，使各组受试对象在重要的非实验因素方面具有极好的均衡性，提高组间的可比性。

2.4.2 对照原则

进行实验研究，必须设立对照组。合理的对照组可以提高实验的鉴别能力，增强说服力。单组设计的对照组是“标准值或理论值”所来自的“那个总体”，配对设计和成组设计则以其中一组作为对照组，另一组作为实验组。

2.4.3 重复原则

重复是通过样本含量来体现的，样本含量过大（资源浪费、工作量过大、易造成疏漏增多等）或过小（无法显现真实的统计规律）都有弊病。不同的实验设计类型、评价指标的性质和拟解决的统计学问题，对应着各自的样本含量计算公式，应针对实际问题，结合专业知识和统计学知识做出合理的估计[6]。

2.4.4 均衡原则

对于单因素分析来说，应设法使实验组与对照组中的非实验因素（如年龄、病程和病情）尽量达到均衡一致，使实验因素的实验效应尽可能地反映出来。保证组间均衡的主要措施是遵循随机原则和具有足够大的样本含量。

3 涉及均值比较且基于t分布角度考量时，t检验的前提条件

3.1 概述

资料满足前面介绍的与实验设计有关的前提条件，是进行t检验的基础。同时，还应进一步关注数据资料特征方面的要求，即涉及均值比较且基于t分布角度考量时，t检验的前提条件有三个，分别是独立性、正态性和方差齐性。

3.2 独立性

独立性是指各个观测值之间相互独立，可根据专业知识或常识等进行判断。研究者准备调查某药物治疗对抑郁症患者情感强度识别能力的影响，故将受试者随机分为试验组与对照组，分别在基线期、治疗后第4周和第12周使用情感强度识别任务对受试者进行测评[7]。这种实验设计属于从同一受试者身上重复测量获得同一个指标的多个观测值，观测值之间就不符合独立性要求。具体而言，单组设计和成组设计定量资料要求每个个体的测量值要相互独立，配对设计定量资料要求不同对子间的测量值要相互独立。

3.3 正态性

若希望采用t检验处理单组设计和成组设计定量资料，前提是待分析的各组定量资料均服从或近似服从正态分布，或者通过数据转换使之符合正态分布。对于配对设计定量资料，不对两组原始数据提出要求，只需两组的差量符合正态分布即可。如果资料呈较严重的偏态分布，应考虑采用非参数统计分析方法处理，或者通过变量转换，使其满足正态性要求。

正态性检验的方法大致可以归为两类：①采用一个指标综合检验偏度与峰度，如W法、D法、正态概率纸法等；②对两者各用一个指标检验，如动差法（亦称矩法）。使用SAS软件，在调用单变量分析过程UNIVARIATE时，只需在过程步语句中加上一个选择项“NORMAL”，就可实现正态性检验。用这个过程实现正态性检验，当样本含量n≤2 000时，软件自动采用W检验法（注：另外3种方法也会出现）；当n＞2 000时，软件自动采用D检验法；而在SAS/INSIGHT等模块中，SAS采用的是Kolmogorov D检验法。值得注意的是：当样本含量较小时，用Kolmogorov D检验法得出的结果与W检验法得出的结果往往是矛盾的，此时，应以W检验法的结果为准。

3.4 方差齐性

单因素两水平设计一元定量资料t检验要求两组定量资料所对应的总体方差相等，对方差不齐的成组设计定量资料可采用近似t检验（或称t'检验），也可直接选用秩和检验。

检验两总体方差是否相等的常用方法是F检验，以两样本中方差较大的方差为分子，较小的方差为分母，求其比值（称为F值），将求得的F值与相应F分布下临界值比较，得出结论。在SAS中，直接调用TTEST过程，即可输出方差齐性检验的结果。

4 基于SAS并结合实例实现正态性和方差齐性检验

4.1 问题与数据

为了探究不同性别的糖尿病患者在确诊时测量的糖化血红蛋白值（HbA1c）是否存在差异，随机抽取男性和女性糖尿病患者各15例，通过查看既往医疗记录收集相应数据，包括性别（gender：1为男性，2为女性）和HbA1c（%），具体数据见SAS程序中的数据步。试检验不同性别的糖尿病患者HbA1c均值之间差异是否有统计学意义。

4.2 所需要的SAS程序

【SAS程序说明】在该试验中，在性别的两水平作用下，获得的HbA1c观测结果是两组独立数据，因此，本例属于组内完全随机单因素两水平设计（即成组设计）。程序共4步，包括1个数据步和3个过程步，分别使用的是SORT过程、UNIVARIATE过程和TTEST过程。在SORT过程中，by选项指定性别为分组变量进行排序。UNIVARIATE过程调用单变量分析过程，选项normal对数据进行正态性检验，var指明待分析的变量。TTEST过程调用t检验并进行方差齐性检验，选项cochran输出采用“cochran法”导出的近似t检验的结果。

4.3 正态性检验输出结果及解释

以上是男性HbA1c的正态性检验结果，运用“W”等四种方法对其进行正态性检验，P均＞0.05，本例中n=15，因此选用W检验结果，可以认为男性HbA1c的分布符合正态分布。

以上是女性HbA1c的正态性检验结果，运用“W”等四种方法对其进行正态性检验，P均＞0.05，本例中n=15，因此选用W检验结果，可以认为女性HbA1c的分布符合正态分布。

4.4 方差齐性检验输出结果及解释

以上是对不同性别HbA1c资料进行方差齐性检验的结果，F=1.32，P=0.6127＞0.05，满足方差齐性。

【说明】因篇幅所限，以上仅输出了“与t分布有关的t检验的前提条件”的计算结果，其他内容从略。

5 讨论与小结

5.1 讨论

t检验的应用有其明确的限定条件，对t检验的盲目使用将会降低结论的可靠性，甚至得出错误结论。在应用t检验时，应对如下几种类型的错误提高警惕：第一，不考察定量资料对应的实验设计类型，盲目套用t检验处理资料；第二，不检查资料是否具备独立性、正态性和方差齐性，盲目套用参数检验方法；第三，随意应用t检验处理单因素k（k≥3）水平设计定量资料或多因素设计定量资料，割裂了原先的整体设计，降低资料的利用率，增大犯假阳性错误的概率且无法分析因素之间的交互作用；第四，不以专业知识为依据，主观选定单侧检验或双侧检验，在对同一资料进行检验时，单侧检验较双侧检验更容易得出差异有统计学意义的结论[8]。

5.2 小结

定量资料的统计分析在实际运用中占据相当大的比重，而t检验则是单因素设计一元定量资料的假设检验中最简单且常用的方法，在科研论文中使用频率极高[9-10]。正确使用t检验的关键在于如下两点：①正确辨析定量资料的实验设计类型，着重考察实验设计的“三要素”和“四原则”；②严格检查定量资料是否满足“独立性、正态性和方差齐性”的条件。在已发表的期刊文章中，存在着大量关于t检验的误用情况，对于同一个资料或同一个分析目的，由于所采用的统计分析方法不同，有时会得出不完全相同、甚至相反的结论，继而导致科研失败。因此，科研人员应充分了解t检验的基本概念与前提条件，正确、合理地选用统计分析方法。