如何正确运用t检验<br/>——两算术均值比较非劣效性t检验及SAS实现

如何正确运用t检验
——两算术均值比较非劣效性t检验及SAS实现

2020-07-23刘媛媛李长平胡良平

四川精神卫生 2020年3期

陈阳，刘媛媛，李长平，2，胡良平

（1.天津医科大学公共卫生学院，天津 300070；2.世界中医药学会联合会临床科研统计学专业委员会，北京 100029；3.军事科学院研究生院，北京 100850

当事先知道某两种药物或疗法的初步信息（如A药可能比B药疗效差），但其差值可能不会超出专业上允许的一个界值时，可以考虑采用非劣效性检验[1]。本文主要介绍临床试验中非劣效性检验的相关内容，包括非劣效性检验的概念、意义以及假设检验的原理、重要参数的解释和确定。再结合临床实例，展示SAS中两算术均值比较非劣效性t检验的应用，并对程序语句和运行结果进行解释。

1 概述

1.1 非劣效性检验简介

以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准，然而随着可应用的有效药物的不断出现，具有突破性疗效的新药却越来越少，所以临床研究的目的也逐渐改变。尽管某些疗法能够提供更高的功效，但其他新疗法可能具有更高的安全性或便利性，或更少的经济花费，同时提供相似的功效。为了寻求良好替代疗法，提出了非劣效性检验。在真实的非劣效临床研究中，当以阳性药物作为对照时，实际上是默认了阳性对照的疗效是客观存在且稳定的，且已知试验药的疗效不可能等于或优于对照药的疗效，当能证明两者疗效之差未超过临床上认可的界值时，即可称为非劣效。如果非劣效性检验成立，试验药物虽然相比于阳性对照药物在疗效上没有优势，但考虑到其他方面的优点，如给药方便、原材料丰富、价格便宜、不良反应少等，那么新药也是值得投入的。此外，在临床试验的设计和分析阶段，评估非劣性比优效性更为复杂，但在某些情况下，非劣效检验的原假设可能比通常的优效性分析更合理，因为它基于先验的效应以及安全性信息[2]。随着临床试验中设计和统计分析的不断改进与规范，标准阳性对照试验的非劣效性设计的应用更加广泛，成为了评价药物、器械、生物制品和其他医学治疗的主要工具，近十年内，评估非劣效性的随机试验数量增加了6倍[3]。目前科研需要发展具有相当功效但兼具其他优点的新方法替代标准方法，在这种前提下，非劣效性试验的应用就越来越普遍，但与此同时，为了保证结果和结论的可靠性，非劣效试验的报告内容和相关的规定也需要不断完善[4]。

1.2 非劣效性设计下两均数比较的假设检验及参数解释

检验假设：μ1表示试验措施的干预效果（试验组主要指标的效应值，均数）；μ2表示对照措施的干预效果（对照组主要指标的效应值，均数）。

同时还假定：主要指标为高优指标，即均值取值大为好（若主要指标为低优指标，下面零假设和备择假设中的不等号需要改变方向，且非劣效界值取正值）。δL表示非劣效界值（通常取负值）；α表示检验水准（在通常的情况下取α=0.05，单侧检验）；原假设和备择假设分别用H0和H1表示。基于以上定义，非劣效性检验的检验假设可表述如下，H0：μ1－μ2≤δL；H1：μ1－μ2＞δL。

采用单侧检验。当t＞t（1-ɑ），n1+n2-2时，差异有统计学意义，拒绝H0，能够得出试验组非劣于对照组的结论[5]。

在非劣效检验中使用单侧检验，当试验组疗效劣于对照组且其差值小于或等于非劣效界值δL时，不能拒绝H0，尚不能得出试验组非劣效于对照组的结论；如果大于非劣效界值δL，则拒绝H0，能够得出试验组非劣效于对照组的结论。

在置信区间法中，非劣效性试验仅关注试验方法相对于对照方法评价指标的效果差值的置信区间下限的大小。因此，当试验措施与对照措施的效果差异的单侧95.0%置信区间完全落在非劣效性界值右侧时，即其单侧95.0%置信区间的下限大于设定的判断界值δL时，则可判定非劣效性假设成立。对于两个均数比较的非劣效检验，按照单侧100（1-α）%的可信度，可以计算单侧置信区间的下限CL，公式如下：

若（CL，∞）不包括δL，可以得出试验组疗效非劣效于对照组疗效的结论。

1.3 非劣效性界值δL的设定

美国食品药品监督管理局指出，在非劣效试验中，设定检验界值应基于“恒定假设”，即尽可能确保本次非劣效性试验中阳性对照药的疗效与既往临床试验保持一致。只有当前非劣效试验与其阳性对照药的历史试验在所有重要研究设计和实施方面均保持一致时，历史试验才可用于估计当前非劣效试验的阳性对照药疗效和非劣效界值[6]，否则会导致错误的非劣效结论。非劣效性界值δL设定一般分为两个步骤，可采用综合分析法（常用Meta分析法）估计阳性对照的绝对疗效M1，计算阳性对照与安慰剂效应之差的95%双侧置信区间下限（必须大于0），鉴于疗效的一致性和既往的临床数据质量，一般M1取值小于计算所得下限值。非劣效性界值|δL|=M2=f*M1，f一般建议取值为0.5。当无法借鉴历史资料时，临床试验的反应率（有效率）高于80%时，|δL|一般可以取阳性对照疗效的10%～15%。非劣效性界值应该结合文献，由临床专家确定。根据经验，血压可取为0.67 kPa（5 mmHg），胆固醇可取为0.52 mmol/L（20 mg/dL），白细胞可取为0.5×109/L（500个/mm3）[7]（注意：前面举例给出的是非劣效界值的绝对值，代入公式计算时，应取负号，代表“方向”）。若确实没有公认的文献资料作为参考依据，需要由在所研究问题方面具有权威性的多位临床专家共同商定。

2 实例分析

2.1 基于“样本含量、均值和标准差”进行非劣效检验

【例1】为了比较拉西地平与苯磺酸氨氯地平治疗中老年原发性轻中度高血压的效果及安全性[8]，入选8个中心年龄在50～80岁的轻中度高血压患者共263例，随机分为拉西地平组和苯磺酸氨氯地平组，于治疗20周后比较两组患者24 h平均收缩压，评价拉西地平控制中老年原发性轻中度高血压的效果是否不劣于苯磺酸氨氯地平。见表1。

表1 拉西地平组与苯磺酸氨氯地平组24 h平均收缩压变化情况（mmHg）

基于该成组设计一元定量资料，能够计算得到样本量、均数及标准差，为了比较两组的24 h平均收缩压控制效果，可以采用非劣效性检验（假定：经临床专家商定，非劣效界值为-5 mmHg），结合两组的均数、标准差判断该药物是否有推广价值。一般认为，降血压的数值越多，表明降压药的疗效越好，故本例的评价指标（血压下降值）为“高优指标”。

SAS程序如下：

【程序说明】第1步设定非劣效性界值L（注意：程序中不便采用δL表示）；然后，根据式（2）计算中间结果。第2步进行非劣性假设检验，根据式（1）和式（3）计算t值、P值和CL[9]。

【SAS主要输出结果及解释】

以上主要输出结果中的utc=1.65071是基于df=132+131-2=261、上尾概率为0.05条件下计算出t分布曲线下的分位数，若采用正态分布近似取代t分布，则此数值应该为1.645。

统计与专业结论：t=2.57626，P=0.005269056，按照α=0.05（单侧检验），拒绝H0，接受H1，可以认为拉西地平控制中老年原发性轻中度高血压的效果不劣于苯磺酸氨氯地平。从95%置信区间下限来看，CL=-3.31148＞-5.00，可以认为拉西地平不劣于苯磺酸氨氯地平，该结论与假设检验结果一致。

2.2 基于原始定量数据

【例2】为了观察地赐康的降血脂疗效[10]，将79例原发性高血脂症患者随机分为治疗组（地赐康冲剂1袋，tid）和对照组（血脂康胶囊2粒，bid），治疗8周后，观察两组总胆固醇下降的情况，评价地赐康的血脂调节效果是否不劣于血脂康胶囊。见表2。

表2 测定79例原发性高血脂症患者8周后总胆固醇下降情况（mmol/L）

表2所示属于成组设计一元定量资料，可以采用非劣效性检验比较治疗组与对照组的效果。根据临床经验，设定非劣效性界值为-0.52 mmol/L，以进行后续的非劣效性检验，试判断地赐康冲剂是否具有推广和应用价值。

SAS程序如下：

【程序说明】第一步，根据原始定量数据建立临时数据集“example2”，程序对试验组和对照组有明确的要求，第一组为试验组，第二组为对照组。第二步，在TTEST过程中，sides=u表示采用上单侧检验，h0=-0.52为设定的非劣效性界值；“alpha=0.10”代表求均值之差的双侧90.0%置信区间，相当于单侧95.0%置信区间。

【SAS主要输出结果及解释】

以上结果分别为两组总胆固醇变化量的均值以及它们差值的均值、标准差、标准误、双侧90.0%（相当于单侧95.0%）置信区间等信息。

根据方差齐性检验的结果（EqualityofVariances），F=1.91，P＞0.05，认为两总体方差相等。对应的t检验结果中，应该参照汇总方法（Pooled），对应方差相等时的计算结果。

若采用置信区间法，需要参考两组效应差值的95%CLMean的下限，再与δL（取负值）进行比较，得出统计结论。

统计与专业结论：t=2.14，P=0.0179，按照α=0.05，拒绝H0，接受H1，可以认为地赐康的血脂调节效果不劣于血脂康胶囊，结合地赐康冲剂价格以及患者的服药依从性，可以考虑在临床推广应用。此外，按照单侧95%的置信度，两组效应差值的置信区间下限CL为-0.3473＞-0.52（非劣效界值），可以下非劣效性的结论，与假设检验的结果一致，即可以认为地赐康的血脂调节效果非劣效于血脂康胶囊的血脂调节效果。

3 讨论与小结

3.1 讨论

在非劣效性分析中，先验确定了两种治疗方法之间的可接受的差异δL，但非劣效性界值的设定是研究设计时最复杂的问题。由于确定的非劣效界值一般很小，导致非劣效设计中阳性对照的样本量需求大于安慰剂对照，而样本量的确定高度依赖于界值和试验方法的效应，这些都必须明确而具有现实性[11]。关于非劣效或者等效性研究的文献有很多混乱及缺陷，如界值的正确选取、样本量的合理计算等。造成这一问题的重要原因是术语缺乏统一性和通透性，这是应用新方法时不可避免的。但可以预料的是，随着这些方法的应用和研究指南的不断改善，科学研究将会向着正确的方向更进一步[12]。

3.2 小结

少数情况下当安慰剂对照不被允许或违反伦理，或者想要与已上市的有效药物或标准治疗方案进行比较以求能获得一个新的治疗选择时，可以考虑进行非劣效性分析。这种类型的分析存在一些缺点，如依赖于之前对照的结果以及确定非劣效界值较复杂。但是这些缺点可能会被其优点所抵消，如能够包含多种终点类型（二分类、有序变量、连续变量等），基于治疗方法和适应症，能够比安慰剂对照更具有伦理学意义。

随着非劣效设计的普遍应用，需注意在研究过程中遵守和维持此类有效性研究的基本原则和报告标准。通过合理的设计和执行，非劣效性试验能够提供具有临床价值的创新治疗方案。