APP下载

P值大小不等价于差异或相关性大小

2024-04-08郑巧兰林燕薇王景周

数理医药学杂志 2024年3期
关键词:样本量功效期刊

郑巧兰,林燕薇,王景周

中山大学附属第三医院期刊中心(广州 510630)

统计学推断(假设检验)是科学研究尤其是医学研究中的一种常用方法,用于判断样本与总体的一致性。统计学推断普遍依据P值,P值是从一个假设所规定的特定总体中随机抽样,得到的统计量值与实际观测数据相同或更极端(更大或者更小)的概率[1]。P值不代表处理效应的大小或结果的重要性[2],但其被曲解和错误使用情况仍较普遍,已公开发表的文章、个别期刊的投稿须知等存在将P<0.05、0.01、0.001 分别解释为差异或相关性显著、非常显著、极显著的现象[3-7]。目前关于P值的研究大多列举P值的各类误用情况[8-9],或者虽然认为不能将P<0.05 描述为差异具有显著性,但未作详细解释。因此,本研究拟从样本量对P值影响的角度,探讨P值与差异或相关性大小的关系,以期帮助期刊编辑同仁和作者更准确地理解P值并解释其意义,提升学术期刊质量。

1 资料与方法

在医药卫生期刊中,t检验、卡方检验、Pearson 相关分析以及Logistic 回归分析为使用较多的统计学检验方法,对P值的误解也最为常见。本研究通过固定上述4 种统计方法的主要统计量[均数和标准差、样本率、相关系数、OR 值(95%CI)]模拟数据,观察不同样本量下P值差异。

本研究每种统计方法使用3 份不同样本量的数据进行分析。根据每种统计方法适用的数据分布情况,设定统计量值和样本量,采用随机数函数生成研究数据。以t检验为例,设定两组样本的均数、标准差和样本量,采用正态分布随机数函数分别随机生成两组样本的第一份数据,即模拟1;为确保统计量值完全一致,复制10 次第一份数据得到第二份数据,即模拟2;复制20 次第一份数据得到第三份数据,即模拟3。研究中,对统计量值和样本量不断调整,使每种统计方法3 次模拟的P值分别>0.05、0.001~0.05、<0.001。

采用SPSS 20.0 软件进行模拟数据生成和统计检验,采用双侧检验结果。

2 结果

2.1 以独立样本t检验为例

设两组样本的体质量指数(body mass index, BMI)分别为(20.3±1.5)kg·m-2、(20.0±1.5) kg·m-2,当样本量均为30 时,两组均数比较差异无统计学意义(P=0.444);当样本量均为300 时,P=0.014;当样本量均为600时,P<0.001,见表1。

表1 均数和标准差相同、样本量不同的两组数据t检验统计分析结果Table 1. Statistical results of t-test for two groups with constant mean and standard deviation under different sample size

2.2 以两组样本率比较的卡方检验为例

设两种治疗方法的有效率分别为0.42、0.50,当两组样本量均为50 时,两组有效率比较差异无统计学意义(P=0.422);两组样本量均为500 时,P=0.011;两组样本量均为1 000 时,P<0.001,见表2。

表2 有效率相同、样本量不同的两组数据卡方检验统计分析结果Table 2. Statistical results of chi-square test for two groups with constant effective rate under different sample size

2.3 以Pearson相关分析为例

两个变量相关系数为0.238,样本量均为10时,P=0.508;样本量扩大至100 时,P=0.017;样本量为1 000 时,P<0.001,见表3。

表3 相关系数相同、样本量不同的两个变量Pearson相关分析结果Table 3. Results of Pearson correlation analysis for two variables with constant correlation coefficients under different sample size

2.4 以单因素Logistic回归分析为例

单因素Logistic 回归分析中,β=0.811,OR值为2.250,当两组样本量均为10 时,OR 值95%CI 为(0.376,13.465),P值为0.374;样本量增加到每组100 时,OR 值不变,95%CI 缩窄为(1.278,3.962),P值为0.005;样本量为每组200 时,OR 值不变,95%CI 为(1.508,3.357),P<0.001,见表4。

表4 回归系数相同、样本量不同的两组数据单因素Logistic回归分析结果Table 4. Results of binary Logistic regression analysis for two groups with constant regression coefficient under different sample size

3 讨论

了解检验功效(power)有助于正确理解P值。在统计学中,检验功效是指当两个总体参数间存在差异时,所使用的统计检验能够发现这种差异的概率。影响检验功效的因素通常有:总体参数间差异越大,检验功效越大;个体差异(标准差)越小,检验功效越大;样本含量越大,检验功效越大;检验水准(α)越大,检验功效越大[10]。检验功效与P值呈负相关[11]。因此,在其他条件相同的情况下,样本量越大,检验功效越大,即能够发现这种差异的概率越大,而P值越小。

本研究验证了P值受样本量影响较大:将每种统计方法3 次模拟的统计量值固定,即从统计描述上看数据差异或相关性一致,但由于样本量不同,得到的P值差异很大,甚至得到完全不同的结果。如果将更小P值的结果解释为差异更大或者显著,可能造成疑惑。例如,在两组独立样本t检验中,虽然3 种样本量得到不同的P值,但是3 种样本下两组的均数差值均为0.3,差异从统计描述上看一致。而且,虽然第2、3次模拟数据显示P值小于0.05,但是在临床上相差0.3 可能没有专业意义,甚至两组均在正常的BMI 范围内。同样地,在两组有效率比较的卡方检验中,3 种不同样本量情况下两组的治疗有效率一致,样本量增加后P值变小,并非代表差异更加显著。正确的理解应该是以目前的情况,出现零假设正确,即无差异的概率更低,更有理由认为两组的有效率有差异。在Pearson 相关分析中,3 次模拟数据的相关系数均为0.238,第1次的模拟数据因为P值大于0.05,提示两组数据无线性相关,但在第2、3 次的模拟数据中P值均小于0.05,而使不少作者认为显著相关[5]。实际上,相关系数的假设检验仅能说明相关关系是否有统计学意义,不能说明相关关系是否密切[12]。有统计学家认为,r≥0.7 为强相关,在0.3 以下为弱相关甚至无相关[13]。在单因素Logistic 回归分析中,当OR 值不变而样本量增加时,P值变小,OR 值的95%CI 缩窄,这是由于95%CI 与标准误相关,而标准误受样本量的影响,更窄的95%CI 意味着更稳固的结果、更高的可信度[10,14]。

新英格兰医学杂志2019年的作者指南指出,P值没有提供效应大小或者关联强弱的信息,其投稿指南要求P值大于0.01 时保留2 位小数;如果P值在0.001~0.01 之间,则保留3 位小数;如果P值小于0.001,用P<0.001 表示,同时应提供效应值、关联度或其他感兴趣结果指标的置信区间[15-16]。在国内,由于学术不端事件频发,需要进行结果核对,因此,期刊编辑应让作者提供具体P值及其他统计量值[17-18]。中国高校医学期刊论文统计报告规范编写组近期推出了《中国高校医学期刊论文统计报告推荐清单(2023 版)》,指出“大于0.001 的P值应保留3 位小数,小于0.001 的P值应报告P<0.001”,但并未对P值做出更详细解释或设置更多规范[19]。本研究对P值的解释提出以下建议:首先,统计学方法部分不应将P<0.05、0.01、0.001 表达为差异或相关性显著、非常显著、极显著,仅需表达检验水准为0.05(或其他)或者P<0.05 为差异有统计学意义即可。其次,结果部分应避免出现带有评论意义的“显著”“明显”等词汇,尤其是不应根据P值大小判断差异是否显著、非常显著、极显著。英文写作中的“statistical significance”翻译为中文是“统计学显著性”,其代表的是数据差异在统计学上是否显著,不代表专业上的显著性。但是不少论文作者混淆概念,将统计学显著性等价于差异显著性,文字上表述为“两组比较具有显著差异”或“显著高于、明显高于”等,降低了文章的严谨性,容易对读者造成严重误导。本研究建议当P值小于设定的检验水准时,不论其大小,仅表达差异具有统计学意义并附上对应的P值即可。另外,讨论部分也应慎重表述差异显著的结论,是否显著应根据效应值大小及其置信区间并结合临床专业意义进行判断;当P值大于0.05 时,还应结合样本量及检验功效讨论。

值得注意的是,不能唯P值论,结果报告需要更多地结合效应量和置信区间[20],贝叶斯等方法也越来越多地被推荐;同时,统计检验中注意多重比较校正,以减少错误发现的可能性;且统计学意义并不代表专业意义,研究者还应考虑研究结果的专业意义。

P值相关问题一方面反映出国内统计学教育的不足,是统计学教学过程中相对薄弱且需要重点关注的环节[21];另一方面也体现了继续教育的欠缺,以期刊编辑工作为例,编辑的统计学素养可强化作者的统计学意识,提升科研人员的统计学水平,其统计学掌握水平与论文综合质量密切相关,国内学术期刊编辑继续教育存在内容同质化、培训方式单一、培训对象宽泛等特征[22-24]。学术期刊编辑尤其是医学期刊编辑亟须提高统计学素养,期刊编辑继续教育相关组织机构可以安排医药卫生期刊专场,邀请统计学专家进行授课;对于论文作者,编辑部可以通过完善稿约细则,增强作者统计报告规范意识,引导其重视统计学规范,正确使用P值解释相关结果[25]。

综上,P值虽然饱受争议,但目前仍为医学科研论文不可忽略的关键词,正确使用并解释P值对于科学研究的可靠性、结论推断和决策制定具有重要意义。本研究通过模拟数据分析,展示了样本量对P值大小的影响,说明了P值大小不等同于差异或相关性大小的原因,提出正确使用和解释P值的建议,以期帮助编辑同仁和作者准确理解P值并正确解释统计分析结果,提高学术期刊论文质量。

猜你喜欢

样本量功效期刊
期刊更名启事
期刊简介
红景天的神奇功效及作用
医学研究中样本量的选择
被扔掉的葱须大有功效
期刊问答
藏雪茶的养生功效
航空装备测试性试验样本量确定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
如何让你的化妆品发挥更大的功效