我国体育类随机对照试验研究的方法学与报告质量评价（2010—2020）

2021-10-14刘如强董宝林张丹青毛丽娟

体育科学 2021年5期

刘如强，董宝林，张丹青，刘阳,4，毛丽娟*

（1.上海体育学院体育教育训练学院，上海 200438；2.苏州幼儿师范高等专科学校，江苏苏州 215131；3.上海杉达学院体育教研室，上海 201209；4.上海市学生体质健康研究中心，上海 200438）

随机对照试验（randomized controlled trial，RCT）是评价医疗保健干预措施的金标准（Schulz等，2010）。在体育科学研究中，RCT研究（包括对RCT的元分析）处在因果关系证据力度等级的顶端部分（张力为等，2017），能够为因果关系提供有力证据，并广泛应用于学生身心健康促进、运动技能学习、老年人健康促进、运动员竞技水平提高等领域。不可否认，我国当代体育类的RCT研究尚未完全展现其应有价值：一方面，与国内其他专业相比，对方法学的关注弱于循证医学等；另一方面，与国外同领域研究相比，部分研究质量偏低（王帝之等，2019）。众所周知，开展高质量试验研究是体育科学研究不断追求的目标。为使RCT研究充分展现证据力度，需找到该类研究尚存的问题，有效提出改进方向。近年，体育学者持续关注试验方法在体育科学研究中的应用，对变量控制、样本量、报告规范等环节出现的问题进行了深入分析（石岩等，2014；张连成，2016；张连成等，2020；张禹，2016），但鲜见对处于证据链顶端的RCT研究以及审视其方法学与报告的整体情况。鉴于此，有必要对我国体育类RCT研究的方法学与报告质量进行评价与分析。方法学是RCT的核心，试验报告是展现试验全貌与规范性的重要依据，对两者的评价与分析能全面了解我国体育类RCT研究的现状与不足之处，从而进一步提出发展或改进方向。

RCT研究的方法学质量常用偏倚风险（risk of bias）来体现（来保勇等，2018）。偏倚又称系统误差，指在研究过程中，一些已知或可控因素引起的使研究结果或推论系统地偏离真实情况（王建华，2010）223。偏倚风险是出现系统误差的可能性，如果RCT研究中设计、实施、报告等环节未得到严格控制，就会高估或低估干预效果，增加偏倚风险。偏倚程度难以定量评价，只能定性判断偏倚风险。在众多偏倚风险评估工具中，Cochrane风险偏倚评估工具（Higgins et al.，2011）更受专家推崇（曾宪涛等，2012）。该工具对RCT方法学有重要影响的偏倚分为6个类别7个偏倚来源：选择性偏倚（随机序列生成与分配隐藏）、实施偏倚（主试或受试者施盲）、测量偏倚（对结局评估者施盲）、随访偏倚（结果数据不完整）、报告偏倚（选择性报告）与其他偏倚，7种偏倚风险全面反映了RCT研究的方法学质量。

RCT报告质量问题在20世纪90年代已受到关注，为解决报告不充分问题，在方法学专家与期刊编辑等组成的研究小组建议下，TheJournaloftheAmericanMedical Association（JAMA）于1996年发表了试验报告的统一标准（consolidated standards of reporting trials，CONSORT）声明（Begg et al.，1996）。此后，CONSORT工作组不断对其进行完善，形成了由1份包含25个条目的检查对照清单和1份流程图组成的CONSORT 2010声明，并发表在British MedicalJournal（BMJ）上（Schulz等，2010）。该声明自形成以来，得到全世界400多种期刊和多家编辑委员会的明确支持，对改善RCT报告质量发挥了积极作用。

本研究运用Cochrane偏倚风险评估工具与CONSORT 2010清单两项权威工具，对2010—2020年体育科学研究领域《中文社会科学引文索引》（Chinese Social Sciences Citation Index，CSSCI）刊发的RCT文献进行偏倚风险评估和报告质量评价，旨在了解现状、发现问题、提出建议。

1 研究对象与方法

1.1 研究对象

以我国体育领域中RCT研究的偏倚风险和报告情况为研究对象，以2010—2020年均被评为CSSCI来源期刊的9本体育类期刊为调查对象：《体育科学》《中国体育科技》《上海体育学院学报》《北京体育大学学报》《体育学刊》《体育与科学》《天津体育学院学报》《武汉体育学院学报》《西安体育学院学报》。

1.2 研究方法

通过文献资料检索、收集相关文献，运用数理统计法对提取信息进行统计与分析，对照Cochrane偏倚风险评估工具和CONSORT 2010清单进行逐条评价。

1.2.1 文献获取

运用中国知网（CNKI）高级检索程序，来源期刊逐一选定指定期刊，来源类别设定为CSSCI，检索时间设定为2010—2020年（截止时间为2021年1月1日），逐篇筛选（图1）。首先将题目中出现干预、影响、实验、试验、实证、提升、促进、改善、提高、实施、效应、效果、效益、疗效、应用、作用、调节、学习、比较、关系、关联字样的文献导入阅读与管理软件，然后根据摘要与全文进一步筛选，根据纳入标准，最终168篇RCT文献为符合标准文献。

图1 文献筛选流程Figure 1.Process of Document Retrieval

1.2.2 纳入与排除标准

纳入标准：1）包含干预组与对照组；2）受试对象分组时有“随机分组”“随机分配”等描述；3）以人为干预对象；4）试验报告了相关结局指标。排除标准：1）随机分配固定班级或固定小组的试验设计［此类试验分配单位是组群而非个体，为整群随机试验，非真正的RCT研究（陈新林等，2015）］；2）动物类试验；3）其他非随机对照类试验。

1.2.3 信息提取

两名研究员根据相关标准独立逐篇阅读、提取资料，如遇分歧，与第3名研究者讨论解决。采用Endnote与Excel建立资料提取表提取资料，内容主要包括文献基本信息、研究方法学特征、报告规范评价指标等。

1.2.4 评价

正式评价前，两名研究员系统学习Cochrane评价手册和CONSORT 2010声明，利用计算机随机数字生成器随机抽取5篇进行预评价，保证两位评价员对评价标准理解一致。正式评价共进行3轮：第1轮两名研究员分别根据标准进行独立评价，第2轮与第3轮分别对上一轮评价不一致的条目进行再次评价和讨论，最终达到评价一致。

偏倚风险评估时，依据偏倚风险表中每个偏倚来源的详细描述，对每篇文献6类偏倚的7个来源信息进行评估。结果判定时，将偏倚风险评为“低风险”“高风险”“不确定”3类。其中，“低风险”意味着存在的偏倚不可能严重影响研究结果，“高风险”代表存在的偏倚可能会严重减弱研究结果的可信度，“不确定”表示信息缺乏或对潜在偏倚不确定，意味着存在的偏倚会引起对研究结果的怀疑。在评估的同时，将数据导入RevMan 5.4软件分析处理，绘制偏倚风险图直观展现偏倚情况。

报告质量评价时，对照CONSORT 2010声明中25个条目内容逐一评价所纳入文献。根据文献描述，将各条目的报告情况划分为“明确报告”“部分报告”“未报告”。结果评定时，将“明确报告”比例大于60%的条目评为“高质量”，将“报告”比例大于60%（“明确报告”比例未达到60%，但与“部分报告”比例之和大于60%）的条目评为“中等质量”，将“未报告”比例大于40%的条目评为“报告质量较低”。由于篇幅限制，本研究重点关注方法学和规范性的条目，如“8a随机序列产生”“12a描述统计方法”等，对体育类RCT研究较少涉及的一些提示性条目如“6b试验开始后结局指标的任何变化及原因”等不进行重点关注。此外，鉴于工具来自医学领域，在评价时将11a条目中的“医务工作者”改为“干预实施者”；将15条目中“临床特征”改为“当前水平”。

2 研究结果

2.1 基本情况

2010年1月—2020年12月，9本体育类C刊共刊登符合本研究标准的RCT文献168篇（图2），涉及10 169名受试者。

图2 9本体育类C刊共刊登符合本研究标准的RCT文献Figure 2.RCT Literature Published in 9 Sports Journals of CSSCI which Meet the Criteria of This Study

2.2 偏倚风险评估

所有类别偏倚中，风险“不确定”的比例最高，选择性偏倚、实施偏倚、测量偏倚、随访偏倚和其他偏倚类别中均有超过一半文献为“风险不确定”（图3），说明大多数文献难以根据报告内容判断这5类偏倚的风险等级。“低风险”偏倚类别主要涉及选择性偏倚（随机化序列生成）、实施偏倚、测量偏倚、随访偏倚、报告偏倚和其他偏倚，其中报告偏倚均为“低风险”，显示所有文献均无选择性报告。偏倚“高风险”比例最低，主要集中在实施偏倚、随访偏倚和其他偏倚3类，具体体现在试验控制不充分、受试者流失过多和样本量过少等。

图3 偏倚风险Figure 3.Risk of Bias

2.3 报告质量评价

报告质量较高的条目（表1）：所有文献均介绍了试验背景（2a）；94%的文献报告了试验目的或假设（2b）；97%的文献清楚界定了主次要结局指标（6a）；69%的文献描述了各组干预措施的相似之处（11b）；86%的文献描述了统计学方法（12a）；98%的文献描述了招募和随访日期（14a）；所有文献均解释了试验结果（22）。

表1 纳入文献报告质量评价结果Table 1 The Results of Evaluation of Document Reporting Quality

续表1

报告质量中等的条目：38%的文献摘要缺少部分信息（1b）；85%的文献描述干预措施时不能完全满足“可以重复试验”要求（5）；56%的文献只报告了分配时各组别人数，处理和分析时的人数不详（13a）；所有文献进行结局评估时皆描述了主次要结果，47%的文献报告评估效应与精确度时不够全面（17a）。

报告质量较低的条目：所有文献均难以通过题目识别为RCT研究（1a）；60%的文献未明确描述试验设计类型（3a）；52%的文献未提供受试者入选标准（4a）；45%的文献受试者来源描述过于简单（4b）；1%的文献交代了样本量确定依据（7a）；3%的文献报告了随机序列产生方法（8a）；11%的文献报告施盲（11a）；57%的文献未报告受试者流失情况（13b）；14%的文献报告了研究局限性（20）。

3 讨论

偏倚控制展现RCT研究方法学，高质量的偏倚控制使研究得到更接近真实的结果；规范报告呈现试验全貌，高质量的试验报告是读者和本领域学者对研究进行全面赏析与评价的前提。依据Cochrane偏倚评估工具中7种偏倚来源信息，认为我国体育类RCT研究中选择性偏倚、实施偏倚、测量偏倚、随访偏倚和其他偏倚的控制措施有待提升；对照CONSORT 2010声明中25个条目内容，认为报告中文题摘要、受试者、样本量、干预措施、统计方法与结局评估需进一步规范。

3.1 偏倚控制

3.1.1 选择性偏倚

选择性偏倚包括随机序列的生成与使用、实施分配隐藏两个类别。其中，随机序列生成与使用，即随机化处理在体育类RCT中涉及较多。对受试者进行随机化处理是RCT研究设计的三大原则之一（张宁，2010），正确使用随机化有助于减少选择或混杂偏倚，有利于实施盲法，以及使用概率论对组间差异进行统计分析（Schulz et al.，2002b）。随机化主要包括随机抽样与随机分配，理想情况下是先对总体进行随机抽样，然后进行随机分配。然而，现实中目标总体太大，难以进行随机取样，如若要探索身体活动对小学生基本动作技能的影响，无法得到全部小学生的名单进行随机取样。在此情况下，为增加RCT研究的内部效度，须保证随机分配（伯克·约翰逊等，2015）。采取何种办法进行随机分配体现主试如何努力控制选择性偏倚，将风险降到最低，因此，Cochrane手册判断“低风险”的标准为研究者在序列产生过程中描述了随机方法。在本次评估的168项研究中，仅5项研究描述了随机序列的生成方式，如抽签、使用随机数字表或计算器取数程序等，其余163项研究的随机过程均概括为将受试者随机分为试验组和对照组，忽略了报告随机序列生成方法、分配实施的相关信息，难以判断随机化过程是否合理、实施是否正确。根据Cochrane手册，将此163项研究的选择性偏倚风险等级评为“不确定”。风险“不确定”意味着可能存在的偏倚会引起本领域学者或读者对研究结果的怀疑，使整体研究质量降低。其实，随机化处理花费的时间和精力较少，之后却可以获得科学的精确性和可信性，研究者应该投入合适的资源生成恰当的序列，并清晰展现所使用的方法（Schulz等，2010）。目前，科学研究方法的不断发展对随机方法提出了更高的要求。在众多随机方法中，掷硬币、掷骰子、抽签、抓阄和发扑克牌等手工方法，因存在对随机性造成伤害、执行困难和缺乏验证试验等缺陷均已较少使用，随机数字表、电脑随机数字生成器、SPSS软件或SAS软件等克服了上述缺点，均是较好的随机方法（曾宪涛等，2013a）。

3.1.2 实施偏倚

实施偏倚评估重点考察对主试或受试者的施盲情况。在体育类RCT研究中，对主试施盲可以让其在指导过程中避免心理预期，对受试者施盲可以让其在自然状态下进行体育活动，对两者同时施盲可以较大力度保证干预内容“无污染”。在所纳入168项RCT中，有8项试验对受试者施盲，其中2项同时对主试施盲，另外3项试验报告为单盲或双盲试验。在偏倚风险评估时，根据Cochrane手册将此11项试验的实施偏倚评为“低风险”。另有10项试验，如研究在不同氧压环境中探讨高低氧环境对人体氧化应激反应等，满足Cochrane手册中未施盲法但结局不会受到未施盲法的影响判断标准，同样评为“低风险”。5项研究存在试验人员或受试者知晓试验目的的情况，实施偏倚风险等级为“高风险”。如在探讨某运动项目对大学生心血管影响试验中，受试者分组和教学均由试验设计者实施，主试的期望很可能会出现罗森塔尔效应，增加实施偏倚风险；在另外4项研究中，受试者明确知晓试验内容和目的，可能出现霍桑效应或约翰亨利效应影响干预效果。在体育类RCT研究中，对受试者施盲较为容易，如不告知受试者练习目的等；由于多数主试身兼试验设计者、干预实施者、结果测量人员等多重身份，对主试施盲相对困难，为降低偏倚风险，采取第三者干预等方式可有效控制偏倚。

3.1.3 测量偏倚

测量偏倚重点评估结果测量是否施盲，在结果评价环节施盲可以保证干预结果真实可靠，展现干预措施的原本效果。在168项体育类RCT的测量偏倚评价中，7项研究描述了结局测量时的具体施盲方法，满足对结局测量施盲，且盲法不会被破坏的标准，测量偏倚为“低风险”。7项研究中施盲方法主要有：1）评价时随机编辑受试者顺序，如在《网球初学者类比学习和外显学习的协同效应》研究中，将每位受试的击球动作视频编辑成独立文件并随机分成3组进行评定；2）不告知测量人员有关试验信息，如《功能训练对青少年过度胸椎后凸干预效果的研究》进行结果测量时，脊柱形态测试人员不知晓受试者的脊柱健康状况；3）测量评价环节交由第三方实施，如在《五禽戏干预中年男性代谢综合征的效果及生物学机制探讨》中，相关体质和血液指标检测均由第三方协助完成。此外，有47项研究在结果测量时虽然未施盲法，同样满足结局测量不会受到未施盲法的影响要求，测量偏倚风险较低。如在多项与心理发展有关的试验中，测试结果直接由电脑生成；多项试验测试指标为血镁浓度等血液指标，结果必须由相关仪器进行检测和分析。评估时认为此类试验结果测量和评价较为客观，测量偏倚控制较好，故评为“低风险”。一般而言，结果测评指标完全由仪器进行评价时，可在一定程度上避免主观倾向，测量偏倚风险较低；若结果测量环节含有主观评价内容，建议采取随机编辑受试者或第三方测评等措施减少测量偏倚。

测量偏倚与实施偏倚主要考察试验的施盲情况，成功施盲可以提高试验效度，发表在《柳叶刀》上的研究总结了成功施盲具有减少受试者流失等多项潜在益处（Schulz et al.，2002a）。整理168篇文献发现，体育类RCT研究在施盲环节存在以下不足之处：1）施盲试验不多。近10年9本C刊报告施盲的试验为18项，占比11%，比例较低。2）施盲对象不够丰富。RCT试验中，施盲对象可以有受试者和（或）实施者和（或）数据分析者和（或）结果评价者，相应的盲法有单盲、双盲、三盲和四盲4种（曾宪涛等，2013b）。在本次纳入的18项施盲的试验中，有12项单盲试验，双盲及以上的盲法较少；从具体施盲对象来看，主要对受试者或测试人员施盲，对主试或数据分析人员施盲的试验不多。3）描述不够准确和详细。2项研究报告为“双盲试验”，但施盲对象分别描述为“受试者、体育教师和测试人员”“受试者、教练员和队医”，皆应为三盲试验。另有3项研究仅简略报告为“本试验为单盲试验”等，难以判断试验施盲对象、施盲是否成功，也难以判断偏倚风险等级。基于以上问题，未来研究中应尽可能实施盲法，并在报告中准确描述施盲对象，详细报告施盲过程，以便读者判断盲法质量。

3.1.4 随访偏倚

随访偏倚是指研究中受试者退出导致结局数据不完整带来的系统误差，判断其风险等级主要依据每个结局指标中结果数据的完整性，即流失与剔除的数据。如果试验中流失或试验后被剔除的数据过多，可能意味着干预措施质量不高、统计分析失衡，导致试验证据力度较低。体育类RCT研究干预周期长、不可控因素较多，较易出现随访偏倚。本次评估的168项试验中，41项明确报告没有受试者流失或被剔除，随访偏倚风险等级为“低风险”。评估明确报告流失数目的27项研究时，根据以下3个问题逐步判断：1）是否可以获得绝大多数受试者的结局数据，一般认为流失率低于5%时发生偏倚的风险较小；2）数据缺失的比例和原因在组间是否均衡，其中“均衡”是指各组间数据缺失的比例接近，各组缺失的原因没有系统性差异；3）是否有证据支持，即使存在数据缺失，分析结果仍然是可靠的（杨智荣等，2017）。评估中，19项研究或流失率低于安全临界点，或流失率虽略高于5%但组间仍较为均衡，风险等级为“低风险”；8项研究流失率较高，且上述第3个问题为否定答案，随访偏倚等级评为“高风险”。其余100项研究均遗漏了报告受试者流失情况，难以判断结局数据是否完整，随访偏倚风险等级均为“不确定”。可见，风险“不确定”比例较高与存在“高风险”是当前体育类RCT研究中控制随访偏倚需要解决的两个问题。解决风险“不确定”比例较高的问题，需要在控制发表偏倚的前提下规范RCT报告；解决存在“高风险”的问题，可采取试验前请受试者认真阅读知情同意书、与受试者（或监护人）签订试验协议，试验中鼓励受试者、增加人文关怀，试验后及时补测等措施降低随访偏倚。

3.1.5 其他偏倚

除上述环节外，RCT研究还包括招募、设置对照、安排主试、设置干预时间与地点等诸多环节，每一环节未得到严格控制都有可能影响试验质量，造成试验偏倚。Cochrane手册将偏倚风险评估工具未提到且与偏倚有重要关联的情况列为其他偏倚。在此类偏倚风险评估中，21项研究因各环节控制较好，符合没有其他偏倚来源标准，评为“低风险”；143项研究根据没有充分信息判断是否存在重要偏倚风险的判断依据，偏倚风险等级评为“不确定”；另外4项试验中存在如各组别受试者人数过少（不到5名）、受试者心理状态评定（试验重要环节）不规范、因变量测试结果误差较大等问题，增加试验偏倚的可能性较大，故评为“高风险”。其他偏倚类别虽然没有明确涉及试验某一环节，但涉及面更广，涵盖的内容更多，提示，开展RCT研究时，研究者需严格、严谨处理每个环节。

综上，偏倚控制是RCT研究的重要组成部分，部分体育类RCT研究的偏倚控制相对欠缺。未来开展RCT研究时，研究者应不断钻研试验方法，严格控制试验过程的每一步骤，努力降低各环节偏倚风险，提高试验质量，展现RCT研究应有的高证据力度。

3.2 报告规范

3.2.1 文题摘要

文题不够精确、部分摘要信息不够完整是此条目的主要问题。1）文题：25个条目的检查对照清单要求根据文题能够识别为随机试验，所纳入文献文题多以“……对……的影响”或“……的试验研究”为主，均无法识别为RCT研究。在检索和筛选文献时发现，此类描述方式与单组试验研究、随机分配固定班级试验的文题描述类似，但后两者属于准试验（张力为，2002）或弱试验（黄汉升，2005），与被称为真试验研究的RCT研究在提供因果关系证据力度上存在较大差距。现有描述方式难以凸显“随机对照”，忽视了RCT研究的意义和价值，同时为辨别是否为RCT研究增加了难度，故建议在RCT报告文题中增加“随机对照试验”等描述。2）摘要：在CONSORT 2010声明影响下，作者和编辑将会愈加注重对摘要的要求，如表达清晰、撰写规范、提供相应关键信息等，以使读者通过摘要正确评估整个试验（Hays et al.，2016）。所纳入文献中有70篇摘要未完全符合对照清单要求，多数文献的结构式摘要缺少试验设计信息，少数摘要仅报告了试验宏观意义和结论，试验关键信息描述不够全面。虽然对照清单考虑到很多期刊有自己的写作格式，并非要求其改变格式，但仍建议RCT研究报告使用结构式摘要报告目的、方法、设计、结果和结论，表述简单明了，更易使读者准确获取信息。

3.2.2 受试者

对照清单中，4a、4b、13a、13b等多个条目与受试者有关，本研究将涉及受试者的内容作集中讨论。依照清单，所纳入文献中与受试者有关的问题主要包括部分文献中缺少纳入标准、来源信息不够详细、忽略各阶段人数报告，以及流失或被剔除等信息不够详细。1）受试者纳入标准在试验最初阶段或随机分配之前使用，详细描述纳入标准有助于重复该试验和准确判定试验效果推广到人群类别（张禹，2016）。在所纳入文献中，超过半数忽略了提供受试者标准，多数文献是受试者入选后对其特征进行描述，使读者对试验效果的适用人群产生疑惑。与针刺类100%的研究（陈晓虹等，2020）提供受试者纳入标准相比，体育类RCT研究在受试者选择环节需要更加严谨。2）根据对照清单，受试者来源和资料获取场所需要准确报告。我国幅员辽阔，南北、东西部地区差别较大，不同的环境、试验场所，以及文化、经济、气候等因素会影响研究结果的外部真实性。在所纳入文献中，75篇文献对受试者的描述类似于“以女大学生为研究对象”，让读者难以判断该受试者来自哪个城市或哪个地区，对重复试验和判断试验推广程度造成影响。3）受试者流程：试验研究开展时间较长，受不可控因素较多，在试验的各阶段都可能有受试者流失或被剔除，因此，对照清单要求明确报告分配、处理与分析时各组人数，并极力推荐使用流程图（图4）。阅读168篇纳入文献发现，绝大部分文献在试验开始部分的分配环节报告了各组人数，仅41%的文献（69篇）通过使用流程图、描述流失情况、在表格中注明等形式报告了试验各阶段受试者人数。99篇文献由于作者未在干预和数据分析环节报告受试者人数，或报告有流失却忽略了报告流失时段与具体人数，使读者不清楚试验后期各组别受试者流失情况、具体分析数目，难以判断受试者流失对试验偏倚造成的影响。鉴于以上情况，建议报告中明确受试者入选标准和来源信息，并使用流程图，以便读者了解试验过程中受试者整体状况。同时，即使整个试验过程没有受试者流失或被剔除，建议同样在文中注明。

图4 两组平行随机对照试验各阶段受试者流程（Schulz等,2010）Figure 4.Flow Diagram of the Progress Through the Phases of a Parallel Randomized Trial of Two Groups（Schulz等,2010）

3.2.3 样本量

所纳入文献中，99%的文献未报告试验样本量的确定依据。出于科学与伦理的原因，须详细计算开展试验的样本量，并在实际意义与统计学要求之间求取平衡（Moher et al.，2010）。因为只有合适的样本量才能保证检验效能，样本量过小或过大都有其弊端。样本量过小，指标不稳定，研究的偶然性增加，导致试验的可重复性变差、统计力度降低，影响试验的内部效度（张连成，2016）；样本量过大，不仅浪费人、财、力，还可能引入更多混杂因素，影响数据质量（李婵娟等，2011）。在本研究所纳入的RCT研究中，样本量最小为10，最大为1 000，除2项研究报告利用前人研究的效应量估算样本量外，其他166项均忽略了报告样本量计算过程，特别是总体样本量较低或每组样本量较低（2项试验每组只有4名受试者）的研究，难以判断是否考虑了检验效能。通过整理发现目前体育类RCT研究样本量确定方法主要有：1）招募，招募到受试者的数量即为样本含量；2）根据教学对象数量，如对刚入学的大一新生或某选项课所有学生进行试验。从确定途径来看，多数RCT研究样本量确定的随意性较大，使试验不够严谨，显示出与国外同领域RCT研究质量的差距。因此，建议未来体育类RCT研究在设置样本量环节投入更多精力，并在报告中详细展现样本量计算过程。在确定样本量时，可以参考已有表格或利用相关公式，也可以在确定效应量、检验效能（1-β）和I类错误概率（α）后，通过G-Power软件获得。其中，效应量可以通过前人研究或预试验获得，检验效能和I类错误概率通常情况下可以设置为0.80和0.05（Schulz等，2010）。需要注意的是，在实际应用时需要考虑15%～20%的损失，以免样本流失导致样本含量不足（王建华，2010）78。

3.2.4 干预措施

依据对照清单，需要描述各组干预措施的准确详情，如何及何时实施干预。本研究所纳入文献的主要问题在于何时、何人干预的信息不够详细，常规对照组的描述不够具体。以上问题不仅影响读者了解试验背景与过程，还影响判断该试验的外部效度。首先，何时干预的问题主要体现在两个方面：1）84%的文献在报告干预时间时未具体到年、月、日。由于在不同年份、季节，甚至同一天的不同时间进行干预，影响效果都有可能不同，如学龄前儿童春季在园的中、高强度身体活动时间显著高于冬季（常振亚等，2020），人体精细运动在早上表现更好，无氧运动与肌肉力量在下午表现更好（Chtourou et al.，2012）等。因此，体育类RCT报告在描述干预时间时应更加详细，如《两种躯干支柱力量训练方案对身体姿态控制影响程度的研究》将干预时间报告为2014年9月8日—11月14日。2）报告时以干预频率代替何时干预。干预频率虽然明确了每周干预几次，然而模糊的干预时间同样会影响判断试验效果。如同样每周干预2次，周一、周二进行干预与周一、周四进行干预效果可能不同，因此报告时应明确具体时间，如在每周一、周四的下午课外活动时间进行干预等，让读者清晰知晓具体干预时间。其次，133篇文献未报告何人干预。在体育科学研究中，多数干预类试验是受试者在指导下进行某种练习，然后观察练习带来的影响。在练习中，不同身份的指导者如一般人员与专业教练、新教师与经验丰富的老教师对受试者产生的影响会有所不同。因此，在报告中需明确指导者身份，并对性别、专长、从业年限等作简要介绍，让读者了解更多试验信息。再次，对照组的描述过于简单。对照清单明确要求报告各组干预措施的准确详情，以便重复，即作者应该详尽描述包括对照组在内的每一种干预措施，足以让其他研究者进行实践和推广（Glasziou et al.，2008）。在设置常规对照组（受试者不接受特殊干预措施，只进行常规锻炼）的121篇文献中，51篇用“进行常规锻炼”等概括对照组在干预期间的活动情况，由于常规锻炼的具体内容、方式等不够明确，难以判断干预效应是建立在何种对照之上，也难以为后续研究者重复试验提供借鉴。故报告时，在发表篇幅允许的条件下，应对包括对照组在内的各组干预措施进行更加详尽的描述。

3.2.5 统计方法

对照清单发现，部分文献中统计方法的问题主要是描述不够精确。同时，通过进一步分析发现，涉及统计方法的内容中还存在部分文献忽略了前提条件与检验水准描述欠规范两个问题。首先，所纳入文献中，24篇文献由于描述不够精确，使读者难以知晓在统计分析时具体使用何种统计分析方法。其中，9篇文献仅报告使用了“t检验”，未具体说明是3种t检验中的哪一种；15篇文献将统计方法或数据处理过程概括为“经过统计学检验”或“统计分析显示”等，具体用的何种统计方法同样不清晰。统计方法描述不够精确的文献虽然不多，但体现出部分作者对准确描述统计方法环节不够重视，报告的严谨程度需要进一步提高。其次，在选择统计分析方法时，研究者不仅需要考虑变量间关系等问题，还需考虑数据满足统计分析方法的前提条件，如数据类型及分布形态、变量间关系的形式、组间方差同质性等（郭璐，2016）。在整理统计方法的前提条件时发现，明确报告统计方法的144篇文献中，仅11篇报告了数据满足所使用统计方法的前提条件，说明这一点尚未得到足够重视。另外，部分文献在描述检验水准时存在不规范情况。在报告了检验水准的115篇文献中，描述形式主要有：1）统计显著性为P=0.05；2）置信区间α=0.01；3）P＜0.05表示差异显著，P＜0.01表示差异非常显著；4）显著性水平取P＜0.05；5）统计检验的显著水平设置为α＜0.05；6）显著性水平为α=0.05。前两种描述明显错误，第3～5的问题分别在于“差异具有显著性”更倾向描述为差异具有统计学意义、忽视了P=0.05（或0.01）的情况、显著性水平不是用P而是用α表示。需要强调的是α为I型错误概率的上限，应为一个具体值，因此检验水准应表述为“检验水准α=0.05”或“显著性水平α=0.05”（郭瑞等，2019）。

3.2.6 结局评估

所纳入文献在结局评估时的主要问题是结局指标报告不规范、不全面。对照清单明确结局评估需要报告各指标的结果、估计效应值及精确性（如95%置信区间），绝大部分文献明确报告了结果指标测量值，包括数据的集中趋势（如连续变量的均值）与离散趋势（如标准差）等，但在报告精确值与估计效应量方面需要更加准确和规范。在P值报告方面，虽然P值的使用目前仍然处于争论之中（Diaz-Quijano et al.，2020），但在如何解读统计效应的新共识达成之前，P值仍可以对结果进行有价值的描述。目前，越来越多的期刊要求报告精确的P值，本研究所有纳入文献在报告统计效应时均使用了P值，但有79篇文献未报告具体P值，只报告为P＜0.05或P＜0.01，另有多篇文献中P值报告的数值形式不统一。为规范报告与促进交流，借鉴医学领域对P值报告规定，建议P值大于0.05时报告小数点后两位；P值在0.05至0.001之间报告小数点后三位；P值小于0.001时报告为P＜0.001（严若华等，2019；Habibzadeh，2017）。除报告显著性外，同时报告效应量（效果量）和置信区间早已得到学界重视（郭璐，2016；张力为等，2013；Appelbaum et al.，2018）。然而，在所纳入文献中，除报告均值外仅有9篇在报告效应量时报告了η2的大小，10篇文献报告了置信区间，且其中1篇将置信区间描述为“置信区间α=0.01”，显然将置信区间和检验水准混淆。可见，同时报告置信区间与效应量是未来体育类RCT研究需要进一步完善的地方。效应量表示处理效应或调查变量相关的大小；置信区间表示如果重复该试验，在所有计算出的置信区间中，约有95%（95%置信水平）的置信区间包含真实均值（王珺，2019），其不仅能帮助回答差别是否有统计学意义，还能提示差别有无实际意义。因此报告结果时，除报告P值外，必须兼顾效应量和置信区间才能获取更多的信息和进行更完整的分析。

总之，试验报告出现的以上问题对读者准确获取试验信息、全面了解试验过程，以及重复试验增加了困难，原因可能是体育领域无干预类报告标准，部分作者忽视了某个环节的重要性，以及发表篇幅限制等。未来撰写试验报告时，研究者应在满足发表要求的同时尽可能使描述详细、准确和规范，以呈现高质量的试验报告。

4 局限性

本研究虽然严格按照Cochrane评价手册和CONSORT 2010声明进行评估，但两项评价工具均来自医学领域，学科不同必定存在一定局限性。首先，医学领域RCT研究更多关照干预措施（医药或治疗措施等）对受试者的作用，在体育类RCT研究中，除干预措施与受试者发生互动外，还存在干预实施者（如体育教师、教练等）与受试者之间、受试者相互间的情感交流与人文关怀，这一点难以用工具客观评价。其次，医学类RCT研究大多探究自变量的剂量效应与时间效应，体育领域RCT研究中的自变量不仅与运动量、干预周期有关，还与运动强度控制、主试的人格魅力、受试者心理状态、干预环境、所用设备器材等有关，本研究所使用工具中的评价条目尚不能呈现所有内容。再次，医学类RCT因变量更多关注对生命体征严格、精确与客观的数字化检测，体育类研究结果除关注身体健康外，还关注与健康有关的所有方面，如精神面貌的改善、锻炼习惯养成、运动发生机制、团队间的影响机制、个体与社会的互动发展等，用上述两项工具同样难以对所有体育类RCT研究结果进行精确评价与分析。

5 结语

追求因果关系是科学研究的重要目标，随着体育科学研究对这一目标的不断追求，RCT研究在体育科学研究领域将会提供更多的证据支持。9本具有代表性的体育类期刊展示了RCT研究在多个研究领域的重要成果，但同时应意识到体育类RCT研究在方法学与规范报告存在的提升空间。未来开展RCT研究时，科学研究人员应严格控制随机化处理、盲法实施、受试者流失等试验环节，努力降低偏倚风险，使RCT研究在体育科学研究领域充分展现应有价值；撰写报告时，完善文题、样本量确定、干预措施等条目的描述，精确报告统计方法，规范报告结局指标，进一步提高报告质量，为促进试验结果的交流提供便利。