APP下载

基于体育素养测评的儿童基本动作技能测试体系构建与验证研究

2022-07-29博,刘

体育科学 2022年4期
关键词:信度效度指标

李 博,刘 阳

(1.上海体育学院 体育教育学院,上海 200438;2.南通大学 体育科学学院,江苏 南通 226019;3.上海市学生体质健康研究中心,上海 200438)

基本动作技能(fundamental motor skill,FMS)的评价是评估、诊断、监控个体动作发展的重要指标(Payne et al.,2008;Barnett et al.,2016)。个体早期(儿童时期)FMS 也是预测身体活动、体重指数和静态行为等健康相关指标的重要证据(Duncan et al.,2021;Stodden et al.,2008)。根据动作发展的高峰理论(Metcalfe et al.,2002),儿童FMS 发展处于婴幼儿早期固有反射和儿童青少年专项运动技能发展的承接时期,因此FMS 发展对于人的全生命周期动作发展起着至关重要的作用(Duncan et al.,2021)。同时研究也表明,FMS 并非自然发展,FMS 的常轨发展需要正确合理的教育教学指导(白梦圆等,2022;Goodway et al.,2003)。而进行干预指导或者教育教学的一个重要前提是需要客观的了解儿童FMS 发展现状,在此基础上制定合理的公共卫生政策或教育教学策略等(Lawson et al.,2021)。

FMS 测评是体育素养(physical literacy,PL)评价的核心指标之一。体育素养是人类在生命过程中获得利于全人生存发展的运动要素的综合,包括体育意识、体育知识、体育行为、体育技能、体质水平(陈思同 等,2017)。学校体育环境是发展体育素养的有效环境(陈思同等,2017)。提升学生的体育素养已被列为学校体育工作的重要目标之一,对其进行评价也是学校体育评价(国家体育总局等,2020)、升学考试评价和学生综合素质评价的核心内容。目前,我国儿童体育素养测评已经从学术领域的理论探讨阶段过渡到了社会教育实践应用层面(陈思同 等,2019;丁力 等,2021)。为响应国家政策要求和顺应科学研究趋势,上海体育学院学校体育与学生体质健康研究团队开展了构建中国儿童青少年体育素养测评体系(Chinese Assessment and Evaluation of Physical Literacy for Children and Adolescents,CAEPL)的攻关工作。CAEPL是学生综合素质评价体系的重要组成部分,一方面要全维度考察学生FMS,并且评价过程应尽量客观,另一方面学生群体基数较大,需考虑测试的时间和人力资源等成本。

基于动作表现的工具测量法是当前FMS 的主流测评方法,也得到了专家们的共识(Bardid et al.,2019)。本研究前期对当前世界上应用最广泛的10 种测评体系进行了述评(李博 等,2020a),发现这些工具存在测评不全面(大多仅测试了FMS 下的部分维度)、过程性评价耗时长和评价过程偏主观等不足之处。据此开发客观省时且简单易行的儿童FMS 测评工具十分必要(刘阳 等,2021)。本研究构建的儿童基本动作技能测试(children’s fundamental movement skill test,CFMST)即为CAEPL 的关键组成部分。在前期文献及实际操作工作的基础上(李博等,2018,2020a,2020b,2021a,2020b,2022),本研究综合应用德尔菲法和测试法构建并验证了CFMST。

1 研究方法

根据经典测量理论(classical test theory,CTT)(罗德等,1992),本研究共分成2 个主要完成阶段。第一阶段是通过德尔菲法构建CFMST 体系;第二阶段是对构建的CFMST体系进行可行性、信度和效度的验证。

1.1 德尔菲法

1.1.1 组建专家组

选取的专家群体主要分布在儿童青少年动作发展学术研究和儿童青少年运动技能提升实践应用2 个部分。学术研究方面的专家主要研究领域集中在学校体育学(8 名)和儿科医学研究领域(2 名),该部分的专家主要是通过CiteSpace 软件筛选所得(v.4.0.R5 SE,https://sourceforge.net/projects/citespace/),为了保证专家的权威性,在学术研究领域的专家需要具有副高级及以上专业技术职称。儿童青少年运动技能提升实践应用的专家来自于体育教研员(1 名)、专家型体育教师(2 名)、校长/园长(2 名)和体育培训机构的专业人士(1 名),该部分借助Python 网络爬虫技术,为了保证该部分专家的权威性,选取的专家需要具备一定的儿童动作发展研究的背景。经过筛选,共16 名专家进入德尔菲专家组(其中女性8 名,占比50%)。

1.1.2 构建指标池

1.1.2.1 FMS操作定义

FMS 是人体非自然发生的基础运动学习模式,是复杂身体活动和竞技运动的基础(Barnett et al.,2016)。包括3 个下位范畴:1)移动技能,具体动作形式如走、跑、跳、滑步等;2)物体控制技能,如抓、抛、踢、接、击打等;3)稳定性技能,如旋转、转身等(Gallahue et al.,2002;Rudd et al.,2015)。按照该项操作定义,本研究设置了“移动技能”“物体控制技能”和“稳定性技能”3 项一级指标(维度)。

1.1.2.2 指标池指标的来源

本研究的二级指标共来自2 个方面。1)从成熟的量表、手册、指南、教材等文献中提取。本研究共选取美国粗大动作发展测试(Test of Gross Motor Development,TGMD)等13 个成熟工具测试内容作为指标池指标来源(郭晨等,2018;孙世恒 等,2010;Bruininks et al.,2005;Folio et al.,2000;Henderson et al.,2007;Hoeboer et al.,2016;Kiphard et al.,2007;Longmuir et al.,2017;Tyler et al.,2018;Vles et al.,2004;Wagner et al.,2014;Zimmer et al.,1987;Zuvela et al.,2011)。同时结合目前国内外的运动技能评价手册、教材、方案、指南和问卷等进行指标池构建(白爱宝,1999;黄超文,2012;李金龙 等,2007;Isaacs et al.,1999)。2)一线教师、体育教研员的实践经验。对专家组中儿童青少年运动技能提升实践应用方面的专家进行开放式访谈,请专家们为指标池遴选增加指标。指标池共包含3 项一级指标(维度)和63 项二级指标(动作表现评价形式)。

1.1.3 迭代实施

1.1.3.1 指标的纳入原则

指标的纳入按照以下4 点原则进行遴选:1)可以比较合理清晰地反映儿童FMS;2)易学易懂、简洁易操作、对儿童的身心健康不会产生危害;3)测试适合在学校体育教育的环境中完成,鉴于当前我国教育阶段的划分差异,本研究构建的测试分为“学前教育”和“学龄教育”2 个部分;4)适用于大样本量测试、偏向于适用“结果性评价”的方式。上述遴选原则在问卷的“卷首语”部分进行了详细说明,引导专家根据本研究的具体目的进行指标的遴选。

1.1.3.2 问卷发放

德尔菲问卷发放共持续14 天。在问卷的填写过程中,充分保证德尔菲的匿名特征,保证专家之间独立完成问卷。问卷的形式采用纸质问卷和电子问卷相结合的形式。问卷共包括5 个连续的部分:1)获取专家的情况,包括专家的人口学信息、研究方向等;2)依照“安全、高效、实用和趣味”的原则对指标进行“纳入”和“删除”判断;3)请专家推荐补充遗漏的二级指标(动作表现评价形式);4)获取专家对指标的熟悉程度和判断依据信息;5)请专家对指标进行重要性评分。问卷“反馈”共持续10 天,主要对问卷的结果进行“点对点”反馈,听取对指标遴选持“不同意见”专家的建议。

1.1.4 指标遴选

经过专家的遴选,共有36 项二级指标进入重要性评分阶段(表1)。根据既往研究的成果(梁波 等,2020;陆乐 等,2020;朱焱 等,2020),本研究指标遴选标准如下:1)M(重要性评分均数)≥3.5 且V(变异系数)≤0.25 的指标直接纳入;2)M<3.5 且V≤0.25 的指标直接删除;3)M<3.5 且V>0.25 的指标向给出较高分数的专家进行意见反馈,根据反馈意见的积极程度讨论是否纳入;4)M≥3.5且V>0.25 的指标像给出较低分数的专家进行意见反馈,根据反馈意见的积极程度讨论是否纳入。

表1 二级指标(动作表现评价形式)专家评分Table 1 Expert Scores of Second-Level Indicators(Motor Performance Evaluation Form)

1.2 测试法

1.2.1 测试对象

测试的目标人群是幼儿园招收的学龄前儿童和小学招收的1~4 年级学龄儿童。符合条件的参与者年龄为3~9 岁,需要满足以下所有条件:1)身体健康;2)经其所属幼儿园园长(或法人代表)/小学校长知情同意参与本研究,并取得书面知情同意书;3)经其父母或监护人同意参加本研究,并取得书面知情同意书。排除者条件:1)中度和重度认知障碍(经由教师和监护人确认);2)存在影响其参与体育锻炼的重大医疗或身体状况;3)运动发育迟缓。本研究中任何参与者的性别、种族或社会经济地位不受限制。本研究方案获得上海体育学院伦理委员会批准(审查编号:102772019RT034)。本研究采用整群随机抽样的方法,共招募上海市3 所幼儿园(9 个班级,平均分布在大、中、小班级)和3 所小学(12 个班级,平均分布在1~4 年级)的752 名儿童,其中101 名儿童因缺勤等原因未能完整参与测试,最终共有651 名儿童完成测试(表2)。

表2 测试对象分布表Table 2 Distribution of Subjects

1.2.2 测试内容

在进行测试之前,组织受试者进行15 min 的标准化热身,包括1 组跑步、跳跃和伸展练习。在每项分测验之前,受试者都会收到关于测试程序的口头解释。

1.2.2.1 儿童基本动作技能测试

依据德尔菲的结果构建CFMST,经过预测试确定最终的测试方案,并进行相应的预测试验证。依照CFMST测试具体方案进行测试。在每项分测试开始前,允许受试者进行1 次测试体验。场地设置和器材按照标准化程序实施。

1.2.2.2 美国粗大动作发展测试

TGMD 由美国密西根大学的Ulrich 教授制定,以3~10 岁儿童为测试对象,是用来评价儿童FMS 发展水平的工具,在世界上广泛应用。TGMD 主要包括跑、马步跳和双手持棒击固定球等13 个分测试。目前TGMD 的最新版本即TGMD-3 已经在我国进行了操作流程翻译(李博等,2021a)和信效度测试工作(刁玉翠 等,2018;李冉 等,2021;宁科 等,2016),研究表明TGMD-3 适用于中国儿童。TGMD-3 主要测试了儿童FMS 中的移动技能和物体控制技能。本研究严格遵循TGMD-3 的标准测试流程,并对同一批受试者进行测试,以验证CFMST 中的移动和物体控制分测试的同时效度。最终共205 名儿童进行了TGMD-3测试,其中,学龄前儿童90 名(女性46 名,占比51.11%),学龄儿童115 名(女性59 名,占比51.30%)。

1.3 数据分析

数据分析分为德尔菲数据处理和测试数据处理2 部分。德尔菲数据处理采用定量化的数据处理方法,德尔菲相关指标赋值详见表3。测试数据进行统计分析前采用柯尔莫戈洛夫-斯米诺夫检验(Kolmogorov-Smirnov,K-S检验)检验测试的异常值,对异常值进行重新测试处理。

表3 德尔菲相关指标赋值Table 3 List of Delphi-Related Indicator Assignments

1.3.1 德尔菲指标报告及数据处理

专家意见协调程度主要通过V表示,该指标是重要性评分标准差与均数的比值,数值越小,说明专家对该指标的协调程度越高。在评价指标筛选中,一般认为V≤0.25专家协调程度较好(邢禾 等,2006;张大超 等,2013)。计算公式如下:

V是指标评价的变异系数;M是指标的算术平均值;δ是指标的标准差。

专家意见集中程度主要通过M表示,该指标是专家对某指标重要性评分的算术均数,数值越大,说明该指标在指标体系中的重要性越大。通常,得分>3.5 分(达到总分的70%)的指标作为入选的依据(张大超等,2013)。计算公式如下:

m是参加指标评价的专家数;C是专家对指标的评价值。

1.3.2 体系验证指标报告及数据处理

根据测评工具信效度验证的方法学程序(Hulteen et al.,2020;Terwee et al.,2011),以及既往研究中有关运动技能测评工具信效度验证的研究成果(郭晨等,2018;Copetti et al.,2021;Eddy et al.,2020;Farrokhifar et al.,2018;Garn et al.,2020),本研究选取了重测信度和内部一致性信度2 项指标反映CFMST 信度,选取结构效度和校标效度2 项指标反映CFMST 的效度。根据信效度分析的程序规范(柯友枝 等,2020),汇总信效度统计分析证据强弱阈值(表4)。本研究严格遵循统计学有关数据处理和汇总计算的要求。主要应用SPSS 25.0、AMOS26.0、MedCalc 和Excel 等软件进行数据处理分析和图表制作。其中重测信度采用SPSS 软件计算2 次测试间的类内相关系数(ICC);内部一致性信度采用SPSS 软件计算克朗巴哈系数(Cronbach’s);采用SPSS 和AMOS 进行验证性因子分析分析计算结构效度;应用SPSS 软件进行相关分析计算同时效度。根据统计分析的需要,在进行一致性检验以及验证性因子分析时对相关的数据进行标准化(normalization)处理,对于“单脚站立”进行反向计分处 理,以满足一致性检验的需要。

表4 信效度相关系数阈值Table 4 Reliability and Validity of Statistical Analysis of Evidence Strength Threshold

2 研究结果与分析

2.1 体系构建

根据指标遴选的条件,对直接纳入的指标进行预测试验证,每个年龄组抽取10 名儿童,对制定的标准化测量程序进行验证,充分听取受试者的测试感受,整个预测试在2019 年12 月完成。按照指标的纳入原则重新审视优化遴选指标的可操作性。为减小单个项目测试带来的“系统误差”,研究中每个维度的测试至少选取2 个测试项(罗德 等,1992)。根据成熟测评工具的经验(李博 等,2021a)、预测试的结果、受试者对测试项的感受以及前期专家的建议制定CFMST 的标准化测试流程以及场地布置图示。

其中3~5 岁组的物体控制技能维度仅有“单手原地拍球”入选,但在预测验中发现,3 岁组和4 岁组儿童的完成率不到50%,出现了“地板效应”,不符合指标的遴选原则;此后,按照重要性评分均数的数值大小,选取了“踢球过障碍物”“双手接球”“单手塞硬币”3 个测试项进行预测验,其中“双手接球”测试项没有较为合理的“结果性评价”测试方式,因此在该维度中选取了“踢球过障碍物”“单手塞硬币”2 项测试项。6~9 岁组稳定性技能维度根据指标遴选条件,纳入了“单脚站立”“走平衡木”2 个测试项,预测验发现,“单脚站立”测试中,8 岁组、9 岁组儿童的站立时间较长,不符合指标纳入原则,因此删去该测试项,按照重要性评分均数的数值大小,选取了“倒退走直线”和“脚尖站立”测试项,预测验中发现“脚尖站立”测试在6 岁组和7 岁组中出现了“地板效应”,因此删去;进而该维度选取了“走平衡木”“倒退走直线”2 个测试项。鉴于上述情况,CFMST的指标3~5 岁组为:移动技能:10 m 往返跑、双脚连续跳;物体控制技能:踢球过障碍物、单手塞硬币;稳定性技能:走平衡木、单脚站立。6~9 岁组为:移动技能:侧向滑步跑、单脚连续跳;物体控制技能:踢球过障碍物、原地换手拍球;稳定性技能:走平衡木、倒退走直线。

按照“预测试和体系优化同步”的体系建构原则,综合一线体育教师、专家型体育教师和学校体育专家的意见制定了CFMST 的测试场地布置(图1)和标准化测量流程(表5)。

表5 CFMST项目介绍Table 5 Introduction of CFMST Items

图1 儿童基本动作技能测试场地示意图Figure 1.The Site Map of CFMST

在维度设置方面,CFMST 设置了移动技能、物体控制技能和稳定性技能3 个维度,相较于TGMD 这类常用的FMS 测试工具而言,将稳定性技能单独列出有较强的理论基础。首先,现有研究多认为稳定性技能是FMS 的重要分支(Samuel et al.,2018),且在Barnett 等(2016)在对FMS的概念共识中也建议后续的研究中延用“移动”“物体控制”和“稳定”的三分类的内涵概念。其次,现有研究表明,稳定性技能与负向情绪(焦虑、沮丧等)具有较高程度的相关性(Robinson et al.,2015),加入稳定性技能维度对后续研究儿童动作发展和心理发展之间的关联有重要意义。

在适用年龄方面,CFMST 覆盖了学龄前儿童(3~5 岁)和学龄儿童的水平一和水平二阶段(6~9 岁),上述年龄阶段正处于FMS 快速发展时期,而在此时期进行的精准测评可以有效反映儿童的FMS 发展情况,适用年龄的完整覆盖将有利于工具的推广应用。在测试项目数量方面,CFMST 每个分组中仅有6 个项目,且每个项目测试较为简练,可以满足大批量、快速高效测试的需要,可以保证测试更易于推广。在计分方式方面,采用计时的结果性评价的方面,相较于过程性评价,该方法具有高效、系统、误差较小等优点(李博等,2020b),同时各测试项之间既可以单独进行比较,也可以通过统计处理进行总分比较,这也提高了工具的普适性。

2.2 体系验证

根据CTT 对CFMST 的可行性、信度和效度进行验证。

2.2.1 可行性

可行性(feasibility)指对过程、设计、程序或计划能否在限定的可用资源范围(时间、人员安排、经费等)内成功完成的确定,可行性评估是保证测量体系完成落地的重要依据(拉卡托斯,2005)。为了验证CFMST 的可行性,本研究对受试者数据基于不同年龄儿童FMS 发展的差异进行验证;基于实践经验对测试的时间成本、测试员成本等进行分析;对测试的标准化程序进行分析。

2.2.1.1 差异性检验

验证测量数据与现实实践经验或与真理的一致性是检验可行性常用的方法之一(拉卡托斯,2005)。根据动作熟练度发展序列模型(Seefeldt,1979)来看,儿童的FMS 随年龄的增长而逐渐提升,这也得到了实证研究的验证,一项应用TGMD-3 对上海市1 118 名儿童进行FMS的测试结果发现,TGMD-3 的总分随着年龄的增加呈现逐渐增加的现象,这也验证了动作熟练度发展序列模型(刁玉翠 等,2018)。采用单因素方差分析,以年龄为因素进行分析(表6),结果显示,随着年级的提升CFMST 各分测试的成绩逐渐升高,各年龄段儿童的平均分存在显著性差异(<0.05),结果验证了动作熟练度发展序列模型中儿童的FMS 是随着年龄的增长而逐渐提升的核心观点。

表6 不同年龄CFMST得分及差异Table 6 CFMST Scores and Differences of Different Age Children n=651

2.2.1.2 测试成本

我国的儿童基数大,测评工具要想在该群体中推广,必须保证较高的测试效率。结果性评价方式保证了CFMST 的强大操作性。实际测试发现,个人完成整个测试需要2.5~10.0 min,平均每人完成测试需要5 min。FMS 测评到底是应用过程性(process-oriented)评价还是结果性(product-oriented)评价,一直是学界争论的问题。在当前的测评体系中,结果性评价和过程性评价是测评理论中主流的测评方法(Logan et al.,2017)。2 种评价的方法各有利弊。如结果性评价的代表工具克罗地亚的“基本动作技能多维测评”(FMS-Polygon)(Zuvela et al.,2011),是测量效率和信效度较好的测评体系,其组内相关系数非常高(0.98),但也有一定的不足,仅定量的判断忽略了儿童的个体差异,且难以区分FMS 各维度的测试情况。这说明“结果性评价”只重视儿童动作发展的结果,而没有很好的对动作模式进行剖析。过程性评价的问题主要有:1)测量效率低,人工判定的动作标准存在效度失真问题,且存在由于施测者经验问题导致的效度降低(Ward et al.,2020);2)对于年龄区间跨度较大的测量系统,由于不同年龄段使用同一套测量系统,对于低年龄段的施测对象会出现“地板效应”,高年龄段的施测对象可能会出现“天花板效应”,表现出较高的结构缺陷,如儿童身体协调测评(körperkoordinationstest für Kinder,KTK)对于部分地区的5岁儿童没有充分的区别能力(Vandorpe et al.,2011)。鉴于我国儿童基数大,且CFMST基于学校教育环境制定,因此本研究在CFMST 的评价体系中采用结果性评价方式,最大程度的适应我国当前的学情,提升工具的可操作性。

测试员(或称考官)是测试中重要的组成部分,是测试的组织实施者,因此测试员的专业素养对于测试的外部效度具有重要的推动作用。本研究中所有测试员都在运动技能分析方面拥有丰富的经验,均为体育类院校体育教育或运动人体科学专业的大学生,在测试之初,测试员完成了5 h 的针对本研究中使用的测试方法的额外培训,充分保证了测试工作的顺利开展。CFMST 对测试员的资质要求并不高,主要基于以下3 点原因:1)测试项目为FMS 下的各动作形式,成年人均已经熟练FMS,因此测试员可以在较短时间内熟悉动作表现形式,这也为后续的“讲解示范”奠定基础。2)测试的评价为结果性评价,且全部采用时间评价,因此测试员在测试过程中只需要关注学生完成动作的耗时,对于动作的表现质量方面不需要过多分散注意力,测试员在测试过程中的任务较为专一。既往研究也显示,冗长的测试时间和繁琐的测试流程是制约一项成熟的测试工具推广效度的主要原因(李博等,2020b)。3)CFMST 的研发初衷是在学校体育教育环境中应用,可以通过体育课程教学的手段完成测试,体育教师可以成为主要测试员。总体来看,CFMST 对测试员的资质要求不高,普通体育教师可以通过较短时间内的培训熟练掌握测试的方法和流程,这也大大提高了测试的普及性。

2.2.1.3 标准化测试流程

标准化的测试程序保证了CFMST 的可操作性。标准化是CTT 的重要概念,也是关乎到工具能否落地测试的重要步骤。主要表现在以下3 个方面:1)测试用器材均为体育教学中的常见器材。器材是测试中必不可少的部分,CFMST 中所有的器材均已经量产并在体育教学中普及,充分保证了器材的普及性,如踢球过障碍物分测试项中球是体育教学中常见的软式实心球(1 kg、2 kg)。2)对现场测试流程、测试人员的口令、保护与帮助以及测试成绩的记录均做出了标准化的要求。标准化的测试流程可以保证在不同的测试员、测试地点和时间下测试的稳定性,充分保证测试的可操作性。3)制定了标准化的场地布置图,在空间利用最大化的原则下,保证现场测试秩序。测试场地布置的有序合理是保证测试效率的重要因素之一,因此本研究在征求了设计学专家的基础上制定了标准化的场地布置图,实际的测试中可以有效地提升测试效率,保证测试的可操作性。

2.2.2 信度

根据CTT,信度(reliability)是真分数变异数与实得分数变异数之比。测试的信度是指测试的可靠程度,表现为测试结果的一贯性、一致性、再现性和稳定性。信度是反映测试结果受到随机误差影响程度的指标,是评价测试质量的最基本的指标(张力为,2002a)。

2.2.2.1 重测信度

重测信度(test-retest reliability)又称稳定性系数,是使用量具对受试者进行同样的测量时,测量结果的一致程度,主要反映量具在时间维度下的稳定性质(张力为,2000)。本研究按照CFMST 施测程序对同一批受试者进行重复测试,2 次测试间隔不超过14 天(Heebner et al.,2015)。结果表明3~5 岁组和6~9 岁组各分测试的类内相关系数(ICC)在0.66~0.94,表明CFMST 具有较好的重测信度。

2.2.2.2 内部一致性信度

内部一致性信度(internal consistency reliability)又称同质性信度(homogeneity reliability),主要是代表量具内部所有分测量项之间的一致性程度(张力为,2000)。统计方法主要采用克朗巴哈系数(Cronbach’s)检验。CFMST中3~5岁组和6~9岁组的6个分测试的Cronbach’s系 数分别为0.66 和0.62(表7)。据此认为CFMST 的内部一致性信度“可接受”。

表7 重测信度和内部一致性信度系数Table 7 List of Test-Retest Reliability and Internal Consistency Reliability Coefficients n=651

2.2.3 效度

根据CTT,效度(validity)等于有效分数变异数与实得分数变异数之比。测试的效度是指一个测试在测量某项指标时所具有的准确程度。它所回答的基本问题是:一个测试测量对象的什么特性,它对该特性的测量有多准确;一个测试的效度越高,表示它所测结果越能代表所测对象的真正特征(张力为,2002b)。

2.2.3.1 结构效度

结构效度(construct validity)是指测试能够测量到理论上的构想或特质的程度(张力为,2000)。要确定一个测试的结构效度,一般需要3 个基本步骤:1)建立理论框架解释受试者在测验上的表现;2)依据理论框架推导出各种与测试有关的假设;3)以逻辑方法和实证方法检验提出的假设。标准化测试的结构效度都需要依据上述3 个步骤研制(张力为,2002b)。为了验证CFMST 的结构效度,本研究中从数理统计情境下结构方程建模方面进行检验。

根据动作熟练度发展序列模型(sequential progression of skill levels in the achievement of motor proficiency),在儿童早期FMS 表现出同步发展的状态,换言之所属的移动技能、物体控制技能和稳定性技能具有共同发展的外在表现(Barnett et al.,2016)。在统计情景下数据表现为分测试项聚敛为同一因子(FMS)。因此本研究对6 项分测试进行验证性因子分析(confirmatory factor analysis,CFA)。表8是CFMST 的KMO 和巴特利特检验,3~5 岁组和6~9 岁组的KMO 值分别为0.73 和0.71,大于0.6,且显著性小于0.001,表明6 项分测试适合做验证性因子分析。通过AMOS 进行验证性因子分析结果表明(表9),3~5 岁组和6~9 岁组的卡方自由度均小于3,适配理想;RMSEA 分别为0.04 和0.03,小于0.05,适配理想,其余指标均大于或接近于0.9(郑文智 等,2014),因此CFMST 的整体模型适配良好(李跃平 等,2007)。据此认为,CFMST 具有较好的结构效度。

表8 KMO和巴特利特检验Table 8 KMO and Bartlett Test

表9 整体拟合系数表Table 9 Overall Fitting Coefficient Table

2.2.3.2 同时效度

同时效度(concurrent validity)是指所选择的测试手段与已知测试之间的一致性程度,是效标(criterion)关联效度的一种类型(张力为,2002b)。如果两者的相关系数接近1,说明该测量手段有效程度高;如果相关系数接近0,则说明该测量手段有效程度低。选取TGMD-3 作为校标有其理论的可行性。一方面,已有研究证实TGMD-3 适用于中国儿童,目前我国学术界已经完成了TGMD-3 的操作流程翻译(李博等,2021a)和信效度测试工作(刁玉翠等,2018;宁科 等,2016)。另一方面,已有研究利用TGMD 系列验证了其与KTK 的校标关联效度(Farrokhifar et al.,2018;Ré et al.,2018),这为本研究提供了较好的理论基础。实际测试中对同一批受试者进行CFMST 和TGMD-3测试,采用相关分析验证CFMST 的同时效度(表10),结果显示,不同年龄的CFMST 分测试项与TGMD-3 共有48 项相关分析结果,其中44 项(95.24%)的指标与TGMD-3存在显著相关关系(<0.05)。该结果表明,CFMST 与TGMD-3 具有较好的同时效度。

表10 CFMST分测试项与TGMD-3的相关性Table 10 Correlation between CFMST Sub-test Items and TGMD-3

3 研究结论与建议

CFMST 具有较好的可行性、信度和效度,可以较好的反映我国3~9 岁儿童的FMS 的发展,可以作为CAEPL 中衡量儿童FMS 发展的测量工具。标准化的测试程序可以进一步保证测试体系的推广,建议未来扩大信效度的样本测试范围,特别是加入农村地区学生的样本,进一步优化测量体系,扩大体系的应用范围。

猜你喜欢

信度效度指标
主要宏观经济指标及债券指标统计表
主要宏观经济指标及债券指标统计表
主要宏观经济指标及债券指标统计表
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
大学生积极自我量表初步编制
主要宏观经济指标及债券指标统计表
论高职英语多元化综合评价模式的效度与信度
计算机辅助英语测试研究
墨子论度