3～6 岁幼儿粗大动作发展评价工具的改良

2020-08-20温宇红

湖北体育科技 2020年7期

张腾，温宇红，徐飞，赵响

（1.杭州师范大学体育与健康学院，浙江杭州 311121；2.北京体育大学休闲与旅游学院，北京 100084）

幼儿期是粗大动作发展的关键期，是后期形成多种基本技能，掌握复杂技能的基础［1-5］。研究表明，粗大动作发展水平与幼儿的健康与体力活动参与密不可分［6-8］，因此，发展幼儿粗大动作技能非常重要，同时，对其全面客观的评价也缺一不可。在动作发展研究领域，粗大动作发展通常被分为移动性动作技能（如走、跑、跳、滑步）、操作性动作技能（如抓、抛、踢、接、击打）和稳定性动作技能（如旋转、着地、滚动、弯曲）［2-5］。目前，移动性和操作性动作技能已被广泛用于评估幼儿粗大动作发展［8-10］，而很少有研究将稳定性动作作为单独的技能维度用于粗大动作发展评估，有些研究以平衡测试作为补充［9-10］。尽管移动性和操作性动作中具有潜在的平衡、协调能力，但对于一个特定任务的动态过程以一种具体形式的平衡测试（如静态平衡）去衡量以姿势控制系统为基础的稳定性技能来讲可能是不全面的测量。 Gallahue 认为稳定性技能（stability skill）是移动性和操作性技能的基础，它是一种身体保持在垂直或水平方向位置运动的形式，是日常生活中避免跌倒或运动伤害发生的重要因素［2］，Rudd 将稳定性技能定义为：感知能够改变平衡的身体各部分之间关系变化的能力以及能以合适的补偿运动快速而准确地对这些变化进行调整的能力，包括身体控制能力（维持、达到平衡及恢复平衡的能力）和身体空间定位（为完成某项任务而使身体与环境达到某种适宜的关系）［4］。

TGMD-3 是目前国内外应用较为广泛的粗大动作发展测量工具［11］，其特有的过程性评价结果可以提供更加具体有效的干预信息。国内外部分研究者对该工具做了信效度检验，如Webster 等基于807 名不同种族的儿童对TGMD-3 进行了信效度检验，结果显示该工具具有较高的信效度，并通过验证性因素分析验证了两因素模型［12］；Wagner 等对189 名典型发展的儿童使用德国版TGMD-3 测试，去除了 “双手挥棒击打固定球” 一项后德国版TGMD-3 具有较高的信效度，同时也验证了两因素模型［13］；Valentini 等将 TGMD-3 在巴西应用，将其翻译成葡萄牙语并进行了信效度检验，结果显示具有较高的评分者内、评分者间信度和重测信度，去除了 “垫步跳” 并调整了误差相关后验证性因素分析显示两因素模型的结构效度有统计学意义［14］；我国学者宁科［10］、刁玉翠［11］等分别对其进行了本土化研究，认为具有良好的信效度。但以上研究均以移动性和操作性动作两因素模型为基础，尚未见对稳定性动作的探讨。因此，本研究以TGMD-3 为蓝本，在原有的移动性和操作性动作评价维度基础上，增加稳定性动作维度，即将移动性、操作性和稳定性动作共同作为幼儿粗大动作发展评价内容，并进行信效度检验，意在为幼儿粗大动作发展提供一个全面的评价。

1 研究对象与方法

1.1 研究对象

本研究以幼儿粗大动作发展评价工具的改良为研究对象，为实现研究目的，选取如下受试者开展本研究：

1）为检验稳定性动作测试项目及各项目评分标准的合理性，在确定的初始评价项目基础上选取北京市某幼儿园10 名幼儿进行试测，修正了部分评价标准及描述；2）为检验新的幼儿粗大动作发展评价工具的信效度，在北京市海淀区、石景山区3 家中等规模幼儿园进行了幼儿粗大动作发展测试，各园区小班、中班、大班各选取一定数量的幼儿（海淀区共105 人，石景山区共207 人），一共312 名幼儿参加了该测试，其中21名幼儿因各种原因未能完成全部测试，实际共有291 名幼儿完成了本次测试。 ①纳入标准：智力水平在正常范围（根据入园体检结果），近期无影响肢体活动外伤史，测试前和测试时无身体不适。 ②排除标准：儿童因身体不适、测试过程中情绪不稳定或不按照规定程序完成测试均不纳入分析。根据纳入和排除标准，最后287 名幼儿纳入粗大动作测试工具的信效度研究。 287 名受试儿童中男童为151 人（52.6%），女童为136人（47.4%），平均年龄为 4.63±0.93 岁，最大年龄 6.4 岁，最小年龄 3.1 岁；身高：108.98±8.84cm，体重：18.91±3.36㎏。 2 周后在这3 所幼儿园中随机抽取一所，在参加测试的幼儿中按班（每班4～5 人）随机抽取30 人再次进行测试。

样本量：根据验证性因素分析样本量的要求，本研究TGMD-3 量表共有观测条目13 个，稳定性动作测试共有观测条目5 个，一共18 个观测条目，按基本标准最少需要样本数为180 人。本研究采用效果量（anticipated effect size）、统计功效（desired statistical power level）、可能水平（probability level）计算样本量［15］，将效果量设为：ES=0.3，统计功效：1-β=0.8，共有潜变量3 个，观测条目18 个，推断水平α=0.05，结果显示：最少需要样本数为119，建议样本数为256。本研究最后纳入分析的有效样本为287 人，符合信效度分析的要求。

1.2 方法

1.2.1 德尔菲法

进行德尔菲法之前，在文献资料、专家访谈的基础上编制了稳定性动作评价的初始测试项目，并邀请了4 位从事幼儿动作发展领域的专家对测试项目、评分标准描述进行了评价（1 名教授，2 名副教授，1 名幼儿园一线体育教师），根据专家意见对不能有效评价幼儿稳定性技能的测试项目进行了更换，对部分测试项目的评分标准描述进行了修改，并对德尔菲调查问卷的指导语进行了完善，建立了初始评价项目，并请10名幼儿进行了试测，生成了第一轮问卷，本研究共进行两轮德尔菲调查过程。

通过电子邮件和当面咨询的方式向最初确定的25 位专家发放了第一轮调查问卷。最终19 位专家（76%参与率）对第一轮调查内容进行了作答，这些专家拥有各自领域深厚的知识和实践，并且在幼儿这个群体中的研究有较高的建树和知名度。在未有博士学位、教授或博导这些头衔的专家中，主要是幼儿教育一线的教师，从事幼儿教育年限已久，具有专业领域丰富的实践经验。第一轮德尔菲法调查的主要目的为通过专家打分，初步获得专家的共识观点，收集专家组的补充、删减测试项目，并收集专家组对各指标成功执行的关键元素描述的意见和建议。在第二轮德尔菲研究中通过专家组进一步打分，确定最具代表性的测量指标，形成最终共识，并根据专家组的意见对各指标成功执行的关键元素的描述进一步修改和完善。第二轮中以上19 位专家中的13 名专家参与了调查（68%参与率）。

1.2.2 测试法

采用Ulrich 编制的粗大动作测试第三版（TGMD-3）和稳定性动作评价一起作为幼儿粗大动作发展测试。 TGMD-3 是专门用于评估3～10 岁儿童粗大动作发展水平的测量工具，分成身体移动性动作与操作物体动作两个部分。移动性动作包括跑、立定跳、垫步跳、前滑动、侧滑步和单脚跳，共6 项。操作性动作包括肩上掷球、脚踢固定球、双手接球、挥棒击打固定球、单手原地拍球、单手挥拍击打反弹球、下手投球，共7 项。每个动作由3～5 个动作执行标准来评估。“TGMD-3” 的移动性动作分量表得分范围为0～46 分，操作性动作分量表得分范围为 0～54 分，两者合并后得分范围为 0～100 分［16］。稳定性动作测试包括单脚平衡、侧向滚动、垫脚走直线、仰撑、登高跳跃，共5 项，得分范围为0～38 分。它与TGMD-3 计分方式相同，即评估者以测试者执行某项动作时出现规定动作，记录 “1”，如果没有完成记录 “0”，得分高的代表该项能力高，相反，代表该项能力低。

1.2.3 数理统计法

采用SPSS22.0 和AMOS20.0 进行相应的统计工作。利用项目分析观察指标难度和鉴别度，用皮尔逊相关系数计算重测信度、评分者信度，用可靠性分析判断内部一致性系数（Crobanch's α），用验证性因素分析检验改良量表的结构效度。

2 结果

2.1 稳定性动作评价指标的德尔菲结果

本研究请专家对稳定性维度下的测试项目与原定内容范围的符合性作出判断，看测试项目是否恰当地代表了所规定的内容，以期通过专家共同做出的决策和共识来确定内容的有效性，以专家的共识度和稳定度作为判断标准。本研究采用奥斯本等所定义的共识度和稳定度标准［17］，这是德尔菲研究完成的重要指标。在五点式的量规中，平均分超过3.66 或和众数为5，认为达成共识，稳定度高于66.7%，认为达到了稳定度标准。本研究共收集了两轮德尔菲调查研究数据，稳定度以第一轮和第二轮之间专家打分变化率计算，根据德尔菲法对共识度的要求标准，我们在第二轮中删去了 “前滚翻、卧姿快速起立”“开合跳”“向前爬行”，同时也删去了对该项目下的具体描述，第二轮结束后删去了 “走平衡木” 和 “跳过绳子”，最终留下了单脚平衡、侧向滚动、垫脚走直线、仰撑、登高跳跃项目，分析结果见表1。

2.2 项目分析

一整套测验由各个测验项目构成，每个测试项目也有自身的效度问题，测验项目的效度是指测验中各项目对被试特点的识别程度和区分程度，主要由项目的难度和区分度组成，项目的难度是反映测试项目难易程度的指标，而区分度（item discrimination）是反映测量精确性的指标［18］。项目难度主要通过平均值（）/满分来计算，一般情况下认为难度等于或接近0.5 比较理想，而实际中在 0.3～0.8 之间即可，区分度（D）等于前27%高分组平均值减去后27%低分组平均值除以满分来计算，鉴别力指数大于0.35 可以接受［11］。本研究工具的项目分析结果显示：3～6 岁4 个年龄段的总量表的难度值范围为0.35～0.59，移动性维度为 0.39～0.65，操作性维度为 0.32～0.53，稳定性维度为0.35～0.63。总体来看难度值可以接受；从区分度上看，总量表 D 值 0.40，其他 3 个分量表分别为 0.40、0.37、0.42，总体来看区分度可以接受（表2）。从各项目中分析，双手挥棒击打固定球，下手抛球对3～4 岁幼儿来说难度值偏高，区分度较低，垫脚走直线对6 岁以上幼儿来说难度偏低，考虑去除以提高项目效度。

2.3 信度分析

本研究对TGMD-3 量表中的移动性、操作性分量表结合上述稳定性分量表进行内部一致性、重测信度和评分者信度检验（见表 3）。重测信度（test-retest reliability）又称稳定性系数［11］，为考察在不同时间点上的稳定性，本研究利用Pearson’s相关系数评价幼儿粗大动作测量工具的重测信度，信度系数一般要求达到0.7 以上［19］，结果显示所有项目（间隔2 周）相关系数均高于0.7，大部分项目在0.8 以上，各分量表在0.9 以上，提示该测试工具重测信度较高，意味着稳定性好。Crobanch's α 系数是检验内部一致性信度的指标，α 取值在0～1 之间，值越高信度越好，低于 0.7 认为信度不良［20］。本研究修正前移动性、操作性、稳定性3 个维度的Crobanch's α 系数分别为0.793、0.649、0.585，可见移动性维度具有良好的内部一致性系数，而操作性和稳定性维度却较低，低于Hair 的建议值0.7［20］，从 “修正后项目总相关” 和 “删除项后 α” 分析后去除了双手挥棒击打固定球、双手接球、下手抛球、垫脚走直线、仰撑后各维度Crobanch's α 均高于0.7，修正后项目总相关除脚踢固定球、肩上投球外均高于0.5，表明修正后3 个分量表具有较好的内部一致性信度。评分者间信度指两位或数位评分者给相同被试评分时的一致程度，这些评分分数间的相关系数即为评分者间信度值，一般要求成对受过训练的评分者之间的相关系数达到平均0.90 以上［18］，才认定评分是客观的。本研究 3 个分量表的 Pearson’s 相关系数为 0.91、0.92、0.93，具有较好的信度。

表1 两轮德尔菲结果分析

表2 各维度的难度与区分度

2.4 效度分析

表3 各维度信度分析结果

利用结构方程模型对包括稳定性动作的幼儿粗大动作发展评估工具的测量模型部分进行验证性因素分析，在TGMD-3测量工具基础上增加稳定性测量维度进行初始模型的构建。初始模型结果显示：卡方值（χ2）=354.793 df=132，chi-sqr/df=2.688，GFI=0.861，AGFI=0.820＜0.9，RMSEA=0.077＞0.05，CFI=0.833，TLI=0.807＜0.9，SRMR=0.0842＞0.08。由此分析，模型拟合不理想，标准化参数路径图见图1，移动性维度下的各项目因素载荷理想，操作性维度下的双手挥棒击打固定球、双手接球、下手抛球，稳定性维度下的垫脚走直线、仰撑的因素载荷量较低（＜0.5），Hair 建议 CFA 标准化因素载荷量一般要求在 0.5 以上，大于等于0.7 为理想［20］，模型非标准化参数估计结果均达显著。根据初始模型的参数统计结果，将因素载荷量不足0.5的项目删去再次进行模型拟合，结果显示：卡方值（χ2）=102.197，df =62，chi -sqr/df =1.648 ＜3，GFI =0.947 ＞0.9，AGFI =0.922＞0.9，RMSEA=0.048＜0.05，CFI=0.962＞0.9，TLI=0.952＞0.9，SRMR=0.0420＜0.05。图2 为模型修正后标准化模型参数路径图，标准化因素载荷量均高于0.5，各项目SMC（Squared Multiple Correlations）≥0.3，修正后所有指标均符合模型拟合要求，显示该模型拟合较理想，模型的非标准化参数估计均达显著。LC3 为单脚跳、LC4 为垫步跳、LC5 为立定跳远、LC6 为侧滑步；操作性（Ball Skill）简称 BS，BS1 为双手挥棒击打固定球、BS2 为单手握拍击打反弹球、BS3 为单手原地拍球、BS4 为双手接球、BS5 为脚踢固定球、BS6 为肩上投球、BS7 为下手抛球；稳定性（Stability）简称 ST，ST1 为单脚平衡、ST2 为侧向滚动、ST3 为垫脚走直线、ST4 为仰撑、ST5 为登高跳跃

图1 粗大动作测量工具一阶CFA 初始模型标准化参数路径图（n=287）

图2 粗大动作发展测量工具一阶CFA 修正模型标准化参数路径图（n=287）

表4 为幼儿粗大动作测量工具的信度和收敛效度，由表可见，所有的非标准化参数估计都为显著（p＜0.001），项目标准化因素载荷量均大于0.5，具有项目信度，SMC 均大于0.3（0.3～0.64），组成信度（CR）均大于 Hair 建议值 0.7 （0.723～0.795），即项目间具有较好的内部一致性信度；收敛效度（AVE）Fornell 和 Larcker 建议应大于 0.5，0.36～0.5 为可接受，AVE 越高，则表示维度有较高的收敛效度［21］。本研究 AVE 在0.39～0.56 之间，移动性、操作性维度均处于可接受范围，稳定性维度高于0.5，表明维度对题目的平均解释能力较好，维度具有良好的收敛效度。

表5 为幼儿粗大动作测量工具的区别效度分析结果，维度的AVE 开根号值代表条目的平均相关，本研究中指测试项目之间的平均相关，此值大于维度与维度之间的相关代表有区别效度。本研究显示，各维度AVE 开根号值大于该维度与其他维度之间的相关，提示该维度具有较好的区别效度。

表4 粗大动作测量工具最终模型信度和收敛效度

表5 测量工具的区别效度结果

3 讨论

本研究的目的是在幼儿粗大动作发展评价工具（TGMD-3）的基础上，增加一个稳定性动作测试维度以改良目前对幼儿粗大动作发展的评价。首先，TGMD-3 是由Ulrich 始编的粗大动作发展测试基础上修订的第3 个版本，被翻译成德语、葡萄牙语、中文、西班牙语在世界范围内广泛应用［10，14］。在美国、中国、巴西、韩国等地全量表具有较好的信效度［9，22］，而在希腊［23］、中国香港［24］，以色列［25］、德国［13］等地在部分项目上进行了修正，修正后具有较好的信效度。值得注意的是，信效度和测试项目的选择会受到受试群体、受试者年龄、测试人员素质、样本量、测试目的等影响［26］，该工具除了在不同文化背景下具有差异性外，也会受到以上各要素的影响。近年来TGMD-3 也受到国内学者的重视［9，26］，并认为该测量工具具有一定的信效度，但受试样本区域局限性较大，且在结构效度检验中击打球、上/下投球、双手接球等项目的标准化因素载荷较低，说明项目自身的得分变异较大，潜变量对它的解释比例比较低。事实上该评价工具中的部分技能评估任务在我国应用时也会受一些客观因素影响，如双手挥棒击打固定球、下手投球等项目传统上与中国文化相异性较大，在我国的开展情况远不如欧美广泛，特别是棒球、高尔夫等项目在中国儿童中的开展微乎其微，幼儿表现中普遍出现地板效应。

其次，粗大动作发展不仅包括移动性和操作性动作，还应该涵盖稳定性动作［2，4-5，27］，稳定性技能是粗大动作发展评估不可分割的一部分。专家访谈中大部分专家认为稳定性动作是粗大动作发展评估不可分割的一部分，建议增加稳定性测试内容。本研究沿用这一思路，将稳定性动作与移动性和操作性动作一起对幼儿进行粗大动作发展评估，通过文献查阅、专家咨询和专家匿名评定结合TGMD-3 的结构特点和幼儿运动发育的基础特征，在科学严谨的基础上初步形成了具有代表性的幼儿稳定性动作测试项目：单脚平衡、侧向滚动、垫脚走直线、仰撑、登高跳跃，并对其测试内容进行了描述。这5 个测试项目属性均属于Gallahue 所定义的稳定性动作评估范畴［11］，保证稳定性测试内容的有效性及代表性。单脚平衡即单足站立，是维持静态姿势的能力，依赖于人体视觉、本体感觉、前庭器官和神经中枢对运动效应器的控制［28］，能较好地衡量人的平衡能力。侧向滚动需要人体在滚动时控制方向，让身体始终滚动前后始终在一条直线上并保持双腿的伸展和离地，同时考察了动态稳定性和空间定位［4］。垫脚走直线考察的是在行进中维持身体的平衡，属于动态平衡的一种，而仰撑要求维持身体全面的紧张以达到高度的稳定。登高跳跃主要观测的是幼儿着地稳定性，即在动态过程中控制重心的能力［2］。因此，这5个项目从理论上讲对评估幼儿稳定性具有一定代表性。

再次，将以上5 个稳定性测试项目单独作为一个维度结合移动性和操作性两个维度进行信效度检验。在项目分析中，总量表的难度和区分度可以接受，但具体到各个项目，如双手挥棒击打固定球、下手抛球存在难度偏高、区分度偏低的现象，考虑删除以提高项目效度。在信度分析中，该工具的重测信度较高，大部分项目第一次测量和第二次测量的皮尔逊相关系数在0.8 以上，说明具有良好的稳定性，这一结果与国内外粗大动作发展信度分析结果一致［10，14］。内部一致性检验中发现在没有删除部分项目之前Crobanch's α 系数在操作性维度（0.649）和稳定性（0.579）维度较低，在去除双手挥棒击打固定球、双手接球、下手抛球、垫脚走直线、仰撑后各维度和各项目Crobanch's α 系数均有明显提高，提示有必要对TGMD-3 和稳定性项目进行适当的修正。这一结果也符合Kakebeeke 所认为的并不是所有的任务能适用于儿童评价［29］，且中美文化差异差异较大，在击球类项目上得分普遍较低。评分者间信度检验中3 个分量表的相关系数均高于0.9，证明该评价工具具有良好的评分者间一致性信度。在结构效度方面，由于本量表理论层面所包含的维度已经非常明确，且已通过专家效度审核，属于理论驱动，因此可不再进行探索性因素分析，直接进行验证性因素分析［18］。本研究验证性因素分析结果提示粗大动作发展测量工具一阶结构方程测试模型拟合不理想，在模型的参数估计中操作性维度下的双手挥棒击打固定球、双手接球、下手抛球，稳定性维度下的垫脚走直线、仰撑的标准化因素载荷量较低，说明这几项内容不太适合在中国幼儿中使用，这结果可能是中西方国家的生活、活动方式的差异造成的。因此，本研究进行了修正，将这几个项目逐一从模型表中删除，再次进行模型拟合，从修正模型拟合度评价指标来看，修正后的粗大动作发展评价工具结构方程测量模型较为理想，具有较好的收敛和区别效度，说明改良后的评价工具更适合中国幼儿使用。

综上所述，本研究虽然以西方国家量表为蓝本，但仍较多地考虑了我国的社会文化特点，以此规避直接引用国外量表可能造成的结果偏差。改良后的幼儿粗大动作发展测量工具不仅可作为幼儿动作发展活动设计的参考指标，其结果也可作为干预研究的效果指标。

4 结论

本研究提供了一个包括稳定性动作评价在内的幼儿粗大动作发展评价工具，改良后的幼儿粗大动作发展测量工具包括移动性（跑、前滑步、单脚跳、垫步跳、立定跳、侧滑步）、操作性（单手握拍击打反弹球、单手原地拍球、脚踢固定球、肩上投球）、稳定性（单脚平衡、侧向滚动、登高跳跃）3 个分量表。该工具信效度检验结果良好，适合应用于国内3～6 岁幼儿粗大动作发展的评估。本文是对幼儿粗大动作发展评价工具研究的初步探索，尚存在一定局限性，期待在不断检验和修订过程中更加完善。另外，本研究受试样本为 3～6 岁幼儿，原量表TGMD-3 的适用范围为3～10 岁，如将该测试工具用于超出3～6 岁年龄范围时，需要对稳定性动作重新考量，以做出更加客观、准确的判断。