幼儿园教师能力自我评价准确吗？

2024-10-29郭力平曾蓓朱晋曦

学前教育研究 2024年10期

［摘要］教师自我评价是诊断专业能力、落实按需培训的重要依据，更是自主学习、终身学习的内在要求。准确性是影响教师自我评价成效的关键因素，然而，有关幼儿园教师自我评价的准确性如何、不同教师群体自评的准确性是否存在差异等关键问题尚缺乏系统研究。本研究以资历及客观评价为参考，探讨了幼儿园教师能力自我评价的准确性，分别调查了2 288名教师的自我评价与资历信息，以及6 523名教师的自我评价与客观评价结果。研究结果发现：（1）教师自评水平与其资历缺乏一致性，高估型教师占比大；（2）教师自评呈负偏态分布，与客观评价呈弱相关，绝对准确性与偏差指数表明教师自评明显偏离其在客观评价中所表现的专业能力；（3）处于不同发展阶段的教师对能力的自我评价存在差异，呈现“新手的高估与熟手的低估”和“低水平者的高估与高水平者的低估”两种明显倾向。为此，应当促进幼儿园教师自我评价和专业发展有机整合，实现“专业能力提升—自评准确性提高”的良性循环；构建有利于幼儿园教师自评的支持性生态，为实践环境中的自评提质增效；利用技术赋能主客观评价融合，推动幼儿园教师自评方式向更准确高效的方向革新。

［关键词］幼儿园教师；自我评价；客观评价；资历

*基金项目：中国基础教育质量监测协同创新中心国家监测专项课题“学前教育教师保教质量监测指标体系与工具研制”（编号：2021-02-008-BZPK01）

**通信作者：郭力平，华东师范大学教育学部教授、博士生导师

一、问题提出

教师自我评价是教师按照一定评价标准，对自身职业实践进行价值判断的活动。作为教师个人成长的内在动力机制及推动教师可持续专业发展的重要途径，自我评价能够增进教师对良好实践的理解，[1]帮助教师识别自身专业能力的优势和劣势，[2]激发教师的自我监控意识，促进教师的自我调节学习并为教师的终身学习做好准备。[3]因而，以专业发展为导向的教师自我评价成为新的教师评价过程的重要组成部分，亦是近年来我国教育政策的价值取向与关注重点。《基础教育课程改革纲要》指出要建立促进教师不断提高的评价体系，建立以教师自评为主的评价制度；《幼儿园教育指导纲要》明确提出幼儿园教育工作评价实行以教师自评为主的制度；《幼儿园保育教育质量评估指南》指出要强化自我评估，促进教师主动参与，反思自身教育行为。同时，当下大范围、大规模的教师培训亦催生了对自我评价的现实需求，作为一种灵活易操作且效率高的评价方式，教师自评是专业能力诊断及落实按需培训的重要依据和必要手段。实践中对于教师自评价值充分发挥的期望，转为对教师自评尽可能准确的要求。然而，当前对幼儿园教师自我评价的准确性知之甚少。因此，无论是响应政策层面的既定要求，还是回应当下迫切的现实需要，幼儿园教师自我评价是否准确是一个亟须回答并解决的基础性问题。

自我评价具有重要价值，而其功效发挥有赖于准确性，偏差则会引发诸多不利影响。邓宁（Dunning）等人系统回顾了健康、教育和工作领域中不准确自我评价所带来的现实后果，突显了自我评价研究领域持续关注准确性的意义。[4]迄今为止，不同学科领域的数千项研究提供了数十万参与者自我评价准确性的混合证据。泽尔（Zell）和克里赞（Krizan）对不同学科有关自我评价准确性的22项元分析进行了元综合，观察到自我认知和实际表现之间存在大范围的相关性，平均后相关性r为0.29。[5]这一综合证据表明人们对自身能力往往只有适度的洞察力，但远没有达到理想的程度。一些涉及即时且客观反馈的领域（如运动能力），相关性通常更高；而涉及复杂技能的实践领域，相关性可能很低。[6]教育领域多项关于学生自我评价准确性的元分析，[7][8]其结果均显示能力的自我评价与实际表现之间的相关性不高，并且学生倾向于高估自身表现。邓宁-克鲁格效应（Dunning⁃Kruger effect）便揭示了这一现象，它是自我评价研究中最突出的效应之一，指个体对自身能力评价产生偏差的现象，即低能力者倾向于高估自身能力，高能力者倾向于低估自身能力。[9]实现准确自我认知的确是一项艰巨的任务，在教育领域常常作为他评者的教师，其自评表现如何却鲜有研究。国外有研究以标准化测试为参照，发现职前教师自我评价的准确性不足；[10]有涉及中国幼儿园教师课堂质量、观察能力现状的调查研究发现教师自评与他评存在偏差，但评价准确性并非其研究重点。[11][12]总体而言，目前关于幼儿园教师自我评价准确性的研究不足，确切证据尚缺。

在自我评价研究领域，准确性一般通过自我评价与更客观的标准之间的相关性来确定，外部评价（通常是专家评价）是最常使用的衡量标准。[13]这些研究基于一个共同假设：专家评价是一种“黄金标准”，提供了能力的“真实评价”，有效的自我评价结果应当与之高度相关。然而，“黄金标准”的可靠性和有效性存疑。仅有少数研究报告了专家评价的可靠性，有证据显示使用纵向评价的研究设计特别容易出现专家评价的不一致，专家评价标准及维度的有效性往往也缺乏验证。[14]此外，使用相关系数作为准确性的唯一度量，其价值有限。基于群体相关性得出的准确性结论并不完整，甚至可能带来误导，因为这些研究是基于另一个假设的，即群体中每个个体的自我评价能力相等，由此得出的结论掩盖了个体差异。总之，“黄金标准”的可靠性、单一相关分析的局限性限制了研究对于自评有效性结论的支持力。[15]面对传统研究范式的方法论挑战，应当寻找比专家评价更可靠的替代方案，并探索多样化的准确性度量指标。[16]此外，也有研究者对自我评价工具的可靠性表示担忧，过于模糊的项目表述和对个人知识或技能具体陈述的缺失可能会限制自评的准确性。[17]例如，“我能够在课堂上有效地使用数字媒体”，此种表述使教师更倾向于将自身定位置于高质量教学的理论惯例而非实际能力上，从而指向评价自我教学的态度、信念和价值观，导致原本的评价内容发生错位，专业能力判断被信心评级所取代。[18]因此，要尽量避免自评工具对准确性的干扰，制定具体的、特定任务的和等级分明的评价标准，这不仅有益于评价者进行准确自评，还能帮助其更敏感地察觉技能的细微变化，从而恰当地调整学习策略。[19][20]

综上所述，尽管先前的研究提供了关于自我评价准确性的广泛证据，但缺乏对幼儿园教师群体的关注。在教师自我评价呼声越来越高的当下，国内研究仍停留在对自评有效性的质疑上，对指标体系设置的合理性以及影响自评有效性的内外部因素进行观点讨论，缺乏实证研究，多流于一般结论性的描述、囿于思辨性的推断和经验式的总结。因此，本研究将依托大范围、多来源的调研数据，对幼儿园教师能力自评的准确性问题展开研究。此外，为避免传统自我评价研究范式的方法论问题，本研究将采用更可靠的衡量标准和多种分析方法，以及科学的自评工具，以期做出具有说服力的评判，助益教师自评价值的充分发挥。

二、研究方法

本研究中，自评工具和样本数据源于教育部与联合国儿童基金会幼儿园教师培训项目①，研究团队开展了涉及15省市幼儿园教师的能力测评与调研，获取了教师自评、资历及客观评价等多种来源类型的教师能力水平信息，形成了两个不同比较视角的子研究：教师自评与其资历等级的比较（子研究一）；教师自评与客观评价的比较（子研究二）。资历（如荣誉、学历和职称等）反映了外部评价结果，是实践中常用的衡量教师能力水平的重要标准。客观评价是对专业能力的标准化测试，在本研究中通过情境判断测验对教师专业能力进行测评。两种衡量标准兼具实用性与客观性，且能够涵盖当前教师评价的主要方式。

（一）研究工具

1. 子研6577a4be5a761eaf24420ab696d716f4dbb9b29c6ea9177d0b9fc804f50385b3究一。

子研究一使用两个工具。一是《幼儿园教师资历调查问卷》，获取了教师荣誉、学历、职称、编制和教师资格等信息。二是《幼儿园教师“保育与教育”能力自评问卷》，包含沟通与合作、教育活动的计划与实施、一日生活的组织与保育、游戏活动的支持与引导、环境的创设与利用5个维度共61个题项。每个题目设置4个选项，请幼儿园教师根据自身情况选择“最符合实际情况”或“最经常出现的行为”的选项。选项的表述是对某一能力表现的具体描述，4个选项代表教师能力发展的4种水平，由低到高按1～4分计分。选项的4种水平来源于幼儿教育专家结合标准、理论与实践经验所构建的幼儿园教师能力发展水平。通过组织专家及幼儿园优秀教师访谈等，确保4种能力水平特点的表述符合我国幼儿园教师的现状特点及教师实际工作中的能力需求，水平之间有层次差异，并与幼儿园教师保育与教育能力培训课程指导标准的水平层次相适宜，从而确保了其内容效度良好。验证性因素分析表明，模型拟合程度良好（χ2/df=1.62，p<0.001，CFI=0.99，TLI=0.99，RMSEA=0.02，SRMR=0.03），自评问卷具有良好的结构效度。问卷各维度的内部一致性信度在0.74～0.87之间，总量表的内部一致性信度为0.92，表明该问卷信度良好。

2. 子研究二。

子研究二使用两个工具。一是《“游戏活动的支持与引导”能力自评问卷》，包含16个题项。该自评问卷的研制过程、题目形式和计分方式均与子研究一自评问卷一致，问卷内容效度和信度良好（Cronbach’s α=0.84）。二是客观评价工具《“游戏活动的支持与引导”能力情境判断测验》，抽取自《幼儿园教师“保育与教育”能力情境判断测验》，其信效度已得到证实。[21]《“游戏活动的支持与引导”能力情境判断测验》包含10个题项，采用“描述实践工作典型情境的题干+描述作答要求的指导语+反应选项”的典型客观性情境判断测验形式，作答方式为排序式，每题计分0～4分。

（二）研究样本

1. 子研究一。

为确保测查样本的总体代表性，子研究一采用等比例分层抽样法。基于对教师能力和社会认可度，以及我国幼儿园教师队伍结构的综合考量，将荣誉等级结合教师资格及专业背景作为分层抽样的遴选标准，确定4种教师资历水平：具有省级或地市级荣誉（水平4）；具有区县级荣誉（水平3）；具有园级荣誉或无荣誉，有教师资格证或学前专业背景（水平2）；无荣誉，无教师资格证且无学前教育专业背景（水平1）。面向全国8省市24县（市）幼儿园教师展开调查，覆盖幼儿园604所，其中公办园315所，民办园289所，实际抽样2 389名教师。在各样本区县组织集体测评，由1名主试负责发放和回收问卷。测评完成后，对数据进行录入、编码和筛选。剔除1份无效数据后（答题均为多选），对100份缺失数据（个别题项有所缺失则计为缺失数据）进行Little’ s MCAR检验，结果表明数据为完全随机缺失（p>0.05），故对此部分样本进行删除，[22]最终得到有效数据2 288份（有效率95.77%）。4种资历水平的有效教师样本信息见表1。

2. 子研究二。

子研究二面向全国11省市24区县（市）的教师展开调查，以园所为单位进行整群抽样。测评使用国家开放大学考试系统，由各省市负责人组织在线测评。21 179名教师完成《“游戏活动的支持与引导”能力自评问卷》，全部自评问卷填写有效；12 125名教师参与《“游戏活动的支持与引导”能力情境判断测验》，对答题不全及填写错误的1 092份缺失数据进行分析，Little’s MCAR检验表明数据符合随机缺失的特征（p>0.05），故进行删除。基于使用该测验的先行研究，[23]将作答时长少于10分钟的数据视为无效并剔除。此外，若教师重复参与测验则取最高分一次。按上述标准共剔除1 358份缺失及无效数据。最后，将自评问卷与情境判断测验的有效数据进行匹配，参与两次测评且数据均有效的6 523名教师作为子研究二的样本。样本信息见表2。

（三）共同方法偏差检验

数据分析前，考虑到自我报告数据可能导致共同方法偏差，故采用Harman单因子分析法对两个子研究分别进行共同方法偏差检验。[24]子研究一结果显示，有6个特征值大于1的因子，且第一个因子解释的变异量为25.16%，小于40%的临界值。子研究二结果显示，有2个特征值大于1的因子，且第一个因子解释的变异量为38.80%，亦小于40%的临界值。结果表明，研究不存在严重的共同方法偏差，确保了后续数据分析的统计学意义。

三、研究结果

（一）子研究一：教师自我评价与其资历的比较研究

1. 幼儿园教师能力自我评价的准确性。

在保教能力自评问卷的61个题项中，教师整体得分偏高（M=3.00，SD=0.36）。具体来看，49个题项（占比80.33%）中，超过60%的教师选择了水平3或水平4的选项。其余12题中，有7题的水平3或水平4选项被选率超过50%。卡方检验显示，教师自评水平与资历水平之间存在显著差异（χ2=327.48，df=9，p<0.001），水平3和水平4选项的被选比例普遍偏高，选择高水平选项的教师比例，远高于抽样中资历水平较高的教师比例。

问卷的四个选项分别对应1～4分的四种水平，因此总分范围为61～244分，等距划分为4个水平段：61～106分（水平1）、107～152分（水平2）、153～198分（水平3）、199～244分（水平4）。各水平段教师的比例分别为0.26%、8.70%、65.34%和25.70%，与抽样中教师资历的4个水平分布有较大差异。根据自评与资历水平的一致性，可以形成16种教师水平匹配关系与3种教师自我认知类型。如图1所示，每块区域中的数字表示匹配成功的人数，白色区域代表自评与资历一致的教师（占比24.21%），左上灰色区域为低估型教师（资历水平高于自评，占比7.43%），右下灰色区域为高估型教师（自评水平高于资历，占比68.36%）。显然，大多数教师倾向于高估自身水平，尤其是资历较低的教师。在资历水平1的教师中，78.11%认为自己处于水平3或水平4；资历水平2的教师中，89.52%认为自己处于水平3或4。而在资历水平3和4的教师中，超过一半属于一致型。

进一步以教师资历水平、学历等级、职称等级为衡量标准，采用肯德尔相关系数（Kendall’s tau⁃b）检验教师自我评价与其资历的一致性，各变量的相关系数（τ）如表3所示。依据相关性强弱判断标准，[25]教师自评水平与资历水平、学历等级和职称等级呈弱到中度相关（τ=0.25～0.34），而3种资历等级水平之间存在中等至强相关关系（τ=0.49～0.67）。

2. 不同特征教师的自我评价特点。

对三种教师自我认知类型的特征进行描述性统计分析（见表4），发现几个趋势：（1）教龄短（≤5年）的教师在从高到低三种类型中占比逐渐降低，而教龄长（>20年）的教师占比逐渐增加；（2）学历低（中专及以下）的教师在从高到低三种类型中占比逐渐降低，学历高（本科及以上）的教师占比逐渐增加；（3）职称高（高级或一级）的教师在从高到低三种类型中占比逐渐增加，而职称低（三级或未评级）的教师占比逐渐降低；（4）无教师资格证和无编制的教师占比在从高到低三种类型中逐渐降低；（5）一致型和低估型教师中超过80%来自公办AaBh8UK6hDvI43qcsnbpMk/Yi3zEYKAgmCZIH85v5VI=幼儿园，而高估型教师所属幼儿园类型相对平均；（6）高估型教师中来自普通幼儿园的占比较大，而低估型教师中来自省级示范幼儿园的占比较大。通过卡方检验初步确认教龄、学历等7个特征变量对教师自我认知类型有显著影响。

采用有序Logistic回归分析评估上述7种特征对教师能力自我认知类型的影响，其适用于因变量为有序多分类变量的情况。由于有无编制和幼儿园类型变量间存在高度相关（r=0.74），为降低共线性影响，只保留了有无编制这一变量。共线性检验结果显示各变量的方差膨胀因子（VIF）最大为2.606，均小于5，表明模型无多重共线性问题。回归分两步进行，模型1包含6个解释变量（教龄、学历、职称、有无教师资格证、有无编制、幼儿园等级），模型2加入“教龄×幼儿园等级”和“学历×职称”两个交互项，因变量均为教师自我认知类型。回归分析前，对模型进行了平行性检验和似然比检验。平行性检验原假设为模型满足平行性，若p值大于0.05则说明模型接受原假设，符合平行性检验。本研究中，模型1（χ2=21.13，df=6，p=0.11）和模型2（χ2=26.35，df=8，p=0.16）均通过平行性检验。模型似然比检验用于分析模型整体有效性，其原假设是模型的回归系数均为0，若p值小于0.05则说明拒绝原假设，模型有效。本研究中，模型1（χ2=454.98，df=6，p<0.001）和模型2（χ2=470.36，df=8，p<0.001）均有效。

有序Logistic回归模型结果如表5所示，模型1中，教龄（β=-0.280，p<0.001）和职称（β=-0.346，p<0.001）对教师自我认知类型具有显著的负向影响，表明教龄越长或职称越高的教师，较不可能高估自身能力。相反，有无教师资格证（β=0.671，p<0.01）和有无编制（β=0.584，p<0.001）对教师自我认知类型具有显著的正向影响，表明无教师资格证或无编制的教师更容易高估自身能力水平。学历（β=-0.150，p=0.137）和幼儿园等级（β=0.071，p=0.074）的影响未达到统计显著性，表明其可能无法独立影响教师的自我认知类型。模型2加入教龄与幼儿园等级、学历与职称的交互项，发现这些交互项在统计上显著：教龄和幼儿园等级的交互项（β=-0.101，p<0.001），学历和职称的交互项（β=-0.155，p<0.01）。这说明学历的增高可以增强职称对降低高估概率的作用，幼儿园等级的增高也可以增强教龄对降低高估概率的作用。图2展示了不同交互项水平上因变量的预测概率，横坐标代表教龄和幼儿园等级的不同组合水平，第一个数字表示教龄从低到高的4种水平，第二个数字表示幼儿园等级从低到高的4种水平，例如，“4.4”表示教龄大于20年和省级示范幼儿园的组合，纵坐标表示教师自我认知类型的预测概率。数据点表示在特定交互组合下，教师属于某一自我认知类型的概率；误差棒表示预测概率的标准误。由此可见，随着教龄和幼儿园等级的增长，教师自我认知类型为高估型的概率明显下降，而为一致型和低估型的概率明显上升。

（二）子研究二：自我评价与客观评价结果的比较研究

1. 幼儿园教师能力自我评价的准确性。

自我评价和客观评价分数标准化后的频数分布如图3所示。使用偏度系数（SK）来反映数据分布的偏斜程度，偏度系数为0说明数据呈正态分布。相较于客观评价（SK=0.07），教师能力自评呈明显的负偏态分布（SK=-0.40），说明自评分数虚高。主要变量的Pearson相关系数或Spearman相关系数如表6所示，各变量间的相关性具有统计学意义，但自我评价和客观评价之间的一致性很低（r=0.124）。此外，自我评价与教师学历、职称之间的相关性明显低于客观评价与教师学历、职称之间的相关性。

参照先前的研究，自我评价与客观评价之间的弱相关表明自评的准确性不足，但这一结论仅限于群体层面。相关性低，表明该教师群体作为一个整体不能有效地进行自我评估，但群体内教师的异质性被掩盖，可能导致结论失真。[26]为克服此问题，本研究引入绝对准确性、偏差指数和相对准确性三项指标，以在个体层面深入分析自评的准确性。[27]根据恩斯特（Ernst）等人的研究，绝对准确性是自我评价与客观评价分数的绝对差，偏差指数为二者的符号差，相对准确性则通过Goodman⁃Kruskal gamma系数计算自我评价和客观评价分数的排名相关性。[28]为比较不同测评工具的分数，进行了z标准化处理。

教师自评的绝对准确性和偏差指数如表7所示。根据定义，若绝对准确性和偏差指数为0，表示评价完全准确。通过单样本t检验比较绝对准确性与0的差异，结果显示，效应值较大，绝对准确性明显偏离0[t（6522）=108.58，p<0.001，d=1.34]，说明教师自评并不准确。偏差指数反映教师高估或低估自身能力的程度，本研究中偏差指数为0.00，单样本t检验未发现明显高估或低估趋势[t（6522）=-0.00，p=1.00]。然而，对这一结果需谨慎解释，因为高估和低估可能相互抵消，导致平均偏差指数无法提供有意义的信息。[29]研究中发现偏差指数的范围为-4.52～3.78，表明个体间存在较大偏差。进一步将客观评价分数从低到高排列，按四分位数分组，发现第一四分位数的教师偏差指数为1.09，说明在客观评价中得分较低的教师明显高估了自身能力；而第四四分位数的教师偏差指数为-0.99，说明在客观评价中得分较高的教师明显低估了自身能力。并且，处于第一四分位数的教师的高估现象比处于第四四分位数的教师的低估现象更为严重。因此，尽管平均偏差指数表明结果无偏差，但实际上大多数教师存在明显的高3sNs8YzYPpggVJuqMSs6qgzOlJYcQL6P9udY7Uj61hs=估或低估现象，只是这些个体差异在样本总体中相互抵消而出现平衡。此外，相对准确性方面，Goodman⁃Kruskal’s gamma检验显示，自评与客观评价之间的相关性较弱（γ= 0.085，p<0.001）。综合三项指标，教师自我评价明显偏离了其在客观评价中所表现的专业能力。

2. 不同特征教师的自我评价特点。

为探索教师特征与自评准确性的关联，本研究以绝对准确性和偏差指数为因变量进行了多元回归分析。初步检查显示，模型中解释变量的方差膨胀因子（VIF）最大值为2.461，远低于5，且变量间的相关系数最大不超过0.6，确认了共线性和自相关均在可接受范围内。为避免自相关和异方差对结果的影响，模型采用怀特稳健估计，回归结果如表8所示。学历与绝对准确性呈显著负相关（β=-0.070，p<0.001），表明教师学历越高，自评的准确性越高，而其他4项特征与绝对准确性无显著关联。同时，5个特征变量与偏差指数存在显著关联。具体而言，教龄（β=-0.009，p<0.001）、学历（β=-0.239，p<0.001）和职称（β=-0.082，p<0.001）与偏差指数呈显著负相关，表明更高的教龄、学历和职称降低了高估的概率；有无教师资格证（β=0.315，p<0.001）、有无编制（β=0.291，p<0.001）与偏差指数呈显著正相关，即无教师资格证、无编制增加了高估的可能性。

四、结论与讨论

尽管教师自我评价的重要性已经在理论上得到广泛认可，然而关于其准确性的研究结论却喜忧参半。本研究对幼儿园教师能力自评的准确性进行了探究，这是一个目前鲜有研究且缺乏实证数据支撑的领域。鉴于自评准确性研究往往面临“教育评价中没有真正黄金标准”的挑战，以及普遍使用的单一相关性方法的局限，本研究参考多种反馈来源（资历及客观评价），使用相关分析与准确性指标，以衡量幼儿园教师能力自评的准确性。既从更全面的视角考察了幼儿园教师自评的准确性，又为教师自评准确性的研究贡献了更丰富的实证依据。

（一）幼儿园教师能力自评与其资历及客观评价缺乏一致性，准确性不足

为衡量幼儿园教师自我评价的准确性，本研究以资历和客观评价为参考，提供了幼儿园教师自评准确性不足的实证证据。首先，基于自评水平与资历水平的一致性，区分出三种教师自我认知类型。其中，高估型教师占比68.36%，远高于一致型和低估型，这种高估倾向在自我评价研究领域被称为“优于平均效应”。先前研究对“优于平均效应”的普遍性存疑，其确切的文化和地理范围有待进一步探索，[30]本研究的发现为该效应提供了来自中国文化背景的证据。尽管国外研究者认为东亚文化可能有利于抑制这一效应，但本研究发现高估自身能力的倾向在幼儿园教师群体中仍然具有普遍性。未来研究可以增加跨文化、跨阶段比较的视角，关注不同文化价值观、社会期望和教育体系等因素如何塑造教师的自我认知和评价行为。其次，相关分析显示教师自评水平与其资历水平的相关性为0.33，而与基于情境判断测验的客观评价结果的相关性更低，仅为0.12。数十年来，来自不同学科领域和文化背景的实证证据揭示了自我评价准确性研究中参差不齐的结果以及整体有效性不足的现象。例如，法尔基科夫（Falchikov）和布德（Boud）关于高等教育中定量自我评价研究的元分析显示自我评价和外部评价之间的相关性范围为-0.05～0.82，平均相关性为0.39；[31]泽尔（Zell）和克里赞（Krizan）发现自我评价和标准测试、专家评价之间的平均相关性为0.29，范围为0.09～0.39；[32]布图利·哈蒂干（Blanch⁃Hartigan）得出的平均相关性为0.21，范围为-0.18～0.74。[33]邓宁（Dunning）等人指出：这种程度的相关性不能说毫无意义，但的确远非完美。[34]而与上述同样使用外部绩效和标准化测试作为参考的研究相比，本研究的相关性结果处于均值以下水平，表明幼儿园教师能力自评与其资历及客观评价缺乏一致性。此外，本研究采纳沃德（Ward）等人的建议检验了教师在个体层面上对自身专业能力评价的准确性，[35]结果显示，绝对准确性远偏离0，偏差指数的范围（-4.52～3.78）高度可变，相对准确性γ系数仅为0.085，三项指标均表明教师自评明显偏离其在客观评价中所表现的专业能力。

综上所述，本研究从实证角度并基于更可靠的方法对当前教师自评有效性的质疑给出了具有统计学意义的回应，是对教师自评有效性困境的揭示，但随之而来的是对教师专业成长的担忧。不准确的自我评价意味着教师可能无法辨别自己专业能力的优势和劣势，进而无法做出有效的学习决策；普遍的高估倾向也有可能影响其在专业发展活动中的自主性和积极性。因此，更重要的是捅破窗户纸后，继续追问教师自我评价何以有效。

（二）处于不同发展阶段的教师对能力的评价存在差异，再现邓宁-克鲁格效应

教师自评与其资历、客观评价的比较结果印证了自我评价研究中著名的邓宁-克鲁格效应，呈现“新手的高估与熟手的低估”“低水平者的高估与高水平者的低估”两种明显倾向。邓宁-克鲁格效应背后的心理机制多样，其中信息不足和信息忽视得到广泛讨论，即人们往往缺乏或忽视准确自我评价所需的关键信息。在社会和知识领域中，识别能力所需的技能与产生胜任反应所需的技能趋同，因而准确自我评价的关键信息取决于专业知识和能力，这是人们在自我评价时面临的一个既定问题，对于低能力者来说尤为明显。[36]由于元认知能力缺陷，低水平教师在自我评价时，面临着双重困境，即在专业知识或能力得到发展之前，他们既不能呈现高水平的绩效表现，也无法正确认识到自己能力低下的问题，反而会高估自己的能力，甚至超过平均水平。[37]在幼儿园教师评价体系中，学历和职称是衡量教师能力水平的重要尺度，有无编制、教师资格证也与综合素质密切相关。在本研究中，具有低学历、未评级、无编制或无教师资格证等代表低水平群体特征的教师，受限于理论知识和实践经验的双重不足，易陷入一种“元无知”的混沌状态，导致低水平教师在能力自我评价时“不知其然，亦不知其所以然”，从而面临“无能力且不知情”的困境。此外，不具备职业资格、职称或稳定编制可能导致教师产生职业身份和安全感危机，触发心理补偿机制。为维持自我价值感和效能感，即便证据不足，教师的自我评价也倾向于符合自己的期望结果。这种“愿望思维”是低水平教师应对职业不确定性的自然心理策略，但可能会阻碍对其职业现实的准确评价。[38]

除“低水平者的高估”外，还呈现“新手的高估”这一倾向。新手型教师指教龄在5年以下的教师，其具有更新的专业知识基础，但对理论知识的掌握尚处于浅表层且实践性知识严重缺乏，[39]理论知识的自信和实践经验的浅薄使其存在一些积极错觉，表现为过高的自我评价、夸大的掌控感以及不切实际的乐观，而这些表现可能是处于“生存适应”阶段的一种积极的心理适应。[40]然而，教龄和幼儿园等级的交互效应表明幼儿园等级能够影响新手型教师自评的准确性，即相较于来自高等级幼儿园的新手型教师，等级较低幼儿园的新手型教师更倾向于高估自身能力水平。幼儿园等级折射出外部环境的支持程度与教师自我评价参照标准的差异，省、市级示范性幼儿园中，高能力水平的教师更多，而等级低的幼儿园则更少。有研究发现，社会比较会影响自我评价的准确性，个人在确定自己能力水平时会将对他人能力的认知作为线索。费斯汀格（Festinger）的社会比较理论指出，当个体面临上行比较时，会降低自我评价水平，而面临下行比较时则会提高自我评价水平。[41]因此，来自高等级幼儿园的新手型教师，其比较的锚更多是高水平教师，更易发现自身能力不足，不会做出过高评价。而来自等级较低幼儿园的新手型教师，面对的是整体素质较低的教师队伍，因此更容易沉浸在自我营造的应有向度中，做出过高估计。

相反，随着专业知识或熟练程度的提高，大量研究表明自我评价往往变得不那么乐观，本研究也发现了“高水平者的低估”和“熟手的低估”两种占比不大但仍然明显的倾向。对此可用虚假一致性效应（false⁃consensus effect）来解释，即人们常常会高估或夸大自己的信念、判断及行为的普遍性，能力高的人错误地估计他人也具有同等能力，而对自己能力突出的这一特征并不敏感。[42]此外，更多的专业知识可能会使人更能意识到还有更多需要学习的内容，或者他人的表现更出色，从而抑制自我评价的准确性。[43]总之，处于不同发展阶段的教师对能力的评价存在两种截然不同的倾向。基于这一结果，提高自我评价准确性的关键因素是对所评价的技能或知识具有更高的能力和更多的经验，尽管与提高自评准确性相关的因素很多，但培养专业知识和能力应当成为优先事项。[44]

五、启示与展望

（一）融合之径：自我评价与专业发展的有机整合

当下实践中出于对分层培训效率的考量，教师自评应当作为一种高效率的评价方式以满足大规模培训的现实需求，因而我们必须关切并回应培训实施者对于自评准确性的现实担忧。本研究显示，幼儿园教师自我评价的准确性不足，应当审慎对待教师自评的结果，其尚不能独立作为科学诊断、能力分层及按需培训的依据，仍需结合多种外部反馈来综合诊断教师能力水平。然而，这并非要否定自我评价在教师培训中的效用，面对自评不准确这一既定事实，当下更重要的是，将自评从一种诊断性活动转向教师专业发展的过程性活动，发挥其自我调节的功能。从本质上讲，自我评价是一个学习过程，而非一种评价方法。[45]这意味着即便是不准确的自评结果，也能够对教师的学习提供启示，成为教师专业发展的机会窗口。教师在特定时间点对自己能力的判断总是片面的、不完整的，给予教师关于其预期与实际表现之间差异的反馈，可以让其意识到自我感知中的盲点进而消除偏差。在这一过程中，应帮助教师发展元认知和自我调节能力，以监测和改进自己的学习，系统地提升专业能力并改进教育实践。而专业知识、能力和经验又正是影响教师自我评价准确性的关键因素，因此，专业发展的效益又会增溢到教师的自我评价活动中，从而形成“专业能力提升—自评准确性提高”的良性循环。这对于改善“低水平者的高估”和“新手的高估”极为有益。

为此，当下教师专业发展活动要将自我评价实施与自我调节学习过程有机整合，避免被结果导向的评价思维所裹挟，使评价和学习成为两条交织并行的发展线。借鉴齐莫曼（Zimmerman）等人提出的自我调节学习的社会认知模型，[46]以及晏（Yan）和布朗（Brown）提出的循环的自我评价过程模型，[47]可以从以下方向实现评价和学习的有机融合。其一，培训目标的设置应有发展性、层次性，在培训前要确保教师理解目标，并能够结合自身经验内化为自己的目标和动机，作为评价自我学习进程和调节学习的依据。其二，利用多种反馈来源获得的评价信息应及时反馈给教师，注意反馈内容应该指向具体的学习目标，而非对优劣的评判，以帮助教师形成准确的自我定位并明确发展方向。其三，创造自我反思和改进的空间，确保教师有足够的时间利用获得的内部外反馈对实践进行反思和修正。确定绩效标准、反馈寻求和自我改进这三个活动在培训过程中应是有序循环的，将自我评价内在于自我调节学习过程，可促进教师自我评价趋于准确和真实。

为促进教师自我评价和专业发展的有效整合，未来研究亦应在关注准确性的基础上，增加自我评价研究的过程性视角，进一步探索教师自我评价的准确性与其随后在培训中的学习行为和专业成长间的关系、随培训活动推进的变化情况等。自我评价的过程机制被称为“下一个黑盒”，[48]当前我们只知道一些输入（例如教师、工具、标准和目的）被投进黑盒中，而一些输出（例如评价和自我调节学习的效果）将随之产生。然而，自我评价的过程机制、输入与输出的效益转化基本上是未知的。采用过程视角，展开系列相互关联的实证研究，形成教师自我评价研究“链”，是实现自我评价与专业发展有效整合的基础。

（二）生态构建：创设支持教师自评的实践环境

除培训的现实需求外，当前教师评价体系呈现出从他评向自评转变的趋势，反映了更广泛的实践层面对于教师自评价值充分发挥的期望，并进而归为对自评准确性的要求。研究表明幼儿园教师的自我评价普遍存在偏差，需要自上而下构建有利于教师自评的生态，以全面提升其准确性和有效性。

首先，各相关主体应当形成正确的自我评价观，回归自我评价的内在本质追求，即为了促进教师有效学习和专业成长，而非作为一次总结性的评价，一次性贴标签、下定论的活动。尽管教育政策中的自我评价都明确指向教师专业发展，然而当前实践中对自我评价本质的认识尚未实现从总结性向形成性的转变，致使一部分评价主体出于对准确性的担忧而模糊自我评价的价值，也使得被评价的教师出于对评价结果的顾虑而产生主观不准确的倾向，从而形成背离自我评价本质的恶性循环。对此，要构建教师自我评价的支持性生态。具体而言，评价主体及幼儿园层面，应尊重教师作为自我发展的主体，将自我评价以反思实践的形式融入日常教学活动，如鼓励教师撰写教育日志或反思日记，使其成为教师自我专业成长的同行伴侣和园本教研的资源。此外，加强学习共同体文化建设，为教师自我评价提供多元参照和反馈来源，以解决小范围社会比较所造成的信息孤岛。如组建各级教研室、开展研讨会，为教师提供可持续的交流协作和反思学习的平台。过程中可引入标杆管理和同行评估，使来自不同等级幼儿园、具有不同经验水平的教师相互之间进行对标练习，这不仅有助于低水平和新手型教师全面了解自身专业能力的实然与应然，还能使高水平和成熟型教师提升对自身优势的敏感度，从而改善“高水平者的低估”和“熟手的低估”的状况。最后，需制定科学的教师自我评价指标体系和具体操作方案，使教师自评有据可依。自评指标体系的构建，在理念上可结合最近发展区和学习路径理论，以达到发展性、渐进性和激励性目的；在内容上要具有全面性、具体性和可转化性，既要能够反映幼儿园教师保教专业能力的综合性，也要避免笼统抽象难于操作，致力于将指标变目标，使自评的关注点从优劣等结果性要素转移到过程性要素（如教师保教实践的行为控制等）上；在形式上要注重教师参与，教师是自评的实施者，只有将其对专业能力的理解、教育工作的经验以及对自评操作的需求融入到评价指标体系中，才能提升教师在自我评价中的主体意识和内生动力。

（三）方式革新：技术赋能主客观评价融合

为提升自评准确性，研究者们已从评价机制、组织和环境等层面提出了丰富的策略。然而，构建外部生态需要时间、资源以及系统的变革，实践中的实施可能并不理想。随着准确性不足的证据持续涌现，客观评价的呼声日益高涨，亟需推动自评方式进步以驱动实践应用。[49]有研究者提出，基于情境的自我评价方式能够更加接近客观评价结果，[50][51]反映了自我评价的未来走向，即通过与客观性评价的融合来提升其准确性。自我评价因其主观性强而遭到诟病，客观性评价则难于操作实施，二者融合能够弥补各自的局限，并有效发挥自评服务对于教师自我学习和发展的功能。

突破主客观评价的壁垒是自我评价发展的未来方向。过程性理论为此提供了理论基础，而技术的进步则带来了机遇。根据过程性理论，自我评价是一个整合高质量的内外部信息和数据以评估当前表现并促进未来学习的过程，包括寻求各种反馈进行持续校准。[52]专家评价、同行评价、客观性评价等均可为教师提供反馈，其中，相较于专家、同行等他人评价，客观性评价具有准确可靠的优势，且避免了社交情感方面的压力，对教师更为友好。[53]但传统的客观性评价难于实施，通常由外部发起并主导，不适合教师自主使用。因此，在缺乏外部引导和约束的情况下，需要为教师提供适宜的支架，帮助他们高效地进行自我评价和自我管理。

随着技术的发展，利用技术增强的学习和评价环境构建使上述构想成为可能。具有代表性的是以“为了学习和发展的评价”作为价值导向的计算机自适应测验，将能力测评与能力发展相结合。根据被试作答表现进行智能化出题，不仅能精准评估被试的能力水平，还能有效促进其自我反思、自我学习、自我成长以及自我意识的形成。此外，基于深度学习算法的大语言模型（LLM）的发展，掀起了人工智能技术浪潮。将人工智能深入应用到教育教学和管理全过程、全环节已成为时代主题，[54]教育评价研究领域已开始关注其有效性、适应性，并尝试利用人工智能实现自动化评价和反馈过程，为教师自我评价和自主学习带来无限可能。[55][56]计算机自适应和人工智能能够为教师提供高效、个性化和智能化的评价体验，以及精准的评价结果，进而有效服务于自我评价和自我调节学习，帮助教师成为自主学习者和终身学习者。总之，利用技术赋能主客观评价融合，推动自评方式的根本革新，不仅是突破准确性瓶颈的关键，更是回归评价本质、服务于教师终身学习发展的时代趋势，值得我们深入探讨其实现方式。

注释：

①自评依据及数据得到冯晓霞教授领衔负责的中小学幼儿园教师培训课程标准“保育与教育”研制项目的支持。

参考文献：

[1]SAMUELS M， BETTS J. Crossing the threshold from description to deconstruction and reconstruction： using self⁃assessment to deepen reflection[J]. Reflective Practice，2007，8（2）：269-283.

[2]EVA K W， REGEHR G. Self⁃assessment in the health professions： a reformulation and research agenda[J]. Academic Medicine，2005，80（10）：S46-54.

[3]DAVIS A， MCDONALD D. Teachers’ reflections of instructional effectiveness： self⁃assessment through a standards⁃based appraisal process[J]. Reflective Practice，2019，20（1）：125-141.

[4][6][30][34][36]DUNNING D， HEATH C， SULS J M. Flawed self⁃assessment： implications for health， education， and the workplace[J]. Psychological Science in the Public Interest，2004，5（3）：69-106.

[5][13][32]ZELL E， KRIZAN Z. Do people have insight into their abilities？ A metasynthesis[J]. Perspectives on Psychological Science，2014，9（2）：111-125.

[7][20]LEÓN S P， PANADERO E， GARCÍ⁃MARTÍNEZ I. How accurate are our students？ A meta⁃analytic systematic review on self⁃assessment scoring accuracy[J]. Educational Psychology Review，2023，35（4）：106.

[8][31]FALCHIKOV N， BOUD D. Student self⁃assessment in higher education： a meta⁃analysis[J]. Review of Educational Research，1989，59（4）：395-430.

[9]KRUGER J， DUNNING D. Unskilled and unaware of it： how difficulties in recognizing one’s own incompetence lead to inflated self⁃assessments[Z]. US： American Psychological Association，1999：77， 1121-1134.

[10][51]KASTORFF T， SAILER M， VEJVODA J， et al. Context⁃specificity to reduce bias in self⁃assessments： comparing teachers’ scenario⁃based self⁃assessment and objective assessment of technological knowledge[J]. Journal of Research on Technology in Education，2023，55（6）：917-930.

[11]HU B Y， ZHOU Y， LI K. Pinpointing Chinese early childhood teachers’ professional development needs through self⁃evaluation and external observation of classroom quality[J]. Journal of Early Childhood Teacher Education，2014，35（1）：54-78.

[12]高宏钰，许文洁，刘昊，等.自评与他评双视角下幼儿园教师观察能力的现状与提升策略[J].幼儿教育，2023（27）：30-35.

[14]HARRINGTON J P， MURNAGHAN J J， REGEHR G. Applying a relative ranking model to the self⁃assessment of extended performances[J]. Advances in Health Sciences Education，1997（02）：17-25.

[15][26][35]WARD M， GRUPPEN L， REGEHR G. Measuring self⁃assessment： current state of the art[J]. Advances in Health Sciences Education，2002，7（1）：63-80.

[16]DUNNING D， HELZER E G. Beyond the correlation coefficient in studies of self⁃assessment accuracy： commentary on Zell & Krizan（2014）[J]. Perspectives on Psychological Science，2014，9（2）：126-130.

[17][50]SCHEITER K. Lernen und lehren mit digitalen medien： eine standortbestimmung[J]. Zeitschrift für Erziehungswissenschaft，2021，24（5）：1039-1060.

[18]TAIT⁃MCCUTCHEON S， KNEWSTUBB B. Evaluating the alignment of self， peer and lecture assessment in an Aotearoa New Zealand pre⁃service teacher education course[J]. Assessment & Evaluation in Higher Education，2018，43（5）：772-785.

[19][48]ANDRADE H L. A critical review of research on student self⁃assessment[J]. Frontiers in Education，2019（04）：87.

[21][23]郭力平，孙佳玥，李丽.幼儿园教师保育与教育能力情境判断测验——基于2 304名教师的实证研究[J].学前教育研究，2021（11）：46-57.

[22]邓建新，单路宝，贺德强，等.缺失数据的处理方法及其发展趋势[J].统计与决策，2019，35（23）：28-34.

[24]周浩，龙立荣.共同方法偏差的统计检验与控制方法[J].心理科学进展，2004（06）：942-950.

[25]RUMSEY D J. Statistics for dummies[M]. New York： John Wiley & Sons，2016：284.

[27]SCHRAW G. A conceptual analysis of five measures of metacognitive monitoring[J]. Metacognition and Learning，2009，4（1）：33-45.

[28]ERNST H M， WITTWER J， VOSS T. Do they know what they know？ Accuracy in teacher candidates’ self⁃assessments and its influencing factors[J]. British Educational Research Journal，2023，49（4）：649-673.

[29]PRINZ A， GOLKE S， WITTWER J. Refutation texts compensate for detrimental effects of misconceptions on comprehension and metacomprehension accuracy and support transfer[Z]. US： American Psychological Association，2019：111，957-981.

[33]BLANCH⁃HARTIGAN D. Medical students’ self⁃assessment of performance： results from three meta⁃analyses[J]. Patient Education and Counseling，2011，84（1）：3-9.

[37]陈彦君，石伟，应虎.能力的自我评价偏差：邓宁—克鲁格效应[J].心理科学进展，2013，21（12）：2204-2213.

[38]BÉNABOU R， TIROLE J. Self⁃confidence and personal motivation[J]. The Quarterly Journal of Economic，2002，117（3）：871-915.

[39]范奭琛，汪甜甜，周钧.新任研究生学历幼儿园教师的身份冲突与应对[J].学前教育研究，2023（01）：72-82.

[40]BUTLER R. Are positive illusions about academic competence always adaptive， under all circumstances： new results and future directions[J]. International Journal of Educational Research，2011，50（4）：251-256.

[41][42]MUSSWEILER T， RÜTER K， EPSTUDE K. The ups and downs of social comparison： mechanisms of assimilation and contrast[Z]. US： American Psychological Association，2004：87，832-844.

[43]ROSS L， GREENE D， HOUSE P. The “false consensus effect”： an egocentric bias in social perception and attribution processes[J]. Journal of Experimental Social Psychology，1977，13（3）：279-301.

[44]PANADERO E， BROWN G T L， STRIJBOS J. The future of student self⁃assessment： a review of known unknowns and potential directions[J]. Educational Psychology Review，2016，28（4）：803-830.

[45]YAN Z. Student self⁃assessment as a process for learning[M]. Qxfordshire： Taylor & Francis，2022：4.

[46]ZIMMERMAN B J. Chapter 2⁃Attaining self⁃regulation： a social cognitive perspective[M]//Boekaerts M， Pintrich P R， Zeidner M. Handbook of Self⁃Regulation. San Diego： Academic Press，2000：13-39.

[47]YAN Z， BROWN G T L. A cyclical self⁃assessment process： towards a model of how students engage in self⁃assessment[J]. Assessment & Evaluation in Higher Education，2017，42（8）：1247-1262.

[49]LSCHNER A， BACKFISCH I， STURMER K. A test⁃based approach of modeling and measuring technological pedagogical knowledge[J]. Computers & Education，2019（142）：103645.

[52]EPSTEIN R M， SIEGEL D J， SILBERMAN J. Self⁃monitoring in clinical practice： a challenge for medical educators[J]. Journal of Continuing Education in the Health Professions，2008，28（1）：5-13.

[53]MACDONALD H A， SULSKY L M， SPENCE J R， et al. Cultural differences in the motivation to seek performance feedback： a comparative policy⁃capturing study[J]. Human Performance，2013，26（3）：211-235.

[54]孙杰远.教育强国背景下的基础教育变革：可为、应为与何为[J].学前教育研究，2024（01）：1-11.

[55]吴砥，郭庆，吴龙凯，等.智能技术赋能教育评价改革[J].开放教育研究，2023，29（4）：4-10.

[56]李克建，陆浩.学前教育质量评价工具的演进路径与未来趋势[J].学前教育研究，2023（02）：1-11.

Accuracy in Preschool Teachers’ Self⁃Assessment

—Comparing with Qualification and Objective Assessment

GUO Liping1，2， ZENG Bei1，2， ZHU Jinxi1，2

（1Faculty of Education， East China Normal University， Shanghai 200062 China； 2East China Normal University Branch， Collaborative Innovation Center of Assessment for Basic Education Quality， Shanghai 200062 China）

Abstract： Teachers’ self⁃assessment serves as a crucial foundation for diagnosing professional abilities and implementing targeted training. Moreover， it fulfills an inherent requirement for autonomous and lifelong learning. The accuracy of self⁃assessment plays a pivotal role in determining its effectiveness. However， there is a dearth of systematic research examining the accuracy of self⁃assessment among preschool teachers and whether variations in accuracy exist among teachers with different backgrounds. The current study aims to examine the accuracy of preschool teachers’ self⁃assessment of abilities by considering their qualifications and objective assessment as reference points. Sub⁃study 1 analyzed self⁃assessment scores and qualification information of 2 288 teachers， while sub⁃study 2 compared the self⁃assessment of 6 523 teachers with objective assessment scores. The findings are as follows：（1）There was a lack of consistency between teachers’ self⁃assessment scores and their qualification levels， with a significant prevalence of overestimation；（2）The skewness coefficient， correlation coefficient， absolute accuracy， and bias index collectively indicated a lack of consistency between teachers’ self⁃assessment and objective assessment scores；（3）Teachers with different teaching years displayed variations in their self⁃assessment of abilities， representing the “Dunning⁃Kruger effect.” Therefore， it is necessary to facilitate the integration of self⁃assessment and professional development and establish a virtuous cycle between heightened levels of professional ability and more precise self⁃assessment. Further research should focus on establishing a supportive ecosystem conducive to teachers’ self⁃assessment and enhancing the quality and efficiency of self⁃assessment in practical settings. Increased efforts to integrate subjective and objective assessments could drive innovation in self⁃assessment methods， leading to greater accuracy and efficiency.

Key words： preschool teachers； self⁃assessment； objective assessment； qualification

（责任编辑：熊灿灿）

学前教育研究

2024年10期

幼儿园教师能力自我评价准确吗？

杂志排行

学前教育研究的其它文章