《国家学生体质健康标准》执行15 年来的评估:多维障碍与多角度破解
——基于政策评估的利益相关者模式
2021-09-29张磊
张 磊
政策学认为,一项政策在颁布实施后,需要进行执行过程与后果(结果)评估,其中,“后果评估(被认为)是教育政策评估中最重要的一种评估方式”[1]。《标准》作为一项旨在促进学生加强体育锻炼,监测学生体质健康状况的学校体育政策,遗憾的是,当前人们对《标准》的评估主要集中于过程评估,即对《标准》执行过程中学校、教师、学生存在的执行偏差问题以及《标准》本身存在的问题的揭示,对《标准》进行的后果评估还较为鲜见。本研究以教育政策学、教育生态学、政策群等相关理论与相关文献作为论说支撑,一方面揭示《标准》进行后果评估可能遇到的障碍,认清其难度所在,为现实中《标准》的评估提供警示;另一方面借鉴政策评估的利益相关者模式对《标准》的执行效果进行尝试性后果评估,旨在对过去15 年的《标准》实施效果进行事实与价值判断同时,为今后《标准》的再修订提供参考。
1 《标准》结果评估的困境:八大障碍
姚万禄等[2]较为全面的描述了政策后果评估所可能存在的困境,分别为“政策目标障碍、因果关系障碍、政策资源障碍、政策成本障碍、评估信息障碍、评估方式障碍、评估主体障碍、评估客体障碍”等,从现实来看,这些障碍在不同时期的《标准》中都有不同程度的表现。
1.1 政策目标障碍:指向《标准》目标与内容的矛盾与模糊的双重性
有时一项政策由于政策的修订调整,使得政策在演变过程中政策目标也在不断变化,从而导致政策目标的不确定,这给不同时期的政策评估带来了障碍。《标准》自2002 年实施伊始,经历了2007 年和2014 年的两次修订,三次《标准》的政策目标见表1。
表1 2002版、2007版、2014版《标准》政策目标的具体表述一览表Table 1 The Specific Statements of Policy Objectives of Criterion in 2002,2007 and 2014 Editions
由表1 可见,不同时期的《标准》在政策目标的表述上有些许不同,2014版《标准》在目标表述上更加强调《标准》的激励意义与效果,并且将更加全面的健康观——由原来一维的体质健康观发展为身心二维健康观——与全面发展写入《标准》目标中。但是,这种趋于全面的政策目标却给《标准》的后果评估带来了政策目标障碍——“矛盾与模糊的双重性障碍”。首先,2002版《标准》中的“提高自我保健能力”因没有相应的评价指标,2014版《标准》也没有针对心理健康而设置相应的评价指标,这与《标准》提出的促进学生心理健康目标相矛盾的;其次,“全面发展”这一目标如何评估?“全面发展”本身的模糊性使得《标准》的价值取向缺乏指向性。
1.2 因果关系障碍:指向“体质健康”复合效果与《标准》独立影响的分离困境
如前所述,不同时期《标准》的政策目标在于“提高体质健康水平”,从现实情况来看,学生体质健康水平的提高是体育课、课余体育活动、饮食、作息时间以及《标准》的激励作用在内的众多因素的综合效应,若要从中分离出属于不同时期《标准》政策独立影响的那部分效果,难度之大可想而知。再从政策评估方法来看,无论是准实验法,还是专家判断法,抑或是对象评定法,都难以从众多因素带来的综合效应中清晰准确的分离出《标准》所带来的准确效果。如此一来,不同时期《标准》的结果评估都会面临因果关系障碍,这实际上又反映了作为《标准》目标达成影响因素的复合性这一事实。
1.3 政策资源障碍:指向“体质健康”政策重叠与《标准》独立效果的分离之痛
“政策资源的障碍主要表现在两个方面:政策混合和政策重叠”[2]。自2002 年以来,国家颁布的旨在促进学生积极参加体育锻炼,提高体质健康水平的政策文件达10余件(见表2)。
表2 2002年以来国家颁布的“促进学生参加体育锻炼”的相关政策一览表Table 2 The Relevant Policies on Promoting Students'Participa‐tion in Physical Exercise Promulgated by the State since 2002
由表2 可见,不同时期国家颁布的旨在促进学生体质健康的相关政策可谓频繁,政策主体众多,而且每一项政策都需要学校投入一定的人力、物力、财力,如果说是这些政策之间能够处于耦合状态,那么所带来的问题也是不可避免的,即对不同时期的《标准》政策进行结果评估时必然因为众多政策的混合与重叠带来无法分离出《标准》独立效果的问题。由此可见,学生体质健康状况并未因为如此多政策的颁布得到缓解,政策边际效应递减问题不容忽视。
1.4 政策成本障碍:指向“成本计算与收益滞后”的评估难度
“这里的政策成本,包括两个方面,一是政策运行成本,二是政策评估成本”[2]。政策运行成本不仅包括教育主管部门为政策运行所提供的经费,还包括机会成本和时间成本,由于机会成本和时间成本本身在计算方面的难度,这给《标准》运行成本的计算带来困难。由此,也使得通过“成本—收益分析方法”进行政策结果评估的难度增大。再看政策收益,教育政策的收益一般反映在受益者学生身上,就《标准》而言,学生体质健康水平的提高由于受到多种因素的影响,使得《标准》政策目标需要较长时间才能实现,也就是体质发展的滞后性,而且带有不确定性。如此,《标准》的政策成本障碍不会因为某个时期政策的颁布而不存在,而是表现为成本计算与收益滞后的评估难度。
1.5 评估信息障碍:指向《标准》测试数据的真实性与有效性问题
政策评估需要真实全面的资料或数据,但“评估信息失真、失效和信息量不足,是政策评估中经常遇到的难题”[2],该问题在《标准》中的表现见表3。
由表3可知,在《标准》实施的不同时期,测试数据的真实性与有效性都有不同程度的反映,如此,基于上报数据对《标准》的评估便存在一定风险。教育部2014 年印发了《学生体质健康监测评价办法》、《中小学校体育工作评价办法》以及《学校体育工作年度报告办法》等三个文件(以下简称“三个文件”),要求加强对《标准》执行、数据上报等工作的监督,这在一定程度上有利于提高《标准》测试与数据上报的准确性与时效性。但正如有研究者所指出的,这些文件“属于原则性、指导性文件,易产生目标异化”[3]。可以说,评估信息障碍问题在不同时期《标准》执行中都有所表现,并不会随着相关文件的颁布而在短期内消解。
表3 2002年以来反映《标准》信息失真、失效问题的相关文献一览表Table 3 The Relevant Literatures Reflecting the Information Dis‐tortion and Failure of Criterion since 2002
1.6 评估方式障碍:指向学校与第三方利益相关性的两难境地
政策的评估方式有正式评估、内部评估和委托评估,自然也就有非正式评估、外部评估和非委托评估。“不论哪种类型的评估,都是政策评估过程中行之有效的方法”[2]。《标准》的两次修订可看作对《标准》评估之后的政策调整,从评估方式来看更多的是内部评估,特别是“三个文件”的颁布,要求学校每年进行学校体育工作自评并上报教育行政部门,教育行政部门再进行复评,由此形成评估报告。但这种“内部评估存在着评估主体‘既当运动员又当裁判’的情况,评估结论与评估主体自身的利益存在一定的相关性,因而他们就有可能在评估活动中故意隐瞒事实真相”[4]。毛振明[5]等更是将这种情况称为诚信失效,《标准》陷入了“学校用自己测的数据让领导评价自己的逻辑死结”。
面对内部评估的问题,外部评估被给予了很高的期望,对此,“三个文件”中也提到了教育部可以依托第三方机构设立全国学生体质健康监测评价研究机构,开展学生体质健康监测评价的监测、结果公示等工作。“不过,由于接受委托的评估者有可能会出现为迎合委托人的意愿而得出倾向于迎合委托人利益的评估结论而有失公允”[4]。因此,由谁来进行《标准》评估的问题确实由于利益相关性的原因而处于两难境地。
1.7 评估主体障碍:指向学校趋利避害的本能困惑
“从评估的主体上讲,政策评估者可能由于形形色色的动机,有意识地夸大或缩小、掩盖或曲解评估中的某些事实”[2]。评估方式的不同便决定了评估主体的差异,但无论是内部评估,还是外部评估,各评估主体——学校、第三方等都会由于利益相关性问题而不可避免的在评估中表现出不真实或者不公平公正的问题。一个不争的事实是,学校在进行《标准》自评时必然从学校利益出发,掩盖《标准》执行中的某些关键问题,而仅仅上报一些表面性的或者客观因素造成的问题。可以说,评估主体障碍是“趋利避害”这一本能在《标准》评估中的体现,而且会存在于不同时期《标准》评估中。
1.8 评估客体障碍:指向利益相关者的评估抵制问题
“无论用什么名称来表述政策评估的行为,它归根到底都涉及对政策功绩的评判。这种评判可能有利于与政策制定和执行相关的人,也可能产生不利影响,从而危及他们的工作生活或社会评价。……政策评估的客体在不能支配评估的情况下,有可能对评估设置障碍”[2]。可见,评估客体已不仅仅是政策本身,而是由于对政策的价值评判带来的利害关系而衍生出的与政策相关的利益相关者——教师、学校、政府等,他们与政策本身一道成为评估的客体。就学校而言,学校提供不准确的数据便是这一障碍表现。对于政府与第三方所表现出的障碍问题,李冲,史曙生指出[6],“政府相关职能部门迫于社会公共舆论的压力,为了维护其社会公众形象,对于青少年体质健康促进政策评估有较强的敏感性抵制心理。同时,我国的外部评估机构缺乏独立性,没有相应的职权,在实际工作中迫于政府的压力,使得外部的评估机制不能正常运转,政策评估的效度与信度不高”。
2 《标准》结果评估的破解:基于政策评估的利益相关者模式
2.1 政策评估的利益相关者模式的援引
评估自然需要评估标准,但无论是以往的顾客导向模式、效果模式,经济模式,还是专业模式,评估标准在内容上基本上涵盖了进行“事实评估”所要求的政策效率、政策效益、政策目标达成度、政策影响等方面,显然,从这些方面对《标准》进行评估都会遇到前面所提到的评估障碍。近年来,“公民参与是当今世界公共管理的共同趋势”[7],瑞典学者韦唐(VEDUNG)所提出的政策评估的利益相关者模式正是符合了这一趋势。该模式“从利益相关者角度出发评价政策的影响和合理性,倾听被政策影响和可以影响政策的社会成员的不同意见,最大限度的回应公民诉求,使得政策制定更加科学、民主,顺应了行政民主的政府管理新趋势”[7]。由于该模式下各方利益相关者都可以表达各自的需求、利益,并且能从各利益相关者出发来审视政策的实施效果,因此,相较于其他模式,一方面“用这种模式来评价政策的合理性与公正性、政策执行和服务提供的有效性,以及政策影响的广泛性,优势更为明显”[7],另一方面由于利益相关者的广泛参与,可以达成不同利益相关者的互动与政策回应,从而可以“使政策更加顺民心、合民意”[7]。因此,无论从国家社会发展的民主化、法制化进程,还是从政策评估本身的合理性与科学性角度来讲,利益相关者模式都可以成为我们对《标准》进行评估的依据。
2.2 《标准》评估的利益相关者与评估手段、内容的确定
“利益相关者模式的评估程序包括:(1)利益相关者的定位;(2)利益相关者抽样,确定评估样本;(3)调查利益相关者的意见,内容视评估对象而定;(4)对调查结果进行统计分析,作出评估结论”[7]。不同的政策,其利益相关者自然会有所不同。“在教育政策利益相关者当中,最为核心的群体就是教师和学生”[8]。因此,这里也将《标准》的利益相关者确定为参与《标准》测试的教师与学生。
对于利益相关者的抽样以及意见调查方面,由于已有来自全国不同地区关于《标准》执行情况的大量文献,其中不乏《标准》执行过程中教师与学生的态度与行为调查,因此,可以以文献调查为主。为了更为全面有效的对《标准》加以评估,我们综合借鉴了政策评估的“目标标准、效率标准、政策回应度”等相关标准,以描述性评估为主,主要选择了教师与学生对于《标准》的认知度、认同度信息——以此评价《标准》的政策目标效果(有效性),教师与学生在《标准》执行过程中的忠诚度信息——以此评价《标准》的政策效率(有效率),教师与学生的意见、问题在《标准》执行、修订中的回应度信息——以此评价《标准》的政策公平性与民主性问题。
2.3 从利益相关者视角看《标准》存在的问题
2.3.1 《标准》的认知度与认同度不高,有效性有限 一项政策的顺利实施,首先要取得利益相关者的广泛认知与认同,因此,政策在利益相关者那里的认知与认同情况便是政策评估的重要内容,表4 所呈现的便是《标准》自2002年颁布以来教师与学生的认知情况。
由表4可知,在《标准》实施的不同时期,作为利益相关者的教师与学生,对《标准》的认知程度与认同度均表现的不高。尽管《标准》还出台了“评奖评优、不及格肄业处理”等奖惩措施,但从现实情况来看,这些“一刀切”式的措施都因为前面提到的评估主体障碍或评估实施障碍等问题,而未能真正触发学生的体育锻炼动机。因此,如何通过差异化的外部激励措施真正激发学生的内在体育锻炼动机是今后《标准》修订时需要着重考虑的。
表4 《标准》不同时期“认知度与认同度不高,有效性有限”问题具体表现一览表Table 4 The Specific Manifestations of Low Recognition and Ac‐ceptance and Limited Effectiveness in Different Periods of Criterion
2.3.2 《标准》的执行忠诚度不高,政策效率有待完善 教育政策评估中的效率评价原本“有两种基本评估形式:一是单位成本所能产生的最大价值;二是既定目标所需要的最小成本”[9],当然,通过投入与产出的比较是对政策效率最直接的体现。但是,在无法获取投入与产出准确数据情况下,可以通过考察教师与学生在《标准》测试过程中的忠诚度来反映测试数据的真实性与准确性,以此来评判《标准》的效率问题。其中,教师的忠诚度表现为测试过程中的认真、规范程度,学生的忠诚度则表现为测试过程中按规则测试与积极测试的程度,这两方面的文献情况见表5。
表5 《标准》不同时期“教师、学生执行忠诚度”问题具体表现一览表Table 5 The Specific Manifestations of Teacher and Student Ex‐ecutive Loyalty in Different Periods of Criterion
由表5可知,在《标准》实施的不同时期,作为利益相关者的教师与学生,在《标准》测试过程中均表现出测试不负责、不按规则测试、测试时作弊等忠诚度不高的现象。如此一来,在付出了大量的人力、物力、财力等物质成本与时间成本情况下,并没有获得国家所需要的真实有效的数据。如此一来,仅从投入与测试结果的准确性和真实性,以及实效性而言,《标准》的政策效率有待完善。
2.3.3 《标准》的回应度不高,公平性有待进一步提高 作为一项政策,需要对利益相关者的有关意见或反映的问题、所表现出的困惑给予及时的回应,特别是在政策的修订或调整过程中,以便政策更好地执行。也正因如此,有研究者将“政策回应度”作为政策评估标准之一[9],认为“政策评估即政策回应”[10]。“在实际研究中,教育政策的回应度依靠教育政策实施的具体效果,特别是通过该教育政策是否能够维护、保障、提升弱势群体,如低收入者、偏远贫苦地区群体等的权利和利益”[11]。那么,不同时期的《标准》是否对教师与学生的利益会有所冲击呢?如果有,《标准》的修订是否给予了政策上的回应以加以维护呢?这里主要从《标准》实施对体育课的冲击,教师因《标准》实施而产生的工作量问题,以及不同区域学生采用统一测试标准进行测试所带来的公平性问题三方面加以呈现(见表6)。
由表6 可知,不同时期的《标准》测试都存在着随堂测试的问题,这一方面使得教师正常的教学利益——通过教学实践提高教学能力——受到了很大的冲击,另一方面也使得学生的课堂学习利益——通过体育课堂学习提高运动技能——也受到了很大的冲击,体测测什么便教什么、学什么的现象便是该问题最好的注脚。加之因《标准》测试工作量得不到合理地补偿,教师的物质利益也受到影响。此外,从学生层面来看,最大的问题抑或是《标准》统一测试标准因区域差异而带来的教育公平利益问题——即学生身体素质的区域差异并未得到公平对待,而且这一问题并未随着《标准》的修改而得到改善。因此,从政策回应度来看,《标准》的实施并没有建立起对利益相关者教师与学生的教学利益、学习利益、物质利益、教育公平利益的保障体系,这也是今后《标准》修订时需要关注的问题。
表6 《标准》不同时期“回应度”问题具体表现一览表Table 6 The Specific Manifestations of Responsiveness in Differ‐ent Periods of Criterion
2.4 评估结果:处于“政策调整”中的《标准》
一项政策在执行后大体有三种走向,即政策终止、政策继续和政策调整。就《标准》而言,其作为国家监测、评判学生体质健康状况的主要手段具有不可替代性。因此,尽管《标准》的评估结果表明,《标准》在教师与学生的认知度与认同度、忠诚度、回应度方面都存在问题,但《标准》在相当长一段时间内继续进行调整实施的走向不会变。实际上对于政策评估而言,“如果公共政策评估对评估对象不产生任何影响,评估工作就是一种徒劳之举”[12]。因此,这里有必要从以上三个方面出发,提出一些具有针对性的调整建议,以便于《标准》的进一步修订完善。
3 《标准》评估后的建议:建立三个机制
3.1 建立“阶梯式激励机制”,解决利益相关者内在动机不足,有效性有限问题
不同时期的《标准》分别从评奖和毕业两方面制定了奖惩措施,来提高激发学生主动积极进行体育锻炼的内在动机与政策有效性(见表7)。
表7 不同时期《标准》评定等级与评奖关系表Table 7 The Relationship Between Rating and Award in Different Periods of Criterion
由表7 可见,不同时期《标准》在评奖激励办法上并没有很大的差异,都规定达到良好以上者方可参加评奖评优,但明显区分度不够。管理学认为,激励性原则在使用上应区别对待,“适当拉开员工之间的薪酬差距,这样一来,可以使业绩好的员工认为得到了鼓励,业绩差的员工认为值得去改进绩效,以获得更好的回报”[13]。这提示我们,《标准》只规定达到良好以上的学生方可评奖评优,其合理性有待商榷。众所周知,体育锻炼是一个循序渐进的过程,学生不可能在短时间内身体素质有很大的提升,特别是对于一些由于身体原因,无法短期内达到良好的学生,如果他们也进行了积极地锻炼,并取得了一定的进步,但仍无法达到良好的等级。那么,学生便会因为无望感而失去进一步锻炼的积极性与主动性——利益相关性变得不那么大了。因此,最为重要的,还应该让学生体会到通过自己努力——积极的身体锻炼——所取得的进步而带来的激励效果,即可以增加“进步幅度奖励措施”,从而形成《标准》“阶梯式奖励机制”(见表8)。
表8 《标准》阶梯式奖励机制构想一览表Table 8 The Ideas of Stepped Incentive Mechanism of Criterion
为建立以上阶梯式奖励机制,必然带来进步幅度的评定问题,此问题对于现代化学校管理而言倒也比较容易实现,只要将学生学业成绩管理系统与学生体质测试管理系统打通,那么,一方面学生便可以清晰的看到每学期自己的体质测试成绩,这也解决了体质测试成绩反馈的问题;另一方面,作为管理者,教师便可以通过学生成绩管理系统评定学生体质测试成绩的进步幅度,为评奖评优提供客观依据。
3.2 建立“《标准》测试内容与体育教学内容的整合机制”
《标准》在测试过程中所表现出的教师抵触情绪与学生不理解行为,从深层次上来看,是由于教师或学生在主观上对“份外工作”——主观上认为《标准》测试乃是体育课外的另一项任务——的潜在不认同所致。从教育生态学角度来看,《标准》所带来的测试与练习因为影响到了体育与健康课程的教学,在无意间成了影响体育教学正常开展的“限制性因子”。那么,如何变限制性因子为非限制性因子,发挥学校体育生态系统的整体生态学效应呢?“在生态学的视野下,课程知识是能够相互包容的。各类课程资源之间可以兼容并蓄,进行有效的整合”[14]。这种整合如果从更广泛的知识兴趣角度来看,正如美国学者A.B.JAMES 在《课程统整》一书中所言,“更能反映广泛的社会兴趣和理解”[15]。如此,体质测试作为社会价值功能较强的资源纳入到体育与健康课程中来,既是课程开放性所需,亦是课程社会兴趣使然,体育课堂教学与体质测试的整合问题便具有了重要的社会关怀。更为重要的是,体育课堂教学与体质测试的整合,也是对“体育课堂教(学)什么——体育与健康课程知识,考试(中考、体测等)不考什么”“体育课堂教(学)体育与健康课程知识,考试(中考、体测等)考身体素质”等现实疑问的回应,更因为《标准》内容成为体育与健康课程内容,而使得考核——《标准》测试成为教师与学生的份内之事,从形式和内容上更能提高教师和学生对《标准》测试的认同感。如此,体育与健康课程与《标准》由目标的一致性——增强学生体质,走向了“学练评”一体化,实现了学校体育生态的价值共同体。根据前期研究成果以及思考,这里对核心素养下体育与健康课程与《标准》测试如何整合的问题给予了相应的理论构想,当然,其中也包含了对体育与健康课程知识自身知识整合问题的思考(见图1)。
图1 核心素养下体育与健康课程内容与《标准》测试内容的整合机制图Figure 1 The Integration Mechanism Diagram of Physical Educa‐tion and Health Curriculum Content and Criterion Test Content un‐der Core Literacy
3.3 建立《标准》“民意表达机制”,解决《标准》回应度、效率不高的问题
前面提到,《标准》需要提高对于民众特别是利益相关团体或个人——学校、教师或学生的诉求、需求的满足程度,这一过程中“必须要有健全的社会回应机制来弥补传统模式的不足,从而达到政府与民众之间的互动”[16],这里的社会回应机制便是政策学中的“民意表达机制”。“公众通过民意表达使得政策主客体之间的矛盾得以调节,最大限度平衡了政策与目标群体之间利益的需求,促进了以社会群体整体利益诉求为核心的教育政策目标的实现”[17]。此外,民意表达机制的建立还有利于《标准》执行过程中来自执行主体与目标群体的一些执行偏差问题能够得到及时、真实地反映,从而形成全员监督的工作机制,这无疑有利于《标准》数据真实性与有效性的提高,也在一定程度上有利于解决前面所提到的《标准》效率所存在的尴尬境地。对于如何建立民意表达机制,高建生指出,民意表达机制由“信息公开发布机制、诉求充分表达机制、民意表达运行机制、民意表达监督反馈机制、民意表达法律机制”等五个方面的机制构成[18]。我们结合现实状况,借鉴民意表达的相关研究,构想了《标准》民意表达机制体系(见图2)。
图2 《标准》民意表达机制构想图Figure 2 The Schematic Diagram of Public Opinion Expression Mechanism of Criterion
4 结语:《标准》需走政策治理之路
当前,人们对政策评估的认识尽管还存在着重政策执行、轻政策评估,重政府正式评估,轻民众非正式评估的问题,但不可否认的是,无论是政府层面的评估,还是专家学者、大众的评估,其考察、完善、提高政策目标达成度的政策评估指向是一致的,而且这种体现政治参与、民主的评估行为更不应该被低估。《标准》不断的修订过程,正体现了《标准》对来自不同层面讨论、评估的政策回应。新时期,《标准》理应从政策学的角度与高度完善相应的利益平衡机制、民主参与机制、沟通协调机制、执行监督机制、权力配置机制、政治社会化机制、激励机制、责任追究机制等,走出一条“由人治化思维到程序性思维、由单线式思维到系统化思维、由独断式思维到民主化思维”[19]的政策治理之路。