基于证据的评价<br/>——以学生综合素质评价为例

基于证据的评价
——以学生综合素质评价为例

2023-03-12柳夕浪

课程教学研究 2023年11期

文∣柳夕浪

有效的评价当然要考虑政治需求、伦理准则、人文传统甚至个人偏好等，然而证据乃是这一切的基础和起点，任何人、任何组织在发表意见、做出评判的时候，都必须提供相关证据，否则评价有可能演变为一场没有证据支撑的、无休止的意见之争，使决策和后续行动处于危险之中。

一、证据在教育评价中的缺失及其原因

在今天这个充斥着网络欺诈的时代，证据容易被各种意见甚至毫无根据的谣言所取代，评价活动更容易演变成缺乏证据的意见之争。以学生综合素质评价为例，常见的评价程序是这样安排的：依据综合素质发展指标体系，组织学生自评、同学互评、教师再评价，然后加权汇总，形成评价等级(有的还予以赋分)。在这里，评价依据是分级表达、含糊不清、缺乏共识的“指标体系”，证据的收集和使用未直接纳入评价过程之中，评价者往往基于平时关于某人的主观印象做出判断。如此，评价活动到底有什么价值呢？有研究人员于2017年在14个国家向12000人(一般都受过高等教育，有的是诺贝尔奖得主，对有关问题有关注、有兴趣)进行调查。调查的问题共13题，结果，除气候变化问题外，对其他12个问题，没有一个人得到满分，只有一个人答对了11题，绝大多数人答错了绝大部分题目，15%的人答错了所有的问题。这“不仅仅是错误，而是系统性的错误”“绝大多数人对这个世界的理解都是错误的”[1]。研究者指出：“当人们思考的时候，人们会持续并本能地通过他们的世界观来猜想和理解这个世界”，“情绪化的本能和过分情绪化的世界观”使人们把事实丢在一旁。世界银行《2015年世界发展报告——思维、社会与行为》基于数百篇关于人的决策的实证论文指出：日常生活中“人们的大多数判断和选择都是自动做出来的，并未经过深思熟虑”“人们根据自动涌入头脑中的材料，迅速评估不同的选项。人们鲜少综合考虑所有的选项。尽管人们通常非常善于更审慎的分析，人们本能上仅仅使用一小部分相关信息做出结论”。[2]仅根据有关要求基于直觉、联想，自动、迅速做出判断，基于自己对某个人的零星印象(很可能是偏见)填补缺失的信息，这样的评价显然是不可靠的。

证据在教育评价活动中的缺失主要有两个方面的原因：

一是关于评价本质的认识偏差。从理论上看，学术界倾向于把评价视为一种价值判断过程，如认为它“与认识世界是什么的认知活动不同，它是一种以把握世界的意义或价值为目的的活动，即它所要揭示的不是世界是什么，而是世界对人意味着什么，世界对人有什么意义”[3]。强调评价不同于一般的科学认知是对的，但不能因此而忘记了评价是建立在对事实有把握的基础上，建立在科学认知的基础上。科学认知以“对象、客体的外在尺度”为根据，注重反映客体的本性、规律性，获得超越主体、不以人的意志为转移的客观性，让人懂得世界“有什么”或“没有什么”，“是什么”或“不是什么”，“可能怎样”或“不可能怎样”，提供实践活动的必要基础；而评价还要依据“主体的内在尺度”，具体指主体目的、需要、利益、能力等内在规定性，使人们懂得什么是有意义或没有意义，什么是值得的或不值得的，什么是必要的或不必要的，提供实践的必要性、方向、动力。关于人的评价必须遵循着外在、内在两个尺度，促进需求与可能、必然与自由、存在与意义、现实与理想的连接。在社交媒体制造的“后真相”时代，所谓“诉诸情感和个人信念比客观事实更加有效”[4]的情况下，我们尤其要关注评价的事实根基，建立尊重事实、实事求是的世界观和方法论。

二是评价改革重心的偏差。从实践上看，世界教育评价改革有所谓一代、二代、三代之分，目前开始进入第四代评价[5]。20世纪初，教育测验运动在美国发端，推动基于考试的评价，其核心是用分数进行定位，在技术上追求客观，从命题到分数导出都力求技术化、规范化。本来测验就是个系统地收集关于学业成就证据的过程，但由于过于追求量化而遭到了批评。于是有了目标导向的第二代评价(泰勒的目标导向模式)，强调教育目标是评价的依据，评价就是看学生受教育后与目标的距离有多大。第二代教育评价中，衡量学生发展与教育目标的距离还是以考试为主要依据的。不过到了第三代教育评价，主导理念变成了“评价不是为了证明，而是为了改进”，完全超越了考试。它在反对用考试分数给学生排位的同时，把基于事实的“证明”丢到一旁。既然无须“证明”什么，那么事实也就变得可有可无了。而当教育评价把“证明”与“改进”对立起来的时候，评价活动拿什么来推动“改进”呢？也许就是凭空鼓劲呗。这让人想起小学课堂上学生一个劲儿地喊着“你真棒！你真棒！”，至于“棒”在哪里不重要。而第四代评价“追求最大的效益”，“被评价者要最大可能地接受评价结果，也就是说，被评价者只有对评价结果真正地接受了，认同了，才能全心全意地改进”[6]，于是评价改革的重心转移至“价值观的协调”上，协调与被评价者在行为和认识上的分歧，从而转变对评价结果的看法，最后形成大致一致的评价结果。不难看出，教育评价理论不断舶来的过程，就是证据在评价活动中不断淡化、退隐的过程，这将把教育评价引向何方呢？

二、基于证据的教育评价模型

引入证据之后，关于人的评价模型由下列三个层次构成：

图1

(一)第一个层次：围绕事实问题展开

该层次主要关注评价对象发生了什么，有些什么关键事件或表现；这些经历或事件是从什么时候开始、经历了哪些环节、如何结束的；有没有什么相对固定的惯例、周期；等等。要注重把握客观事实。客观事实是有据可查的，已经发生的事件总会留下可考证的物品、行为痕迹等，是经得起第三方检验的，不会因人而异。现代测评技术使人们远远超出直接经验的范围，“创造”出许多自然界很难观测到的实验现象，如波义耳的空气泵、威尔逊的云室等，但这并没有改变事实的客观实在性质。在认识论的历史上，不少人都试图对客观实在性进行解构，如：以玻尔为代表的“哥本哈根诠释”(量子力学诠释)[7]，霍夫曼等认知科学家的“知觉界面理论”[8]等，以至于如“疫苗会引发自闭”“服用消毒水可以杀死新冠病毒”之类与客观证据明显不符的言论也占有一定的市场，而评价活动中无视证据客观性的状况更为普遍。认真严肃地正视这类问题，远比如何量化、如何进行数据挖潜之类的测评技术问题更为迫切，也更为重要。

基于证据的评价，首要的是改变先入为主的思维方式，搁置过往印象，有如现象学所说的“悬置”，把主要精力放在收集整理关于评价对象多方面的信息，弄清事实真相。首先是把事实和看法分开。“某人是高一(五)班的班长”，这是关于事实的陈述，它是客观的、可以查证的；“某人是个负责任的班长”，这是来自某些人的看法，它是主观意见，凭借相关事实并经过充分论证后，可在一定程度上得到确认。任何看法、意见都必须经过证明、推论才能得到一定程度的确认；同时，再优秀的辩论家也只能证明看法的合理性，而不能把一个“看法”论证为不容置疑的“事实”。教育评价界一些人炒作“谁熟悉谁评价”，实际上是在为评价者的先入为主寻找理由，与评价的科学性要求相背离。对情况熟悉可能更容易发现问题，提出独到见解，但这些见解仍然是主观的，且情况越熟悉越有可能站在所属群体的立场发表偏见。其次，多渠道获取事实材料。从多个角度或立场搜集关于评价对象的测验、观察记录，包括被评者本人的陈述、利益相关者和利益无关者反映的有关情况：正式的与非正式的、考试情境与非考试情境、指定性的与非指定性的、文字记录与非文字记录；等等。不同角度或立场所观察的材料可以相互补充、佐证，更加全面地反映活动或事件状况，防止以偏概全，忽略了重要内容。综合素质评价更要求贴近真实自然。如果为了评价刻意寻找某些事例，评价活动就会失去应有的常态而没有了意义。最后，关注多样中的同一性。一般来说，多次行为表现的一致性，由此所反映出来的行为特征与个性品质才可以得到一定程度的确认。对一致性的考察分这样两种情况：一是不同时期行为表现的一致性。对学生某些行为特质的确认需建立在对其行为数月甚至数年连续性的观察记录的基础上。只有那些在数月、数年之后仍然保持发展的连续性的个性特质，才有一定的可信度。二是不同情境中行为表现的一致性。较长时间的追踪观察记录为行为特质把握提供了证据，而在不同情境中保持行为的一致性表现则更为重要。这些不同的情境包括他人在场与独处、课内与课外、预先设定的与偶发性的、顺境与逆境或所谓压力情境，等等。譬如孩子对人的态度，不只是看其对待熟悉的长辈，而且需看其如何对待陌生人、对待弱势群体。

(二)第二个层次：围绕动机问题展开

该层次主要关注评价对象为什么会这样，他或他们这样做的理由是什么；思考或行动的“预设”是什么，所坚守的信念是什么。评价活动基于行为但不能止于行为，还必须对人的行为做进一步的解释，形成关于人的主观世界的认识。这是关于人的评价不同于对物的鉴定的地方。通常的教育测验通过建立标准参照或常模参照来赋予分数以意义，即将个人得分与由测试本身所决定的参考标准相对照，或者将个人得分与其他测试对象的表现进行比较，来说明分数的意义。这两个维度的比较只是说明了分数意味着什么，仍不足以解释考生为什么会这样。目的、意图或者说行动的理由，对理解、引导人的行动具有核心意义，对于把握人的素质至关重要。理由不同于一般的原因。在因果关系中，因在前，果在后。而理由是行动的意图、目标，“是那些给人们带来信念和欲望，让他想象未来并据此行动的东西”，是“前瞻意志”，“即一种由于考虑到此行动可导致的未来可欲结果，于是按照这种信念而行动的意愿”[9]，它是亚里士多德所说的“目的因”，一种特殊的原因。

如何把握行动理由呢？一是收集评价对象的自我陈述报告，特别是他的思想言论，他自己有关内心世界的表白，作为分析判断的重要参照。相对于评价者来讲，评价对象的言论也不是可以任意揣测和篡改的，不应该掺杂评价者自身的经历和感受，有研究者称这类“通过自身判断所反映出的事实”为“主观事实”[10]。二是基于事实的推理。它有两种推理方式可选择。第一，演绎式，其推理过程如下：

公理：如果有A事件，那么就有C结果。

经验断言：A事件发生。

结论：出现C结果。

演绎式推理从公理出发，寻找特定事件发生的理由，整个推理过程是基于公理，从可观察的事件中预言不可观察的理由，努力为特定的事件提供合理化的解释。第二，溯因式，其推理过程如下：

结果：某个成长事件C被观察到。

规则：如果A真的发生了(是正确的)，则C将是理所当然的。

事件：我们有理由怀疑A真的发生了(是正确的)。

溯因式是对成长记录的关键事件寻求解释性假设的方法。它不同于演绎式，不是用规则(公理)和事件(应用性假定)去产生一个结论(可供检验的结果)，而是根据可见的结果和相应规则推出不可见的缘由，使之变得可理解，主要目的是为已发生的成长事件提供充分理由，同时也是对未来发展的可能性做出相对可靠的预测。上述确认行动理由的过程即为“诊断”过程。

(三)第三个层次：围绕反馈问题展开

该层次主要关注评价对象种种事件、行为对我们来说意味着什么，对我们的教育、对学生的成长将产生怎样的影响；如何转达观察或测验结果？要不要进行干预、怎样干预？评价活动的核心追求在于提供有效反馈信息，使决策者(行动者)做出价值选择，形成更为准确、更加恰当的决定。在教育评价活动中，有些决定是关于课程的，有些决定是关于教学的，还有些决定是关于选拔的。综合素质评价主要是提供关于个人生涯问题的决策参照：如何选课规划学业及课外实践活动，如何选考规划复习备考，如何选择专业规划升学、就业渠道，等等。人生十字路口的抉择不只是知其然，还得知其所以然。一个分数、一段经历有助于判断我们被某大学录取或某用人单位录用的概率，只有在有一定把握的情况下申请者才会提出申请，或者招生(招聘)者才会录取(录用)。当然，在很多情况下有把握也不一定申请或招聘，做出决定不只是基于事实，还基于一定的价值观。许多人的价值观是不确定的，甚至是矛盾的。这就要求评价者进一步澄清自己的价值立场和标准，做出抉择并以适当的方式做出反馈。在第三个层次上，要注意两类评价主体的差别：一是实践者、参与者、当事人。在当事人的视野中，评价对象不是与己无关的客体，不是已成的定局，而总是与己荣辱与共、休戚相关的，是行动中有待亲近、观照的另一个“我”。评价者与被评者之间是积极互动的共生关系。既是演员，同时又自己观照自己、反思自己，但这不同于观众的“在我看来”，难以“抽身”出来客观审视，而只能是一种反思和内省。二是旁观者，在学校教育情境之外观看正在发生的教育教学行为。有研究者认为，“作为旁观者，你能从理解演出和完成演出的那些人后面的角度来观察某东西”，“你能理解演出所包含的真理，不过，你必须付出的代价是不参与演出”[11]。旁观者有可能排除个人情感因素的影响，尊重客观事实，公开评价过程，接受同行的审查，避免“王婆卖瓜，自卖自夸”。有研究者(如著名测量与评价专家克朗巴赫)认为，对评价对象价值的评判不是外部评价者的职责，而是评价对象或事件当事人的权利，评价人员的职责在于系统考察，提供有关特征、证据[12]，而把价值判断、行动选择的权利交给当事人。

从上述三个层次的评价模型中不难看出，“基于证据”的评价是依据客观事实和主观事实所做出的科学评价，既不同于主观评价(非科学评价)，只依据个人的经历、感受、印象下结论，只根据个人头脑中的标准，而不是根据社会公认的事实和标准下结论；也不同于“证据为本”的实证主义，后者“把人类社会生活数据的科学研究态度完全等同于物理学或生物学”，为达至可问责/可记账(accountable)的一种 “科学证据为本”(scientific-evidence based)教育政策取向，搜寻可观察、可测量、可数量化和可重复验证的客观资料/数据(data)。[13]

三、有关问题的讨论

1.评价证据的基本特征

事实和证据有联系，也有区别。当事实用来说明某种看法，这时候的“事实”也就不是单纯的现象描述，而成了证明某种观点的事实材料，即所谓“证据”。用来评价的证据必须有下列三个基本特性：

一是真实性，即证据的客观性和确实性。证据不以某些人的主观意志为转移，其所反映的内容是真实的、客观存在的，是在一定时空发生的，并且通常不是孤立的。正因为如此，我们才可以从多方面加以考证其真伪。如某学生参加社团活动记录，可以通过社团活动作品、活动现场相关资料、该社团其他成员一切活动的记录等加以考证。尽管客观实在为人的意识所反映，提取并确定什么东西作为证据，离不开人的目的意图，离不开采取的特定认知手段，但它始终是可证实、不可随意否认的。针对评价活动中存在的关系至上、权力寻租、无中生有、随意篡改数据等问题，评价必须注重系统收集证据，并对其真实性进行不断验证。

二是公开性，指公开证据获得过程，便于他人考证。证据获得过程公开与否，直接关系到证据的可靠性、可信度。只有在提供证据的同时，公开证据获得过程，他人才可能重复操作验证，并有可能对证据提出质疑。对于没有公开过程的所谓“证据”，应保持必要的警惕。与公开性相关的是合法性，即要求使用合乎相关政策法规的程序、方式、手段来收集事实材料。要尊重当事人本人意愿，注意公开的范围，保护他们的隐私。

三是多维性，指证据反映评价对象多方面特征，形成结构化证据链。从本体论的角度来看，自然世界与社会世界都是不断生成、发展着的连续整体和过程；没有静止、孤立的事实或证据，单个证据的延展和简单叠加无法达到真正的客观现实。关于人的发展情况应考虑这样几个维度：第一，知行维度——不仅关注知道什么、认同什么、期望什么，还要关注能做什么、实际做了什么、做得怎么样，特别是关注客观纸笔测验、态度调查以外的劳动实践、科学实验、艺术创作或表演等多种行为表现。知行合一情况是把握思想品德、个性潜能、人格修养的关键所在。第二，过程与结果维度——不仅关注行动结果，还要关注行动过程，关注结果是怎么来的。人的思想观念、意志品质、思维方式等都蕴含在行动过程之中，只有充分关注到有关行动过程的证据，才能对人的综合素质做出比较准确的判断和分析指导。一些地区和学校的学生综合素质档案成了荣誉证书、获奖证书、发表论文的堆积，不只是导向有问题，还会诱发越来越多的弄虚作假、暗箱操作。综合素质评价要求还原到真实场景和过程之中，不只是编几道问卷题目就可以获得有充分说服力的证据。第三，人与情境互动维度——不只是关注人的活动表现，还应关注活动发生的背景，为发现和找出人与背景、情境之间高度关联的具体变量或需要优先考虑的重要变量提供基础，为恰当地评价人的素质提供佐证材料。

2.量化证据

量化证据即数据，它可以充分说明问题，也可以迷惑人。说它可以迷惑甚至欺骗人，主要是因为它的获得过程——测量不一定可靠。一般来说，测量有三个元素：(1)对象事物或谓物理体系，可以进行某种操作，如运用量尺测长度；(2)此体系有可以观察的特质，其数值可借由此操作来决定；(3)操作有量具。而社会科学中的测量却没有这样严格，它所依据的“最广泛接受的测量定义由史蒂文斯(Stevens)提出：‘根据规则，将数对应为物，或事件’”[14]。根据物理学的定义，唯一的测量之属性是那些拥有能维持比率的结构，而史蒂文斯的定义完全不同于物理学。在他看来，测量的是物体和事件，不是物体或事件的性质(它们之间的关系)；测量与数字符号(numeral)相关，而与数字(number)不相关。数字符号是用来指示数字的符号，而数字是量化属性量值之间的关系(如比率)。将数字误当成数字符号，就如同将一顿饭误当成一份菜单。测量所涉及的是数字符号和物体或事件之间的对应关系，是一种试图认知某物或某事的方式。

在教育研究百年来的发展历程中，它的基础理论不断变化，先后涌现出实证科学范式、理解阐释的人文学科范式以及批判社会科学范式，三种范式与教育领域特定的研究问题相适应，彼此不能相互替代，我们更不宜把某种方式方法如考试测量强调到唯一地步。“精神概念并不能被理解为拥有量化的、数学的结构”[15]，在越来越多的证据面前，或许我们不得不接受“人的诸多心理、社会属性不可测量”这个令人沮丧的结论。故而在教育评价领域，考试也好，测量也罢，应慎重使用之。

综合素质评价中的数字很多情况下只是作为标签或认定的标记，或者最多表示序列或程度差别的性质程度的位置，而不是用来表示诸性质间的数量关系，它还达不到也不需要达到物理测量所要求的那个量化精度，本质上属于定性范畴。综合素质量化评价是有限度的，对于综合素质评价的科学性来讲，不是越精确越好，那些看起来十分精确的评价，可能问题会更多。从根本上来讲，个人的成长并不是一个可以测量的实体，它是个人饱经磨难的结果，与众不同的发展结果，既无法依据任何尺度或任何课程来加以统一安置，也无法将之与其他人的成就进行比较。在这样一种关于“成长”的学习中，人只有在富有想象力的努力中同他人合作，也同他人竞争，走自己的路，而不是一味地仿效他人，这样的学习乃是无法测量的再创造行为。

3.评价指标

评价活动构建一套指标，把评价内容转化为一套可以看得见、摸得着的标志和标度，以此替代评价活动中观察、推断、论证、解释等具体过程，既可以使评价活动变得十分简便，也可以避免因人而异。如同打靶，可以不必去仔细观察射击者如何握枪等具体动作、细节，而可从子弹射在不同的环上直接判断被评者的射击水平。显然，这样一套指标体系是建立在关于外在显现标志与内在测评变量之间必然联系的反复考量、论证、检验基础上，有着充分的证据和广泛的共识。

学术界可以证明血压计中不同水银高低会随着动脉中血压的不同而变动，白细胞含量是指示身体感染的指标，红细胞是监测组织发炎的有效工具，而呼吸中的酒精含量能相对准确地显示饮酒量。它们基于已被广泛接受、注重细节的理论模型而产生，其广泛测量所表现出来的差异恰与身体内部机制差异相吻合。而关于人的素质研究还缺乏相关理论，对其中所谓个人差异之本质则众说纷纭。人的综合素质构成要素如家国情怀、人格修养、学习品质、实践能力等大多数属于心理学概念范畴，这些要素单方面的测量就面临着一堆阐释不清的理论问题，基础脆弱，而把它们合在一起综合性地加以考虑，将面临更多的困境。特别是综合素质结构中所包含的变量丰富多样、各不相同，即使它们可以分别加以测量，因为其实际内涵不同，分类或分层角度不同，更不可能等距或有相同的测量单位(如某学科的测验分数，这个学生的跳高成绩、身高体重等)。本来这类测评是各自独立地进行的，彼此并不相干，“不管测量多么精细或考虑得多么周到，它本身所触及的总是片面的、部分的。如此一来，倘若人的行为或社会现象基本上是一种‘完形’的话，那么，我们期待着对种种属性的测量值加以某种加总的方法，来表现‘完形’的整体状态，理论上是不可行的，也是不可得的。易言之，对属性加以测量，本质上即拆零方法的运用，乃是与‘完形’的整体想象是不兼容的”[16]。综合素质评价现实中那套流行的指标体系经过了怎样的检验呢？可以肯定地讲，目前尚缺乏构建基于日常行为表现与综合素质本质对应关系模型和指标体系的必要研究基础，指望通过一套简单便利，甚至可由计算机操作的指标体系去替代费时多且专业性强的、直接面对每个人的综合素质评价活动，这是不现实的。或许目前我们能做到的就是对个人某些必要成长经历及其表现(主要是课程方案和课标所规定的)的观察、记录与意义解读，尽管我们不能说有某些成长经历就一定形成相关素养，但我们可以肯定的是如果缺乏某些必要成长经历，学生就不具备相关素养；同时，基于对学生成长经历及其表现的解读，我们能更加有效地对其成长过程进行引导，如此而已。