教育评价改革的算法追问＊

2022-01-01杨欣

华东师范大学学报（教育科学版） 2022年1期

杨欣

（1.西南大学基础教育研究中心,重庆 400715；2.中国基础教育质量监测协同创新中心西南大学分中心,重庆 400715）

引言

2020 年10 月，中共中央、国务院印发的《深化新时代教育评价改革总体方案》（以下简称《方案》）已然开启了全国范围关于教育评价的大讨论和大学习。《方案》在主要原则中明确提出“充分利用信息技术，提高教育评价的科学性、专业性、客观性”。这预示着，信息技术将会在教育评价改革中发挥更大的效用。不过，与部分学者对信息技术之于教育评价的推崇相比（宋乃庆等，2021；张琪，王丹，2021；张生等，2021；张志祯，齐文鑫，2021；柯林斯，哈尔弗森，2013，第114 页），也有教育学者担忧信息技术暗含的量化局限及其弊端（高江勇，2019；原祖杰，2020；孟照海，刘贵华，2020；周川，2021）。

鉴于此，笔者尝试以算法作为切入点，追问评价改革的机遇、风险与突破。理由在于：信息时代的教育评价除了可以拥有（生产）前所未有的大数据，也将获得（设计）不同以往的人工智能，以及连接（控制）大数据和人工智能的算法。同时，从信息技术的本质来看，“如果说数据是土壤的话，人工智能就是成熟的作物，而算法则是种子”（多明戈斯，2017，第10 页）。由此出发，教育评价改革的算法追问既是从信息技术的本质对教育评价进行批判反思，也是在厘清机遇和风险的基础上把脉教育评价改革的突破方向。

一、教育评价改革的算法机遇

“算法”一词源自波斯数学家、代数与算术的创立人、被誉为“代数之父”的穆罕穆德·伊本·穆萨·花剌子米（公元780—850）的名字（李，2020，第202 页）。最初，算法意味着使用数字的加、减、乘和除法，此后，算法指的是执行书面初等算术的具体分步方法（Miyazaki，2012）。现如今，算法已然成了现代信息技术的核心概念，且拥有种类繁多的表现形式及其对应的称谓，如模式识别、统计建模、数据挖掘、知识发现、预测分析、数据科学、适应系统和自组织系统等（多明戈斯，2017，第11 页）。近年来，随着一批社会学者开始批判性地探索算法的思想本质，它除了可以视作数学模型，也开始具有了知识和权力层面的内涵（Lash，2007；Kushner，2013）。为此，结合《方案》的主要原则来看，教育评价改革的算法机遇在于以下三点。

（一）纠偏教育观念，提升评价的科学性

本次教育评价改革最受世人关注的议题就是《方案》提出的，“扭转不科学的教育评价导向，坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾”。科学是日本学者西周时懋1874 年翻译法文science 时生造的词，它最初形态是古希腊科学强调确定性、内在（逻辑）、非功利的知识（吴国盛，2019，第303 页）。以此观之，“五唯”的非科学本质在于：其一，模糊。毕竟多数人不重视教育评价的确切结果，也不知道确切的教育评价意味着什么，更看不懂教育评价的确切结果，于是大家能接受、也喜欢用“分数、升学、文凭、论文和帽子”这些模糊的观念评价学生、学者或学校。其二，非逻辑。“知识和能力”⇒“分数、升学、文凭、论文和帽子”就无法成立，而它的逆命题“分数、升学、文凭、论文和帽子”⇒“知识和能力”更是无从谈起。所以，仅就命题而言，“五唯”就是典型的逻辑错误。其三，功利。分数、升学、文凭、论文和帽子是最符合学生、教师、学校以及其他利益相关者现实诉求的功利性评价。也正鉴于此，未来教育评价改革若要提升评价的科学性，亟须借助算法纠偏教育观念，使之从模糊、非逻辑、功利走向精确化、逻辑化和非功利。

第一，藉由算法思想蕴养教育评价的精确观念。历史而言，笛卡尔、斯宾诺莎、莱布尼茨与霍布斯都曾试图给自己的理论提供一种数学结构，以便建立发现和阐述真理的新科学（柏林，2019，第56 页）。对如今的科学而言，如果某个理论无法用算法表示，那么它也不能称之为严谨（多明戈斯，2017，第6 页）。从上述算法与科学的思想渊源而言，藉由算法思想蕴养教育评价的精确观念就是要用类似数学的语言对教育问题进行精确描述，助人厘清那些杂乱无章、互相矛盾且又难以理解的教育经验，以期消弭语焉不详的推论、模糊不清的观念以及蛊惑人心的偏见（杨欣，2021a；杨欣2021b）。

第二，借助多元算法丰富教育评价的逻辑体系。从算法的基本原理来看（佩奇，2019，第11 页），借助算法实现教育问题逻辑化的关键在于：一是简化问题，剥离不必要的细节，以及抽象掉若干现实世界中的因素；二是对问题给出形式化的精确定义；三是从上述两个特点而言，任何算法必然是片面的。以此观之，教育评价科学化既意味着借助算法实现教育问题的逻辑化，更意味着借助多元算法丰富教育评价的逻辑体系。相应地，为了让教育评价的实践更具科学性，教育者要习惯使用（建构）多元算法对改革中的教育问题进行解释和预测。

第三，通过算法批判警惕教育评价的功利偏好。教育评价的功利逻辑在于，一旦教育算法因为其精确性和逻辑化而被众人接受，师生便会根据算法的标准来优化自己的行为，而不在意那些真实却无法衡量的教育目标（罗素，2020，第110 页）。而这其中的谬误就像哈耶克在《知识的僭妄》中所言，“完全有可能存在这样一种‘科学’证据，它们更有助于支持一种错误的理论，而无益于佐证一种有效的解释。换言之，这种错误理论之所以被接受，实在是因为更加‘科学’，而一种有效的解释之所以被否弃，则是因为我们没有足够的量化基据来支持它”（哈耶克，2014，第192 页）。同理，未来教育评价改革若要超越功利偏好背后的谬误，研究者首先应清醒地意识到任何教育算法都必然有其局限性，也没有什么算法可以至高无上、免受检验，任何教育算法必须在逻辑上经得起推演、在现实中经得起考验；然后，在教育评价算法上考虑两个重要问题“我能知道什么”和“我如何得知”，进而开展必要而又谦逊的先验批判；再者，基于观察、实践以及实验得出的事实去检验教育评价算法，而不是按照人们预设或想象的样子去理解它；最后，通过必要标准来检验教育评价算法的假设、条件与尺度，进而对其进行纠正、优化和推演。

（二）生产教育知识，提升评价的专业性

400 多年前，“知识就是力量”的提出者弗朗西斯·培根在《新工具》一书中写道，“在知识的问题上，以人们的认可为根据是最糟糕的选择”（培根，2008，第40 页）。所以，在培根看来，知识的力量决不能简单归结于人类的直观认识，而是知识能否经得起理性推导和实验检验，且是否蕴含解释现实的能力（郑永年，2018，第59—64 页）。70 年前，图灵在《计算与智能》的开篇写道，“‘机器能思考’这一问题必须从机器和思考这两个词的定义开始。并且它们定义不能通过日常使用或者盖洛普名义调查的方式。不然，这就会显得很荒唐”（Turing，1950）。正因此，图灵为了准确地表达自己心中智能机器的内涵，他在该文提出了著名的“图灵测试”。从上述知识观点来看，过去教育评价之所以陷入“五唯”的恶性循环，一方面是为了获得多数人的认可，它必须与“分数、升学、文凭、论文和帽子”这些已经获得人们认可的事物产生关联；另一方面由于教育评价与“五唯”的深度绑定，使得已有教育知识显得荒谬且模糊，以至于无法解释新时代教育发展的需求和使命。换言之，“五唯”在知识层面非但经不起理性检验，且缺乏深刻的解释力，更难以实现“多数人认可”与“明确定义”的有机统一，以至于不断重复“按下葫芦又起瓢”的窘境。而这也是本次教育评价改革不易觉察却又亟待突破的隐藏目标。

与之不同，算法可以在明确定义的基础上，实现对教育现象（问题）的数字化界定，同时结合严谨的概念和数学逻辑关系，最终提升教育评价在“交流、解释、判断、设计、预测、探索和实施层面的专业性”（佩奇，2019，第25—39 页）。进一步而言，借助算法生产教育知识主要基于以下逻辑。尽管人们常说，“数据无法替代人类直觉”。反过来讲，“人类直觉也替代不了数据。”原因在于，从算法的角度来看，所有知识，无论是过去的、现在的还是未来的，都有可能通过单个通用学习算法来从数据中获得（多明戈斯，2017，第33 页）。这也意味着，用算法生产教育知识首先需要做的就是搜集足够的数据，然后通过适当的算法发现相应的知识：给它考试成绩，它就可以“判断”应试教育的优劣；给它课堂教学频流，它就可以“看出”教学的特色与问题；给它教育实验的结果，它就可以“发现”教育的规律；给它教师工作生活的所有数据，它就可以“解析”教师专业发展的结构。其次，用算法打破教育知识的门户之见。正如波动方程、扩散方程、泊松方程表明的那样：一旦研究者在某个领域发现它们，也很快能在其他领域发现它们；一旦研究者在某个领域懂得解开它们，也能在所有领域将它们解开（多明戈斯，2017，第39 页）。以此作为启发，各行、各业、各学科的专家完全可以藉由科学与人文之间的四座桥梁“认知神经科学、人类行为遗传学、进化生物学、环境科学”（威尔逊，2016，第269 页），建构跨学科的评价算法对教育知识进行交叉验证和迭代升级，并据此塑造有理有据、令人信服、知识融合的专业评价，从而告别“五唯”式的笼统、闭塞与错乱。最后，用算法彰显主观知识的重要性。算法的最大价值并不在于算法本身可以从数据中学到什么，而是透过这些算法，人类学会了什么（多明戈斯，2017，第358 页）。同理，借助算法生产教育知识的更高追求应是驱使人们明白教育需要很多算法之外的主观知识，即没有人类体验就无法理解的东西。而这也正是“人”在教育评价中专业性的最好体现—通过算法低成本完成的量化评价越多，评价就更需要源自人类主观知识的专业判断。

（三）优化教育治理，彰显评价的客观性

《方案》提出第一个目标是“经过5 至10 年努力，各级党委和政府科学履行职责水平明显提高”，第一条重点任务则是“改革党委和政府教育工作评价，推进科学履行职责”。由此可见，教育治理极有可能构成未来教育评价改革的难点。更深层原因在于，面对教育领域日益复杂且不断加速的大数据趋势，各级党委和政府藉由教育评价进行治理时不得不面临以下难题：一方面为了应对日益复杂的教育问题，国家权力往往需要改造自身以体现教育治理的客观性。否则，教育治理难免为了体现“不掺杂个人主观意识”的客观性，而再次陷入“以数字大小论英雄”的“五唯”困境之中。另一方面，国家面临着以有限的教育资源推动教育高质量发展的潜在压力。所以，如果缺乏其他坚实的算法依据，与“五唯”类似的算法仍有可能成为教育资源分配的“客观标准”。也正是鉴于上述难题，各级党委和政府确有必要借助算法优化现有教育治理，以便促进国家权力对复杂教育需求作出准确的回应和分配，同时在教育领域彰显客观公正的国家形象。

参考国家治理的相关经验（宋锴业，2021），教育评价改革可以借助算法从以下三个方面优化教育治理。一是推动教育治理的结构化。这就要求研究者（技术官员）在教育评价中先将非结构化教育问题转化成结构性数据；然后，把教育问题表述成可以进行数据处理的有效形式；同时，在数据清洗、合并、转化和重组的基础上，依据算法构建非结构性数据的相关关系并挖掘其中的价值，把分散的教育数据整合起来，使之成为有内在关联的大数据；最终，借助算法的数据迭代和知识分类使那些难以处理的非结构化教育问题逻辑化、概念化、条件化和纲领化，从而降低教育治理的主观性和不确定性，以期为国家权力大规模、长时间地塑造教育秩序提供超越个人情感和利益的客观算法支撑。二是重塑教育治理的流程。随着机器学习这一算法的成熟和普及，基于教育评价的教育治理流程有机会被重塑为“从数据输入到算法输出”。首先，必须通过教育评价收集足够的数据作为算法的输入。随后，可用的数据被用做机器学习的训练材料。然后以此为据，构造出适合这些数据的最佳决策算法。完成后，该算法可用于辅助教育治理的决策。需要说明的是，就上述流程而言，借助算法重塑而成的教育治理关注的是客观概率（相关），而非确定性（因果）。所以，基于机器学习的教育治理流程关键在于把教育评价转变为数据输入和算法输出，并以此揭示、解释和显示教育活动中时间、人物、地点和事件的倾向性和规律性，进而为教育治理中的资源分配提供可供借鉴的“客观标准”。三是加强教育治理的决策统一性。算法作为治理机制，不仅可以视作行使国家权力的工具，也能推动国家治理在决策层面的统一性（宋锴业，2021）。加之考虑到霍布斯在《利维坦》中所言，“多人的智慧胜于一人这句话不假，但是除非最终有一个决策者，否则多个人往往都从各自的利益出发看同一个问题。那些别有所图的人，尽管四处查看，但最终目标只会是锁定到自己的利益上”（霍布斯，2008，第124 页）。我们或许可以作出以下设想，藉由算法优化教育治理的本质目的应锁定在帮助国家通过收集、整理和计算教育中的各种数据，进而通过适切算法把数据转换成加强国家统一决策的客观依据。

二、教育评价改革的算法风险

承前所述，在教育评价享受算法带来的科学性、专业性和客观性时，如果追问根植于算法背后的认知，人们就会窥见教育评价改革中的算法风险。

（一）偏见强化

尽管算法有助于彰显教育评价的科学性、专业性和客观性。不过在此之前，我们需要追问的是，这样的教育评价是否有益于消除已有的教育偏见。毕竟，人类已有算法的背后总会伴随着偏见强化的身影—“它往往由随机的数据采集和假性相关所驱动，被制度不公平加以强化，又被实证性偏见加以进一步恶化”（奥尼尔，2018，第12 页）。对此，我们只需要深究“五唯”中的分数算法本质，就能明晰这种偏见所在。举例而言，当一个学生因为学习开始阶段的分数高低而被分为“好学生”和“坏学生”之后，“好学生”不仅拥有更友好的学习环境，而且他还会收获到更多正面的积极反馈，所以他的成绩越来越好，从而构成良性循环；而“坏学生”也会更有可能与其类似的人待在一起，同时他也更容易接收到消极反馈，所以他未来的学习成绩也可能面临更大风险，从而陷入恶性循环。更糟的是，一方面“好学生”的良性循环和“差学生”的恶性循环都能验证基于考试分数的教育评价合理性。另一方面，也正是基于考试分数的教育评价导致了某些学生陷入恶性循环，甚至进一步固定了这些学生的恶劣环境。究其实质，分数算法带来的偏见强化，源于它的不透明、不接受质疑和解释不通，并且它只是对学生（教师、学校）进行定位、筛选或者优化，而非真正关注与人类、社会、国家、历史、现实、未来有关的真实教育质量。也正因此，当人们在认知教育时把考试分数和教育实际相混淆时，分数算法只会导致偏见的进一步强化而非问题解决。

进一步而言，如果我们将考试分数换为教育评价算法（如核心素养、综合素质），上述偏见强化就会自动消弭吗？答案显然不在于算法的内容设计，而在于算法背后的隐性利益。回到分数算法而言，管理部门和学校之所以根据成绩衡量教育质量，而忽略教师的“传道授业解惑”，以及学生的情感体验、潜力激发与创新发展等事关真实质量的因素，实则是因为分数评价不仅简单可见，而且易操作、易理解，更有文化上的惯习、舆论上的“多数人”以及政策上的默许作为支持。所以，他们可以为了追求效率而牺牲教育评价的精确性和洞察力，从而把“分数”作为评价学校质量和教师绩效的有效工具。更令人无奈的是，从笔者参与教育评价的实践经验来看，即便参与者都知道了分数算法暗含的偏见，他们也不会选择改变。原因在于，学校和教师可以因为看得见、看得清以及看得懂的“分数评估”而获得具有广泛性、普遍性和代表性的认可，与此同时，他们也能用“分数提高”为政府、家庭乃至社会提供教育进步的交代和政绩。反之，那些即便在观念、知识和技术层面更加公平的教育评价算法也可能因为上述隐性利益而被排斥、被冷落和被搁置。可见，当那些源于认知的教育算法偏见一旦因为历史、现实、文化或者其他因素而掺杂了隐性利益之后，它们很有可能变成尾大不掉的教育痼疾。

（二）排名陷阱

与近代科学数字化的发展历程类似（吴国盛，2019，第187—188 页），所有算法都会“自动”在教育领域巩固自己的“话语”和“量纲”。一是数字话语。尽管如今的人们都喜欢说“数字说话”，但数字本身显然不能开口说“人话”。究其实质，那些所谓“数字化语言”也是人为构造的结果（杨欣，2021c）。更何况，这种数字化的教育评价话语已成为全社会的普遍共识。也正因此，教育评价要拒绝“五唯”这种片面数字化的教育评价，亟须借助算法组织另外一种更加全面和深刻的数字化教育评价话语。二是数字量纲。从现有算法的基本假设来看，它背后的思想是要将丰富多彩的事实还原为刻板单一的量纲，进而将一切质上的不同还原为量的差异。当教育质量被数字化时，既意味着开辟了可计算的教育质量领域，也意味着忽略人的质性差异，对所有的对象一视同仁。在此基础上，运用算法对它们进行处理，人们仅从数字大小就能轻易、直观地识别教育质量的水平高低。从上述逻辑出发，教育评价算法即便可以体现源于数字化的科学性、客观性和专业性，但付出的代价却是导致教育评价堕入“排名陷阱”之中。

究其原因，当某个算法应用于实践（尤其是大范围）时，它自身的话语和量纲可能带来一个扭曲、糟糕的教育排名体系。在此方面，大学排名可谓典型。历史地看，大学排名各种算法的依据仅仅是人们对教育质量的凭空想象，然后，他们根据这些“头脑中的标准”去寻找那些可以测量的相关变量，最后“随意”地在公式中赋予每个变量一个数学权重（奥尼尔，2018，第49 页）。仅就理论而言，这些大学排名都可以为自己找到科学、专业和客观的依据，并且它们在小范围予以应用也没有太大问题。但是，当基于某种算法的教育排名成为区域、国家甚至全世界的标准时，这些排名就会堕入“自动巩固”的陷阱之中—无论这样的排名有着怎样的局限甚至错误，学校里的师生都会根据这些算法标准来优化自己的行为，反过来强化算法的合理性。于是乎，学校里的所有人必须为了获得更高排名在人生高峰期把大量的精力投入与排名算法有关的“事业”之中，他们不得不因为算法的需要而永不停歇地写论文、申请课题、争奖励和抢帽子，以便学校提高排名、获得良好口碑、筹集更多资金、吸引更多的优秀人才。需要特别指出的是，除了这种排名陷阱的算法目的值得批判之外，即便它的算法基础也充满了可疑之处。对此，用菲尔茨奖获得者朱迪亚·珀尔的话来形容就是，“现有算法在运用数学分析解决问题时，不得不将真实问题转化为关于关联的伪问题”（珀尔，2019，第323 页）。也正因此，教育评价算法必须永远警惕上述排名陷阱，“因为它和其他主观排名一样，必然充满过时的偏见和无知”（奥尼尔，2018，第53 页）。

（三）数字鸿沟

诚如社会学奠基人涂尔干在《教育思想的演进》一书中表明的那样，“一个社会若按自身的形象来塑造其成员，最有力的工具便是教育。并且无论在什么时代，教育都密切联系着社会中的其他制度、习俗和信仰，以及重大的思想运动”（涂尔干，2016，第3 页）。也正因此，一方面跨领域的教育算法极有可能推动教育与社会在思想、行为以及制度层面实现深度的知识融合和治理协同。但另一方面，也可能因为跨领域教育算法面临的技术垄断、人群偏差和信息茧房，反而加大社会的“数字鸿沟”。

首先，在很多情况下，信息时代的治理决策权已成为技术精英的专属（阿米蒂奇，罗伯茨，2016，第4—5 页）。与此同时，考虑到算法导致的信息不对称进一步加剧了社会各阶层的“数字鸿沟”，且形成了明显的马太效应（曾智洪等，2020）。我们有足够理由忧虑，教育评价算法或将很难摆脱“信息独裁”“唯数据论”和“精英治理”等技术垄断的影响。这也意味着，教育评价算法对数据、信息和精英的过度依赖又会将政校互动、家校互动、校社互动从治理决策中剥离。而这既可能导致学校、家庭和社会的协同育人落入欲壑难平的“数字鸿沟”，也悖离了“共建共治共享”的社会格局。

其次，现阶段并非所有人都善于或者习惯用现代化的信息渠道表达自己的教育偏好。所以，教育评价最后收集到的各种数据很可能只是反映某些特定年龄阶段、收入水平、社会背景的特殊人群意见，从而促使教育部门的政策向着更有利于他们的方向倾斜，直至给社会带来更大的不公平。换言之，教育评价算法在某些情境下得出的结论，很可能只是反映了评价对象的“数字鸿沟”，而非所谓科学、专业、客观的数字规律。

再者，鉴于算法具有了解和预期公民生活的能力（Ruppert，2012），且能“能单独和自适应地嵌入和引导行为，提供个性化输出”（Knig，2020）。所以，教育评价算法难免基于不同人群的偏好和需求，塑造不同人群接受的教育信息。然后，人们会习惯性地被自己的兴趣所引导，接受那些能够让他们感到被肯定和被认同的教育评价，最终把自己的“教育世界”桎梏于如同蚕茧一般的“茧房”中，即形成教育的信息茧房（杨欣，2021d）。如此周而复始，人们的教育意见自然会因为算法而越来越分化，并且屏蔽那些持不同见解的人，直至在人性与制度层面埋下深不可见的“数字鸿沟”。

（四）物化困境

过去的“五唯”一再证明，教育评价算法往往意味着“将人拟物”“以物为基础”的评价方式。同时，为了满足算法的需求，评价者必须找到适宜的“物化”指标。辩证而言，这种基于算法的“物化”评价不仅有助于提升教育评价的科学性、专业性和客观性，也能从可计算、易操作的角度满足表面公平的教育诉求。但与此同时，它也在认知层面造就了以下人与世界悖离的“物化困境”。

第一，思维局限。以“五唯”背后的算法为例，它通过可测量、具体、有时间限制、客观、可操作的“分数、升学、文凭、论文和帽子”将学生和学者分为三六九等，尽管体现了所谓“科学性”“专业性”和“客观性”，但它孤立地将静止的“分数、升学、文凭、论文和帽子”片面等同于人的知识和能力，不仅与实际不符，还在客观上限制了人们的主动性和发展潜能。并且，为了满足可测量、具体、有时间限制、客观、可操作的算法条件，人们往往会选择更加简单、可见的任务，放弃那些复杂、内隐的任务。

第二，缺乏同理心。教育评价算法会习惯性地将“人”视作无差别的无生命对象。这种貌似科学、专业、客观的评价不但衍生了评价者的“傲慢感”，尤其是相较于被评价对象的“优越感”，甚至在相当程度上滋生了一种对人的“无情之心”。毕竟，即便算法可以准确定位和筛选那些在教育中经历困难和痛苦的人，但算法本身并不能决定（也不在乎）是拒绝和惩罚他们，还是为其提供资源和帮助。

第三，远离真实世界。在此方面，2021 年4 月央行官方微信发布的《关于我国人口转型的认识和应对之策》可谓典型代表（陈浩等，2021）。该文基于数据提出“重视理工教育，东南亚掉入中等收入陷阱的部分原因就是文科生太多”这一观点，不仅与东南亚经济停滞的实际情况存在差异（姜文辉，2016），也与东南亚高等教育发展历程不符（黄建如，2000），更忽视了新高考取消文理分科的战略意图。究其实质，上述观点差异除了可以归结为统计口径的差异，更源于数字世界与真实世界的隔阂。当研究者受困于“数字世界”时，他们会忽略了人的具体处境，错误地把报告中的数字及其规律当成了真正的教育。于是乎，他们更加依赖算法推荐的教育数据、教育事实或者教育案例，而不是深入真实世界了解数据的背景、案例的本质以及教育的意义。最终的结果就是，有些人在没有切实理解教育的情况下，仅仅根据数字的规律进行问题分析、问题解释乃至问题解决。

三、教育评价改革的算法突破

诚如前文所表，算法对教育评价拥有不易觉察却更为深刻的影响力。至于这种影响力是在改革中表现为教育评价科学性、专业性和客观性的提升，还是转化为教育评价的偏见强化、排名陷阱、数字鸿沟和物化困境，它绝非简单取决于算法优劣，而是算法背后的认知。其中的微妙区别就像很多计算机科学家隐喻的那般，“算法只能把一匹马带到水边，至于马喝不喝水，还是去做别的什么，那不是算法的事”。在此意义上，算法本身自有其重要性和答题解惑方式。不过，笔者作为教育学者更关心后者：一是认知方法，人们如何根据算法进行推理；二是认知目的，人们用算法来做什么；三是认知对象，人们在算法中关注什么；四是认知模式，人们如何理解算法。相应地，本文尝试勾勒教育评价算法在认知层面的方法突破、目的突破、对象突破和模式突破，以期实现“化风险为机遇”的改革追求。

（一）方法突破：用溯因推理超越自证预言

就其认知方法而言，教育评价算法的偏见强化源于人们更习惯用有限的结论进行自证预言。这种认知方法与十九世纪风靡欧洲的颅相学有异曲同工之妙（奥尼尔，2018，第136 页）。颅相学家通过摸头盖骨得出的结论往往和他的观察相一致。如果一个人极度焦虑或者嗜酒，颅相学家总可以在病人的头盖骨中发现与这些问题相对应的肿块和凹陷，反过来强化人们对颅相学的信任。说到底，颅相学也可视作一种算法，只不过这些算法只能依靠伪科学建立权威。因为颅相学所谓“用颅相预言人类发展的规律”不过是些经不起科学检验的种群偏见。如今，教育评价算法若要逃脱颅相学的认知窠臼，亟须在方法层面从自证预言走向“溯因推理”（abductive reasoning）。二十世纪初，美国哲学家查尔斯·皮尔士提出了溯因推理的概念。并且，皮尔士本人把溯因推理同演绎法和归纳法并列为基本的论证方法。简言之，溯因推理是探究结论背后的成因及其解释，它追求从反对和支持的事实（案例）中寻找更具解释力的原因，而非立足于用假定的结论预言未来（梅吉尔，2019，第188—194 页）。换言之，溯因推理的前提在于，存在某种原因比其他任何原因都能更好解释已有结论，所以它又名“最佳解释推论”。

在此意义上，与“自上而下”（从已知结论推出假设的结果）的自证预言所导致的算法偏见相比，“自下而上”（从已知结论推理出假设的原因）的溯因推理之所以能称为方法突破，是因为历史经验表明，注重融通性、简洁性和类似性的认知方法更有益于消弭偏见（梅吉尔，2019，第194—197 页）。一是融通性，算法能解释的现象（问题）越多越好。还是以考试分数为例，尽管它作为算法可以解释个人在应试范围的好坏，以及由应试衍生的诸多利益，但如果将考试分数放在国家发展、民族兴旺的尺度，它就会陷入解释困境。原因在于，国家每年都会组织各种考试，也会提供相应的学位和岗位，所以无论人的素质是否提高、国家是否发展、民族是否兴旺，都会有人“上岸”或者“抢到位置”。所以，考试分数永远只能解释个人的成败，且注定充满“优胜劣汰的个体偏见”，而不能对国家发展、民族兴旺作出解释和回应，也看不见整体的使命、协同和互构。也正因此，教育评价算法应在认知方法上告别自证预言似的“分数享乐”，转而推崇溯因推理带来的深刻解释以及由此构成的知识进步，以期用“为党育人、为国育才的普遍使命”超越“分数成功的个体追求”。二是简洁性，算法需要的辅助假设越少越好。当教育评价中没有足够证据来支持它对教育问题的假设时，它就需要有辅助假设，其目的就是为了使得这个教育评价算法能够自圆其说。在此方面，“五唯”的形成可谓典型。当过去教育评价的“分数假设”（分数高的是人才）和“文凭假设”（文凭高的是人才）面临失灵的境况，它就加入了“论文假设”“帽子假设”“证书假设”“课题假设”等。然而事与愿违的是，随着假设越来越多，识别人才的准度非但没有增加，反而衍生了更多未经证实的人才偏见。举例而言，人才会有论文和课题，但反过来讲，有论文和课题却未必是人才。与之相反，从认知的简洁性来看，教育评价更应青睐那些需要更少辅助假设来让结果符合当时条件的算法。换言之，简洁的教育评价算法更应推崇“就事论事”和“一事一议”，而不是无休止的“假设累加”，或者对评价结果进行“加减乘除”。毕竟，很多时候假设之间还可能构成冲突。不然，我们就得接受类似“艾萨克·牛顿=第谷·布拉赫+约翰尼斯·开普勒”这样颇为荒谬的科学成就评价算法。三是类似性，某个算法与已经被证实为真的算法越相似越好。正如前文所表，每个算法都有其局限。所以，单个教育评价算法得出的“优劣”并不足以说明对象的优劣—它仅能代表这个算法的运算逻辑。而这也是过去教育评价中某些算法的拙劣之处，它用以偏概全的方式偷换（隐匿）了其他算法的价值和效用。面对过去单一教育评价算法带来的偏见和盲目，《方案》已然提出“改进结果评价，强化过程评价，探索增值评价，健全综合评价”的要求。从这样的趋势来看，教育评价改革的方法突破在于能否推动结果评价算法、过程评价算法、增值评价算法和综合评价算法在事实层面的交互印证，从而全面、立体、深刻地展示（还原）教育的样态。

（二）目的突破：用和平协议超越军备竞赛

现实而言，始于数字话语和数字量纲的教育评价之所以被称为排名陷阱，是因为以排名为目的的算法总会不断吹响教育系统“军备竞赛”的号角。而这场竞赛的惨状亦如凯西·奥尼尔所言，“《美国新闻》的排名模型以由此产生的工具和焦虑为养分成长为一个庞然大物。排名模型有力地刺激了各方在教育上的不断投资，而飙升的学费则被忽视了……结果就是，教育体系偏向于特权阶层，偏离于穷人和中产阶级，淘汰后一类家庭出身的绝大多数学生，将他们推向贫穷之路，进一步加剧社会的阶层固化”（奥尼尔，2018，第60—65 页）。尽管中美高等教育的环境和问题有所不同，但如果我们将眼光放到中小学阶段，看看那些饱受教育焦虑的国人和被“刷题班”掏空荷包的家庭，这场围绕排名的军备竞赛恐怕也不遑多让。为此，我们不得不追问，难道人类教育演化至今就是为了把所有人培养成适应各种算法排名的机器，以便他们在残酷的竞争脱颖而出？如果拘泥于当前历史条件而言，这样的军备竞赛或许更契合教育算法的目的设定，所以显得有些无解。但如果我们把眼光放到人类几十万年的演化史来看，这教育的算法目的很可能拥有完全不同的答案。

值得注意的是，瑞士巴塞尔大学的神经科学研究者在《鹦鹉螺》杂志介绍了演化的最新观点（Clancy，2017）。文中分析了现代进化生物学核心概念，名为“放松的选择”（relaxed selection），意为把环境选择的压力减小，让生物们活得轻松，以便带来繁荣和创新。进化史表明，人类发明用火、把肉类食物加工之后再吃，缩小了自己的牙齿和下巴，从而让大脑的容量可以更大 —人类解放了自己的大脑；人类驯化动物，解放了自己的劳动力；现代人不再终日从事体力劳动，解放了自己的天性。概言之，从演化趋势来看，人类的发展不是为了在残酷环境中挑战自我，而是设法放松自己的环境，让自己探索新的可能，从而解放自我。同理，帮助师生摆脱基于排名陷阱的军备竞赛，也将有益于“通过教育激发人类用信息反抗熵增侵袭和进化压力的物种的天性”（平克，2019，第253 页）。所以，从人类演化而言，竞争与宽松同样重要；排名也不是目的，而是手段；所以，教育评价算法不等于开启军备竞赛，有时它更意味着和平协议。这绝非异想天开的心灵鸡汤，而是有例可依的现实选择（奥尼尔，2018，第68 页）。在美国奥巴马总统的第二任期间，他曾经希望由政府出面做一个教育排名，不过当时美国校长已经洞悉了排名模型的缺陷及其可能的恶性循环，所以他们强烈抵制新的排名系统。最终，美国政府作出了让步，教育部没有将大学重新排名，而是把大量的调查数据公布在网站上。如此一来，所有人都可以自行查询自己关心的指标和数据，而无须再去了解任何统计法或者变量的权重。相应地，教育评价的算法目的从黑箱走向了透明、从强迫走向了自主、从标准走向了个性，而基于排名的军备竞赛也变成了基于发展的和平协议。

（三）对象突破：用整体发展超越个体特征

必须指出的是，教育算法是推动知识进步、共同发展和思想解放，还是构成新的技术垄断、人群偏差和信息茧房，将取决于人们是关注评价对象的整体发展，还是在意评价对象的个体特征。原因在于，任何基于算法的教育评价都可以通过对象的行为模式、背景变量以及选择偏好对人群进行排序、分类以及评分，从而“科学”“客观”“专业”地呈现评价对象的个体特征。糟糕的是，通过对个体特征的凸显，人们只会越来越关注那些自己以为自己需要但又对其很无知的评价信息。也正是始于这种想不明却又能强烈感受到的焦虑，总有人或者机构利用各种个体特征开展貌似合理的“希望营销”，然后向人们不负责地承诺通向成功的特殊道路。可叹的是，这条道路的终点往往是弱势群体的焦虑和痛苦，以及对教育的怀疑（奥尼尔，2018，第86 页）。与之相反，如果研究者在理解（诠释）评价对象时可以从人类、社会和国家的整体需求出发，承担起教育发展的共同责任，冷静地去感知教育质量的整体意义，并认真理解所有人在相互交织、彼此依赖的教育世界中的共同进步、协同交流和创新发展，那么这些对整体发展的关注将会给评价算法带来超越个体特征的全新知识。

其一，重新理解教育评价对象的多元价值。群体中的“涌现”现象表明：（1）群体的能力（知识）=所有个体能力（知识）之和+能力（知识）多样性；（2）多样性的群体＞单一性的群体（伊藤穰一，豪，第27—45 页）。从群体的多样性优势来看，群体可以实现超越个体能力（知识）极限的创新和进步，这也意味着，研究者有必要从整体发展的角度重新审视教育评价对象的多元价值。在此意义上，好的教育评价算法除了告诉被试在个人能力（知识）层面的科学、专业、客观的结果，更应体现整体的多元价值，即回答当前的教育是否符合国家的多元需要、是否有利于国家涌现创新人才。所以，研究者迫切需要做的是深刻解读国家教育高质量发展的丰富需求场景与多元供给思路，并据此形塑足以反映教育多样性的评价算法。如此，教育评价算法将从兼具整体性和多样性的角度，开启激励人、团结人、解放人的正反馈回路，我们才更有可能通过评价改革助力科教兴国战略。否则，任何算法都可能沦为彰显个体能力的教育排行榜，甚至形成压抑人、孤立人、异化人的负反馈回路。

其二，在教育评价中意会人类命运共同体。意会是基于人文学科的实践方法，它完全存在于具体的教育情境之中，而算法得出的结果则存储于被剥离其特殊性的字节之中（马兹比尔格，2020，第7 页）。相应地，也只有人们学会了徜徉于丰富且真实的教育世界，用意会思维去感知与文化交流的自我、与时代演进的自我、与整体互构的自我，人们才能更加清晰地理解教育评价算法的目的与假设、价值与局限以及本质与表象。而这种意会的结果亦如迈克尔·波兰尼在《个人知识》中所言，“它意味着人类可以通过满怀热情地去努力在普遍标准之下完成他的个人义务，从而超越自身的主观性”（波兰尼，2017，第19 页）。由此可知，伟大的教育评价算法就是要意会人类命运共同体的精神实质、时代召唤和伟大故事：一方面坦陈教育评价的算法假设及其排名局限，时刻警惕基于评价对象个体特征的狂热、偏狭和迷思；另一方面使人与这个时代形成共鸣，邀请他们与真实世界的各种人群产生共情，从而使评价对象回归人群中，实现正常、普遍、共有的整体发展。这也预示着，人们藉由意会得出的解释不仅可以为评价对象补充更多有意义的内容，也更有可能使源于技术垄断、人群偏差、信息茧房的数字鸿沟消弭于人类命运共同体的“剧本”之中—正如成功的演出往往需要不同角色的构成和演绎，但却只能有一个剧本。所以，在教育评价对象中融入多元价值和意会人类命运共同体就是要处理好“角色”和“剧本”的关系。

（四）模式突破：用“厚”数据超越“薄”数据

从更深层的原因而言，教育评价算法之所以导致人与世界悖离的“物化困境”，其实是因为人们没有理解“数据的薄与厚”（马兹比尔格，2020，第63—82 页）。“薄”数据只关注抽象特殊的形式、规律和方法，旨在用数据解释人类，所以容易出现思维局限、同理心缺乏以及对真实世界的疏离。而“厚”数据先关注具体真实的主观解释、历史文化、视角预设以及语境差异，旨在根据人类与所生活的世界联系来解释人类—这也是撰写教育评价“剧本”的思路所在。相应地，教育评价算法的模式突破意味着用“厚”数据超越“薄”数据。具言之，这种具有综合性的算法认知模式拥有以下特点：第一，教育评价算法关涉主观解释。现有教育评价算法也会有一定的视角，而这种视角只是众多选择中的某一种。不同算法的视角（理论出发点）很可能不一样，并且会因此得出不同的结果。所以，人们若想读懂教育评价的算法结果，就必须学会解释自己以及由自己构成的教育命题、教育活动和教育情境，否则，他们就不可能确切地知道评价数据究竟对他们而言意味着什么。作为交换，当人们可以解释清楚自己的命题、活动和情境时，他们就会放弃那些不切实际、片面狭隘的教育幻觉，转而拥抱更加真实、丰富、动人的教育世界。第二，教育评价算法会受到历史文化的影响。一旦数据没有了具体的历史背景和文化内涵，所呈现的结果不过只是对这个世界的抽象表征，而非世界本来面目（马兹比尔格，2020，第15 页）。比如，在中国教育中异常重视的分数、升学、文凭、论文和帽子，在其他文化中未必如此，只是因为不同历史文化给某些教育评价结果赋予了特殊的意义和价值。所以，教育评价算法亟须找准相应的历史坐标和文化参照。第三，教育评价算法中的视角是平等的。如分数、升学、文凭、论文和帽子并不能天然在任何教育评价中高人一等。从这个意义而言，教育评价算法要破“五唯”，要破的正是它唯一正确、唯一合理的视角，而非彻底摈弃分数、升学、文凭、论文和帽子的视角。第四，视角决定语境，每种教育评价算法都是在某种语境之下。为此，基于算法的教育评价也应有明确的语境。比如，如果是基于结果算法的语境，那么相关讨论就应关注教育的绝对值高低及其横向比较的优劣。如果是基于增值算法的语境，那么相关讨论就应关注教育的进步大小和变化范围。而不是用结果否定增值，或者用增值压倒结果。因为不同语境的争论更像是意气之争，而非建设性地研讨。第五，同一语境之下，教育评价算法得出的结果有高低优劣之分。如果在教育评价算法中强调主观解释、历史文化、视角差异以及语境预设之后，而不对评价结果区别高低优劣，很可能陷入后现代不分对错的虚无主义、自我否定的相对主义。所以，教育评价算法必须有明确的视角和清晰的事实，所得结论也必须是清楚的。如此，才能通过教育评价算法研磨出更多真实可靠、令人信服、经得起检验的结论与观点。

（杨欣工作邮箱：77185270@qq.com）