APP下载

思维能力的成长评估

2020-04-25谢小庆

考试研究 2020年1期
关键词:等值逻辑推理试题

谢小庆

一、思维能力

在快速变化的21 世纪,在科技和社会发展速度令人瞠目结舌的今天,伴随着计算机和网络的发展,知识在快速更新换代, 一些已有知识在快速变得陈旧。 一些工种在消失,一个个行业正在被颠覆。 年轻人将来可能从事的行业今天或许还未出现, 而今天的一些热门职业未来可能会消失。掌握再多的知识,也不如一部联网智能手机的万分之一。 怎样保证我们的学生在未来的职业竞争中不会败于一部智能手机或一台机器人? 这是教育需要思考的问题。

在互联网时代, 人们获取特定知识变得越来越容易。 以往,需要在图书馆中寻找多日的研究资料,今天借助互联网,借助“百度”“谷歌”这样的搜索工具,可以随时随地信手拈来。 因此,重要的已经不再是掌握特定知识,而是具备较高的思维水平,对信息的重要性做出判断, 并在各种可能的候选方案中快速做出自己的抉择。越来越多的人认识到,以往,“知识就是力量”;未来,“思维才是力量”。 以往,在职场中稳操胜券的是“有知识的人”;未来,在职场中独领风骚的将是“会思考的人”,将是“有智慧的人”。

从20 世纪90 年代初, 笔者就开始关心核心职业胜任力问题, 并关注到英、 美等国的核心能力研究。 根据多年的阅读和思考,笔者认为,21 世纪最重要的核心职业胜任力是思维能力 (thinking competence)。 思维能力包含三项内容: 第一, 交流沟通(communication)能力,主要是口头和书面表达能力;第二,逻辑推理(reasoning)能力;第三,审辩式思维(critical thinking)。

最重要的思维能力是交流沟通能力, 主要是母语的口头和书面表达能力。 世界各国绝大部分关于核心能力的研究结果都将交流沟通能力列为首位。对于至少80%以上的中国人来说, 使他们获得职业成功和爱情成功的主要因素并不是外语,而是汉语。例如,以往在对医务人员的资格要求中,语言能力并不是很重要。但是,近20 年来,多家国际医学教育机构所颁布的对医生的最低能力要求中,都将“交流沟通能力”放到了重要位置。

第二重要的思维能力是逻辑推理能力。 数学是高考的必考科目,从小学开始,学生大量的时间用于学习数学。对很多人来说,曾经学习的数学知识在在以后的职业生涯中很少会用到, 那么为什么还要花费时间学习数学呢? 那是因为学习数学是在发展和训练逻辑推理能力。

正是因其重要性,在今天的公务员录用考试、事业单位录用考试和教师资格考试中, 都将对交流沟通和逻辑推理能力的考查放在非常重要的地位。 为了在高度信息化的时代具有职业竞争力, 必须从小注意发展学生的交流沟通能力和逻辑推理能力,帮助他们形成必要的口头和书面表达能力, 并养成按照形式逻辑(formal logic)进行思考的习惯。

交流沟通能力和逻辑推理能力固然重要, 但这二者并非万能,还需要具有审辩式思维。

在学校中被同学打后怎么办?还手?告老师?忍了?

要不要让学生背诵课文和名篇?

在高考必考科目中是否应包含外语?

是否扩大高校的招生自主权?

是否鼓励种植转基因农作物?

要否征收房产税?

……

所有这些问题, 都不存在唯一正确(right,correct,accurate)的标准答案,都不存在合理的(rational or reasonable)标准答案,都仅仅有每个人的普乐好(plausible)选择。 许多重要问题,包括一些关系到人生道路和个人前途、个人幸福的问题,甚至一些关系到国计民生的问题, 都不能仅仅靠交流沟通和逻辑推理做出选择,都需要审辩式思维[1-3]。

实际上, 仅仅诉诸逻辑推理就可以解决的问题是非常有限的, 往往是一些并不重要的小事情,例如,一个广西沙田柚的价格是5 元钱,买3 个柚子需要多少钱。绝大多数真正重要的问题都不是仅靠交流沟通和逻辑推理能够解决的, 都需要在审辩式论证(critical argument)的基础之上做出普乐好的选择。

如果走出课堂,走进实际生活,即使是买柚子这样的“小事情”也不能仅仅靠形式逻辑予以解决。 不论超市还是街边,实际的情况是:

卖家:1 个5 元,3 个13 元。

买家:3 个12 元卖不卖?

这时,卖家面对一个12 元卖或不卖的选择。 如果卖家的选择是12 元不卖,那么,买家将面临选择:13 元买不买? 对于卖家和买家,都没有唯一正确的标准答案,也没有逻辑合理的答案。这个问题不能仅仅靠形式逻辑做出选择, 还需要借助审辩式思维来做出选择。

因此,第三重要的思维能力是审辩式思维。所谓审辩式思维,最简单的概括是12 个字:不懈质疑,包容异见,力行担责。具有审辩式思维的人不轻易相信家长、老师、领导、专家和权威的说法。他们会用自己的头脑独立地进行思考,做出自己的判断,决定接受或者拒绝他人的看法。具有审辩式思维的人,不是仅仅质疑他人,他会“双向质疑”,既质疑他人,也质疑自己。 正是由于质疑自己,他才会包容异见。 他会想到,别人可能是错的,我自己也可能是错的。 具有审辩式思维的人不是坐而论道, 而是行动者, 力行担责。面对复杂、艰难的选择,他会勇敢地、果断地做出自己的选择并付诸行动, 并坦然地面对自己行动的后果,承担自己的责任。

具有审辩式思维的人理解, 对于复杂的科学问题和社会问题,常常并不存在唯一正确的标准答案。对于一个理论、一个观点、一个命题的论证,不是一个可能立即得到答案的实验室研究。 许多问题并不存在唯一正确的标准答案, 关于这些问题的争论会长期存在。

审辩式思维不仅是创新型人才最重要的心理特征,是持续钻研的动力,更是建设理性和民主社会的基础[4]。

二、思维能力可以进行客观化测试

在思维能力中, 对于交流沟通和逻辑推理能力的测试已经探索出一些有效、 可靠的测试方法。 例如,用于公务员录用考试的《行政职业能力测验》(以下简称“《行测》”),全部采用客观化选择题,所考查的主要是交流沟通能力和逻辑推理能力。 在这方面,《行测》30 年的考试实践已经积累了较丰富的经验[5]。那么,能否对审辩式思维水平进行客观化测量?

审辩式思维包含认知技能(cognitive skill)和精神气质(disposition)两个维度[6]。 对于精神气质,很难进行客观化测试。 但是,对于认知技能,可以进行客观化测试。测试认知技能的题型主要有三种:事实判断、假设辨认和论证评价。

例题1:事实判断题

在2008 年北京奥运会上,中国体育代表团获得了51 块金牌,位于金牌榜首位。 据此,有人认为,中国的体育运动水平已经处于国际领先水平, 通过开展体育运动,成功地增强了中国人的体质。

对于这一推论,反驳最有力的一项是:

A 虽然中国获得的金牌数位于首位, 但获得的奖牌总数却比美国少。

B 主办国在奖牌的竞争中往往处于有利地位。

C 中国足球队在2008 奥运会中一场未赢。

D 按人均计算, 中国获得的金牌数低于世界的平均数。

答案:D

例题2:假设辨认题

因为太行、王屋两座大山挡路,愚公决定率领全家将山移走。 他的一个邻居老人不赞成他的做法,说:“两座山方圆七百里,高几千米,你怎能移走?”愚公回答说:“我子子孙孙一代一代地坚持移山, 山不会增高,怎么移不走呢? ”

愚公的主张能够成立的前提是:

A.由于地球的地壳运动,山的高度和范围都可能增加

B.他的后代不会因无婚姻或无生育的原因而中断延续

C.最终上帝会被他的精神所感动,会帮他把山移走

D.自己的邻居们会帮助自己一道移山

答案:B

例题3:论证评价题题

司马迁在《史记》中详细记述了项羽人生的最后场景: 项羽拒绝了驾船的乌江亭长载他东渡乌江卷土重来的建议,自杀以谢江东父老。 对此,张强并不赞成。张强认为项羽完全不必自杀,应该东渡之后重整军马再战。

张强对自己的观点进行了论证, 他的论证中最有说服力的一项是:

A 胜败乃兵家常事

B 士可杀而不可辱

C 《史记》的相关记录未必真实

D 生当为人杰,死亦作鬼雄

答案:A

从上面3 道例题可以看出,对于所讨论的问题:中国人的体育运动水平是否世界领先、 愚公应该移山还是搬家、项羽应该渡江还是自杀,并没有唯一正确的标准答案,但是对于论证(argument),却可以评价和测量,包括:

1. 论证是否基于证据(fact,data,evidence)?

2. 所给出事实的可信度(reliability)如何?

3. 事实(证据)与主张(claim)相关(relevant)程度如何?

4. 论证是否合理(reasonable)?

5. 论者对论证中所包含的假设是否清楚(awareness)? 是否清醒?

6. 论证是否有效(valid)? 是否有力(powerful)?是否具有说服力(persuadable)?

从上面的3 道例题可以看出,论题(如愚公移山还是搬家)并没有标准答案,但论证的水平(level of argument)却有高下之分。这种论证水平的高下,不仅可以测量, 而且可以通过客观性选择题的方式进行测量。

三、“审辩式思维”试题与“阅读理解”试题、“逻辑推理”试题的不同

“审辩式思维”试题、“阅读理解”试题、“逻辑推理”试题的考查方式均有所不同。

阅读理解题主要考查对文本内容的把握, 包括字词知识、信息提取、内容归纳、主题概括、对语气态度的准确判断等等,即主要考查归纳能力。

例题4:阅读理解题

在一只小鸡破壳而出的时候, 刚好有只乌龟经过,从此以后这只小鸡就背着蛋壳过了一生。

这段文字想告诉我们:

A 不要轻易模仿他人

B 有些人生不逢时

C 蛋壳没有龟壳坚固

D 出门旅行应尽量轻装简行

答案:A

逻辑判断题主要考查根据文本进行合理推断的能力, 包括能否根据已知的文本合理地推断出文本中并未直接给出的信息,即主要考查演绎能力。

例题5:逻辑推理题

据世界卫生组织估计, 目前全球患抑郁症的人口多达1.2 亿, 几乎每4 人中便有1 人在一生中某个阶段出现精神或行为问题。 到2020 年,抑郁症将位居全球疾病发病率排行榜第二位,仅次于心脏病。在中国, 目前约有2600 万人患有不同程度的抑郁症,不过,90%的抑郁症患者并没有意识到自己患有抑郁症。 也未能及时就医。

根据这段文字,可以知道:

A 全球患抑郁症的人多达总人口的四分之一

B 中国抑郁症患者中及时就医者不超过300 万人

C 在各种疾病中,每年死于心脏病的人数最多

D 及时就医可以降低抑郁症的发病率

答案:B

从上面的试题可以发现, 逻辑推理能力与交流沟通能力既有区别,也有联系,不具备一定的交流沟通能力,谈不到进行逻辑推理。 与此相仿,审辩式思维与逻辑推理能力之间的关系也是既有区别, 又有联系,审辩式思维基于逻辑推理之上,二者之间没有绝对的界线。 就像在测试逻辑推理能力的题目中往往也包含着对交流沟通能力的考查一样, 在测试审辩式思维的题目中也会包含对逻辑推理能力的考查,二者不可能完全切割和分离。 然而,在审辩式思维试题中虽然包含对交流沟通能力和逻辑推理能力的考查, 但所考查的并不仅仅是交流沟通能力和逻辑推理能力,“审辩式思维”试题与“逻辑推理”试题的区别至少体现在以下四个方面:

1. 审辩式思维试题包含对非形式逻辑(informal logic)的考查。 具有审辩式思维的人理解,符合形式逻辑是不可突破的“底线”。任何论证,必须符合形式逻辑。 但是,形式逻辑存在局限性,许多时候存在多种符合形式逻辑的不同的、互相冲突的命题,这时,就需要在综合形式逻辑和非形式逻辑的基础之上做出选择,做出决策。

斯特芬·图尔敏(Stephen Toulmin)将这种超出形式逻辑的论证逻辑称为“工作(working)逻辑”、“实践(practical)逻辑”和“实质(substantial)逻辑”。他指出,在科学、法律、经济和医学等许多专业领域,基于传统形式逻辑的论证意义很有限, 实际上真正大量使用的是“实质论证(substantive argument)”;在传统的论证研究领域人们常常将注意力聚焦于“怎样论证才合乎逻辑”,却常常忽视“人们实际上如何论证”;在论证中,人们常常采用静态的“解剖学”方法,而不是采用动态的“生理学”方法。

“逻辑推理”试题可以通过严格的形式逻辑导出正确的、可以确证的答案;“审辩式思维”试题却得不到这样可以按照形式逻辑严格确证的答案, 只能得到若干命题人具有共识的普乐好答案。

2. 审辩式思维试题有条件地接受“归纳”。 逻辑推理试题不接受归纳, 即使我们观察到一万只天鹅是白的,也不能从形式逻辑上确证“天鹅是白的”这一命题。审辩式思维试题则有条件地接受归纳。根据“实质论证”的逻辑,特定条件下,与不能提供案例支持或仅仅能够提供一两个案例支持的主张(claim)相比,那些可以提供一万个案例支持的主张,更容易成为我们的普乐好选择。

3. 审辩式思维试题有条件地接受“类比”和“比喻”。 逻辑推理试题不接受类比和比喻的论证方式,类比和比喻在形式逻辑上不成立。我们可以用“发动机与刹车”的关系来比喻“革新与保守”的互补关系,但这种论证在形式逻辑上是不成立的。 审辩式思维试题则有条件地接受类比和比喻的论证方式, 特定条件下,类比和比喻可能增加某个主张的说服力。

4. 审辩式思维试题有条件地采用“引证权威”的论证方式。 逻辑推理试题拒绝“引证权威”的论证方式。 根据形式逻辑,“引证权威”的论证方式属于“诉诸权威谬误”。 审辩式思维试题则有条件地接受“引证权威”的论证方式。 在实际生活中,从化妆品的选择到疾病的治疗方案选择,“引证权威” 是经常被采用的论证方法, 也常常成为进行选择的重要依据之一。特定条件下,“引证权威”可能增加某个主张的说服力。

四、从“达标评估”到“成长评估”模型

对于思维能力的测量有不同的教育评估模型。作为21 世纪最重要的核心职业胜任力,相对于达标评估,更应关注学生的成长评估。达标评估到成长评估是美国学校教育应对州政府问责的重要改革举措。 2015 年,经过美国参众两院长期讨论和两党沟通,两院最终通过了新的教育改革法案《每一个学生成功法案 (Every Student Succeeds Act, 简称ESSA)》。 其后,奥巴马总统正式签署了ESSA 法案。 这意味着,美国的教育改革进入一个新阶段。 ESSA 于2018 年正式开始实行。 ESSA 取代了小布什总统主持通过的《2001 年一个都不能少法案(No Child Left Behind Act of 2001,NCLB)》。 与NCLB 相比,ESSA的突出特点体现在用 “达标+成长” 的概念完善了NCLB 的“达标”概念。 在ESSA 的贯彻执行过程中,“成长模型(growth model)”已成为美国各州对学生、教师、学校和学区进行教育评估(assessment)和问责(accountability)的主要方法[7]。

所谓成长评估模型,是指一组定义、计算方法和规则,可以根据学生两个或多个时间点的表现,做出与学生、班级、教师和学校有关的解释[8]。进行成长评估, 不仅可以更准确地了解学生实际的学习成效(outcome),同时可以更准确、更清晰地了解教师、学校对学生成绩提高所产生的实际影响。

新的“达标+成长”教育评估模型体现了一种新的教育理念。 学习,不仅追求“达标”,更要追求“成长”。 对于一些基础好的学生,实现“达标”并不一定能够实现“成长”;对于一些基础薄弱的学生,即使暂时“达标”有困难,仍然可以通过学习获得“成长”。这是一种正视“个别差异(individual difference)”的教育理念。 统一的标准(standard)很难适用于所有人,成长评估模型体现了人工智能时代一种个性化学习(individualized learning)的思路。

美国强调“成长”,主要的着眼点是那些可能掉队(left behind)的学生,是力图帮助那些“达标”有困难的学生获得“成长”,鼓励那些帮助学生获得一定程度成长的教师和学校。 中国与美国的国情不同,我们强调“成长”,主要的着眼点应是那些基础较好的学生,力争帮助他们不仅“达标”而且获得实际的“成长”,鼓励那些帮助学生获得进一步成长的教师和学校。

成长模型中包含基于数学和统计学的数据处理方法, 但成长模型所处理的不仅仅是数学和统计学问题。在成长评估过程中需要考虑复杂的、常常互相冲突的教育目标,需要考虑学生、教师、地方政策、联邦政策等一系列复杂的政策要求和分数解释。因此,成长评估的效果还有待于进一步论证。

五、成长评估的主要方法

今天,在美国各州应用的成长测量模型主要有7种。

1. 增分模型(gain score):又称为自我相对成长(Growth Relative to Self)、原始增益(Raw Gain)、简单增益(Simple Gain)、斜率(Slope)、平均增益(Average Gain)、 增益/斜率-成效 (Gains/Slopes-as-Outcomes)等。

2. 轨道模型(Trajectory):也被称为成长达到标准模型(Growth-to- Standards Model)、增益分数模型(Gain-Score Model)等。

3. 分类模型 (categorical): 也被称为转换模型(Transition Model)、转换矩阵模型(Transition Matrix Model)、价值表(Value Table)等。

4. 残差模型(the residual gain):也被称为残差差异模型(Residual Difference Model)、协方差调节模型(Covariate Adjustment Model)、残差百分等级排列(Percentile Rank of Residuals)等。

5. 投射模型 (projection): 也被称为回归模型(Regression Model)、预测模型(Prediction Model)。

6. 学生成长百分等级模型 (student growth percentile, 简称SGP 模型): 也被称为科罗拉多模型(The Colorado Model)、百分等级渐进达标成长(Percentile Growth Trajectories)、 条 件 状 态 百 分 等 级(Conditional Status Percentile Ranks)。

7. 增值模型(value added):也被称为桑德斯模型 (Sanders Model)、 教育增值评估系统(Education Value-Added Assessment System,EVAAS)、田纳西增值评估系统 (Tennessee Value-Added Assessment System,TVAAS)、田纳西模型(Tennessee Model)分层模型(Layered Model)、变量保持模型(Variable Persistence Model)、 交 叉 分 类 模 型 (Cross-Classified Model)。

7 种模型各有长处和不足。 对于不同的模型,可以对评估结果做出不同的解释。选择哪种模型,要考虑自身分数解释的不同需要。 目前,7 种模型在美国的各个州中都有应用, 使用最多的是学生成长百分比模型(SGP),至少有20 个州在使用[9]。

六、成长评估的关键技术环节——等值

为了对学生的成长进行评估, 需要在特定时段(如一学期或一学年)的开始时和结束时进行两次测试。两次测试不能用同一张试卷。两张不同的试卷之间需要具有可比性。 具有可比性的前提是具有同质性(homogeneity)。

所谓同质性, 就是两个测试考查相同的构念(construct)。 用于成长评估的两次测试或多次测试,需要具有同质性, 但具有同质性并不一定具有可比性。 尽管测试的编制者在命题过程中总是尽量保持难度的稳定性,但不同试卷之间在难度、分数分布方面的差别很难完全避免。两次测试的难度不同,分数的增长可能归因于学生的成长, 也可能归因于试卷偏容易。如果第二次测试的分数提高明显,我们无法知道分数提高是由于学生获得了“成长”,还是第二次测试的试卷比较容易。 只有两次测试的成绩可以进行合理的转换,可以排除掉试卷难度变化的影响,两次测试才具有可比性。

这样,就需要将具有不同难度、分数分布的试卷的分数转换到一个统一的量尺之上, 采用统一的量尺对应考者进行测量。 这种将一个测验的不同版本的分数统一在一个量表上的过程即等值(equating)。等值是成长评估的关键技术环节。

近几十年来, 心理测量学家们对测验等值问题给予越来越多的关注,不仅提出了许多等值方法,而且围绕等值问题展开了多方面的研究。 在等值数据资料的收集方面,即可以采用以“人”为媒介的共同被试组设计,也可以采用以“题”为媒介的“锚测验”设计。在等值数据资料处理的理论模型方面,可以依据基于真分数假设之上的经典测验理论(classical testing theory,简称CTT),也可以依据基于潜在特质假设之上的项目反应理论(item response theory,简称IRT)。在两种理论模型的框架内,由于数据收集的方式及所采用的计算方法不同等, 又存在着多种不同的等值方法[10][11][12]。

图1 是一个包含30 题的测试在经过等值之后得到的新试卷与标准卷之间的的分数转换表。 从表中可以看出,与标准卷相比,新试卷偏难一些,在新试卷上获得18 分,相当于在标准卷上获得了20 分。

图1 两份试卷的等值分数转换表

七、用于成长评估的纵向量表化

美国教育协会(American Council on Education)和美国国家教育测量学会(National Council on Measurement in Education,NCME)共同组织编写的《教育测量 (Educational Measurement)》 一书被人们称为“教育测量领域的《圣经》”[13,14]。 在2006 年《教育测量》第4 版出版之前,教育测量领域曾广泛使用“纵向等值(vertical equating)”概念。纵向等值的意思是,对于一些伴随年龄和学习过程持续发展的能力,如阅读能力、写作能力、语言能力、数学能力等,需要编制开发从低到高不同水平的测试量表。 考虑到不同级别的考试难度并不相等,从2006 年以后,人们不再将这种在不同水平的考试之间建立可比性的过程称为“纵向等值”, 而是称为 “垂直量表化(vertical scaling)”, 将这种由多个不同水平的测试组成的量表称为“纵向量表(vertical scale)”。

在《教育测量》第4 版中,使用了一个上位概念,将在不同的测试之间建立可比性的过程统称为 “连接(linking)”。 将“连接”划分为三种:等值、预测(prediction) 和 量 表 化 (scaling)。 在 所 测 量 构 念(construct)相同、水平相同的不同测验版本的分数之间建立连接的过程,被称为“等值”。 在所测量构念(construct)相同、但水平不同的不同测验分数之间建立连接的过程,被称为“量表化”。在所测量构念不同的测验分数和效度标准变量 (validity criterion variable)之间建立联系的过程,被称为“预测”。

在美国各州的成长评估中, 采用较多的评估工具是纵向量表 《智者平衡评估联盟测试系统(The Smarter Balanced Assessment Consortium, 简 称SBAC)》[15,16]和 《大学学习和就业准备联合测试》(Partnership for the Assessment of Readiness for College and Career,简称PARCC)[17,18]。 SBAC 和PARCC都将《共同核心国家标准》(Common Core State Standards,简称CCSS)作为成长评估的依据。 CCSS 是美国从学前班到高中(K-12)教育的国家标准。

八、思维能力成长评估在未来选拔性考试中的应用展望

中考、高考、研究生考试等属于选拔性考试。 选拔性考试关注的焦点是“预测”,预测考生在高中和大学中的未来学习表现。

任何预测,都是一种发展趋势预测。为了进行预测,至少需要有不同时间的两个观测点。

图2 预测模型

从图2 中可以看出,过一点(B)可以做无数条直线,仅仅根据一次观测的成绩无法推断一个人的发展趋勢。就是说,一次性测验分数不具有预测意义。至少在时间t0、t1两次观察取得A、B 两项成绩时, 才能过两点做一条直线,从而预测t2时的能力状况为C。

两次观察是进行預测的最低限度条件, 但远非充分条件。 t0、t1两次观测的误差,可能使对t2时状态的预测存在较大误差。如果有多个观测值,就可以根据多次观测值计算一条回归线, 从而提高预测的准确性。

不难理解,根据“达标评估”推断不出“潜力”,只有“成长评估”才能成为推断和预测“潜力”的依据。在未来的选拔性考试中,为了实现“预测”的目的,将会更多参考多次“形成性评价”的结果,而不仅仅是一次“总结性考试”的成绩。

九、小结

在快速变化的21 世纪,学校教育最重要的任务是发展学生的思维能力。 思维能力主要包含三项内容:第一,交流沟通能力,主要是口头和书面表达能力;第二,逻辑推理能力;第三,审辩式思维。 对体现在认知技能方面的思维能力,可以进行客观化测试。在思维能力评估中,不仅需要进行“达标评估”,还需要重视“成长评估”。

猜你喜欢

等值逻辑推理试题
利用思导图进行抽象逻辑推理
2021年高考数学模拟试题(四)
德国城乡等值化的发展理念及其对中国的启示
异步电动机等值负载研究
2019年高考数学模拟试题(五)
《陈涉世家》初三复习试题
2019届高考数学模拟试题(二)
花生是谁的
真假借据
超难度逻辑推理大挑战