应试教育与“囚徒困境”

2012-06-11郭海宽

太原师范学院学报(社会科学版) 2012年5期

郭海宽

(太原师范学院数学系，山西太原 030012)

“优先发展教育，建设人力资源强国”是党的十七大做出的重大战略部署，是制定《国家中长期教育改革和发展规划纲要(2010—2020年)》(以下简称《纲要》)的基本宗旨，也是实现中华民族伟大复兴的根本要求。然而，正如《纲要》公开征求意见稿中所指出的那样，“我国教育还不适应国家经济社会发展和人民群众接受良好教育的要求”。其中最突出的问题是“学生适应社会和就业创业能力不强，创新型、实用型、复合型人才紧缺”。导致这一后果的主要原因是“教育观念落后”、“内容方法比较陈旧”。具体表现为“学生学习主要为了考试和分数”、“学校教师只关心升学率”、“家长最看重名牌大学”、“社会只承认高学历”。这就是教育领域的“应试教育”现象。

对于应试教育的危害，本文不想展开讨论，而是试图用博弈论的原理对于造成这种现象的深层次原因进行剖析，并对解决这一问题提出一些看法。

一、博弈论概念

博弈论也称对策论，英文为game theory，是上世纪30年代发展起来的一门新兴学科，以研究决策主体行为发生直接相互作用时的决策以及这种决策的均衡问题为任务。一个博弈包括三要素:(1)一组参与人;(2)参与人可选择的行动或策略;(3)参与人可能得到的赢利(或称支付)。

这里所说的参与人即决策主体可以是自然人也可以是一个组织。一个重要的假设是，这些参与人都是“理性人”，这里的理性人是指有一个很好定义的偏好，且在面临给定的约束条件下最大化自己的偏好。每一个参与人不仅自己是理性的，而且也知道“每个参与人都是理性的”，也知道“每个参与人都知道‘每个参与人是理性的’”。参与人的赢利是其偏好的体现，它不仅仅是自己策略的函数，每个参与人的策略都对其有影响，亦即每个参与人的赢利都是所有参与人的策略组合(如果参与人有n个，那么这是一个n元有序组)的函数。

按照这样的表述，在现实生活中博弈无处不在，大到天下分合、生死之地、存亡之道，小到棋牌游戏、日常生活、处世为人，谋略性的对抗、合作都是最常见的局势。

博弈论专家们经过长期观测、研究，归纳总结出许多简单、有趣且寓意深刻的博弈模型，“囚徒困境”就是其中最经典的一个。

在一次刑事案发生后，警察在现场抓到两个犯罪嫌疑人。事实上正是他们做的案，但是警察没有掌握足够的证据。于是，警方把他们隔离囚禁起来，要求他们坦白交代。如果他们都坦白，每人将入狱三年;如果他们都抵赖，由于证据不充分，每人将只入狱一年;如果一个抵赖而另一个坦白，那么抵赖者将入狱五年，而坦白者将得到宽大释放，免于刑事处罚。

在这个博弈中:

(1)参与人:甲和乙。

(2)甲和乙可选择的策略都是两个:坦白或抵赖。

(3)甲的赢利函数是:甲坦白且乙坦白，获刑3年;甲坦白乙抵赖，获刑0年;甲抵赖乙坦白，获刑5年;甲抵赖乙抵赖获刑1年。

乙的赢利函数是:甲坦白且乙坦白，获刑3年;甲坦白乙抵赖，获刑5年;甲抵赖乙坦白，获刑0年;甲抵赖乙抵赖获刑1年。

这样的博弈格局可以用图1来表示:

图1 甲乙囚徒博弈矩阵

在图1中，每个格子中左下角的数字是甲的赢利，右上角的数字是乙的赢利。

这样的表格通常称为“博弈矩阵”。

现在的问题是，两个“囚徒”将怎样选择自己的策略呢?参与博弈的这两个人十分明白，每个人的赢利(即刑期)不仅和自己的决策有关，也和另一个人的决策有关。

简单分析后不难看出，对于甲来说，如果乙坦白，自己选择坦白比选择抵赖好;如果乙抵赖自己选择坦白更好。因此不论对方怎样选择，自己选择“坦白”总比选择“抵赖”要好，亦即“坦白”是甲的“优势策略”。同理，对于乙来说，“坦白”也是他的“优势策略”。

因此这个博弈的结果是甲乙都选择了坦白。或者说(坦白，坦白)是这一博弈的“纳什均衡”。两个囚徒陷入了困境，对于参与人的整体利益来说，这是最糟的结果。

有人可能会说，这种结果不符合实际情况，因为人不可能都像上面分析的那样“不仗义”。值得提醒的是，我们在分析之前已经作了假设，参与人是理性的!

“囚徒困境”是个体理性损害集体理性的博弈模型，在现实生活中很多现象都可以用这个模型来解释。

二、教育现状的博弈模拟

为叙述简单起见，我们不妨作如下假设:

社会上只有两所学校甲和乙，它们的师资水平、生源质量、教学设施等条件都基本相同，升学名额是一定的。在这样的假设下，如果两学校都采取同样的教学方法，升学率几乎是相同的。但是如果其中一家选择增加课时、压缩副科、加大作业量等应试教育的策略，而另一家则按照正常教学规律进行教学，显然前者的升学率必然要高于后者。我们把这一博弈局势归纳如下:

参与人:甲校和乙校;

甲校和乙校可选择的策略:应试教育或素质教育;

甲校的赢利函数:

如果甲校选择素质教育，乙校选择素质教育，赢利a+c。

如果甲校选择素质教育，乙校选择应试教育，赢利a+c-b。

如果甲校选择应试教育，乙校选择素质教育，赢利a+b-c。

如果甲校选择应试教育，乙校选择应试教育，赢利a-c。

乙校的赢利函数:

如果甲校选择素质教育，乙校选择素质教育，赢利a+c。

如果甲校选择素质教育，乙校选择应试教育，赢利a+b-c。

如果甲校选择应试教育，乙校选择素质教育，赢利a+c-b。

如果甲校选择应试教育，乙校选择应试教育，赢利a-c。

这个博弈的博弈矩阵见图2。

图2博弈中的a，b，c均大于零，各自的意义分别是:a是升学率效用;b是升学率效用的增量;c是学生整体素质提高带来的效用，简称素质效用。每个格子中，左下角是甲校的赢利;右上角是乙校的赢利。

在分数决定一切的大环境下，升学率效用被放大了，素质效用被缩小了，这样b远远大于c，最起码也是b-c＞c，即b＞2c(其意义是即使牺牲了素质效用，升学率提高带来的正效应，对于校方来说也是值得的)。

图2 甲乙校博弈矩阵

于是，对于甲校来说:

如果乙校选择素质教育，甲校选择素质教育的赢利是a+c，而选择应试教育的赢利是a+b-c，因为(a+b-c)-(a+c)=b-2c＞0，所以甲校选择应试教育。

如果乙校选择应试教育，甲校选择素质教育的赢利是a+c-b，而选择应试教育的赢利是a-c，因为(a-c)-(a+c-b)=b-2c＞0，所以甲校选择应试教育。

可见，不论乙校采取应试教育还是素质教育，应试教育总是甲校的优势策略。

同理，对于乙校来说，应试教育也是其优势策略。

因此，这一博弈唯一的纳什均衡就是:应试教育，应试教育。

三、结束语

学校教育与刑事犯罪虽然毫不相干，表中的数字也不相同，但是博弈的结构却是完全一致的。因此我们说，应试教育是“囚徒困境”的又一个翻版。可悲的是，这种结果非但没有给学校甲和学校乙带来实际好处(由于招生总量是一定的，所以各自的升学率并没有提高)。相反，素质效用却成了负数，也就是说学生的整体素质下降了。现实中的情形确实如此。当前大学生就业如此困难，一个很重要的原因是，应试教育培养出来的学生，无法适应社会的需要。因此，走出这种“困境”是保证国家长治久安、实现民族复兴的重中之重。

根据前面的分析，走出“困境”的关键是改变博弈的结构，具体说来就是，缩小升学率效用，提高素质效用。通过法律、行政、舆论等诸多手段，在全社会取得共识的基础上，逐渐使素质教育法制化、常态化、自觉化。●