基于“智猪博弈”理论的小组协作学习研究

2018-01-18王洪梅王东琪王晨李佳鑫

新教育时代·教师版 2018年41期

王洪梅王东琪王晨李佳鑫

摘要：随着团队协作形式在学习、工作中的普遍运用，团队间的协作博弈也成为必然现象。由于一些不合理的奖惩规则导致的智猪博弈均衡是常见结果之一，运用博弈论的基本原理，结合现实情况，构建小组协作学习的博弈模型，分析了小组合作均衡、智猪博弈均衡及恶化成为囚徒困境的条件，提出了三种预防智猪博弈恶化以及促进合作均衡实现的策略，希望能对用博弈论分析和解决教学领域中的问题起到抛砖引玉的作用。

关键词：团队协作合作均衡智猪博弈囚徒困境策略设计

引言

1.选题背景

协作学习是一种利用团队形式组织学生合作学习，提高学习效率的学习方式，研究证明：“目前協作学习要比竞争学习、个人学习更能提高学业成绩。”[1]小组协作学习是一项团队活动，在团队成员之间会存在理念、观点和原则等差异，若这些差异处理得当，团队的凝聚力就能够得到加强。反之，则影响团队合作和目标实现。[2]为了分析小组合作的具体情况，构建相关博弈论矩阵，分析得到3种具体的协作情况：合作均衡（小组内各成员均积极合作）、智猪博弈均衡（搭便车）以及囚徒困境（个人最优导致集体非最优）。

在运用中，智猪博弈均衡较为常见，由于不合理的奖励机制，使积极合作的人获得的奖励与消极怠工的人差距不大，消极怠工的人可以坐享渔翁之利，导致能力强的人积极参与，能力弱的人消极怠工，智猪博弈均衡产生。同时为了获得与劳动相匹配或更高的收益，参与者产生博弈心态，若积极合作收益小于消极怠工收益，将不愿合作，小组协作陷入囚徒困境，即所有人都消极怠工。这无益于协作学习模式的发展和学生能力的提高。因此，本文利用构建的协作学习博弈模型，探讨智猪博弈均衡存在的条件、提出了防止其演变成囚徒困境的建议，这将促进更有效率的合作均衡实现。

2.博弈论在协作学习中的运用

李京杰等运用 “智猪博弈”与“囚徒困境” 模型对协作学习中的合作与竞争问题进行研究，发现协作学习中存在“搭便车”现象。[3]史忠翠等运用“智猪博弈”模型，从“师生博弈”和“生生博弈”两方面研究了小组合作学习。[4]在团队合作中，有时由于个人对团体有依赖，产生惰性，降低了个体积极性，导致整体成效较低。[5]虽然这些研究分析了在组内协作中组员间的“搭便车”现象，即智猪博弈情况，却忽略了智猪博弈后的恶化反应，为了解决这一不足，本文将深入讨论智猪博弈恶化（即囚徒困境均衡）的具体情况，并就此提出改进方案。

一、小组协作学习博弈模型的构建及分析

1.一个简单博弈模型的构建

为了简化问题，设定参与人为A和B两人，构建一个简单的小组协作学习博弈模型。博弈过程中存在两种基本状态——积极合作与消极怠工。博弈基本性质为： ①组内成员具有“理性”且“理性”为共同知识;②完全信息静态博弈;③非零和博弈;

（1）符号说明与模型假设

为了便于模型分析，假设一些符号表示模型。A：能力强者;B：能力弱者;I：小组总投入;a：A的投入占比;b：B的投入占比;l：A的能力系数;k：积极合作效应;k1：A的独立效应;k2：B的独立效应;p：A积极合作的概率;1- p：A消极怠工的概率;q：B积极合作的概率;1-q：B消极怠工的概率。

为了方便计算博弈收益情况，提出以下模型假设。

①假设成员能力不同，A为该组成绩较优者，B为成绩较差者，设B的能力系数为1，A的能力系数l>1。

②合作效应或独立效应指合作或独立作业产生的其他可能影响成绩的特殊效果，如由于合作或者独立时的环境因素或心态因素而产生的效益或损失。没有合作或独立效应时，标准效应为1，k>0，k1>0，k2>0。

③A、B合作完成小组作业，每一次合作的总投入为I （包括精力、时间等要素的投入），A投入占比为a，B投入占比为b，a+b=1，0<a<1，0<b<1。

④小组总收益与总投入I和效应k成正比。当A、B积极合作时，小组总收益与总投入I和合作效应k正相关，A积极合作而B消极怠工时，其总评成绩与k1、投入aI正相关。当B积极合作而A消极怠工时，总评成绩与k2和投入bI正相关。但合作收益超过独立作业的收益。同时A、B消极怠工时，即无合作，无任何收益，值为0。

（2）小组协作学习模型的构建

根据以上说明，构造出A、B协作学习的支付矩阵，见表3。

其中，

G1A=klaI-alI，G1B=kbI-bI

G2A=k1aI-alI，G2B=k1laI

G3A=k2bI-alI，G3B=k2bI-bI

G4A=0，G4B=0

2.小组协作学习博弈模型的分析

虽然智猪博弈均衡是团队协作博弈之中的常见结果，但智猪博弈均衡存在也是有一定条件的，下面将具体分析合作均衡、智猪博弈均衡和囚徒困境形成的条件。

（1）小组协作博弈模型的均衡条件分析

从A的收益角度分析，此时A对自己的行为具有完全信息，对B有不完全信息。A选择积极合作还是消极怠工取决于它选择积极合作（p=1）时的期望支付与选择消极怠工（P=0）时的期望支付之差△ G的大小。显然，

ΔGA=∑piqiGiA（p=1）- ∑piqiGiA（p=0） ≥0

其中，p1=p，p2=p，p3=1-p，p4=1-p，q1=q，q2=1-q，q3=q，q4=1-q

代入收益矩阵得：

ΔGA=lI[q（ka-k1a-k2b）+k1a-a]

若ΔGA≥0，得A合作的条件：

q（ka-k1a-k2b）+k1a-a≥0

由a+b=1得：

q（k-k1-kb+k1b-k2b）+k1-k1b-1+b≥0

此不等式的分析，将分为以下两种情况：

①当q=1时，原式可化为k（1-b）-k2b-1+b>0，不等式成立时，得k>1，k2或b越大时，要求k（合作效应越大。ΔGA≥0才能成立。在此种情况下，由于q=1且ΔGA≥0，A、B会选择积极合作，会出现合作均衡。

②当q=0时，原式可化为k1-k1b-1+b≥0，得k1≥1，当A的独立效用大于1时，当A会选择合作时，ΔGA≥0时，取决于k1-1≥0这个不等式是否成立。即k1≥1时，A也会选择积极合作去保证自己的收益，即这种情况下，A会积极合作而B会消极怠工，出现“智猪博弈”。

从B的收益角度分析，此时B对自己的行为具有完全信息，而对A有不完全信息。B选择积极合作还是消极怠工取决于它对选择积极合作（q=1）时的期望支付与选择消极怠工（q=0）时的期望支付之差△ G的大小。

ΔGB=piqiGiB（q=1）- ∑piqiGiB （q=0） ≥0

其中，p1=p，p2=p，p3=1-p，p4=1-p，q1=q，q2=1-q，q3=q，q4=1-q

代入收益矩阵得：

ΔGB=p（kb-k2b-k1la-b）-k2b

若ΔGB≥0，得B合作的条件：

p（kb-k2b-k1la-b）-k2b≥0

由a+b=1得：

p[k（1-a）-k2（1-a）-k1la-（1-a）]-k2（1-a） ≥0

此不等式的分析，将分为以下两种情况：

①当p=1时，原式可以化为k（1-a）-k2（1-a）-k1la-（1-a）-k2（1-a） ≥0，所以當B会选择合作时， k≥1。k1、k2、l、a越大则要求合作效应k越大。ΔGA≥0，A积极合作，B也会积极合作，此时会出现合作均衡。

②当p=0时，原式可化为-k2（1-a） ≥0，由于（1-a）≥0，k2≥0所以原式不成立，即当A消极怠工，B也不会合作。这种情况下，A消极怠工，B也会消极怠工，形成囚徒困境。

当ΔGA和ΔGB同时小于0时，综上条件即在k<1和k1<1时，出现前“（消极怠工，消极怠工）”为纳什均衡解，达成囚徒困境，即智猪博弈的恶化。

二、小组协作的结论与建议

相较于合作均衡的收益，智猪博弈均衡并不是最优利益的均衡状态，但在协作过程中，个体为了以最小成本获取最大收益，往往容易陷入智猪博弈均衡。但相较于囚徒困境均衡，智猪博弈均衡是较优选择。因此，本文将从三个方面为改进协作中智猪博弈均衡，促进合作均衡，防止智猪博弈恶化进行策略设计。

1.创造小组内部竞争机制

由于团体绩效的奖励机制不合理，小组协作会有 “搭便车”现象。因此，在小组合作时，首先，选择具有较高能力的人为组长，提高整体合作意愿;其次，在小组内部创造基于内部目标管理的竞争机制，即将小组任务做出明确的分工安排，细化为小组组员的个人任务，并进行集中控制，以此提高合作的效率。最后，设立有差别的评分标准，进行差异化打分，针对小组的工作效果进行公平的内部评价。

2.改变客观环境和主观心态，增强合作效应

（1）营造良好合作环境，直接提高合作效应

k代表合作效应。首先，小组成员能力互补的程度以及是否有合适的机制实现优势互补对合作效应的提高有重要影响，在组建小组时要选择能力互补的各个成员，同时小组成员也可以积极培养自身的能力去提高合作效应。其次，良好的环境氛围也可以很好提高合作效应，所以小组在组建时可以选择同学或朋友或性格友善的小组成员，打造既可以轻松又可以专注的环境氛围。最后，尽量避免随机分组，防止成员间的陌生感影响合作效应。

（2）提高k1，k2值，间接增强合作效应

k1，k2代表的A、B独立效应，k1、k2与客观环境以及主观心态的因素相关。A、B的独立性越强说明合作一方的独立性越强，越能容忍对方的“消极怠工”，越有意愿为整个小组付出更多。

3.提高能力和投入，增加合作收益

（1）提高能力系数

能力系数越大合作收益会越大，两者更可能选择合作。能力系数可以提高智猪博弈均衡的上限，增强智猪博弈均衡的稳定性。能力较弱的一方能力的上升将缩小智猪博弈均衡收益的差距。对于能力较弱的一方，教师可以考虑单独辅导教学，或者加强其锻炼以提升其能力系数。如果双方的能力持续上升，智猪博弈均衡会重新出现（以 k1不变为前提）。虽然在此水平上的合作均衡收益仍大于智猪博弈均衡收益，但此时小组协作学习的总体能力已提升到新的高度，此时的智猪博弈均衡收益远高于之前的智猪博弈均衡收益。

（2）增加合作投入

a、b分别代表A、B的投入占比，a、b越大且趋于一致，则越能增加双方收益。a、b越大说明双方越愿意为小组协作投入较大精力，而趋于一致可以增加公平感，从而提高合作效应，增加双方的合作收益。如加入基于协作贡献度的小组互评分数，及时反馈各自分配的任务的完成情况并相互监督，促使组员增加自己在小组合作的投入占比。或将小组成员表现细化为几个组成部分，依据时间投入、成效产出、小组凝聚效果、创新投入等多方面的组合评分方式计算得分，让组员在各个方面的劳动付出都有具体成绩，得到综合评分。

参考文献

[1]马婧.国外协作学习理论的演进与前沿热点——基于科学知识图谱的研究[J].开放教育研究，2013，19（6）：95-101.

[2]朱青梅.薛珑.知识团队合作的动态博弈分析[J].山东社会科学，2010（11）：107-110.

[3]李京杰.马德俊.博弈论与协作学习的组内合作及组间竞争问题探讨[J].电化教育研究，2010（2）：18-21.

[4]史忠翠.魏慧琴.博弈论视角下学生合作学习绩效的分析[J].中国教育技术装备，2009（18）：19-21.

[5]潘涌.加入WTO与新世纪的中国教育[J].教育研究，2001，22（2）：27-29.