有限重复占优策略博弈在团队培训中的应用研究①
——基于大学生团队的分析
2016-07-13中山大学新华学院汤海滨
中山大学新华学院 汤海滨
有限重复占优策略博弈在团队培训中的应用研究①
——基于大学生团队的分析
中山大学新华学院 汤海滨
摘 要:越来越多的企事业单位希望大学生具备团队合作精神,而调查发现,大学生其实具有很好的团队合作意识,但缺乏有效的教育和引导。本文基于有限重复占优策略博弈理论,针对大学生团队设计了全新的“红黑博弈”游戏,并在四个年级、六个班级、超过四百名大学生中进行了项目体验,通过对大学生团队的实际行为反应进行观察,探讨有限重复占优策略博弈在团队培训中的应用。
关键词:占优策略博弈 团队培训 信任 合作
的研究。
1 理论综述
随着博弈理论在各领域的持续深入,团队成员的重复博弈行为也在理论上得到了深入研究。从20世纪80年代开始,经济学家霍姆斯特姆(Holmstrom)运用博弈论与信息经济学的分析方法,探讨了如何解决团队生产中的“搭便车”难题,形成了团队激励理论的基本框架。拜瑞 · 内勒巴夫(Barry J.Nalebuff)和亚当 · 布兰登勃格 (AdamM.Brandenburger) 1996年合著出版的《合作竞争》认为,企业经营活动是一种特殊的博弈,是一种可以实现双赢的非零和博弈。在企业的经营活动中必须进行竞争,同时也有合作,因此提出了合作竞争的新理念。
博弈理论已经逐渐应用在企业等组织开展团队训练和团队管理的实践中。陶金元、杨德锋在对一个基于重复非合作占优策略博弈而设计的培训项目“商战模拟”进行分析的基础上,探讨了有限重复占优策略博弈的非合作解与合作解的差别,并对该培训项目进行了深入的理论分析,从个体理性、偏好、利益以及激励约束制度等方面,探讨如何促成一个良性的竞争合作团队。
越来越多的企事业单位也希望大学生具备团队合作精神。众多学者利用博弈理论对大学生团队合作能力进行了探讨,如黄越等人利用博弈理论分析了大学生团队合作精神培养的必要性;王雷等人从团队合作的行为机理出发,运用博弈论方法探讨了机会主义行为对个体合作行为选择的影响。
然而,众多学者的研究更多停留在理论层面的分析上,尤其是大学生团队合作精神的培养,一直缺乏有效的行动方案而只局限于理论,未能在教学过程中得到大量的应用,也不能有效吸引学生参与。本文基于有限重复占优策略博弈理论,针对大学生团队设计了全新的“红黑博弈”游戏,并在四个年级、六个班级超过四百名大学生中进行了项目体验,通过对大学生团队的实际行为反应进行观测,探讨有限重复占优策略博弈在团队培训中的应用。
2 团队培训项目介绍
“红黑博弈”游戏是两个团队之间进行的有限次博弈,具体操作规则如下。
两个小团队为一个大组,同一个大组内的两个团队将进行六轮博弈。每个团队手上有红、黑两张卡片,每一轮只能选择展示一张卡片。根据两个团队双方的卡片颜色,其收益如表1所示。
表1 红黑对应收益表
每个小团队人数为3~6人,一个教学班可分成12个或14个小团队。小团队内部决定本轮选择的策略。在讨论期间团队内部要达成一致,之后在决策期间派一名代表出来展示本团队的决定。团队代表只向讲师展示卡片,避免被其他人看到。游戏一共进行六轮,在第三轮时将公布各队前三轮的选择,第六轮结束后再公布一次剩下三轮各队的选择,如表2所示。
表2 团队对应轮次表
每个团队追求自身利益最大化,即尽量使自己团队的得分最高。最终所有团队的得分会在一起进行展示,但讲师不强调全班的得分排名。游戏要求两个小团队独立进行决策,但允许团队之间进行沟通。同时,将两个博弈团队的位置设计得较远,每次只允许派一名代表前往另一个团队处进行沟通。
3 “红黑博弈”游戏的理论过程分析
3.1 占优策略分析
在一些博弈中,如果对于某个参与者而言,存在一个与其他竞争对手可能采取的策略无关的最优选择,则称其为占优策略。我们有理由相信若此参与者是理性的,则必然会选择这个策略。在“红黑博弈”游戏中,对于两个参与者而言即存在占优策略。
对于团队甲而言,当团队乙选择出红色时,甲的最优策略是出红色(甲出红的收益-1大于出黑的收益-3);当团队乙选择出黑色时,甲的最优策略是出红色(甲出红的收益5大于出黑的收益1)。即不论团队乙选择出红色或者黑色,团队甲都应该选择出红色。
同理可以分析团队乙的占优策略也是选择出红色,如表3所示。
于是,在这个博弈里,每个参与者都有占优策略,即(红、红)策略成为最终的博弈结果,并且该策略是一个标准的占优策略均衡,即纳什均衡。在这一策略组合中,其他参与人都坚守这个策略组合中的策略不变的情况下,没有参与人可以通过改变自己的策略而得到一个更高的收益。
表3 团队甲(乙)的占优策略
但是,这种均衡结果所产生的效果却比他们都选择其劣策略时要低。如果两个团队都坚持选择(红、红)策略,则六轮收益值为(-6、-6)。而如果两个团队都坚持选择(黑、黑)策略,其六轮收益值为(6、6)。这是一个典型的社会两难问题,博弈双方由于没有形成一个具有约束力的协议,最终成为两败俱伤的局面。而若双方能够形成一个有约束力的协议,则(黑、黑)策略将会成为这一非合作博弈的合作解。
此外,对于团队总效用而言,若用U代表一个大组两个小团队的总效用,则U=U甲+U乙,U的取值范围是Φ={-12,12}。而U甲与U乙的取值范围却要大得多,团队甲(乙)效用的取值范围φ={-18,30}。当总效用U取得最大值12时,对于单个团队而言,其效用值6仅位于取值范围的中点。
3.2 有限次重复
本游戏虽然一共进行六轮,然而,由于每轮博弈双方的信息并未及时公布,而只在第三轮和第六轮公布两次。因此,从实质上来看,只相当于进行了两轮博弈,即前三轮博弈和后三轮博弈,而期间的三轮博弈由于信息的不公开而处于黑箱的状态。在这一博弈中,出黑是合作策略,双方都能获得最佳的结果;而出红是欺骗策略,通过牺牲对方来获取自身利益。于是前三轮的收益如表4所示。
表4 前三轮红黑收益表
此时,对团队甲(乙)而言,最优策略是前三轮合作而后三轮欺骗。因为如果前三轮团队甲(乙)选择欺骗,则后三轮团队乙(甲)必然选择欺骗,此时最大收益为12,小于前三轮合作而后三轮欺骗的最大收益18。而这一设计在增强两个团队前三轮合作可能性的同时,也强化了后三轮团队选择欺骗的可能性。从合作到欺骗的变化过程进一步考验了人性,强化了团队管理中良性竞争合作的重要性,欺骗的危害性。
3.3 路径选择
本游戏中(黑、黑)策略将会成为这一非合作博弈的合作解,此时两个团队的六轮收益值为(6、6)。而这一整体最优策略还可以通过另一路径得以实现,即甲、乙双方各自选择三次{(红、黑)、(黑、红)}组合,最终两个团队的六轮收益值同样为(6、6)。这一路径在策略分析上与(黑、黑)策略结果一致,但是却增强了团队双方合作的风险。而这一策略的重要意义在于对其他团队造成的影响。
如果两个团队达成一致协议,采用这一策略,则由于信息公布的不及时性以及黑箱效应的存在,当第一次公布信息时所展示的信息如表5所示。
表5 团队前三轮信息表
这会给其他团队一个暗示,即这两个团队正在选择互相欺骗。从参与团队成员的反馈信息可以发现,至少超过20%的团队受到了这一信息的影响。
4 实际操作结果对比分析
“红黑博弈”游戏是一个经过微调的有限重复占优博弈模型,并且在体验式培训市场上的“商战模拟”项目的基础上针对大学生团队的特点进行了改良设计。通过对这一游戏中大学生团队的实际行为反应进行观测,我们很容易得到一些对于在一个团队内部如何克服团队内部的两难问题,增强团队合作意识和水平的指导思想和方法。“红黑博弈”游戏选取了2011、2012、2013、2014级共四个年级的学生参与,一共六个教学班级418人。其中三个班级为自然教学班,即这些班级的学生一直都是同班上课,学生之间彼此非常熟悉。另外,三个班级为混合班级,即这些学生来自不同的自然班,学生彼此之间并不熟悉。基本情况如表6所示。
4.1 大学生团队选择合作策略的比率很高
在全部参与游戏的团队中,有45%的团队选择了六轮合作策略,最终实现了总效用的最大。这一比率远超过在企业员工培训时的比率。在选择合作策略的团队成员的总结分享中可以发现,一部分学生之所以选择合作是因为他们认为记分是以一个大组,两个团队的总分加和来记,因此,选择合作可以获得更多的团队总分。
内部化理论认为,在市场不完全的情况下,企业为了谋求整体利润的最大化,倾向于以内部市场来代替外部市场。当博弈团队甲、乙双方建立信任比较困难时,内部化可以有效避免欺骗风险的发生。此时,在一轮博弈中,甲、乙双方的收益完全发生了变化,如表7所示,(红、红)策略成为明显劣势策略,应该首先被避免。
表6 “红黑博弈”游戏参与团队基本情况表
表7 内部化后的团队总效用
4.2 团队成员的熟悉程度,会影响博弈双方选择欺骗还是合作
三个自然班的学生团队选择欺骗的比率为44%,而混合班则为65%。多名参与者表示,因为大家是一个班的同学,所以一旦达成合作协议,就不好意思改变。而事实上,选择欺骗的团队中,有超过40%的团队组合是团队甲对团队乙的单方面欺骗。最终,这些团队的得分非常高,完全实现了个体利益最大化的目标。但是,这些团队无一例外受到了其他学生在道德上的谴责,而他们自己也表示“赢了比赛,输了信任”。
4.3 信任一旦被打破,就难以再次建立
前三轮选择过欺骗的团队,后三轮没有一个团队组合能够再建立起信任。这一行为与理论分析并不一致。从之前的理论分析可以发现,参与者基于充分理性和利益最大化,从而形成占优策略均衡。而当他们发现实际结果并不能获得最大收益时,会选择合作。但是,大学生团队的行为表明,他们在面对过一次欺骗行为后,就不再接受合作策略。从参与人员的总结中可以发现,许多人宁愿承受更大的损失,也不愿意选择再次相信。
这一结论对于许多以大学生为目标市场的企业而言具有重要的提示意义,赢得大学生的信任远比跟他们谈论利益更能赢得市场。
4.4 团队内部的意见纷争会影响决策
大部分团队内部发生了激烈的争吵。一些参与者将大部分的时间用于团队内部的沟通而不是两个团队之间的沟通。少数参与者表示“我们更关注我们应该怎么做”。
4.5 大学生容易受外界环境的影响
只有一个大组选择了连续三轮(红、黑)策略后,再连续三轮(黑、红)策略。但是,全班其他团队全部受到了这个大组的影响,并使50%的团队改变了策略。事实上,前三轮选择欺骗策略的团队非常少,而后三轮选择欺骗策略的团队要多得多。许多参与者在总结中表示,自己本来是支持选择合作策略的,但是当发现有别的团队选择了欺骗策略后,就改变了主意。
因此,即便是一个对团队或组织有利的策略,一旦受到更大利益的诱惑,也容易发生背叛的行为。要避免欺骗行为的发生,并不在于参与者的意志有多坚强,决心有多大或者多么有恒心、毅力,而是如何让参与者避免更大的利益诱惑。“红黑博弈”游戏虽然从本质上只进行了两大轮博弈,然而,每一次公布信息前有三轮博弈,其实就是让同样的利益诱惑重复三次。而许多团队在前五轮合作的基础上,最后一轮选择了欺骗。从策略角度分析,第六轮的欺骗和后三轮的欺骗本质是一样的,而后三轮连续选择欺骗策略的收益要大于只在第六轮进行欺骗(假如一方选择欺骗而另一方选择合作)。但是,42支选择非合作策略的团队中有30支是最后一轮才选择了欺骗。
4.6 自动排名机制
虽然讲师没有强调全班成绩会进行排名,然而,几乎所有的团队都自动对全班团队成绩进行了排名,并以此来判断最终成绩。这也是部分团队选择内部化的原因之一。这与大学生长时间的学校成绩排名有关。然而,排名带来的却并不总是积极的情绪。一些参与者表示“当发现前三轮有团队选择了欺骗策略之后,我们就已经知道有团队的成绩会比我们更糟糕了。”这种由排名带来的向后看的情绪有时会影响到组织绩效。而大学生经过十几年学生生涯关于排名的强化训练之后,来到企业所带来的排名情绪的变化,值得人力资源管理者关注。
4.7 女生比男生更容易选择相信
在所有的参与团队中,有一些团队正好是全部由女生组成的,而另一些团队正好全部是男生组成的。而这些团队的数据显示了一些比较有趣的信息。所有全女生的团队都选择了合作策略,而全男生的团队超过90%在后三轮选择了欺骗策略。于是,当全女生团队与全男生团队分在一个大组进行博弈时,得到的最终收益为U=(-6,18)。在所有的游戏参与者中,一共有六个团队三个大组出现了全女生团队与全男生团队的博弈,最终的结果完全一致。男生们完整地展示了从合作到欺骗的全过程,而女生们的总结基本归结为“不能相信男人的话”。
5 对大学生团队教育的启发
5.1 大学生具有很好的团队合作意识,但缺乏有效的教育和引导
许多企业如网易公司、中国电信、保利地产等每年的应届毕业生新员工都会组织一次大型的关于团队建设的培训活动,通过对培训师们的访谈发现,大部分大学生具有很强的团队合作意识,然而他们缺乏必要的团队合作技能。
而在大学内的调查显示,大部分大学生参与团队活动的积极性不高,其中一个重要原因就是部分大学生认为团队活动较多流于形式,起不到实质的作用。有些看起来场面热闹、人气很旺的社团活动,有时只是在做表面文章,挂上色彩纷呈的条幅和标语,而不能引导学生去思考,因而对于培养大学生团队精神的效果并不明显。另外,学校在团队精神的培养方面,虽然有开设相关的课程,但更多只是泛泛而谈,过于理论而不能吸引学生的兴趣,因而也就无法提高大学生的团队合作技能。
在“红黑博弈”游戏中,我们发现大学生团队选择合作策略的比率远高于企业员工团队。这也说明大学生需要的并不是如何给他们强调团队合作的重要性,而是教会他们如何进行团队合作,引导他们进行思考、分析和解决问题。
5.2 从参与者的反馈可以发现,大学生群体是一个相对单纯的群体,他们更容易建立信任
受情感关系的影响更大,即便是游戏,也会受实际同学关系的影响,感性分析胜过理性分析。对越亲密的同学关系,越具有责任、承诺和可靠性,而相对疏远的同学则不容易产生愧疚感。关系的亲近程度是决策的重要参考依据。这种更多基于感性而非理性的思考一方面使他们更愿意相信自己身边最亲近的人;另一方面当他们遭遇欺骗时,许多人宁愿承受更大的损失,也不愿意选择再次相信。
5.3 基于情感的信任很容易建立,但不具有可持续性
通过对有限重复占优策略博弈模型的分析可以发现,每一轮的原博弈性质是一样的。前后六轮的原博弈,构成一个典型的重复的非合作占优策略均衡模型,其结果我们运用重复博弈的向后归纳法分析,每个原博弈的结果必然是同样的不合作策略,即“红”,甚至继续向后重复几次都是同样的结果。
然而,大部分大学生团队在前三轮选择了合作策略。参与者们对此现象的解释是“大家都是同学,当然要相信他们”。而大部分的欺骗策略发生在后三轮,也就说明没有任何制度约束,仅靠情感是难以抵御利益诱惑的。尤其是三个全女生团队与三个全男生团队的博弈,充分展示了从合作到欺骗的全过程。因此,在团队管理实践中,团队内部的协议、契约或者激励约束制度是保证团队持续前进的基础。
5.4 从“红黑博弈”游戏的过程分析,可以发现许多大学生团队矛盾、纠结的内心过程
在这一游戏的理论分析中可以知道,这一游戏本质上只是进行了两次重复博弈,而前三轮和后三轮博弈由于信息的不透明,其实质只是一次大的博弈被分解成了三次。因此,一旦确定博弈策略,则三轮的策略应该是一致的。但是,很大一部分选择非合作策略的团队仅仅只是选择了一轮欺骗策略,而且还有些团队并不是在第六轮选择欺骗策略,而是在第四轮或者第五轮。他们一方面希望实现自身的利益最大化,另一方面又“不忍心伤害自己的同学”。
而这也与目前大学教育所处的矛盾境地有关。一方面,大的社会环境教育人们,追求自身利益最大化是理所当然的。但另一方面,学校作为一个相对纯净的象牙塔,提倡的是人性的“真、善、美”。当利益最大化与人性的善良压缩在一个游戏里时,大学生的选择充分展示了在一个缺乏有效制度约束的环境下人们内心的纠结与矛盾。
6 结语
培养大学生团队合作精神已经成为企业和学校的共识。基于有限重复占优策略博弈理论而设计的“红黑博弈”游戏,通过学生的参与、总结、分享,来发现团队合作与竞争过程中存在的问题,进而引导学生思考、分析和解决问题。而基于游戏过程中所展示的关于大学生团队的一些特点,也有利于相关教育人员和未来企业管理人员采取针对性措施进行教育、引导和帮助。
参考文献
[1] 易定红,彭鹏.经济学中团队激励理论述评[J].教学与研究,2006(11).
[2] 王艳洁,王雷.培养大学生团队合作精神的博弈论思考[J].时代教育(教育教学),2011(09).
[3] 白雪,黄越.对大学生团队合作精神研究——基于博弈模型的分析[J].出国与就业(就业版),2011(18).
[4] (美)拜瑞·J.内勒巴夫(B.J.Nalebuff),(美)亚当·M.布兰登勃格(A.M.Brandenburger),著.合作竞争[M].王煜昆,王煜全,译.合肥:安徽人民出版社,2000.
[5] 陶金元,杨德锋.重复占优策略博弈在团队培训中的应用及启发——基于一个体验式训练项目的思考[J].上海管理科学,2011(05).
[6] 迪克西特.策略博弈[M].北京:中国人民大学出版社,2014.
[7] 华冰,王丰华,景春波.大学生团队精神培养对策研究[J].才智,2012(29).
中图分类号:F224.3
文献标识码:A
文章编号:2096-0298(2016)05(b)-171-04
基金项目:①中山大学新华学院教育教学改革项目“物流专业课程实践教学方法研究”(2014J009)。
作者简介:汤海滨(1982-),男,讲师,硕士,主要从事团队管理方面