“重复博弈”与股改思路的调整

2005-04-29黄海懿

新财经 2005年12期

黄海懿

阿克谢罗德总结了那些在“重复博弈”中能够获得较好博弈效果的策略具有五大特点：“善良的”、“可激怒的”、“宽容的”、“累积的”、“清晰的”。股改是一场参与者众多、促使我国金融体系深度变革的博弈，在股改中各方参与者获得“共赢”而非“共损”的博弈结果是股改要实现的重要目标

迄今为止，“重复博弈”最具有说服力的理论来自著名的“阿克谢罗德竞赛”。这一竞赛以“囚徒困境”为基本博弈单元，经过几百次的重复试验总结出成功的重复博弈应具备的几个特点。

阿克谢罗德竞赛

阿克谢罗德是一名政治科学家，在1984年的著作中他描述了借助数学和计算机化的方法所做的两次重复博弈试验——“阿克谢罗德竞赛”。

“阿克谢罗德竞赛”的规则是这样的：参赛者以电脑程序的方式在赛前提交一个博弈策略，这一策略将被固定下来而在竞赛过程中不能加以改动。策略既可以为复杂策略，也可以为非完美策略（如“两次不合作就报复”）。竞赛为循环赛，重复200次“囚徒困境博弈”，前次博弈的结果将被记录下来从而对后次博弈产生影响。竞赛中由电脑将参赛各策略予以匹配，运行结束后累计得分最高者为胜。

首次“阿克谢罗德竞赛”共有15个策略参赛，其中包括阿克谢罗德自己的一个随机程序（以50%的概率选取合作或不合作）。循环赛最后的胜利者为加拿大学者安那托尔·若珀特提交的“针锋相对策略”。该策略的特点是：第一次对局采用合作的策略，以后每一步都跟随对方上一步的策略，你上次若合作，我这次就合作，你上次若不合作，我这次就不合作。

竞赛中排名前三位的策略有三个共同特点：一、“善良的”，即采用“合作”的博弈策略，从不首先背叛；二、对方出现背叛行为就一定要报复，不能总是合作，即“可激怒的”；三、不会因对方的背叛而进行无休止的报复，如果对方以后改为合作，则也进行合作，即“宽容的”。

为了验证这些特点，阿克谢罗德将第一次的竞赛结果公开发表后，邀请更多的人参加第二轮竞赛。第二轮共有63个策略参赛，其中仍然包括阿克谢罗德自己的那个随机程序。第二轮竞赛的获胜者仍然是“针锋相对策略”，同时竞赛中还体现出这样的特点：

一、“善良的”：排在前15位的策略中，14个策略都是“善良”的，只有1个不善良的“哈灵顿程序”（策略为首先合作，当发现对方一直在合作，它就突然来个不合作，如果对方立刻报复它，它就恢复合作，如果对方仍然合作，它就继续背叛）列入其中。排在最后15位的策略中，只有1个“总选择合作的程序”是“善良”的；二、“可激怒的”、“宽容的”的特点仍然存在；三、“累积的”：“针锋相对策略”在循环赛博弈中取胜的原因是它能够通过合作行为获得最高的累计分数，它得高分的情况较多而得低分的情况较少。但是“针锋相对策略”从来不是单次试验的最高分（其在对局中的得分从来不可能超过对方，最多打个平手），所以，如果遇到淘汰制的循环赛，它会很快被其他策略所淘汰。四、得胜的策略都是“清晰的”，即能让对方在三五步对局内辨识出来。如“针锋相对策略”很快就让对手很快发现了规律，从而不得不采取“合作”的态度。而那些过于复杂的策略则由于需要实践的次数过多、“学习”时间过长，博弈的效果并不好。

通过这两次竞赛，阿克谢罗德总结了那些在“重复博弈”中能够获得较好博弈效果的策略具有五大特点：“善良的”、“可激怒的”、“宽容的”、“累积的”、“清晰的”。

股改思路的调整

股改是一场参与者众多、促使我国金融体系深度变革的博弈，在股改中各方参与者获得“共赢”而非“共损”的博弈结果是股改要实现的重要目标。正如我们以前所分析的，财政资金积极介入但市场仍旧低迷、流通股股东持续售股，实际上这就是股改在得到“共损”结果的市场体现。

那么，我们的股改思路是否该做一些调整？如何实现“共赢”的博弈目标？当运用“重复博弈”理论进行分析时，可以得到这样几点启示：

对价方案必须是“善良的”

对价方案是股改博弈的起点，它由非流通股股东先行制定，再与流通股股东进行沟通。由于这一过程存在着时间上的先后关系，所以，与“囚徒困境博弈”略有所不同，流通股股东是在了解了非流通股股东的博弈策略后再选择自己的博弈策略，如果非流通股股东选择了背叛，流通股股东就将直接选择背叛。也就是说，非流通股股东的博弈策略将直接决定了博弈的方向。

在目前的股改实践中，非流通股股东普遍利用方案的绝对制定权推出“背叛”的对价方案；在随后的表决过程中，部分基金管理人为了“回扣”而再次“背叛”普通流通股股东，于是流通股股东在表决阶段难以“背叛”地将方案否决；于是，在“股改后的股价走势”的第三阶段中，由于不存在限制条件，“被背叛的”普通流通股股东和基金管理人为求自保，纷纷利用售股的时间优势在二级市场上“背叛”非流通股股东，从而产生市场的持续下跌。如果究其根源的话，是非流通股股东在博弈起点上的“背叛”导致了整体博弈的“背叛”走向。

如何改变这一现状，使博弈的方向回到“合作”的轨迹上？借鉴重复博弈试验，博弈整体效果最好的15个策略中14个是“善良的”（唯一的不善良哈灵顿程序在“千次进化试验”中被淘汰）。也就是说，要获得“共赢”的博弈效果，需要在股改实践中倡导博弈者采用“合作”策略，对首先采用“背叛”策略的博弈者进行限制和打击。具体到股改的初始阶段，是非流通股股东制定的对价方案必须是“善良的”。

“善良的”的对价方案应具备这样三个标准：一、股改的目的是解决股权分置的历史遗留问题，因此，方案首先需要实现全流通目标；二、对价方案应达到“共赢”的博弈结果。股改后如股价稳中有升，全体博弈者将受益，即“共赢”；若股改后股价大跌，各方博弈者均受损，为“共损”。所以，这一对价方案应该具有稳定股价的安排；三、对价方案还应体现“合作”的博弈策略，双方得到的利益均等；四、股改是非流通股股东因打破上市承诺而进行的补偿，因此，应以上市发行价作为计算基准，有增发和配股的需要一并计算成本。因为这正是非流通股股东与流通股股东两个群体之间进行交易的真实成本。至于其后数年股价上的跌幅，是流通股股东内部交易造成的，不应该成为非流通股股东减少支付的理由。同样的，那些以往损失了现在又尚未持股的流通股股东如果希望得到补偿，它们买股和增持就可以了。

博弈者的态度必须是“可激怒的”

由“重复博弈”试验结果可以看到，只有博弈者对“背叛”行为“可激怒”，才会使背叛者畏惧“共损”而不得不“合作”。相比之下，那个“总选择合作的”的最善良策略其博弈效果并不好。一个任何情况下都会“合作”的博弈者，又有谁会跟它“合作”呢？

在我们股改实践中，却存在着这样的理解，以为投赞成票就是完全的“合作”，这是完全错误的。当我们一味地姑息那些“背叛”的方案，我们就是在成为那个最善良的策略，就是在走向了“共损”的博弈结果。

所以，我们有必要调整思路，在股改中鼓励博弈者采取“可激怒的”博弈策略。

股改政策的走向必须是“清晰的”

“重复博弈”试验证明了排名居前的策略是“清晰的”，能够很快让博弈对方发现规律，减少试错和学习的时间，这样方能获得较好的博弈效果。

反观股改实践，政策走向上较为模糊，对价方案的制定缺少标准，股改审核的权力交到了深沪两处交易所，监管也没能及时跟上。由于缺少相对统一的指导性思路，股改虽历经数月，但市场仍对各操作思路争执不休、意见分歧。如果这样继续“试错”下去，又如何能获得好的整体博弈效果呢？

追求“累积”的博弈效果

重复博弈试验中反映了这样的规律：“针锋相对策略”不会在任一次单次对局中获得最高分，最多只是打个平手，但是其整体的累计效果却是最优的。

同样，我们的股改追求的是协调各方利益，平稳地解决股权分置的历史问题。所以，股改的重点不是几十家、二三百家的局部博弈效果，更不是某些公司某些股东的个别利益，而是千次重复博弈的“累积”效果。

对博弈速度的再思考

目前股改中存在着一些未能及时解决的问题，包括如何制定合理的对价方案，倡导怎样的博弈态度，包括如何修改对价程序以避免基金管理人的“寻租”和“背叛”，包括如何惩处改票等违法行为以及弥补流通股股东损失的利益，还包括如何对近千家质地一般、质地较差的公司进行股改，等等。