评杰弗里决策逻辑对纽科姆难题的解决

2015-08-20李莉

湖北大学学报（哲学社会科学版） 2015年4期

李莉

（湖北大学哲学学院，湖北武汉430062）

一、纽科姆难题对决策理论的挑战

纽科姆难题是一个与合理行动相关的决策困境问题。处于纽科姆难题决策情形中的决策者，根据决策理论中的两个基本原则——最大化效用原则和占优策略原则，得出了完全相反的两个答案，使得决策者无法确定什么才是合理的行动。

物理学家威廉·纽科姆（W．Newcomb）在考虑囚徒困境问题的过程中，首先构造出纽科姆难题。罗伯特·诺齐克（R．Nozick）了解到这个难题后，于1969年撰写了一篇著名的论文《纽科姆难题和决策的两个原则》[1]65～72，标志着纽科姆难题的正式提出。

纽科姆难题体现了作为决策论中最重要且最基本的两个原则，也就是最大化效用原则与占优策略原则之间的冲突。诺齐克在《理性的性质》一书中谈到纽科姆疑难研究之意义时写道：

经济学家和统计学家已经发展出一种有关合理决策的精心制作的理论，并将其广泛运用到理论与政策研究之中。这是一种具有数学严格性的，既强有力而又容易掌握的理论。虽然它作为实际行为的描述之充分性已受到广泛质疑，它仍然是有关合理决策所应满足条件之研究中居于支配地位的标准理论。我认为，这种标准决策理论需扩充到与行为的符号意义及其他有关因素的明晰思考相结合，而关于当前标准理论之不充分性认识的一个有益入口，是由纽科姆问题提供的。[2]222

在学界，纽科姆难题因此引起了广泛的关注。

纽科姆难题有很多版本，以下采自诺齐克最原始的表述：

假定一个拥有超能力的生物，他能够预测你的选择（或者你也可以把它想象成一个科幻故事中外星来的生物，拥有先进的科学技术，同时也是非常友好的等等）。你知道这个生物过去常常能正确地预测出你的选择（至少到目前为止，对你的选择没有做过错误的预测）。此外，你还知道这个生物经常正确地预测到其他人的选择，而且其中很多人都处于与你类似的情形中。现在有两个盒子：盒子B1和盒子B2。B1是透明的，里面有1000美元。B2是不透明的，里面有100万美元，或者什么也没有。B2里面是否有钱取决于接下来发生的事情。首先，超级生物做出预测。他知道你面临两个选择，或者拿走两个盒子，或者只拿走盒子B2。接下来，（1）如果生物预测到你会拿走两个盒子，他就不把100万美金放在B2里。（2）如果生物预测到你只拿走B2，他就会放100万美元在里面。于是首先由超级生物作出预测，然后把钱放进B2，或者没有放，取决于他是怎么预测的。现在轮到你来做决策，你知道超级生物知道的信息。你会怎么做？

在纽科姆难题的决策情形中，决策者必须在两个可能的行动中作出决定，这意味着有两种可能的世界状态。据此，诺齐克给出了两个相反的但是同样合理的论证。根据最大化效用原则建议，应该是只拿走一只盒子，也就是盒子B2。根据占优策略原则的建议，应该是拿走两只盒子。

以下是诺齐克的“一盒论”论证：（T表示时间，数字越大，表示时间越晚；数字相同，表示时间一样。）

前提1：如果我在T3拿走两只盒子，预言家将会在T1以很高的概率预测到这些，并且在T2不往B2里面放钱，所以我几乎能确定地拿到1000美元。

前提2：如果我在T3拿走B2，预言家会在T1以很高的概率预测到这些，并在T2放100万美元在B2里，所以我几乎能确定地拿到100万美元。

结论：因此我应当拿走B2。

论证过程：令C表示置信度，a1表示拿走两只盒子，a2表示拿走盒子B2，s1表示盒子里面有100万美元，s2表示盒子里面没有钱，此时决策者的置信度为：

并且假定决策者可能收益的效用是和可能结果成线性增长，那么可能行动a1和a2的条件效用是这样计算的，其中CU表示期望效用，a1表示拿走两只盒子，a2表示拿走盒子B2：

因为CU（a2）比CU（a1）高，最大化条件效用原则推荐拿走盒子B2。

以下是诺齐克的“2盒论”论证：

前提1：预言者已经在T1做出了他的预言，把100万美元在T2放入了B2中，或者没放。

前提2：假定预言者T2时在B2中已经放入100万美元，如果你在T3时拿走两个盒子，你将得到1，001，000美元，如果你在T3时拿走B2，你将得到100万美元。

前提3：假定预言者T2时在B2中不放钱，如果你在T3时拿走两只盒子，那你得到1000美元，如果我在T3时拿走一只盒子，那你得不到钱。

前提4：如果你拿走两只盒子而不是一只，那么任何情况下，你都能多得1000美元。

结论：因此你应当拿走两只盒子。

假定对决策者而言，1000美元的效用比0美元的效用高，1，001，000的效用比1，000，000的效用高。拿走两只盒子的行动明显优于拿走一只盒子，所以占优策略原则推荐拿走两只盒子。

这两个论证，在同一决策情形中，给出了完全相反的建议。诺齐克认为这体现了合理决策行动中两个决策原则之间的冲突，也就是期望效用最大化原则和占优原则之间的冲突。

二、杰弗里系列解决方案之考量

纽科姆难题提出以后，很多学者都用大量的精力和时间来提出解决方案。这些解决方案主要分为三个途径：其一，以杰弗里、艾尔斯方案为代表的证据决策方向；其二，以吉伯德和哈珀方案为代表的因果决策方向；第三，以诺齐克方案为代表的折衷调和方向。

纽科姆难题是于1969年提出的，而杰弗里的决策逻辑是1965年提出的，严格地说，它应该不算是纽科姆难题的解决方案。然而，根据杰弗里的决策逻辑，可以在纽科姆难题中得到只拿走一只盒子的解决方案，因此，从这个意义上，也可以把它算作一种方案。

杰弗里后来（1983、1988、1996）的方案则更为清楚地处理了纽科姆难题。他把纽科姆难题看做是自己提出的决策逻辑的反例，从而在1983年提出了可能行动效用的新定义，以及一个不同的最大化原则，与他原来的决策逻辑背道而驰。然而他的新理论，也遇到和纽科姆难题不同的反例。于是1988年，杰弗里又回归到他的决策逻辑立场，宣称他的逻辑足够给纽科姆难题以解决方案，但有一个前提，就是纽科姆难题要在两个层面上进行概率化：第一个层面是决策者拿走盒子B2或者拿走两只盒子的未知概率，而另一个层面是决策者的可信度，决策者的可信度有助于了解这个未知的概率是多少。1996年杰弗里通过对决策者的置信度添加限制条件来改进了他的决策逻辑，并提出了对纽科姆难题的解决方案。

1.杰弗里1965年的解决方案[3]

杰弗里1965年的解决方案是基于他的决策逻辑而提出的。他指出，决策者的置信度和效用应当服从克格莫洛夫的三条公理和他本人提出的效用公理。这四条公理一起推出的结果与杰弗里计算可能行动的条件效用结果是一致的，决策者应当使用下面的方式来计算可能行动的条件效用：

如果C（ai）>0，那么

此外，决策者应当使用最大化条件效用原则。在纽科姆难题中，分别计算拿两只盒子的条件效用，和拿走B2的效用相比，B2的条件效用更高，因此，决策者应当拿走B2。

然而，杰弗里的决策逻辑提供的解决方案在纽科姆难题上连杰弗里本人都不满意。这个方案是不准确的，因为它给出了错误的建议，也就是只拿走盒子B2。这个错误根源于杰弗里决策逻辑自身所具有的两个缺点：第一，在他的理论中并没有考虑因果关系；第二，根据他的理论，每个可能的世界状态的分区都是允许的。不克服这两个缺点，是很难得出正确答案的。

实际上，杰弗里此时的决策逻辑具有如下特点：

（1）理论是非因果的。杰弗里之所有没有使用因果关系，是因为他认为只有在赌博中才使用因果关系，因果关系取决于打赌双方对彼此的信任以及双方是否能够兑现诺言的能力。比如，我出1美元跟你打赌，如果C出现，给你1美元；如果C不出现，你给我1美元。你接受了这个赌局。A这个命题就是：当知道C的真假之后，你给我1美元；B这个命题就是：当知道C的真假之后，我给你1美元。这样我们就在CAB之间建立了一个因果关系。杰弗里指出这种因果关系和命题（如果油箱没油，那么汽车无法启动）之间所具有的因果关系是一样的。因此，杰弗里认为，如果在决策中使用因果关系，就很难对命题的偏好进行排序。这有一个例子说明这一点。假定有三个命题：A.下个星期有核战；B.下个星期天气晴朗；C.硬币朝上。然后有一个打赌，如果C，那么B；如果不是C，那么A。杰弗里认为在这个赌局中，决策者就没办法对他的偏好进行排序。

（2）决策者可以任意区分可能的世界状态。在杰弗里的偏好理论中，决策者对可能世界状态可以进行任意的分区。其原因在于无论用何种方式区分，决策者对可能行动效用的计算都会导出同样的结果。

（3）决策者对他的可能行动可以指派置信度。因为用命题来表示可能行动，从而决策者可以给可能行动指派置信度。如果决策者相信，他可以实现一个可能行动，那么他指派的置信度为1。在杰弗里的公式中，置信度是大于0的。如果决策者不能确定一个可能行动是否为真，就要给这个可能行动赋予很低的概率，而不能为0。

（4）根据理论，可以在信息来源中建立偏好。主体采取某种行动不能简单地描述为使命题B为真，而应当描述为改变两个或更多的命题概率，从prob B1，prob B2，…，prob Bn成为PROB B1，PROB B2，…，PROB Bn。因此在行动中，决策者相信如果他想要的话，就能使得一个可能行动为真。在概率行动的情况中，决策者相信他无法控制使得一个可能的行动为真，只能试图使它为真。可能行动A1的效用比可能行动A2的高，就是指在决策者的偏好排序中，可能行动A1高于A2。也就是说，这意味着决策者更欢迎A1所带来的信息。据此，杰弗里建立了信息间的偏好。此外，这种理解也解释了矛盾的命题不可能在命题的偏好排序中出现。同时也解释了为什么必要的命题不传递任何信息。因为这肯定是真的。A在必要的命题中排序最低，意味着A是不好的信息；对决策者而言，相对于A是真的消息，其他的消息都是好消息。A的排序最高，意味着与A是真的这个好消息相比，其他的消息都不是坏消息。A的排序是必要的，意味着决策者对A是否为真无动于衷。

（5）理论中有一个表征性定理。这构成杰弗里决策逻辑的核心。

（6）指出决策者应当服从最大化条件效用原则。

2.杰弗里1983年的解决方案

1983年，杰弗里对他的决策逻辑进行了反思，认为纽科姆难题是他的理论的一个反例，原因有两个：（1）他认为他的最大化条件效用原则在纽科姆问题上给出了错误的答案，也就是选择拿走一只盒子；（2）杰弗里指出，如果决策被看做是可能世界状态的证据，在这些世界中可能的行动不会发生，也不能被阻止，那么此时他的决策逻辑就是错误的。

据此，他提出了可接受主义理论。可接受主义的核心是什么呢？杰弗里说：“一个理性的决策就是这样一个决策，当主体最终决定如果实施这个行动，根据他所认为的概率矩阵，能够使预估的目标最大化，那么理性的决策就是实施这个行动。”[4]25

可接受主义指出决策者的最终决策是可能世界状态的证据，或者是其他决策者的可能行动的证据。因此，基于这个假定，一个可能行动的效用就可以用下面的方式来计算：（此处sj指称可能世界状态，或者任何与不同决策问题相关的决策者的可能行动，dai指称这样一个命题，就是决策者最终决定采取的决策[4]16。）

如果c（dai）>0，那么

在纽科姆难题中，如果我们用行动A1表示在T3时刻拿走两只盒子，A2表示在T3拿走B2，S1表示预言者在T1预言我拿走两只盒子，在T2不往盒子里放东西，S2表示预言者在T1预计到我会拿走B2里的东西，从而在T2时往B2中放入100万美元，那么，根据可接受主义原则的计算，拿走两只盒子的决策效用大于拿走一只盒子的效用，从而拿走两只盒子的决策是理性的。

可接受主义理论也并非完美，杰弗里自己指出他的可接受主义理论有以下几个缺点：第一，有些决策问题中，没有可接受的决策。第二，有些决策问题中，所有的决策都是可接受的。“一个主体可能会发现所有的行动都是理性的，因为对任何行动的选择都能使他预估的愿望最大化——不是通过改变条件概率，而是通过增加支付矩阵中的意向”[4]190。在这种情况下，理性决策的数值不一定就是1，决策者应当在做决策前，重新评估他的信念和愿望。第三，范·弗拉森（van Fraassen）认为，在一些决策问题中，有些值得选择的可能行动并非是可接受的。作为可能世界状态的证据，或者是其他决策者的可能行动的证据，有些可能行动比最终决策好。

除此以外，由于引进了最终决策这个术语，使得杰弗里的可接受主义和因果决策理论一样复杂。

总而言之，在纽科姆问题中，杰弗里的可接受主义理论提出了正确的解决方案，但是对决策者而言，他要求了太多的自我知识。此外，这个理论的应用有限制，不是一个在所有场合都能使用的合理决策理论。最后，这不是一个经济的合理决策理论。由于引进了最终决策这一概念，可接受主义理论和因果决策理论一样不经济。

3.杰弗里1988年的概率主义解决方案

鉴于可接受主义的缺点，杰弗里又回到他1965年的立场，采用了概率主义。他写道：“一旦我们发现这里实际上是最终偏好起作用，那么如果纽科姆难题能够在两个层面上概率化，第一版（1965）决策逻辑中所提出的证据决策理论似乎是令人满意的。”[5]241

杰弗里认为他的概率主义既有可接受主义的优点，又避免了范·弗拉森的反例。杰弗里的论证过程比较复杂，因为篇幅所限，这里只给出杰弗里计算最终条件效用的公式：

如果cn（ai）>0，那么

此时决策者应当采用最大化最终条件效用原则：在给定的决策情形D中，决策者X1应当采用能够使最终条件效用最大化的可能行动。

在纽科姆问题上，杰弗里的概率主义给出了正确的解决方案。然而杰弗里计算最终条件效用的公式是不对的，因为它使用了最终置信度来评价可能行动。

4.杰弗里1996年的线性动态决策理论[6]3～19

1996年，杰弗里提出了第四个方案即线性动态决策理论来解决纽科姆难题。根据线性动态理论，杰弗里认为纽科姆难题根本就不是一个决策问题。

对此观点，詹姆士·M．乔伊斯[7]指出，杰弗里之所以认为纽科姆难题不是决策问题，因为处于纽科姆难题中的主体，拥有的关于他们的行动和世界关系之间关系的证据是如此之多，使得他们不能把选择当做是收益的原因，在这个意义上他们本身是没有自由选择的。然而杰弗里的推理是错误的，因为他没有认识到主体关于他的可供选择的信念，是与这些行动的原因密切相连的，以至于他可以制造证据，来权衡行动和世界状态之间的关系。

当然杰弗里不是唯一一个认为纽科姆难题不是决策问题的人。卡基尔[8]、伽登纳[9]、麦基[10]和施耐辛格[11]也得出了同样的结论。

麦基认为纽科姆问题不是一个决策问题的理由是：要求参与人在一次博弈中有一个真正的开放的选择，其中既没有作弊，也没有逆向因果，从而使得预言者成功的预言是顺理成章的这样的要求实际上根本无法得到满足。

施耐辛格的理由是没有人能够预测出自由决策。因为即使决策者非常倾向于拿走B2，即使预测者知道这些，决策者依然可以使用他意志的力量来抵制这种倾向，从而拿走两只盒子。

三、结语

杰弗里从1965年至1996年间，在纽科姆问题上的观点发生了很多转变，这种对自己理论进行反思的精神是非常值得敬佩的。对他的观点以及解决方案虽然可以有不同的立场，然而他的努力推动了决策逻辑的发展，这是不容忽视的事实。

［致谢］本文还得到了湖北大学高校文化资源服务社会专项研究课题（课题号：0b075060）资助，特此致谢！

[1]Nozick，R．Newcomb’s Problem and Two Principles of Choice[M]//N．Rescher，D．Davidson，C．G．Hempel．Essays in Honor of Carl G．Hempel．Dordrecht：Reidel，1969．

[2]张建军．逻辑悖论研究引论[M]．南京：南京大学出版社，2002．

[3]Jeffrey，R．C．The Logic of Decision[M]．New York：McGraw-Hill，1965．

[4]Jeffrey．R．C．The Logic of Decision（second edition）[M]．Chicago and London：The University of Chicago Press，1983．

[5]Jeffrey，R．C．How to Probabilize a Newcomb Problem[M]//J．H．Fetzer．Probability and Causality．Dordrecht：Reidel，1988．

[6]Jeffrey．R．C．Decision Kinematics[M]．K．J．Arrow，E．Colombatto，M．Perlman，C．Schmidt．The Rational Foundations of Economic Behaviour．Basingstoke：Macmillan，1996．

[7]James M．Joyce．Are newcomb problems really decisions?[J]．Synthes，2007，（156）．

[8]Cargile．J．Newcomb’s Paradox[J]．British Journal for the Philosophy of Science，1975，（26）．

[9]Gardner．M．Free Will Revisited，with a Mind-Bending Prediction Paradox by William Newcomb[J]．Scientific American，1973，（229）．

[10]Mackie．J．L．Newcomb’s Paradox and the Direction of Causation[J]．Canadian Journal of Philosophy，1977，（7）．

[11]Schlesinger．G．The Unpredictability of Free Choices[J]．British Journal forthe Philosophy of Science，1974，（25）．