来而不往非礼也<br/>——互惠行为及其进化机制

来而不往非礼也
——互惠行为及其进化机制

2021-10-16王薇薇

社科纵横 2021年4期

王薇薇

（辽宁师范大学心理学院辽宁大连 116029）

Nowak 和Sigmund（2005）在《自然》杂志上所发表的论文开篇即提出：“人类是互惠最忠实的拥护者”[1]。在人类社会早期，人们便懂得互惠合作有助于提高彼此生存和繁衍的概率（例如轮流狩猎和守家）；即使是文明程度远高于早期社会的当今，互惠现象仍普遍存在于你我之间：国外一项研究中发现，至少六成以上的人在博弈中做出了互惠决策[2]。由此可见，互惠早已根植于人类漫长进化的岁月之中[3]。然而，互惠关系既可以体现为共同体的合作及利益关系，也可以体现为一种包含着冲突的对抗关系，所以，对互惠产生及发展的研究可以减少人们在交往之间的冲突或矛盾，为人们之间进一步的合作等行为提供一种解释[4]。

一、进化视角下互惠的概念及分类

虽然目前国外对互惠已有大量的研究，但对于互惠的概念界定仍然并不统一。总的来说，大多数研究将互惠视为一种行为动机、个人偏好或行为倾向。例如，Trivers 认为互惠是一种善待友善的人，愿意牺牲自己的利益为其提供帮助的行为倾向[5]。也有学者将互惠视为一种规范或准则。例如，Gouldner 将互惠定义为 “构筑给予帮助和回报义务的道德规范”，这种规范是指各方在交换过程中一系列被大家所认可的准则，即一方为另一方提供帮助或给予其某种资源时，后者有义务回报给予过其帮助的人[6]。另外，Wu 等人认为互惠即一种交换的潜在机制，当一个人给予另一个人一些资源的同时就建立了一种义务，即后者在未来某时对前者回报价值相当的资源的义务[7]。此外，Carter从进化的视角看待互惠，认为互惠即合作的一种进化模式，是一种自发地合作或投资，并期待在未来得到对方的回馈的行为[8]。

在人类社会的进化过程中，根据回报预期来自对象的不同，可将互惠具体分为直接互惠和间接互惠。直接互惠是指个体愿意付出一定的成本，去帮助善待自己的人，或惩罚背叛自己的人[8]。直接互惠通常发生在两个个体之间，且个体所得回报来自于行为接受者[5]。“直接”意味着两个个体之间的利益交换，这样，两个个体都能获得净利益。如果将直接互惠形容为“投桃报李”，那么间接互惠则是“你投我桃，我报别人李”（如图1），助人者所得到的报答不是来自受助者，而是被其他助人者帮助的其他受助者[9]。具体而言，Nowak 和Sigmund 又将间接互惠分为受惠者会出于感激之情而对第三方个体做出互惠行为（A 帮助了B，B会继续帮助C）和个体由于帮助他人而在未来得到来自第三方的帮助的间接互惠（A 帮助了B，因此会得到C 的帮助）[1]。

图1 直接互惠与间接互惠

人类的各种行为及其心理机制正如自然界各种生物一样，由进化而来，在这个过程中所形成的心理和神经机制，正是我们之所以为“人”的核心所在。互惠的繁衍与进化正是在这样一种自然选择与进化的过程中不断遗传、演变的过程。物竞天择，进化产生于个体间的激烈竞争，自然选择往往倾向于强者与自私者，似乎这样的个体或基因更有利于自身的繁衍和生存。但是，人类社会中的很多情况都是围绕互惠合作的方式进行组织的[10]。例如，我国农村盛行的“帮工”与“还工”互惠劳动交换；儿童荡秋千游戏中也有“你推我一次，我推你一次”的互惠合作游戏体验。有研究在细菌、植物、鱼、鸟、鼠和灵长类动物中均发现存在互惠互利的合作模式[11-12]。自然选择如何促进互惠行为？随着进化心理学的兴起，关于互惠的研究具有了一个全新的视角。

进化心理学将达尔文的进化论方法运用于人性的理解，强调“自然选择”，其中心观点认为心灵是一种进化的、适应的器官，而不是一块白板，心灵由进化形成的各种先天倾向组成，如喜欢甜食的倾向、鉴别不同面孔的倾向、厌恶粪便的倾向等，这些先天的倾向都是由于种系进化而形成的[13]。大量的研究表明，个体的互惠倾向具有跨文化、跨种族及年龄的一致性，而且，人类早在婴儿时期便具有了一定的互惠行为。例如，Meristo 和Surian 在研究中采用期望违背范式，证明了10 个月大的婴儿便具有互惠的倾向，当婴儿看到慷慨的人得到奖励和表现自私的人反而得到更多资源两种情景后，其对后一种情景的注视时间明显较长[14]。以上对于婴儿互惠行为的相关研究证明，个体是由于某种生物基因促成了互惠的产生和发展，并且这种进化有可能并不是后天才习得的。

同时，神经系统由进化产生，有研究表明互惠本身已经在进化过程中影响并改变了人类的大脑结构。Moretto，Sellitto 和di Pellegrino 在研究中提出这一证据体现在人类大脑的腹内侧前额叶皮质（ventromedial prefrontal cortex，vmPFC）中[15]其在实验中设置了人类与同伴互动的信任游戏和与电脑互动的游戏，要求vmPFC 受损患者、非额叶受损病人和健康控制组被试分别完成上述两项任务，结果发现相较于其他两组被试，vmPFC 受损患者表现出更低的互惠行为。

依据进化心理学，通过自然选择的进化是复杂的神经回路和相应的心理机制产生和发展的动力源泉，由此可知心理机制的物质基础——神经回路的建立有着生存的目的。互惠的神经回路（或心理机制）被自然“选中”，在漫长的进化过程中改变了个体的动机和情感机制，内化为人的一种本性，具备这一机制的有机体有更大的生存机遇[16]。

关于互惠的概念，无论何种定义都涉及个体在博弈中的得失，即成本或收益。在进化生物学中，成本和收益是用达尔文的适应性来衡量的，“成功”便意味着进化与繁殖[1]。进化心理学视角下对互惠的研究，是在进化博弈论（Evolutionary Game Theory，EGT）的指导下，将人类的各种行为看作策略（即一种“基因”），看各种策略在进化压力下的表现，以及能否成功抵抗其他策略的“入侵”，能否成功“入侵”其他策略（稳定进化），或能否被自然选择（复制子动态）。虽然已有众多研究者提出互惠在进化上是稳定的，不会受到搭便车等策略的侵略，但是在各种类型互惠的演变中，其具体的演化过程和影响因素仍然是不明确的[17]。因此，文章在进化心理学视角下梳理直接互惠、间接互惠和强互惠的进化与发展，可以为我们更好地理解个体的互惠行为提供一个新的理论平台，能够为互惠行为的产生与发展提供更为有效、简洁的解释。

二、“投我以木桃，报之以琼瑶”——直接互惠

直接互惠模型（Models of Direct Reciprocity）假定，将一个群体中的个体两两随机进行配对，随机选取其中一个个体作为互惠者，另一个体作为受惠者，并且互惠者能够以足够的成本c 来帮助对方，使之得到收益b（b>c）。换句话说，直接互惠的产生需要基于相同的两个个体之间的重复社会交往：A 对B 的行为取决于B 先前对A 的行为[18]。

根据直接互惠关系中双方回报结构的不同，研究者常采用经典的重复囚徒博弈（prisoner’s dilemma，PD）来探究个体的直接互惠行为。在每轮博弈过程中，两个个体只有两种选择：合作或者背叛。博弈的结果及两人所得报酬将取决于双方不同的选择（如表1）：两人均选择合作报酬最大（R，R），两人均选择背叛则报酬最小（P，P），一人合作而另一人背叛则背叛者受益大于合作者。

表1 囚徒困境中参与者的收益矩阵

该博弈只存在一个纳什均衡，即两个参与者都选择背叛策略。然而进化博弈论认为，囚徒困境中的参与者所做的决策并不是因为理性的计算，而是行为策略的成功进化[1]，“双输”的结果基本不会出现在人类的真实博弈中。“以牙还牙” 策略（tit-for-tat，TFT），即在第一步选择合作，其后的每一步都跟随对方上一轮的选择为最优解；另一种更加严格的TFT 策略被称为触发策略（trigger strategies），指个体虽然会保持合作，但如果对方背叛一次，个体从此便会一直选择拒绝合作[19]。研究者指出，TFT 是人类互惠博弈中最为有效且成功演化的一种策略。例如，Axelrod 组织了一个人们通过计算机程序与同一个对手重复进行囚徒困境博弈的锦标赛，结果TFT 策略取得了最后的胜利，即使改变博弈的次数，该策略依然是一个进化稳定的策略[9]。

那么，TFT 策略是怎样成功进化的呢 Bó和Fréchette 假定在重复囚徒困境环境下的博弈中，随机配对两名个体进行博弈，并且下一回合发生的概率为ω（0≤ω≤1），ω 越大则表示下一轮博弈将发生的可能性越高。每一位参与者将考虑以下几种策略：1.总是背叛（ALLD），即每一步都选择背叛对方；2.TFT；3.总是合作（ALLC）；4.其他（如合作与背叛交替）。当且仅当ω 足够大时，TFT 是集体稳定的。从进化的视角看来，在所有的入侵策略中最大的威胁来自“总是背叛”和“合作与背叛交替”。具体而言，当且仅当ω≥（T-R）/（T-P）时，TFT不能被ALLD 侵入；当且仅当ω≥（T-R）/（R-S）时，TFT 不能被“合作与背叛交替”侵入。概括来说，当且仅当ω 大于（T-R）/（T-P）和（T-R）/（R-S）中的较大者时，TFT 不能被二者侵入，从而TFT 不能被其他任何策略侵入，符合被进化“自然选择”的模式，从而是一种稳定的行为策略[20]。相似的结论也在Rand、Ohtsuki 和Nowak 的研究中得到了证实。模型进一步假设，博弈的过程已经经历了多代人，每一代人都经历了一系列回合的交往，并且在每一回合中，每个人都同时处在两个角色中。其结果发现当选择互惠合作的个人成本增加时，互惠合作很难维持下去；而当帮助的收益增加，或下一轮发生概率增加时，产生合作或互惠则更容易[21]。总的来说，要使个体做出互惠的决策，需要帮助或合作的成本可以被未来互动的可能性所衡量的未来利益所抵消便可以实现，由此可知，直接互惠策略的进化受到了两个因素的制约：下一轮博弈发生的可能性以及个体本身的成本和收益情况。

首先，“下一轮发生的可能性” 是直接互惠的核心机制，也恰恰是其最大的局限所在——个体在直接互惠中做出合作行为的一个前提是需要知道这一段关系能维持多久[22]。关于互惠进化的相关理论研究证明，当个体未来与同一个体反复互动的机会足够高时，自然选择可以在双边互动中支持互惠的行为[5]，因为从长远来看，合作—互惠—合作是个体的真正利益所在。相似地，经济博弈相关理论研究表明，只要重复交往的机会足够高，理性的利己主义者便可以在短期的背叛动机和追求长期稳定利益中建立平衡。如果打破双方之间的互惠平衡是一种潜在的威胁，那么选择背叛虽然有短期效益，但还有长期的成本，因此，在双方的重复交往中，互惠合作是一种渐进的稳定进化结果[1]。

例如上文中提到儿童轮流荡秋千的例子，如果知道这是最后一次游戏，你还愿意去帮助另外一个小朋友吗？相似地，Sebastián -Enesco 和Warneken 在研究中制造虚拟的多轮次互惠情景分享实验，结果发现5 岁的儿童可以表现出互惠行为并且稳定地表现出TFT 策略[23]。正如中美贸易战争，对于两国未来持久、多方面深层次合作的影响，只有长期彼此合作才会使双方达到共赢的局面，而单方面破坏合作既是不明智的，也是不合理的。

此外，有研究者提出个体在博弈中的收益也是影响互惠进化的重要因素之一[24-26]。对直接利益的追求可能是个体互惠行为产生的一大动因，例如当你知道可能会获得1 万元的报酬时，就比在会获得10 元报酬的情况下更容易选择合作或帮助。同时，有研究者提出“双重动机”理论，认为个体在互惠行为过程中不仅要注重物质利益的最大化，同时也要追求非物质利益的最大化，具体而言可分为实际收益（物质财富的增加）和精神收益（精神上获得的满足）两种。

一方面，Vaish、Hepach 和Tomasello 认为这种精神收益可能来自“快乐”[27]，他们在实验中发现，3岁的儿童在做出给予等行为后便会报告出“快乐”的情感体验。由此可见“快乐”作为一种积极的情感体验，对于儿童而言也是一种自我精神收益，它可以在某种程度上抵消物质利益损失所带来的悲伤、愤怒等不良情绪，更容易促进个体的互惠行为[28]。另一方面，个体在互惠行为中所获得的另外一种精神收益是“感恩”：当一个人通过他人的良好意愿而获得利益时，他就会产生积极的情绪，并会心存感激地做出回应[29]。研究发现，感恩为个体带来的情绪体验比单纯的积极情绪（比如快乐）更能促进个体的互惠行为。例如，如果个体得知对方是有意识地做出互惠行为时，他们会报告出更多的感激体验，并同样表现出更多的互惠行为[30]。但是，也有研究者提出这种精神体验可能不完全是感恩，有可能是个体在收到馈赠之后所产生的一种 “负债感”，认为自己有义务偿还那些给予他们好处的人。

总之，只有相同的两个个体之间存在持续重复交往的可能性，并且个体对未来的收益足够重视时，双方直接互惠的关系才能维持下来。然而，在人类社会多边互动中，人们之间的合作关系往往是短暂的且并不知道下一轮合作还是否会存在，从而互惠在进化均衡中发展前景十分有限[31]，这一点似乎成了互惠进化发展的一道阻碍，因此接下来我们将讨论间接互惠情景。

三“洛阳亲友如相问，一片冰心在玉壶”——间接互惠

不同于直接互惠，虽然在间接互惠的模型（Models of Indirect Reciprocity）中每个个体可以参与多回合博弈，但是任意两个参与者只能重复进行一次博弈，因而直接互惠中“下一轮次”的威胁不复存在。互惠要想继续繁衍进化，就必须有替代的强化合作机制[32]。

在直接互惠中，由于个体本身的奖励或惩罚均来自对手，所以其合作机制被称为个体强化。而间接互惠中个体的奖惩来自群体内的其他成员，因而研究者将这种合作机制称为团体强化[33]。团体强化要想发挥作用，则必须存在一定的中间机制。因为在间接互惠过程中，其成功进化依赖于对方在前一（几）轮中的表现，个体良好的声誉或形象将有利于双方间接互惠的进行[34]。关于团体强化中间机制最具有代表性的两个模型是Nowak 和Sigmund 建立的基于“形象分”策略的间接互惠模型和Panchanathan 和Boyd 建立的基于 “声望”策略的间接互惠模型[35-36]。

（一）“形象分（Image-Score，IS）”中间机制

在最基本的形象分间接互惠模型中，每个个体都有一个形象分（good，G 或者bad，B），如果互惠者在博弈中选择帮助对方，他的形象分会变为G，否则为B。受惠者形象分不变[35]。从进化的角度来看，整个群体中共有合作者、背叛者和观察者三种类型，并且不同于直接互惠，个体在间接互惠过程中的策略除ALLC 和ALLD 以外，还有与形象分为G 的人合作（Disc）和与形象分为B 的人合作（pDisc）两种策略，当观察者做出判断后，其本身的形象分也会发生改变。由此，整个间接互惠的过程便形成了一种“规范”，正是这种规范定义了个体的形象评估系统，而形象评估反过来又会影响每个行为策略所获得的回报，进而影响它们在人群中的代表性[37]。

类似于直接互惠中的TFT，间接互惠中也存在这样一种策略：个体是否选择合作（帮助）取决于观察对方上一轮是否与别人合作（帮助）。Nowak和Sigmund 所提出的互惠进化动力理论认为，在间接互惠中没有观察者的情况下，背叛者胜出；在没有合作者的情况下，背叛者和观察者形成了一个双稳态系统，根据初始条件，要么一个策略胜出，要么另一个策略胜出；在没有背叛者的情况下，观察者和合作者处于平衡状态[1]。然而，当观察者的数量低于一定的阈值之后，这种平衡便会被打破，背叛策略将成功入侵。当三种策略都存在时，将导致两种结果：只存在背叛者或两种利他行为的混合。以上过程可以看作是一种基本的道德评价体系，在这种决策环境中，个体的“形象分”便是一个主导因素。

图2 互惠基本进化动力理论（Nowak & Sigmund，2005）

进化心理学家认为，间接互惠倾向的“基因”存在于不同的个体之中，这种倾向会直接影响个体的生理。因为个体很容易将生活中的事情按照“好”或者“坏”来进行分类，这种对社会交往的分类反映出了人类进化而来的间接互惠倾向[1]。可以说，在进化过程中，间接互惠倾向的发展是推动人类大脑发展不同于其他物种的显著特征之一。然而这种分类也存在一定的问题，比如个体的形象分数只能由历史回合中做出帮助行为的次数来决定，而不考虑其背后动机[32]。

（二）基于声誉（Reputation-based）的中间机制

基于声誉的间接互惠模型同上述“形象分”策略的间接互惠模型类似，但是在这一模型中，观察者在观察到背叛时，后者不加区分，而前者需要区分正当背叛或不正当背叛（如果个体在作为互惠者时选择不帮助好名声的受惠者，那么他自己的名声则会变为B，如果他不帮助坏名声的受惠者，那么他的名声则不变）。

关于自然选择如何促进间接互惠行为问题的一种解释可能是 “如果大家都知道我从不还他人李子，那我也将永远得不到一个桃子”，这便是基于“声誉”的间接互惠进化观点[1]。该理论认为，“声誉” 在间接互惠的建立和发展过程中具有十分重要的作用。具体而言，乐于互惠的个体会更受人欢迎，其行为也会有更多积极和正面的评价，从而建立良好的声誉。良好的声誉又可以帮助个体在未来的合作、分享等亲社会关系中获得长期利益，并且有助于个体在未来的博弈中被更多的施惠者所选择[38]。关于这一点，最早由Alexander 提出的“声望”互惠进化机制也证明了这一观点。他认为声望的建立可以为个体与他人的合作提供潜在的优势，个体产生间接互惠行为的动机不是个人利益的得失，而是害怕在群体中受到惩罚、排挤，降低自己的声誉或丧失身份[9]。相似地，声誉管理理论认为，个体在交往过程中会对自己及对方的声誉进行管理[39]，个体做出互惠的行为是希望在群体中获得“好名声”，从而在以后的交往中获益[40]。可见，互惠的进化有赖于人们对自身声誉的管理。总之，声誉作为强化互惠进化的一种中间机制，是调动个体间接互惠行为的杠杆[41]。

Leimar 和Hammerstein 使用计算机模拟发现，声誉策略比形象分策略更加具有进化稳定性。然而不同于形象分策略的是，在声誉策略中个体不仅要分析施惠者的名声，还要分析其意图。所以在这种环境下，个体需要基于对方的声誉来选择是否做出帮助行为，并且需要判断对手上回合行为背后的意图[42]。据此，有研究者提出了基于意图的互惠模型（intention-based models of reciprocity），认为在间接互惠中，意图是个体做出互惠判断的重要因素之一[43]。

自孩童时期开始，人类便十分善于将意图与行为联系起来。例如，3 岁儿童可以正确识别他人的意图，并且明显地偏爱好人的角色；到4 岁左右时，儿童就可以对彼此在博弈中的意图进行考量，即使是作为第三方观察者，儿童也愿意将更多的资源分给善意的角色[44-45]。研究者常采用最后通牒游戏（UG）探究意图对个体互惠行为的影响。在UG 中，随机分配被试儿童的任务角色（分配者/回应者），由分配者来决定如何分配主试所给予的资源，回应者则有权同意或者拒绝该分配方案。若回应者接受，则按提议分配资源；若回应者拒绝，则双方一无所得。研究者认为，接受者如果在UG 中选择拒绝往往不是因为分配的结果，而是因为对方分配行为的意图。比如，分配者在（4:0）和（3:1）的分配选择中选择了（3:1），以及在（2:2）和（3:1）中选择了（3:1），二者虽然对于接受者来说得到资源的数量是一样的，但前者出于善意而后者出于恶意。

尽管不同模型在细节上不完全相同，但在间接互惠前提的假设下，使得人们先前的行为可以被其他人观察到，如此便使得个体可以有选择地与另一个体进行互惠合作[46]。由此以往，非互惠者将处于不利地位，互惠则可以成功进化传播。因此，间接互惠作为多种形式合作相互作用的纽带，其对群体中其他成员的评价推动了间接互惠的成功进化，即使观察者只是在远处观察，并不直接参与互惠，也可以提供一种有力的中间强化机制来引导、支持那些选择互惠合作的人。

然而，正是由于声誉和信息在间接互惠模型中的重要性，所以，无论是基于“形象分”策略的间接互惠模型或是基于 “声望” 策略的间接互惠模型，与传统的直接互惠模型相比，都会受到信息不完全的影响：信息的不完全性越强，互惠与合作的均衡则越难维持和进化。另外，Santo 提出间接互惠模型忽略了个体在互动中的主动性策略，只强调了其本身的适应性驱动机制采用的策略，并且没有考虑个体出现的新行为模式[47]。因此，有学者将新行为策略出现的过程比喻为“基因环境中的生物突变”[48]。例如，当一个群体的成员从遵守社会规范中获益时，行为者可能会遵守该规范并惩罚违反者，即使这种行为不能由自私自利、以结果为导向的前提所激励，这种行为，我们称之为强互惠[49]。

四、“疾恶如仇雠，见善若饥渴”——强互惠

现代科学研究常常试图证明人之所以为“人”的特殊之处，高度发达的社会性便是其中一个显著的特征。虽然关于直接互惠模型的研究证明互惠的进化依赖于利益及未来合作可能性的大小，但人类互惠发展的同时也进化出了一种强大且有别于其他物种的规范实施手段——强互惠。强互惠模型（Strong Reciprocity Model，SRM）是指个体为服从集体更大的利益而进行合作，并不惜花费个人成本去惩罚那些违反规范的人[49]，其本质在于不考虑利益损失及未来的回报。强互惠的存在极大地增强了人类社会合作的稳定性。

关于强互惠的进化机制，不同学者提出了不同的看法。有学者提出强互惠在进化过程中最大的威胁来自利他主义（altruism）。有别于前者，后者中个体的行为是无条件发生的，即不受到对方之前行为的影响。这一特点仍然可以使用PD 来阐明：A，B 两个体如果都合作，双方的回报为（5，5）；如果都背叛则回报为（2，2）；如果A 合作而B 背叛双方回报为（0，7），反之则为（7，0）。在正常的互惠关系中，如果B 发现A 在上一轮博弈中背叛了自己，那本轮中B 也将毫不留情地选择背叛；然而如果B 是利他主义者，即使A 叛变了B 也不会因此背叛。因此，有研究者将利他行为等同于一种“无条件的仁慈”[50]，这种利他主义行为将威胁强互惠的成功进化。然而Fehr 认为强互惠与利他主义或亲缘选择理论所激发的动机无关[51]。Gintis 依据广义群体淘汰理论，提出人类强互惠的成功进化依赖于个体为维护群体利益而自愿做出的牺牲行为[52]。具体而言，在人类的进化环境中，群体都将面临灭绝的威胁（战争、饥荒、自然灾害等），此时，利他行为或间接互惠行为都无法维持群体内持续的合作以提升群体存活的概率，因为未来得到回报的可能性太渺茫。同时，亲缘选择理论在进化过程中也不适用，群体中的大多数可能并不存在亲缘关系。然而，如果群体中存在“惩罚背叛者”的角色，便可以使群体的利益平均化，从而群体间的淘汰压力上升，而群体内的淘汰压力减小。因此，拥有这样角色的群体更有可能在进化的威胁中生存下来。

另外，Johnson、Stopka 和Knights 认为，强互惠是人类在过去进化出的一种动机或机制，也是人类的大脑在漫长的进化过程中为了能够适应最新社会环境的一种自我进化[53]。例如，Fehr 等人通过正电子发射线断层扫描技术观察了强互惠行为的神经基础，结果发现在没有外部补偿的条件下，合作剩余促使合作得以维持的社会规范内部化，即人类在长期进化的过程中形成了一种自我激励机制，这种机制是由位于中脑系统的尾核来执行的，它使行为主体从强互惠行为本身获得某种满足，无须依赖外界的激励和补偿[51]。

总体而言, 进化心理学视角下的互惠理论模型大多基于如下两个前提：一是个体选择互惠必然是为了自身现在的付出能在未来的交换中得到回报，二是个体在未来可能获得的潜在回报大于现阶段所付出的代价。只有满足上述前提，互惠才能得到成功进化。

五、总结与展望

互惠在人类社会层面具有深厚而重大的意义，我国自古便有“来而不往非礼也”的说法。然而，互惠行为虽然可以为个体带来长期的回报，但常常也会伴随个体短期内的利益损失。正所谓“物竞天择，适者生存”，人类的各种行为及其心理机制正如自然界各种生物一样，由进化而来并且一直面临着各种“入侵”的威胁。互惠的繁衍与进化正是在这样一种自然选择与进化的过程中不断遗传、演变的过程，这也正是心理学家、经济学家和社会学家所关注的重点之一。众多研究者从动物或人的视角，采用观察实验、行为实验或是功能性磁共振成像技术，来尝试解决一个带有根本性的问题——在漫长而又残酷的进化进程中, 互惠是如何抵抗种种入侵，成功繁衍进化的？

我国古语云“滴水之恩，当涌泉相报”，国外也有“你抓我背，我搔你痒”的说法，这都体现出直接互惠可以为施惠者带来长期回报的特点。同时，直接互惠的进化又会受到个体的收益、下一轮交往发生的可能性等因素的影响，间接互惠的繁衍又依赖于形象分、声誉等中间机制的作用，为了抵抗群体在进化过程中的多种威胁，人类逐渐演化出“强互惠”机制，更加规范、巩固了互惠在进化中的稳定性。从进化视角探讨互惠为深入理解和研究个体的互惠行为提供了一个良好的平台，然而，如下几个问题仍然值得研究者在未来进一步关注：

首先，以往进化心理学视角下有关直接互惠的研究多将焦点集中于个体是否会获益（物质报酬、现金奖励等），并且到目前为止关于人类互惠的相关研究多集中于实验室研究，个体在博弈中所获的物质收益也是实验主试所提前准备好的，是一笔“ 意外收获”。正因如此，Danková 和Servátka 认为这种方式会引起个体的 “房产效应（house money effect）”[54]，并且他在研究中发现，如果个体在博弈中的成本是自己的“血汗钱”，那么其互惠行为的成本将大大增加。另外，在现实生活中，互惠行为所带给个体的收益不仅包括物质奖励，还有合作后的满足、助人后的愉悦等[27]，那么，在互惠的进化过程中物质与精神收益对个体行为的影响是否始终一致？身处战乱、食不果腹的年代，互惠的进化是否具有更大的压力？相反，物质生活丰富的当今，一句赞美或夸奖是否可能替代互惠结果中的现金奖励？我们所说的人类“长期繁衍进化过程”，不仅仅是一个生物意义上的进化，还是一种在社会意义上的进化。人类在外在的约束条件下的选择和行为会影响人类的生理，这种影响的机理是什么，仍需科学工作者在未来做出进一步的科学解释，这也正是跨学科研究人类行为的意义所在。据以上猜想，未来的研究可纳入收益特点、社会变迁等因素来考察现实情境中的互惠行为。

其次，间接互惠中形象分策略和声誉策略需要建立在信息已知的前提下，并且，这两种声誉机制都是个体在博弈过程中逐渐获得的，可谓一种后天的特征，但是在实际生活中，某个个体的行为（或者后天特征）不可能被所有人观察到。所以有学者提出，这一前提在大多数情况下是不成立的[32]。那么，个体的某些先天特征是否会影响其间接互惠策略呢？据此，有研究者将个体本身具有的某种属性定义为标签（tag），并且标签会随着互惠博弈的进行而发生变化。例如，Zhao、Eamonn 和Smillie在研究中强调了友善、诚实等人格特质对个体互惠行为的影响作用[55]，那么，具有诚实品格的个体是否更加渴望被人尊重？他们是否更加看重互惠行为对其声誉所产生的影响？这一问题值得未来进一步的研究。

最后，虽然互惠规范本身具有跨文化的一致性的特点[6]，但是Jung 等人认为，个体对于互惠规范的理解和应用可能存在文化差异，不同的社会价值观会导致个体不同的互惠期望[3]。例如，中国文化认为在人际交往中要注重谦卑、和谐，儿童便会受到其父母“和谐礼让”教育观念的影响，而西方儿童则更为注重对自身利益的维护。相似地，Zefferman 提出了规范心理学假说，他认为个体行为的策略反映了其社会学习的文化规范[56]。这正是因为在人类进化史的过程中，文化规范是各不相同的，因此通过基因—文化共同进化的过程，人类进化出了采用特定社会中成功策略的机制。现有的研究往往集中于同一群体或种族的互惠行为，跨文化的互惠研究相对较少。因此，在未来的研究中应注重比较不同文化背景下互惠的发生发展差异，并考虑针对不同文化背景、社会关系的群体进行考察，从而了解不同文化背景所带来的偏差对互惠进化所产生的影响。