非零和博弈——囚徒困境

今天上班划水的时候偶然看到一个“囚徒困境”的博弈问题,老夫在这里来记录一下。这个问题是这样的(以下描述和分析参考自维基百科):

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

  • 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
  • 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
  • 若二人都互相检举(互相“背叛”),则二人同样判监5年。

用表格概述如下:

甲沉默(合作) 甲认罪(背叛)
乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年
乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑5年

很显然,从单个人的角度来考虑,在对方合作的情况下,自己背叛是对自己最有利的选择;而如果要想使集体(在这里是甲和乙)的利益最大化,双方都应当保持沉默(合作)。这个例子就说明:个人的最佳选择并非是团体的最佳选择,换句话说:在一个群体中,个人做出的理性选择往往会导致集体的非理性。

乃可能会说:双方合作的话就好啦。假如甲和乙是互相信任的好友,那很容易达成共识。否则,在甲和乙不能沟通的情况下,或者不能互相信任的情况下,做出“合作”这个选择的风险是很高的,而比较“理性”的选择是背叛:

  • 如果我选择沉默,对方背叛了我,我将被判刑十年。而假如我选择背叛,对方也选择背叛,那么我将只会获刑五年,相比获刑十年收益较多。
  • 如果我选择背叛,对方选择合作,我就可以被立即释放(我方收益最高)。

如果这个博弈要进行多次(即双方服刑完毕后重复进行博弈),随着选择的不同会发生如下情况:

  • 如果至少有一方选择背叛,那下次博弈时双方最有可能互相不信任,双方都选择背叛,此时双方每次都服刑五年后重复做出相同的选择(在对方有背叛的前提下,选择合作的风险实在是太高了)。
  • 如果双方都选择合作,那下一轮可能会建立起互信关系,双方服刑半年。

假设博弈重复十次,在最后一轮中,要使自己的利益最大化,在已经合作了很多轮的情况下,选择背叛是一个收益相对较高的选择。即使自己不做出背叛的选择,考虑到对方有这种可能性,选择合作的风险较高(如果对方背叛自己会被判刑十年),若采用收益最高的原则,最后一轮应当选择背叛。在这种情况下,第九轮没有必要进行互信关系(继续倒推,第八轮也没有必要互信),这个选择并不成立。因此互信只有在双方不知道要进行多少轮博弈的情况下,发生的可能性才较大。

在现实生活中的很多群体行为中,由于人的基数太大,素质层次不齐,每个人的想法也不尽相同,一旦选择“背叛”虽然会使集体的利益受损,但是自己会有显著收益,往往可能导致相互“背叛”的情况发生。

比如“房价”的现象。现在考虑一个非常简单的模型,有 1000 个人要购房,房源有 1000 套。出售者为了使利益最大化,往往采取“惜售”、“限购”措施,这里假设每年只供应 100 套,因为供应远远小于需求,所以房屋价格会上涨很多,此时出售者获利更大。

假如要使这 1000 个人的利益最大化,最佳方案是每年选出 100 个人购房(即所有人采取某种方式“合作”),分十年满足所有人的需求,把需求量限定在 100 套,这样房价就不会偏离其实际价值太多(如果售价太高,大家都不买,出售者则会被迫降价),群体的总体支出最少。

但是现实情况往往是大家互相竞争,导致越到后面房价越高,自己的支出越多,早买的人还可以出售从而获取巨额利润。这样共同背叛的结果,是部分人虽然从中获利,但是群体的总支出更多,且会提高生活成本(物价上升),这种决策对集体而言是不利的(区别于零和博弈)。

在这种有很多人参与的情况下,即使大家都默契地选择了“合作”,但是一旦出现了少数“背叛者”的情况,由于收益太高破坏了大家的平衡心理,在下一轮博弈中(即后续的住房放出时),会有更多地人选择“背叛”而放弃“合作”。

老夫想到的另一个例子是“共产主义社会”。假如社会上的人都是尽职尽责地完成本职工作(合作),即可维持下去。相反,一旦有一些人“磨洋工”或者是“投机倒把”,这些人虽然会获取到高于“正常情况”的利益,但对于集体来说总体收益是下降的(降低生产力等)。

当然现实生活中,模型并不是上面这样简单,牵扯到的因素和导致的结果会非常复杂,往往不能用“合作”/“背叛”这种简单的方式进行决策,所以我觉得大家在大多数群体事件中选择彼此“合作”的可能性更小,相反很多时候都会做出对自己有利的决策。

✏️ 有任何想法?欢迎发邮件告诉老夫:daozhihun@outlook.com