囚徒困境
一天夜里,两名小偷被警察抓住,但两人都对罪行矢口否认。为了让他们认罪,警察把他们关在两个独立的牢房里分别审讯,并给他们设计了一个小陷阱:若两人都不认罪,由于证据不足,各判1年;若两人都认罪,各判3年;若一人认罪,而另一人不认罪,则认罪者因为立功而免予处罚,不认罪者入狱5年。在实验中可以看到,在没有提前沟通的情况下,为了维护自身利益,这两人都更倾向认罪而不是同守沉默,最终的结果是两人双双入狱3年,这就是博弈论中著名的囚徒困境。
甲/乙 | 认罪 | 不认罪 |
认罪 | 3/3 | 0/5 |
不认罪 | 5/0 | 1/1 |
按理说为了双方利益最大化,他们都应该选择沉默不认罪。但因为彼此不信任,面对整体利益和个人利益,他们都会优先追求个人利益。因为如果一人选择信任,而另一人选择背叛,那选择信任的人就损失惨重。
囚徒困境的例子在现实中不难见到,比如军备竞赛、环境保护、价格竞争等,合作还是背叛,这是一个艰难的抉择。以两国之间的军备竞赛为例,两国都面临着两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。若两国都不搞军备竞赛,把资源用于民生,两国人民的福利都会变好,但由于两国都无法肯定对方会遵守协议,因此两国最终都会倾向于增加军备。在美苏冷战中,我们可以清楚的看到这一点。
A国/B国 | 合作 | 背叛 |
合作 | 达成协议/达成协议 | 达成协议/增加军备 |
背叛 | 增加军备/达成协议 | 增加军备/增加军备 |
生活中的“囚徒困境”就更常见了,为了个人利益而不愿意合作,最后的结果往往是损人不利己。那么,该怎样摆脱囚徒困境呢?
上世纪50年代,美国的政治科学家罗伯特·阿克塞尔罗德探索了囚徒困境情景的扩展,他称之为“重复的囚徒困境”。罗伯特组织了一场计算机程序比赛,每位参赛者递交一个简单程序演绎囚徒困境,最后“以牙还牙”程序获得冠军。他发现在重复的囚徒困境中,博弈被反复地进行,这时一方背叛的动机可能被下一次博弈中对方的选择所威胁,也就是每个参与者都有机会去“惩罚”另一个参与者在前一回合中的不合作行为。这样,在长期利益的驱动下,交易双方选择信任的可能性也就增加了。
以生活中的买卖双方为例,在一次性博弈中,劣质产品总能给卖方带来巨额利润,但在重复博弈后,买家如果买到优质产品,下一次还会继续购买;而如果买家买到的是劣质品,他就不会继续购买这家的产品。这也就是,为什么旅游景区更容易宰客,而你家楼下的饭店却不会,因为景区的餐馆你只会去一次。
囚徒困境实验只是简单的模型,我们现实的社会往往比实验更加复杂,除了重复博弈,生活中人们也常常通过订立契约、设立惩罚机制、引入第三方、开展诚信教育等等方式促进人与人之间的合作。人不怕一次陷入囚徒困境,难的是要常常在博弈中做出选择,在这种情况下,只有保持均衡状态,遵守合作规则,才能为各自带来长久的利益。