故事中的博弈论
第一节 理性与策略
1. 1. 1 《三国演义》中的博弈论
谈及“博弈”,人们会很自然地联想起“策略”、“计谋”,而想到“计谋”,又会进一步联想到诸葛亮。是的,在《三国演义》中的确有许多运用“计谋”和“策略”的例子。譬如,在华容道的故事中,曹操在赤壁大战中惨败,带着败兵寻路回他的大本营许昌。诸葛亮首先安排赵子龙带着一队人马去一个路口堵截曹操,然后估计赵子龙还抓不到曹操,又接着派张飞带着一队人马去下一个路口逮曹操。他当时没有给关羽安排任务,是关羽主动请战,要求诸葛亮派他去第三个路口抓曹操。
关羽要去的地方与赵子龙和张飞去的地方不一样。关羽要去的地方是一个三岔路口,曹操到这里可能有两条路可以逃窜,一是沿小路华容道走,另外还有一条大路。关羽当时只有500人的校刀手,关键的问题是关羽本人只有一个。如果关羽去堵截曹操的时候兵分两路,而曹操走的路线又没有关羽在场,是不可能逮着曹操的。于是,关羽就问诸葛亮该怎么办。
诸葛亮告诉关云长,他只需要把所有兵马埋伏在小路华容道旁,并且在华容道上焚烧一堆干草,使得冒出来的烟雾一定能让曹操看见。关羽接招并去了华容道,并且按照诸葛亮的计谋排兵布阵,在华容道上烧起一堆干草,冒出滚滚浓烟。
果真,曹操冲破了赵子龙和张飞的防线后,经过长途奔波来到了华容道。曹操看见大路上非常寂静,而小路华容道却冒出了一股青烟。曹操笑了,就问他手下的将军们,是走小路华容道呢还是走大路。曹操的将军们异口同声地回答说走大路。
曹操大笑,说将军们都是草包,因为诸葛亮料到他们看见华容道有青烟一定会避开它而选择走 大路,而诸葛亮就会在大路上埋伏大军,叫人去小路华容道上烧上一堆干草,引诱曹操的兵马 走大路而一网打尽。
曹操说他曹操曹孟德能够识破诸葛亮的诡计,于是就下令大军走华容道,哪知道诸葛亮也知道 曹操会这么想,他早派关羽在华容道等着他们了。要不是关羽念旧,放走曹操,三国演义就该 另写了!
其实,在这个故事中,诸葛亮的计谋运用还不仅仅在这里。 真正要放走曹操的是诸葛亮!在早年刘备“三顾茅庐”中,诸葛亮在“隆中对”里就提出了“ 三足鼎立”的战略思想。所以,曹操在赤壁大战中败于江东,诸葛亮最要紧的事情莫过于将曹 操安全地送回许昌,让魏蜀吴继续“三足鼎立”!如果曹操有什么不测,北方的一极倒掉,接 着的事情就一定是刘备与孙权逐鹿中原,而当时在孙刘的力量对比中,刘备一方相当弱势,力 量对比悬殊。刚刚取得赤壁大战胜利的江东牛气冲天,拿下区区小本经营的刘备简直是小菜一 碟!
因此,江东在赤壁取得决定性胜利一下子就将刘备和诸葛亮置于非常危险的境地,而这时候的 诸葛亮最要紧的事情就是把曹操保护好并送回他的老巢许昌。但是,因为当时还是孙刘联盟, 诸葛亮还需要继续维持孙刘联盟以获得时间发展壮大,所以,诸葛亮这时候既需要将曹操安全 地送回许昌,又要瞒住孙权、周瑜等。如果让赵子龙或者张飞或者任何只要不是关云长的什么 人去守华容道,都可以逮住已经失去战斗力的曹操,而在刚刚离开赤壁战场的头两个路口,曹 操大军新败,还具有战斗力,赵子龙和张翼德等任何人都抓不到曹操。所以,诸葛亮迫不及待 地将赵子龙和张飞派往头两个路口,而将与曹操有交情的关云长留下来,就意味着诸葛亮自己 要放走曹操!因为如果关羽不请战,就没有人去守华容道,曹操就会顺利冲破赵子龙和张飞的 防线,然后回到许昌。如果关羽要去守华容道,他料到义重如山的关羽会放走曹操,就让他放 走好了。诸葛亮这样的安排既可以放走曹操,同时还瞒住了孙权、周瑜,又可以洗刷经常不服 自己权威的关羽,在他的“档案”上记上一笔“放走敌酋”!
诸葛亮在华容道中的施计真是“一箭三雕”!
诸葛亮要是真要抓住曹操,只需要派赵子龙或者张飞中的任何一个人去华容道,就可以击败并 逮住长途奔波、筋疲力尽的魏军,并且逮住曹操。他没有这样做,就意味着放走曹操就是他自 己的安排,而这又符合他“三足鼎立”的战略思想。
1. 1. 2 博弈是互动性的决策
谈到“博弈”,一般人容易联想到对抗、冲突中的策略或者阴谋诡计等;其实,博弈尽管与策 略密切相关,但博弈并不等于策略运用,它的内涵比起一般意义上的策略来说要小一些。博弈 也不一定意味着是对抗或者阴谋诡计,博弈可以是合作的、双赢的,是阳谋而不一定是阴谋。
当然,博弈一定是与策略联系在一起的。可以将“博弈论”定义为“互动性的策略运用”。
博弈论诞生于第二次世界大战早期的大西洋海战。在第二次世界大战早期,美国还没有正式参 战,为了支持英国对抗纳粹德国,美国根据《租借法案》通过大西洋向战争中的英国运送军需 物资,而纳粹德国则用潜水艇攻击美国的商船。这样,没有正式交战的美国与纳粹德国就在大 西洋上玩起了“猫捉老鼠”的游戏。当时兰德公司为美国海军提供了包括著名数学家冯 · 诺依 曼在内的科研团队,研究如何对付纳粹德国的潜水艇攻击。在被称为“外星人”的天才科学家 冯 · 诺依曼的领导下,这个科学小组发明了“博弈论”这种数学方法。
当“珍珠港事件”爆发后,美国正式参战,于是,与纳粹德国的“猫捉老鼠”游戏就结束了。 回到普林斯顿大学后的冯 · 诺依曼,与经济学家摩根斯坦合作出版了《博弈论与经济行为》 。该书于1944年正式出版,标志着博弈论这门新的学科诞生了。
博弈论的英文是“Game Theory”,有些人也直译为“游戏理论”。显然,这样的翻译容易误 导读者。不仅仅是翻译的问题,就是英文本身,也曾经导致了严重的误导,甚至让博弈论的先 驱之一海萨尼在澳大利亚找不到工作。将Game Theory翻译成“博弈论”是非常恰当的。据《 辞海》(夏征农,1999)所言,“博”有多种含义,通常所表达的含义是“大”、“广”、“ 通”,如“博学多闻”、“博古通今”;除此之外,还有“众多”、“丰实”之意;作为动词 ,其意为“换取、取得”,如“以博欢心,聊博一笑”等;但在古文中,“博”的本意又指“ 局戏”,即用六根筷子和十二个棋子进行赌输赢的一种游戏,谓之“六箸十二棋”。《论语 · 阳货》中有“不有博弈者乎”,其中“博”乃指“六箸十二棋”。于是,“博”作为动词还隐 含有“下棋”的意思。又据《辞海》本意,“弈”即“围棋”,所以,仅从字面上看,“博弈 ”即“下围棋”之意。在英文里,“博弈”的对应用词是“game”。据《英汉辞海》(王同亿 ,1982),“game”有“娱乐或消遣”之意,也有“为达到一种目的所用的方法或策略”和“ 比赛,按规则进行的体力或智力竞赛”甚至“赌博”的含义。其中,“为达到一种目的所用的 方法或策略”之意已经十分接近我们在“博弈论”中所使用的“博弈”二字的含义了。现在, 我们使用词汇“博弈”或“game”早已不仅限于“下围棋”或“娱乐游戏”了,包括“下棋” 、“玩牌”和其他许多智力游戏在内的对抗性游戏都可用“博弈”或“game”来指称(体力竞 赛一般不用“博弈”指称)。如果仅从字面上狭义理解,“博弈论”就是研究“下围棋”的理 论;从较广义的含义上看,“博弈论”似乎指研究“包括下棋、玩牌在内的智力游戏”的理论 ,但实际上,我们现在使用“博弈”一词是在这样一种十分广泛的意义上加以理解的,即“博 弈”是指“运用策略的各主体之间所进行的策略互动过程”。这种定义既包括了“下棋、玩牌 ”在内的所有智力游戏,又包括了许多其他没有输赢的活动或过程,包括经济行为和军事对抗 中的计谋或者策略活动。
在下棋过程中,一个最重要的特点是棋手在进行决策的时候,一定要考虑或者预测对方的决策 ;在高手那里,还可能预测对方是如何预测自己的决策,还可能预测对方预测自己预测对方的 决策,还可能……棋手的水平很可能就取决于这种能够反复预测的能力,直到因为计算能力的 局限而将脑子搅晕为止。
这就是所谓的“互动性决策”,一方的决策依赖于另外一方的决策,反之亦然。
说到这里,或许读者已经有些晕了。博弈论就是研究这样的看起来有些让人晕头转向的问题的学问。
当然,计算机可以无休止地进行计算,不会疲劳;这样看来,如果计算机与人下棋,计算机是 占有优势的。但是,由IBM公司开发的超级计算机“深蓝”曾与国际象棋大师卡斯帕罗夫对弈 多次,也曾经多次败给了卡斯帕罗夫。这是怎么回事呢?难道卡斯帕罗夫的计算能力比深蓝计 算机还厉害吗?不是的。具有每秒上亿次运算能力的深蓝,不可能在计算上输给卡斯帕罗夫。 那么,卡斯帕罗夫是凭什么战胜深蓝的呢?难道仅仅是凭运气吗?可能许多人都这样认为。然 而,我们可以说卡斯帕罗夫赢深蓝不完全是凭运气。作为人类一员的卡斯帕罗夫,在计算能力 不可及的情况下,是凭直觉进行判断的。人类与机器人不同的地方,就是人类拥有机器人不具 有的直觉能力。现在的问题是,人类的直觉怎么能够保证可以做出正确的判断呢?这是因为, 人类是经过亿万年进化而来的,在漫长的进化过程中,人类产生了能够帮助人类做出正确判断 的进化本能,这就是直觉,这是机器人难以企及的,至少在可以预见的未来是机器人难以具备 的能力。
这样看来,人类在进行决策的时候,是凭借两种不同的能力进行预测和判断的,一是通过分析 和计算,再就是凭借直觉。其实,心理学家认为,人们在大多数情形下,或者在进行重大或者 复杂的决策时,一般都是凭借直觉完成的。
经济学家通常将人类的行为假定为是由追逐个人利益最大化的目标所驱动的,这种假设被称为 “理性人假设”。具体来说,所谓理性人假设就是说人的行为是通过收集信息,通过计算和分 析,由最大化个人的效用所驱动的。收集信息,通过计算和分析最大化个人的效用,这样的行 为被称为“理性行为”。
直觉也能够使得人类做出正确的决策,也就是说,直觉也会与理性一样,帮助人们做出正确的 决策吗?是的,直觉依靠人类进化而产生,是经过自然选择而获得的,决策也就是对方案的选 择,无论是理性选择,还是自然选择,都有一个共同点——就是“方案”选择。在这一点上, 博弈论与生物进化建立起了联系,而20世纪70年代的进化生物学家,就通过将博弈论方法应用 于进化生物学,发明了“进化博弈论”这样一个领域。
博弈论是最近40年来在经济学中运用得最广泛和最深刻的分析工具之一。甚至博弈论已经超越 了经济分析的范围,深入到政治学、法律、社会学、历史与文化等领域。所以,诺贝尔经济学 奖得主保罗·萨缪尔森写道:如果你要成为一个学识渊博的人,那你就一定要学点博弈论。
1. 1. 3 一个博弈论实验:因人而异的理性程度
我们通过下面一个实验可以观察到人们是怎样凭借这两种不同的方式进行预测和判断的。
实验的具体设计是:邀请十名志愿者,让他们每人在一张字条上写下0~100(包括0和100在内 )中的某个整数,同时交出1元钱;写的数最接近所有人写的数的平均值的一半的人可赢得其 他人的钱。如果有多名实验者同时成为获胜者,则10元奖金在他们之间平分。
这个实验会告诉你,每个人的理性程度是不一样的,甚至有些人是非理性的。这或许就说明人 们在进行决策的时候,总是在理性和直觉之间摇摆。非理性也许与直觉有关,而直觉也不一定 总是保证可以做出正确的决策。决策正确与否取决于许许多多的因素,仅有理性和直觉不可能 保证决策是正确的,但人们在进行决策的时候,只有通过这两种方式做出决策。
我们还可以通过前面讲过的《三国演义》中的华容道故事来说明人们在理性程度上的差别。
曹操败于赤壁,带着残兵败将试图逃回他的大本营许昌。在华容道附近,曹操面临一个决策, 即是走道路崎岖的华容道,还是走大路。当时,曹操和他的将军们看见华容道上有一股浓烟升 起,而大路上却是静悄悄的。这时候,曹操就问他的将军们,应该走哪一条路。将军们几乎异 口同声地回答说要走大路,而曹操听后抚掌大笑,说将军们上了诸葛亮的当了。曹操说,诸葛 亮知道曹操的将军们会以为华容道上冒烟是有人在那里埋伏着,而大路上安安静静会是很安全 的。于是诸葛亮就会利用这一点,让人在华容道上烧上一堆草,让它冒出浓烟,误导曹操的将 军们以为华容道上埋伏着大军,而选择走大路,从而走入诸葛亮真正埋伏着大军的圈套里。曹 操说他猜出了诸葛亮的这个诡计,于是他命令军马走华容道。曹操哪里知道,诸葛亮也猜出了 曹操会这么想,于是真正埋伏着大军(关羽的军马)的是华容道!要不是关羽将曹操放走了, 有关曹操的故事在华容道就该结束了。
在这里,我们遇到了不同的人具有不同理性程度的问题。曹操的将军们只知道冒烟的华容道有 人,而静悄悄的大路没有人,但是没有想到诸葛亮会利用他们的这种想法施计;在这里,我们 说曹操的将军们具有“一阶理性”,而诸葛亮具有“二阶理性”;诸葛亮知道曹操的将军们知 道的事情,理性程度要高一些。但是,曹操知道诸葛亮知道曹操的将军们知道的事,曹操就具 有“三阶理性”,但诸葛亮又知道曹操知道诸葛亮知道曹操的将军们知道的事,诸葛亮就还具 有“四阶理性”!
在前面的实验中,我们会发现不同人的确具有不同程度的理性。心理学无法解释为什么人们具 有不同程度的理性,我们只能将它作为一个事实来接受。
一般来说,如果参与人是追求效用最大化的,就称参与人具有“一阶理性”;如果参与人不仅 追求自己的效用最大化,而且还知道别人也追求效用最大化,则称参与人具有“二阶理性”; 如果参与人不仅追求自己的效用最大化,还知道别人也追求效用最大化,而且还知道别人知道 自己知道别人也追求效用最大化,则称参与人具有“三阶理性”;……如果参与人不仅追求自 己的效用最大化,还知道别人知道自己知道别人知道……我们将这样无限循环的“知道……知 道……”简化为“理性是共同知识”。
博弈论在这里就出现了一个分水岭,假定博弈的参与人具有所需要的任何阶数理性程度的博弈 论,被划分为“经典博弈论”,而考虑到人们的理性程度存在局限,甚至考虑到人们存在非理 性的博弈论,被称为“行为博弈论”,目前后者是博弈论研究的一个前沿领域。
我们首先要介绍的是经典博弈论的内容。
我们可以说,博弈与决策之间的联系和区别看起来很微小,但结果却存在很明显的差别。譬如 ,皇帝找老婆是一个决策问题,他可以选择谁就是谁。但是,咱们普通老百姓找老婆就是博弈 ,是互动性的决策,是必须要考虑到对方的要求的决策问题。还有,如果考虑国庆节去哪里旅 游,就决策来看,九寨沟是最值得去的地方,因为深秋的九寨沟异常美丽,五颜六色的秋叶倒 映在湖水里,犹如仙境一般;但是,如果想到大家都会这样想,去九寨沟的人就太多了,人山 人海的九寨沟,并不是一个好的旅游景区选择。所以,就决策来看,要去九寨沟是决策结果, 但是,就博弈来看,互动决策的结果就是不去九寨沟。结果正好相反!
1. 1. 4 不是博弈论的故事
一些教科书误将不是博弈论的故事演绎成博弈论;譬如,中国古典故事《田忌赛马》,还有《 圣经》里的所罗门王的故事。
据《韩非子》所述,战国时孙武的后代孙膑因受同窗庞涓的迫害致残而远走他乡,最后流落到 齐国名将田忌帐下作谋士。一日孙膑见田忌闷闷不乐,便问田忌有何不快之事。田忌告诉孙膑 ,近来齐威王(齐国国王)常要他与其赛马,赛马规则是每次双方各出三匹马,一对一比赛三 场,每一场的输方要赔一千斤铜给赢方。齐威王的三匹马和田忌的三匹马按实力都可分为上、 中、下三等,而齐威王的上、中、下三匹马都分别比田忌的上、中、下三匹马略胜一筹,因此 田忌每次都是连输三场,要输掉三千斤铜。孙膑闻得此事,心中开始筹划如何为田忌献计赢得 赛马。结果,经调查研究发现,田忌的上马虽不如齐威王的上马,却比齐威王的中马和下马都 要好,同样,田忌的中马则比齐威王的下马要好一些。于是,孙膑为田忌出奇计:先用田忌的 下马对抗齐威王的上马,再用田忌的上马对抗齐威王的中马,最后才用田忌的中马对抗齐威王 的下马。这样,田忌可以以输掉第一场作为代价而赢得后两场比赛,每次比赛可净赢齐威王一 千斤铜。这个故事告诉我们,在实际生活中处于绝对劣势的一方有可能依靠计谋而战胜强者。 但是,在这个故事中,我们实际上假设了齐威王是个“傻子”——齐威王凭什么要用自己的上 马对田忌的下马呢!当田忌出下马时,齐威王完全可以出下马取胜,当田忌出上马时,齐威王 出上马可胜,当田忌出中马时,齐威王可出中马胜之;但反过来,当齐威王出下马时,田忌又 可换出中马取胜,当齐威王出上马时,田忌可出下马输一场,然后当齐威王出中马时,田忌再 出上马赢得最后一场,从而净赢一场;但又反过来,若田忌开始换出中马,齐威王则可换出中 马……我们看到,在一开始,田忌是个“傻子”,他的理性程度稍逊于齐威王,故而傻乎乎地 用自己的上马对齐威王的上马、用自己的中马对齐威王的中马、用自己的下马对齐威王的下马 。然后,经孙膑点拨后,田忌的理性程度提高了,但这时齐威王又成了“傻子”,其理性程度 反过来逊于田忌(和孙膑),因为他居然在拥有绝对优势的条件下输掉一千斤铜——他居然愚 蠢地用自己的上马对田忌的下马、用自己的中马对田忌的上马、用自己的下马对田忌的中马。 在《田忌赛马》的故事中,开始田忌居然不是理性的;因为在给定齐威王的出马顺序下他未能 最优地设计自己的出马顺序(给定齐威王的出马顺序为上、中、下,田忌的最优出马顺序为下 、上、中,但田忌居然按上、中、下顺序派出赛马)。反过来,给定田忌的出马顺序为上、中 、下,齐威王按上、中、下出马是最优的,所以齐威王是理性的。尽管如此,博弈论并不假设 不同的局中人具有不同的理性程度。当我们假定齐威王比孙膑和田忌“蠢”时,齐威王输给孙 膑与田忌是理所当然的。博弈论要研究的是在局中人的理性程度完全相同的条件下,局中人如 何在策略选择下达到某种均衡。所以,《田忌赛马》说的只是“决策”(并且假定了对方是“ 傻子”的前提),而不是“博弈”。
另外,《圣经》中关于所罗门王超人智慧的一个故事其实也并非没有瑕疵。这个故事说的是, 有两个女人跑到所罗门王面前,争着说自己是一个小孩的母亲。所罗门王叫道:“拿剑来。” 于是左右将剑带上来。所罗门王说道:“将小孩劈为两段,将一段交给其中一个女人,另一段 交给另一个女人。”其中一个女人立即跪倒在所罗门王面前,哭着叫道:“不,大王,不要杀 死小孩,将他交给她吧,我不是小孩的母亲。”但另一个女人却叫道:“你我都不要这小孩了,把他劈成两段吧!”
然后,所罗门王说道:“把小孩给她(第一个女人),不要杀死他了,她是孩子真正的母亲。”
在这个故事中,第二个女人犯了一个策略性的错误。她应该给出与第一个女人相同的回答,否 则也就直接暴露了自己的类型。小孩的真正母亲不会同意杀死小孩。但是,所罗门王也是幸运 的,因为他的计谋产生了效果,但他的成功仅仅是由于第二个女人犯了错误。因此,人们可以 认为所罗门王在策略设计上只能得一个“不及格”的分数,人们敬畏所罗门王只是由于他是幸 运的,并非由于他的智慧。如果假定两个女人的理性程度是一样的,所罗门王的设计就会铸成 大错——将孩子砍为两段。所以,这个故事也是在假定一个女人是非理性的情况下的“决策” ,而不是“博弈”。
第二节 故事中的博弈论
1. 2. 1 战争中的策略性行为:俾斯麦海战
在1943年第二次世界大战期间的一场海战中,美军与日本海军之间进行过一场著名的博弈。这 个博弈被称为俾斯麦海战(Battle of the Bismarck Sea),这个名称是由于太平洋西南部的 海水把俾斯麦群岛与新几内亚岛分离开来。
在1943年,一名日本海军舰队司令木村接受命令把部队运送到新几内亚,并且同时为给新几内 亚运送给养的船队护航。日本人面临的选择是走多雨的北部航线还是走阳光明媚的南部航线 美国空军知道日军护卫舰将起航,他们打算随后去轰炸日军护卫舰,但是他们不知道日本人将 走哪条线路。美国指挥官肯尼不得不派遣侦察机去侦察日本军舰,但是他们拥有的侦察机数量 只能保证在同一个时间去侦察其中的一条路线,并且飞行完整个航线需要一整天。
历史的真实情况是这样的:日本军舰走的是北部航线,美国的侦察机也是在那里搜索的,并且 在两天的轰炸里使日本军舰遭受了重创。
为什么美国人能够准确预测日本舰队所走的路线?这一次可不是像中途岛之战那样,是通过破 译日本人的无线电通讯密码来获悉日本人的动向的,而很可能是通过下面的博弈分析得来的。
航行时间总共有三天。如果日本护卫舰的航行路线碰巧是美军首先去侦察的,美军就可以直接 派遣其轰炸机去进行轰炸;如果不是,美军就会失去一天的轰炸机会。另外,北部航线上糟糕 的天气,使得美军在三天中的一天时间里进行轰炸很有可能由于能见度太低而没有什么效果。 这样,如果美军侦察的是北部航线并立刻发现了日本军舰,美军就有两天的时间进行高效率的 轰炸。
同时,如果美军去侦察北部航线但发现日本军舰走了南部航线,美国也有两天的时间进行高效 率轰炸。如果美国首先侦察的是南部航线并发现了日本军舰,他们可以有三天的时间来进行轰 炸。但如果此时美军发现日本军舰走的是北部航线,那么美军就只有一天的时间来完成轰炸。
由于日本人不得不在没有美军会首先侦察哪条线路的信息情况下选择他们的行进路线,而美军 也不得不在没有日本人会走哪条航线的信息情况下选择自己最初的侦察方向,这个博弈就是双 方都不知道对方的决策情况下独立进行的博弈(称为静态博弈)。预期的轰炸天数与双方的具 体选择有关,我们将其描述在表1—1中。
表1—1描述的是一个“标准”的“策略式博弈”。一些术语解释如下:
表1—1叫做策略式博弈的“支付矩阵”。参与博弈的一方“美国空军(肯尼)”和另一方“日 本海军(木村)”叫做“参与人”或者“局中人”(player)。
参与人可以选择的行动“北部航线”和“南部航线”叫做参与人的“策略”,而一个参与人所 有策略构成的集合叫做参与人的“策略空间”。
矩阵里面的数字叫做参与人的“支付”(payoff),每一个空格里面左边的数字是左端参与人 [美国空军(肯尼)]的支付,右边的数字是右端参与人[日本海军(木村)]的支付。支付 是所有参与人选定策略后,参与人所获得的博弈收获或者蒙受的损失(一般当支付为负数的时 候)。
现在我们来预测这个博弈的结果或“解”。如果日本人走了北部航线,美军选择侦察北部航线 是最优的(这样有两天而不是一天的轰炸时间),但如果日本人走了南部航线,美军选择侦察 南部航线就是最优的。此时,我们看不出美国人将选择什么策略。
但是日本人有最好的策略。如果美国人选择了侦察北部,则无论日本人选择哪条路线都没有关 系。(如果日本人选择北部航线,就会立刻被发现,但是三天中有一天会是坏天气,他们会有 两天遭到轰炸;如果日本人选择南部航线,则美国人浪费了一天的时间在错误的地方去寻找他 们,但随后有两天的时间在晴朗的好天气中进行轰炸)。如果美国人选择向南,日本人走北部 航线将是最优的。所以北部航线是日本人的最佳策略。也就是说,无论美军沿哪条航线进行侦 察,日本人选择走北部航线都是最优的。
一般来说,如果无论其他参与人选择什么样的策略,参与人的某个策略对于他都是最优的,我 们称这样的策略是参与人的“占优策略”(dominate strategy)。显然,参与人的理性选择一 定是“占优策略”。这是理性人假设的直接推论。
相反,南部航线对于日本人来说是“劣”的策略,相对于北部航线来说是“劣”的策略,称为 “劣策略”(dominated strategy)。理性参与人一定不会选择劣策略。
现在这个博弈中日本人的选择是清楚的:他们将会选择走北部航线。美国人在做决策的时候就 可以把这一点考虑进去。美国人在预料到日本人将走北部航线的情况下,做出他们自己的最优 策略。这就意味着美国将派遣他们的侦察机到北部航线去,这个博弈的可预测结果出现在这个 博弈表格左上方的单元格里。双方都选择北部航线,美国就赢得了两天的轰炸时间(总共只有 三天时间)。
这里,美国人可以预测或者猜出日本人将走的路线,而即使日本人也猜到美国人将猜出日本人 将走的路线,即日本人知道美国人知道日本人将走的路线,日本人也没有办法改善自己的处境 ,因为根据表1—1,我们知道,即使日本人故意改走南部航线,在给定美国人走北部航线的情 况下,日本人也同样会遭受两天的轰炸。
1. 2. 2 “囚徒困境”博弈
博弈论专家、美国普林斯顿大学的塔克教授曾经杜撰了一个故事,即所谓的“囚徒困境”。
早在20世纪40年代,普林斯顿大学的塔克教授为我们讲了这样一个故事:有两个小偷A和B联手 作案,私闯民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪 嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿, 两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪 嫌疑人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者 因有功而被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足而不能判两人的偷窃罪 ,但可以以私闯民宅的罪名将两人各判入狱1年。表1—2给出了这个博弈的支付矩阵。
我们下面来预测A和B的策略选择。显然,两个小偷都有一个这样的策略——选择“坦白”是在 无论别人做什么样的选择情况下都是最优的——占优策略。所以博弈的结果是(坦白,坦白) 。我们看到,这个博弈也有(帕累托)最优(抵赖,抵赖)并没有实现。我们看到,实际上“ 囚徒困境”是一种模型,它统一刻画了前述许许多多复杂的社会经济现象。
在这个博弈里,我们发现对于小偷来说,“坦白”总是比“抵赖”要好的策略;无论对方选择 的策略是什么,选择“坦白”都比选择“抵赖”好。我们称这样的策略为“占优策略”,即“ 占优策略”是比其他所有策略都要好的策略,无论其他参与人选择的策略是什么,都是如此。
如果一个博弈中所有参与人都有占优策略,那么,在一阶理性假定下,可以预测他们都会选择 占优策略。譬如,在“囚徒困境”中,可以预测他们都选择“坦白”。这样的结果叫做“占优 策略均衡”。
囚徒困境博弈在现实生活中是广泛存在的。从军备竞赛、企业价格战、运动员服用兴奋剂、会 计师事务所做假账,到NBC球员的高薪、OPEC成员的背叛协议行为,再到小学生减负的失败、 高考文化等等,都可称为“囚徒困境博弈”。
1. 2. 3 运用囚徒困境博弈设计锦标竞赛提升制度
我们可以运用囚徒困境博弈,通过设计锦标竞赛提升制度来激励员工努力为企业工作。
譬如,假设企业有两个员工,如果大家的努力程度相同,则提升机会各自为1/2;如果一个人 努力工作,而另外一个员工不努力工作,则努力工作的员工的提升机会为1,另外一个员工的 提升机会为0。
假设员工不努力工作的成本是0,而努力工作的成本是1;提升后的效用是6,没有获得提升的 效用是1。
表1—3给出了博弈矩阵。
员工都有占优的策略——努力工作,所以他们都会选择这个策略,博弈的结果是(努力工作, 努力工作)。括号里面左右两个策略分别是员工1和员工2的策略选择。
但是,他们会对这样的选择感到后悔,因为如果他们都选择“不努力工作”,他们各自会获得 更高的支付3,而不是2。
但是,这样使得老板高兴了——员工都选择了努力工作!
1. 试举出一个你所知道的、可以用“囚徒困境”来解释的其他例子。
2. 在现实生活中,存在许许多多当权者陷害无辜者的例子,并且许多年后,当世道变换、无 者被平反昭雪的时候,那些过去陷害别人的人通常还是没有被追究责任。试运用囚徒困境博弈 来说明为什么会有这样的结果。
3. 一些国家投入大量财力来培训运动员,目的是在奥运会这样的大型国际运动会上获取金牌。 在这些国家,运动员通常是很小的时候就被选为“苗子”进行斯巴达克式的、苦行僧式的培养 ,以致培养出来的运动员在事业上的追求远离了奥林匹克精神而成为“唯金牌论”的体育偏执 狂。试运用囚徒困境博弈分析这种现象。