一場游戲的所有結果肯定不是唯一的,各個參與人分散決策采取不同的行動,會造成不同的結果。所謂的結果,實際上就是每個人選定一個策略后形成的狀態(tài)。有些狀態(tài)是不穩(wěn)定的,就是說,在這個狀態(tài)下,還有參與人試圖通過改變其策略以增進其贏利;有些狀態(tài)是穩(wěn)定的,即該狀態(tài)下沒有任何人試圖改變其策略來增進其贏利——或者說,任何一個參與人實際上都不可能在其他人不改變策略的情形下通過自己單方面改變策略來增進其贏利。這種穩(wěn)定的狀態(tài)被稱為納什均衡,它是以數學家約翰·納什(John Nash, 1928— ,美國數學家,1994年獲得諾貝爾經濟學獎)的名字來命名的。因為納什證明出,在有限個參與人參加的有限策略數目的對策中,一定存在著至少一個所有參與人的最優(yōu)策略的組合,即穩(wěn)定的均衡狀態(tài)(這就是納什均衡)。處于納什均衡狀態(tài)下,每個參與人都不能通過改變策略來得到更大的收益,所以誰也不存在改變現(xiàn)狀的動力。
上述博弈的要素,構成分析博弈論的基礎。在很多時候,我們可以很方便地用贏利表來表示一個博弈。比如,下面給出的就是“囚徒的困境”博弈的贏利表。
參與人2(囚犯B)
坦白 抵賴
參與人1 坦白 -8,-8 0,-10
(囚犯A) 抵賴 -10,0 -1,-1
贏利表的解讀方法是這樣的:最左邊是參與人1(囚犯A),然后旁邊列著他的兩個可選策略(坦白,抵賴);最上邊是參與人2(囚犯B),其下邊列著他的兩個可選策略(坦白,抵賴);四個單元格列出了博弈可能出現(xiàn)的四種情況,每個單元格中的數據,是參與人從博弈結果中得到的贏利,其中左邊一個數字是參與人1的,右邊一個數字是參與人2的。
在這樣的贏利表中,尋找納什均衡的方法是:先給定參與人1的每個策略,找出參與人2的最優(yōu)反應——每一行上,在對應的參與人2最大的贏利數字下畫一橫線;給定參與人2的每個策略,找出參與人1的最優(yōu)反應——在每一列上,在對應的參與人1最大的贏利數字下畫一橫線。讀者可在“囚徒的困境”博弈上試試,畫出來應跟上面的表中一樣。如果一個單元格中兩個數字下都被畫上橫線,說明該單元格對應的策略組合是納什均衡,因為其中的每個策略都是參與人對彼此策略的最優(yōu)反應。
納什均衡最重要的意義在于,它可以幫助我們預測理性人進行博弈的結局。
“囚徒困境”
回到“囚徒困境”博弈例子。我們可以發(fā)現(xiàn),假定A選擇坦白的話,B最好是選擇坦白,因為B坦白判8年而抵賴卻要判10年;假定A選擇抵賴的話,B最好還是選擇坦白,因為B坦白可判免罪釋放而抵賴卻要被判刑1年。就是說,不管A坦白或抵賴,B的最佳選擇都是坦白。反過來,同樣地,不管B是坦白還是抵賴,A的最佳選擇也是坦白。結果,兩個人都選擇了坦白,各判刑8年。在(坦白、坦白)這個組合中,A和B都不能通過單方面改變行動增加自己的收益,于是誰也沒有動力背離這個組合,這個組合就是納什均衡。
“囚徒困境”深刻地反映了個人理性和集體理性的矛盾。如果A和B都選擇抵賴,各判刑1年,顯然比都選擇坦白各判刑8年好得多。當然,A和B可以在被警察抓到之前訂立一個“攻守同盟”,但是這可能不會有用,因為每個人都沒有積極性遵守這個協(xié)定;要是你堅決抵賴,那我正好利用你的抵賴積極坦白爭取免去罪罰呢!所以,即使我要背叛你,一開始也可能會故意誘導你簽署一個大家都不要背叛的協(xié)議。當然,你也不傻,我的這些想法你都想到了。事實上,我也很清楚你想到了我的想法;你也很清楚我很清楚你想到了我的想法;我很清楚你也很清楚我很清楚你想到了我的想法……這就是博弈的推理方式(見圖3—1)。