綜合I類/II類理性人的博弈策略
佚名
[摘要]
兩人零和博弈作為較歸整的形式,在博弈論的早期中已經得到的深入討論。本文引入了I類理性與II類理性的概念,認為現實博弈中的參與人往往既可能從I類理性的角度采取戰略,也可能是從II類理性人的角度出發,因此,構造了一個綜合了I類和II類理性特征的支付矩陣,通過對一些常見的非零和博弈實例進行討論,認為這一模型可以解決戰略選擇的不確定性。但本文沒有對此進行嚴格的數學證明。
[關鍵詞]
I類理性,II類理性,混合戰略,戰略選擇,不確定性
在學的博弈中,一般假設參與人(PLAYERS)具有理性人的特征, 即總是尋求自身的最大化利益, 選擇能使個人利益最大化的策略。在收益的時候,使用的是個人所得。這是一個“絕對量”,而現實中,也存在著另外一種情況,也就是參與者之間除了考慮自己的所得之外,也很關心對方的所得,并比較相互間的差異,采取使“相對”所得最大化的策略。我們不妨把以追求相對所得最大化的行為人稱為II類理性人,并從博弈論的角度對他們的行為模式進行研究。
具有II類理性特征的現象在很多方面都有存在。比如,我們在人際交往中確實會碰到一些“損人利己”的人,也會見到“損人不利己”的人,從我們觀點看來,他們是非理性的,但是進行換位思考就會發現,其實他們的行事原則是相對來說,總要讓自己占便宜或者自己吃得虧比對方少,至于別人是否會吃虧,不是他們考慮的因素,這也是一種“理性”行為,也有出于心理層面的考慮,認為自己所得相對較少或者自己損失較大是一種不公平,并從自己的角度出發進行策略選擇。在激烈的市場角逐中,競爭雙方在短期內有時會不計代價地采取大出血的策略而欲先致對手于死地,希望對手先被淘汰而自己會堅持到最后。如果做不到這點,也要最大程度地削弱對手力量,使其一蹶不振而不會對自己再構成威脅。這種商場競爭,并期望自己能笑到最后的思維,也是“理性”的。有研究表明,國際關系中這樣的II類理性的例子更不少見。這些雖然是比較極端的例子,現實生活中,更多的可能是,每個人或組織都會考慮自己的所得,并期望自己的所得比別人的大。關鍵是對兩種所得在考慮時的權數是隨情況不同而變化的。如果否定在策略選擇中的II類理性因素,可能會對一些現象無法解釋。盡管從道德角度講不值得提倡,而且從價值評判上總是受到譴責, 但作為一種存在的現象,仍然有必要加以研究。但本文從II類理性個體的博弈戰略開始,并過渡到一個綜合了I類和II類理性行為的博弈模型,對例中設計的參與人的戰略選擇,只進行經濟學而不做道義上的衡量。
當博弈參與者是II類理性人時, 此時收益矩陣的取值有一定的。假設兩個參與人甲和乙都是II類理性人時,對比在I類理性的得益矩陣(圖1)
乙
S1 S2
甲 S1 (m1,n1) (m2,n2)
S2 (m3,n3) (m4,n4)
圖1.I類理性參與人收益矩陣
II類理性參與人的得益矩陣如下圖所示:
乙
S1 S2
甲 S1 (m1-n1,n1-m1) (m2-n2,n2-m2)
S2 (m3-n3,n3-m3) (m4-n4,n4-m4)
圖2.II類理性參與人收益矩陣
很明顯,在II類理性參與人進行的博弈里,在每一個戰略組合下,雙方的得益之和必為零,此時的博弈具有零和的性質。這就是早期博弈論中重點研究的二人零和博弈的情形,在1910年~1930年間, 作為絕對競爭的形式,零和博弈被認為是博弈理論中的主要形態得到了深入的研究。而且對零和博弈的研究成果成為了博弈理論中很多新理論的基礎概念。
作為一個練習,我們把常見博弈模型改為零和博弈情形,來看相應的結果會是怎樣的。一般認為,零和博弈是一種常和博弈,而最普遍意義下的博弈情形是非常和的。
例1.囚犯困境
甲,乙涉嫌同謀犯罪,分別在兩個房間被提審。提審官預先向兩人交代政策:如果他們都承認犯罪事實,各判刑10年;如果兩人都否認,雙方都無罪釋放;如果一方認罪一方抵賴,認罪方獲500元獎勵,抵賴方被判15年。在非零和博弈情形下的支付矩陣如下:
乙
承認 抵賴
甲 承認 (-10,-10) (5,-15)
抵賴 (-15,5) (0,0)
圖3
納什均衡策略 是(承認,承認),如果甲乙兩人是II類理性人,他們的相應支付矩陣就變成了:
乙
承認抵賴
甲 承認 (0,0) (20,-20)
抵賴 (-20,20) (0,0)
圖4
可以看出,納什均衡策略還是(承認,承認)。
例2.春節前夕,某小鎮上兩個商鋪甲和乙同時看到一個賺錢機會:去城里販一批鞭炮回來賣,購貨款加上運輸費共5000元,如果沒有競爭對手,這批貨在小鎮上能賣6000元;但如果另一家商鋪也同時在小鎮上賣鞭炮,價格下跌使得這批鞭炮只能賣4000元。
對于甲乙都是I類理性人而言,有支付矩陣:
乙
進貨 不進貨
甲 進貨 (-1000,-1000) (1000,0)
不進貨 (0,1000) (0,0)
圖5
(不進貨,進貨)和(進貨,不進貨)為納什均衡策略。但是問題在于,甲乙雙方同時行動,而互相不知道對方采取的行動。
如果甲乙都是II類理性人,那么情況會變成:
乙
進貨 不進貨
甲 進貨 (0,0) (1000,-1000)
不進貨 (-1000,1000) (0,0)
圖6
此時的納什均衡策略就是(進貨,進貨)。
例3.利己與利他
甲乙作為I類理性人,其支付矩陣為
乙
利己 利他
甲 利己 (1,1) (4,0)
利他 (0,4) (3,3)
圖7
納什均衡是(利己,利己);
甲乙作為II類理性人,其支付矩陣轉化為:
乙
利己 利他
甲 利己 (0,0) (4,-4)
利他 (-4,4) (0,0)
圖8
納什均衡仍然是(利己,利己)。
例4.智豬博弈
一頭大豬和一頭小豬被關在同一個豬圈里。豬圈的一頭安裝著一個特制的按鍵,另一頭安裝著一個食槽。但一頭豬按下按鍵時,會有10單位的食物進入槽中,但按鍵的豬會付出2單位的成本;如果大豬先到食槽,則小豬只能吃到1單位的殘羹剩飯;但若小豬先到的話,則它能吃到4單位的食物。若兩豬同時到,則小豬可吃到3單位的食物。
如果按照I類理性,有支付矩陣:
小豬
按鍵 等待
大豬 按鍵 (5,1) (4,4)
等待 (9,-1) (0,0)
圖9
納什均衡策略是(按鍵,等待)。
在II類理性下,重寫支付矩陣為:
小豬
按鍵 等待
大豬 按鍵 (4,-4) (0,0)
等待 (10,-10) (0,0)
圖10
納什均衡是(按鍵,等待)和(等待,等待)。
有趣的是,此時小豬一定會選擇等待(占優戰略),而大豬無論怎么做,都是一無所獲!最終結果是兩頭豬都會餓死。
在這種情況下,兩頭豬的結局似乎和“布里丹的饑餓的驢”有共同點,后者因為面對同樣兩堆干草不能做出選擇而餓死。在智豬博弈里,小豬認為自己的結果只能是損失或者既無損失又無所得,這時它會選擇后者,而將責任推給大豬。現實中,不大可能出現兩豬都餓死的結果,因為大豬最終會明白,與其被餓死還不如去按鍵,此時自己會得到4單位的食物;而小豬也會因為大豬作出這樣的選擇,而同樣得到4單位的食物。
例5.性別戰
兩個戀人,男方想看拳擊,女方想看芭蕾。如果需要的話,他們會犧牲自己的愛好而遷就對方。有下面的支付矩陣:
女
拳擊 芭蕾
男 拳擊 (2,1) (0,0)
芭蕾 (0,0) (1,2)
圖11
納什均衡是(拳擊,拳擊)和(芭蕾,芭蕾)。
將支付矩陣做個變換:
女
拳擊 芭蕾
男 拳擊 (1,-1) (0,0)
芭蕾 (0,0) (-1,1)
圖12
那么,(拳擊,芭蕾)就是納什均衡策略。
例6.斗雞博弈
兩個人舉著火棍從獨木橋兩端向中間前進,每個人都有兩種戰略:前進或退下陣來。若兩人都繼續前進,則兩敗俱傷;如果一方前進,另一方退下來,前進者取得勝利,退后者丟了面子;若兩人都退了下來,則都丟了面子。支付矩陣如下:
A
進 退
B 進 (-3,-3) (2,0)
退 (0,2) (0,0)
圖13
納什均衡策略是(進,退)和(退,進);
按II類理性對支付矩陣進行變換后得:
A
進 退
B 進 (0,0) (2,-2)
退 (-2,2) (0,0)
圖14
納什均衡策略是(進,進)。
在上面的討論中,可以看到,在例2中,對于I類理性參與人,(不進貨,進貨)和(進貨,不進貨)都是納什均衡策略,采取哪個戰略要取決于對方的行動,在一次靜態博弈中是很難在行動之初就了解到對方的戰略的,因此存在選擇上的不確定性。在智豬博弈中,對于II類理性參與人而言,不能根據支付矩陣決定出大豬的戰略,如何才能避免在選擇時出現這樣的不確定狀態呢?有必要考慮某種混合戰略。
一般來講,博弈的每個參與者在某些時間會按I類理性人行為模式行事,而有時又會采用II類理性人模式行事。不妨將這種組合看成是決定于概率p和q。 這時候,假設甲遵循I類理性的概率是p,那么他是II類理性人的概率就是1-p,乙遵循I類理性的概率是q,相應他是II類理性人的概率是1-q。這時我們也可以構造出一種混合戰略, 得到支付矩陣:
乙
S1 S2
甲 S1 m1-(1-p)n1,n1-(1-q)m1 m2-(1-p)n2,n2-(1-q)m2
S2 m3-(1-p)n3,n3-(1-q)m3 m4-(1-p)n4,n4-(1-q)m4
圖15
對于I類理性可以看作p=1,q=1時的上述混合戰略的一個特例;而II類理性對應p=0,q=0的情況。
在現實中,還可能出現另一種情況,也就是甲乙兩個參與者中,一方是I類理性的,而另一方是II類理性的,為方便起見,我們假設甲是I類理性人,乙為II類理性人,那么支付矩陣具有下面一般形式:
乙
S1 S2
甲 S1 (m1,n1-m1) (m2,n2-m2)
S2 (m3,n3-m3) (m4,n4-m4)
圖16
這其實是在p=1,q=0時,混合戰略的一個特殊情況。
對于上述常見博弈案例,在這種情況下進行演繹,相應也會得到一些有趣的結果。
例1.囚犯困境
乙
承認 抵賴
甲 承認 (-10,0) (5,-20)
抵賴 (-15,20) (0,0)
圖17
納什均衡策略仍是(承認,承認);
例2.進貨與不進貨
乙
進貨 不進貨
甲 進貨 (-1000,0) (1000,-1000)
不進貨 (0,1000) (0,0)
圖18
納什均衡策略是(不進貨,進貨)。
例3.利己與利他
乙
利己 利他
甲 利己 (1,0) (4,-4)
利他 (0,4) (3,0)
圖19
納什均衡策略仍是(利己,利己)。
例4.智豬博弈
小豬
按鍵 等待
大豬 按鍵 (5,-4) (4,0)
等待 (9,-10) (0,0)
圖20
納什均衡策略是(按鍵,等待)。
例5.性別戰
女
拳擊 芭蕾
男 拳擊 (2,-1) (0,0)
芭蕾 (0,0) (1,1)
圖21
納什均衡策略是(芭蕾,芭蕾)。
例6.斗雞博弈
A
進 退
B 進 (-3,0) (2,-2)
退 (0,2) (0,0)
圖22
納什均衡策略是(退,進)
可以發現,在多數情況下,II類理性人的結果都好于I類理性人。
現在使用如圖15的混合戰略,看看在例2,性別戰,斗雞博弈和智豬博弈中, 戰略的選擇情況:
在例2中,為方便起見,將原支付矩陣先轉換成:
乙
進貨 不進貨
甲 進貨 (-1,-1) (1,0)
不進貨 (0,1) (0,0)
圖23
再設甲乙為I類理性的概率為p,q:
乙
進貨 不進貨
甲 進貨 (-p,-q) (1,q-1)
不進貨 (p-1,1) (0,0)
圖24
可以看到(進貨,不進貨)是一個可能的均衡策略,但若要使其成為唯一的納什均衡,還應該要求q-1>-q,即q>1/2。同理,(不進貨,進貨)要在p>1/2才能成為唯一的納什均衡??梢岳斫鉃?,當甲更象是I類理性人是,此時乙如果認識到這一點,就應該采取進貨的戰略來應對;而當乙更象I類理性人時,此時如果甲認識到這一點,應該采取進貨戰略。這樣,就給出了一個選擇的指南,避免選擇不確定性問題的關鍵在于是否可以把握好參與方的理性傾向。例4的情形與此類似。而斗雞博弈中,相應地要求p>0.4,q>0.4即可確定出應該采取的唯一的納什均衡策略。
再看智豬博弈,得到支付矩陣為
小豬
按鍵 等待
大豬 按鍵 (4+p,5q-4) (4p,4q)
等待 (10-p,-10+9q) (0,0)
圖25
可以看出,大豬按鍵是占優戰略,那么很容易得出(按鍵,等待)就是唯一的納什均衡了。同樣可以很圓滿地解決選擇的不確定性問題。以上通過實例,可以看出這里的兩人一次靜態博弈的混合戰略,能夠解決納什均衡策略選擇的不確定性問題,但討論是從歸納的意義上,沒有從理論上嚴格地證明這一點。
以上就是我們日常生活中,能碰到的三種基本的組合。p和q還可以?。啊遍g的任何數,在理解上,我們認為任何人對收益的大小的判斷都取決于他個人的效用函數,而效用函數本身,是與其看待或對待事物的觀點以及客觀條件密切相關的。在復雜的現實環境下,對每一次靜態博弈,參與人更有可能采取的是一種綜合的效用觀點,如果在連續多次博弈中,參與人每次都有機會調整p和q的大小,有必要對這樣的綜合的理性行為進行更深入的探討。