系統(tǒng)越復雜,反應的方法也要多種多樣,否則就難有效地以一報還一報。如果對方的招式不斷更新變化,我方只有畫符念咒這一招,那競爭的結(jié)果是堪憂的。
上周,緊急邀約我分析國際貿(mào)易危機的朋友倍增。隱去眾所周知的背景情況,問題大約集中在下面幾個方面:
1)對外方的言行,應該強勢回應還是悄然無息?2)放眼未來,如果嚴重缺乏互信,怎樣維持國際貿(mào)易合作?3)貿(mào)易的本質(zhì)是互惠?;ズσ苍S是例外。斗爭是否會很快結(jié)束?
我是國際貿(mào)易的門外漢。不過,仍然可以識別當前國際貿(mào)易呈現(xiàn)出的“囚徒困境”。對于如何走出“囚徒困境”,博弈論已經(jīng)有超過30年的研究。許多時候,一個概括現(xiàn)象本質(zhì)的經(jīng)典理論有極高的實踐價值。簡而言之,即使身處嚴重缺乏互信的博弈中,如果策略得當,合作關(guān)系仍然是可能的。如果策略失當,雙方陷入長久互害關(guān)系而不能自拔,它也是可能的。
第一次世界大戰(zhàn),敵對士兵之間的合作默契
第一次世界大戰(zhàn)暴露政治決策者一系列誤判。首先,英德為代表的對立聯(lián)盟誤判奧地利公爵菲迪南德(Franz Ferdinand)刺殺事件的象征意義。其次,雙方以為象征性武力對峙可以在幾個星期內(nèi)結(jié)束。結(jié)果,第一次世界大戰(zhàn)延續(xù)了4年,傷亡4200萬人。
還有一個出乎決策者意料的現(xiàn)象,是敵我互動中的和平合作。在從法國一直延伸到比利時的500英里的壕溝坑道中,雙方士兵演繹出軍事戰(zhàn)爭歷史上罕見的現(xiàn)象:除了間歇性的突襲,士兵可以在雙方步槍射程內(nèi)正常生活,而無需懼怕對方狙擊手射殺。
歷史學家阿什沃思(Tony Ashworth)十分好奇這一現(xiàn)象。通過閱讀大量前線士兵的家書和日記,他以《壕溝戰(zhàn)爭1914-1918》(Trench War 1914-1918)一書記錄了戰(zhàn)爭中敵對雙方特殊的合作行為。
自1914年8月始,戰(zhàn)爭血腥殘酷,雙方介入一場你死我活的零和游戲。因為偶然的因素,在某些陣地,雙方埋鍋灶飯的時間點剛好差不多。戰(zhàn)場出現(xiàn)奇特的寧靜。偶然形成的默契,從休戰(zhàn)吃飯延伸到起床出恭。上午8-9點鐘,英德士兵保持互不侵犯的狀態(tài),讓大家處理私人事務。后來,雙方都不約而同地放棄對食品補給線的攻擊,自己要吃飯,也讓對方有飯吃。
相互克制的默契,從一個坑道蔓延到另外一個坑道。1914年圣誕節(jié),醉醺醺的士兵甚至可以逛到對方壕溝而不擔心被射殺。意外當然會出現(xiàn),這畢竟是戰(zhàn)爭。當一方發(fā)動突襲時,另外一方馬上予以對應的反擊,一命抵一命。休戰(zhàn)時,德國狙擊手會特意瞄準英軍壕溝上方的民宅,連續(xù)射擊,直至打出一個漂亮的圓洞。雙方士兵們用類似方式展現(xiàn)報復能力和意愿。一報還一報,我活也讓你活,同時睚眥必報。
按照戰(zhàn)爭的邏輯,敵對雙方形成典型的囚徒困境。相互背叛應該是常態(tài)。但是,壕溝戰(zhàn)爭中的士兵卻表現(xiàn)出另外一面:突襲中背叛,休戰(zhàn)時合作,自己求活路,也讓對方有活路??拥朗勘g的和平合作,當然引發(fā)指揮部的不滿。指揮官總有方法繼續(xù)戰(zhàn)爭。它是另外一個故事。但是,曠日持久的壕溝戰(zhàn)爭中,敵對士兵是怎樣達成合作默契的?在后來的100年中,它一直是研究博弈論學者的熱門話題。
超越囚徒困境
1950年,蘭德公司(Rand Corp)開始研究美國和蘇聯(lián)之間冷戰(zhàn)博弈。數(shù)學家福拉德和德雷舍(Merrill Flood and Melvin Dresher)推演出著名的“囚徒困境”(見下圖)。在一個假想的犯人與犯人之間的博弈中,如果兩人事先串通,都保持緘默,那么各被判1年。如果其中一位背叛,而另一位仍然拒絕招供,那么,背叛的犯人可以免刑,而抗供的犯人獲刑5年。如果兩位都背叛事先串供,那么各獲刑3年。關(guān)押后,因為兩位犯人無法溝通,理性的首選一般更傾向于背叛。在缺乏信息和可靠承諾前提下,它是個人利益最大化的優(yōu)勢選項。
“囚徒困境”影響了一代國際關(guān)系學者。蘇美兩個超級大國競爭過程中,背叛和對抗成為大國博弈的首選和優(yōu)選。當艾利森(Graham Allison)談論大國沖突的修昔底德陷阱(Thucydides’ trap)時,其背后的邏輯也是如此。
互信缺失就不可能合作嗎?怎樣才能顛倒囚徒困境下的選擇?一戰(zhàn)時,敵我雙方士兵之間的自發(fā)合作只是曇花一現(xiàn),還是可以長久維持?
帶著上述問題,密歇根大學政治學家阿克賽爾羅德(Robert Axelrod)修改了囚徒困境的一個重要的,但被忽視的前提:假想敵對雙方進入一個循環(huán)往復,一直持續(xù)下去的互動過程,什么樣的選擇(合作或背叛)會勝出?這個勝出的選擇應該具有穩(wěn)定性,應該符合選擇者的長遠利益。
為搞明白長期博弈背后的規(guī)律,阿克賽爾羅德設計了一個電腦游戲。游戲模仿囚徒困境,但不設立結(jié)束條件。換言之,游戲參加者不知道下一局是否為終局。1980年,阿克賽爾羅德向研究博弈論和相關(guān)社會科學的學者發(fā)出英雄帖,邀請他們自愿參與囚徒困境的游戲。
第一輪錦標賽參加者都是博弈論愛好者或?qū)<?。你來我往,博?4輪,最后得分第一的是多倫多大學的一位教授。他使用的策略極其簡潔:一報還一報(Tit for Tat),即你對我好,我回報以友善;你對我惡,我就報復反擊;如此,循環(huán)往復不改變。
第二輪錦標賽有62輪博弈。來自5個國家的參加者都已經(jīng)通曉上一輪博弈的結(jié)果,特別是獲勝策略。參加者嘗試15種不同的合作或背叛的策略組合,包括“下馬威策略”(出場就連著背叛兩局),“誘騙策略”(開局合作,然后連續(xù)背叛),“強盜策略”(一直背叛,從不合作),“趁機占便宜策略”(合作一次,背叛兩次,再道歉求饒)。令人驚訝的是,榜上排名前列的都是使用了“一報還一報”的策略。
阿克賽爾羅德的初始研究問題是:從自身利益出發(fā),在沒有權(quán)威干預的條件下,缺乏信任的博弈雙方能否形成合作關(guān)系?如果能,它的規(guī)律是什么?規(guī)律是否有長期的穩(wěn)定性?
兩輪電腦模擬游戲顯示:當競爭雙方認為會在未來反復相遇時,他們有可能采納“一報還一報”的策略。它最終導致雙方穩(wěn)定的合作關(guān)系。而這種關(guān)系最符合各自的長遠利益。
為了求證電腦模擬游戲發(fā)現(xiàn)的規(guī)律,阿克賽爾羅德找到生物進化學家漢密爾頓(William Hamilton),請他從億萬年生物進化的角度解釋或證偽“一報還一報”的合作規(guī)律。漢密爾頓解釋,類似的互惠原則(Reciprocity)也頻繁出現(xiàn)在生物進化過程中。例如,海鱸(Sea bass)有兩個性器官,可公可母。如果海鱸有十次交配,受精和產(chǎn)卵過程的任務,往往是對半承擔,大約5次承擔母海鱸的任務,5次執(zhí)行公海鱸的角色。
類似的互惠合作現(xiàn)象,在物種進化過程中普遍存在。簡單結(jié)構(gòu)的植物和動物沒有自主的、有意識的選擇。但是,它們有與外部環(huán)境的反應機制。長期進化過程中,互惠反應有利于物種生存。這個本能的策略通過基因保留下來,傳給后代。漢密爾頓教授的“親緣關(guān)系和利他合作”理論被認為是對達爾文“物競天擇”生物進化理論的一個重要補充。生物進化,既有競爭,又有合作。合作是物種演變的主旋律。
“一報還一報”是不是也可能讓互害關(guān)系循環(huán)下去,成為無休止的宿怨?它完全是可能的。因此,博弈論學者特別倡導傳播“一報還一報”的互惠合作規(guī)律,教育人們認識到它是符合自身利益的最優(yōu)策略。
缺乏互信條件下的合作策略
成為贏家,我們絕不能打左臉,送右頰。但是,只有“以牙還牙,以眼還眼”,它也不符合我們自身利益和長期目標。實踐中,阿克賽爾羅德的“一報還一報”的策略有10項應用原則??偨Y(jié)如下:
1.待人以直, 針鋒相對。你示好,我友善。你背棄,我反擊。如此循環(huán)往復。2.凸顯相互依存的宿命,打消零和游戲的念頭。躲了初一,逃不了十五。讓對方理解,這不是一次性可以了斷的博弈。3.首現(xiàn)誠意,和善開局。博弈伊始,不出濫招,不動惡念。從做好人開始。4.敢于反擊,以牙還牙?;鼐匆皶r,反擊合比例。5.寬宥只能一次,了斷討巧伎倆。最多原諒對手一次,而且是在有力的報復之后。6.承諾不首先背叛,如果失誤,真誠致歉。假如因為誤判而選擇背叛,立即解釋并補償。7.不耍小聰明,不占小便宜。即使發(fā)現(xiàn)對方漏洞和疏忽,堅持第一條,待人以直。8.成全對方,超越自己。零和游戲重點在削弱對手。非零和游戲重點是自我進步。9.結(jié)盟,成為合作的少數(shù)。即使在普遍具有敵意的競爭環(huán)境中,少數(shù)結(jié)盟者之間的合作將改變充滿敵意的環(huán)境,直至合作成為主導策略。10.開宗明義宣示遵守“一報還一報”的策略。當雙方認識到它是必要的優(yōu)選后,建立合作的過程可以加速。
在目前的國際環(huán)境下,因為地緣政策因素,國際貿(mào)易變得更加復雜。怎樣理解和管理復雜系統(tǒng)?系統(tǒng)學家阿什比(Ross Ashby)建議:遵守“必要的多樣性” 原則(Ashby’s law of requisite variety)。概言之,系統(tǒng)越復雜,反應的方法也要多種多樣,否則就難有效地以一報還一報。如果對方的招式不斷更新變化,我方只有畫符念咒這一招,那競爭的結(jié)果是堪憂的。