(文章來源于萬物皆概率,作者尹部長)
聽說身份標簽能增加閱讀量,我也來惡搞一下:
UCLA 著名華人數學家陶哲軒 — 辦公室對面的飲水機—旁邊的那個工作人員,
前言:很多人都可能聽說過囚徒困境, 說的是, 明明有著最優的合作選項,卻總是因為相互不信任 而選擇了彼此背叛, 可能你也聽說過,如果這種博弈是反復發生,無窮次的博弈,那博弈的雙方便會開始考慮合作。 可惜我們的生活宛如囚徒困境,而生命卻不是無窮無盡,那什么樣的機制能讓我們選擇合作呢?約翰-納什給了我們些許答案, (本文會故意削弱一定的數學嚴謹性來確保通俗性)
我們先簡單回顧一下囚徒困境, 兩個嫌疑犯作案后被警察抓住,分別關在不同的屋子里接受審訊, 警察知道兩人有罪,但缺乏足夠的證據,警察告訴每個人:如果兩人都抵賴,各判刑二年;如果兩人都坦白,各判五年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判十年。注意這里兩人是無法交流的, 否則必定是一起選擇沉默,
很快你會發現,對于A來說,不管B怎么選擇, 他都是選擇坦白來的合算, 所以A一定會選擇坦白。 然而B顯然也是這么想。結果就是雙方都坦白各關5年, 但是這個時候你會注意到,明明有合作一起沉默,一起只關2年的選項啊。這個選項顯然好過各關5年, 但是沒辦法,由于相互的不信任,如果你“足夠理性”,你一定會選擇背叛, 這也是為什么它被叫做囚徒困境。
你可能會說這個我知道啊,很多科普原PO都有介紹過,放心,今天絕對讓你見識點你從來沒見過的,
我們先把這個問題轉化為游戲, 每一輪A,B 都分到5元錢,然后選擇合作或背叛。
都背叛,各扣5元
用同樣的分析,我們知道玩家必然會雙雙選擇 “背叛”, 那如果他們連續玩兩輪呢 (還是不能交流,但可以看到上一輪的結果)不好意思,結果還是 選擇 “背叛”,兩人兩輪都是 “背叛”。 用如下邏輯可以分析出這個結論。
單獨看第二輪,和之前只有一輪的情況完全一樣, 所以第二輪中必然是雙雙選“背叛”
既然第二輪必然都是雙雙選“背叛”,那它就完全不影響第一輪的選擇,所以第一輪也是雙雙選“背叛”,
好啦,我們看到 玩一輪雙雙選“背叛”,玩2輪 雙雙選“背叛”, 即使是玩100輪,也會是一直背叛背叛。最后錢一分不剩,完了人與人之間信任怎么就那么難呢,
現在我們來稍稍的改變一下規則, 在每輪結束后我們從一個準備好的袋子里摸球。這個袋子里白球99,黑球一個。
如果摸到黑球,所有游戲結束,不再玩了。
但如果是白球就繼續下一輪,沒有100輪的上限限制。 記得要把小白球放回袋子里,
簡單計算一下,每次都有99%的幾率再開新的一局。 這樣玩的話平均也是100輪。 但是局數是隨機的。突然我們發現有兩個聰明人開始選擇合作了, 那到底發生了什么呢?
納什均衡
先說一個你可能聽過,但不是特別清楚的概念:納什均衡。這個概念的通俗版其實挺好理解的。說的是關于最佳應對策略,假設你已經知道對方會采用策略1 (比如第一輪合作,第二輪背叛),你在所有可選的策略里可以找到一個最好的應對策略2,這時我們就說策略2是策略1的最佳應對策略,(好像本來字面意思就是這個),
那什么是納什均衡?我們說(策略1,策略2)構成了一個納什均衡,是指
策略1是策略2的最佳應對策略
同時策略2也是策略1的最佳應對策略
也就是說 策略1,2互為對方的最佳應對策略。(嚴格一點說最佳應對策略可能不唯一,所以只需要他們互為對方的最佳應對策略之一)
在一個普通的游戲/博弈中, 基本總能找到實現納什均衡的策略,比如基本版的囚徒困境中 互相背叛就是一個納什均衡點。我背叛的時候你的最佳應對策略是背叛,反過來你背叛時我的最佳應對策略也是背叛,
再比如石頭剪子布,在這種游戲中,,,啊 你說沒有納什均衡。其實是有的,當兩位玩家都采取以下策略時,他們達成了納什均衡。
以1/3,1/3,1/3的幾率隨機選取石頭,剪子,布,
是不是沒想到對面鄰居家那兩個滿臉是泥,流著哈喇子擤鼻涕的小屁孩用的還是納什均衡這么高大上的方案, 真是失敬,失敬。對于剪刀石頭布游戲,這是唯一的納什均衡點。 然而對于有一些游戲/博弈,也有可能在一個游戲里找到很多個實現納什均衡的策略對,或者說叫多個納什均衡點,
說了半天為什么要說納什均衡呢? 原因不難理解, 在一場博弈中,由于納什均衡策略的穩定性(我是你的最佳應對,你是我的最佳應對),所以誰都不會去破壞這個平衡, 也就是說,如果玩家雙方都很智慧,
兩個玩家選擇的策略一定會構成一個納什均衡,
上面的游戲中,如果我們固定游戲局數是100局,那么雙方必然都會選擇”一直背叛“這個策略來達到納什均衡。而且對這個固定100局的游戲,這是唯一的一個納什均衡點,
接下來,我們稍微說一下可以有哪些策略。這里不做嚴格的定義, 不過大致上你可以理解為,策略的種類可以非常多,可以是上面說的按幾率隨機選擇,也可以依據之前游戲的結果做決定,比如:如果他上一場出布,我這場就1/2 幾率出石頭,1/2幾率出布,
現在有意思的事情來了, 如前所說,對于固定100局的囚徒游戲, 雙方都選擇 ”一直背叛“這個策略 是唯一的納什均衡點,但是當我們把游戲的規則改為每一局結束后通過摸球來決定是不是還有下一局時, 首先我們會看到
雙方都選擇一直背叛 的確依舊是一個納什均衡點,
但是這個游戲中出現了其他的納什均衡,當雙方都采用下面的策略時,他們依舊可以達成納什均衡。 這個策略叫“絕不原諒”
第一局選擇 合作
從第二局開始,如果目前為止無人背叛,則選擇繼續合作,否則選擇背叛,
這個“絕不原諒”的名字應該說是非常貼切。只要你背叛過我一次, 我就再也不和你合作, 重點是(摸球版的囚徒困境中)
雙方都選擇絕不原諒 也是一個納什均衡點
非常顯然在這個平衡點上, 兩人將一直穩定的合作,獲取大量收益。 所以雖然有多個納什平衡點,相互絕不原諒 這個要比 相互一直背叛 要好的多,
(文章來源于”萬物皆概率”,作者尹部長)
數學證明我們就略過了 (證明其實非常復雜), 大致解釋一下為什么隨機摸球后,玩家會選擇合作, 用通俗但不嚴謹的語言來說,
我們選擇合作還是背叛的時候,需要比較的是今天的背叛帶來的收益 是否大過未來的合作中帶來的收益, 就比如我開一個健身房, 我是選擇賣會員卡卷一筆錢就跑呢, 還是開上個10年慢慢賺錢,
當我們固定局數是100時,在95局左右時,我們知道沒什么未來了,那當然要選擇背叛, 然后進一步85局左右時,我們知道有未來但是那是不會合作的未來,所以依舊選擇背叛,以此類推,我們一直選擇背叛。
但是如果局數不固定,是摸球決定的, 那么即使是在第100局,我們依舊有著漫長可能合作的未來。 所以我們選擇一直合作, 想想就很陽光對不對, 有種90年代日本熱血青春劇的臺詞感,
所以只要你相信有未來。,,不行,沒打算走雞湯路線。不過你可能已經看出了,那句知名的雞湯正好說反了,我們不應該 把每一天當作生命的最后一天來過, 恰恰相反,
應該把每一天當作無盡未來的第一天,
納什均衡!