18嵗以下不要點，成人專區

世界上最難的“沙雕”游戲被AI攻破了

2021-3-21 14:57:17

13年以前，有這樣一款“變態”級難度的游戲曾風靡一時。

它的名字簡單粗暴——QWOP，意思是讓玩家用這四個鍵位控制游戲人物的左右大腿和小腿，以最快的速度跑完100米。

實際上，大部分玩家剛上手的時候，可能連起點線都邁不過去就Game Over了。

如果你能跑出幾米遠，絕對算是一個高手，甚至能在朋友面前炫耀一番，

QWOP的難點在于，一旦角色失去平衡就很難再挽回，需要在100米的距離內一直保持重心不過于向前后傾斜。

當你經過苦練第一次跑起來時，又會被50米處作者故意設置的欄桿擺一道：說好的100米短跑怎么變跨欄了？

△某小編當年的游戲截圖

在那個4399小游戲盛行的年代，這款也被戲稱為“是男人就跑100米”，因為難度過于“變態”，QWOP開發者曾收到過很多辱罵郵件，

雖然絕大部分人難以跑到終點，但仍有一批骨灰級玩家樂此不疲，他們不僅能輕松跑完，至今還為競爭世界排名而不斷挑戰。

2個月前，一位日本玩家創造了新的世界紀錄：48.34秒。

看到這款“沙雕游戲”，你是不是會想到強化學習來訓練雙足機器人的畫面？

一位來自波士頓咨詢的數據分析師Wesley Liao也是這么想的。

不過別以為“變態”難度的游戲到了AI面前就變成了毛毛雨，

Liao綜合了之前多種強化學習算法，最后甚至請來了“世界名師”教學，費了好大一番功夫，才終于讓AI在上周打破人類玩家的記錄。

可見這款游戲的難度一點都不比圍棋低啊，（手動狗頭）

小試牛刀

一開始，Liao使用OpenAI Gym強化學習環境來訓練AI，先設定好游戲的狀態、操作和獎懲機制，

狀態包括每個身體部位和關節的位置、速度和角度，操作方式限定為11種：4個QWOP按鍵、6種兩兩按鍵組合以及不按任何鍵，

用來訓練AI的算法是ACER（具有經驗回放能力的Actor-Critic）。這種算法的優點是，不僅可以從其最近獲得的經驗中學習，也可以學習存儲數據中更早的經驗。

由于ACER非常復雜，Liao使用了別人的實現代碼“Stable Baselines”。

Liao首先嘗試了讓AI自己學習，經過多次實驗后，他發現AI只學會了“蹭膝蓋”這種方式跑過終點，速度很慢，

這和許多人類普通玩家以及其他強化學習算法是一樣的，離高手的水平還差很遠，更不用談打破紀錄了，

仔細分析可以發現，AI根本沒有學習到跨步機制，只是學習到了最安全、最慢的方法來到達終點。

看來靠AI完全自學是不行了，

學會奔跑

類似于DeepMind用頂級棋手教AlphaGo下棋，Liao想到是不是也可以讓人類玩家來教一下AI，

但是Liao本人的技術和頂級玩家差距太大，自己最多也只能跑到28米，

這都不重要，重要的是起碼Liao跨出更大步伐的技巧，只能寄希望于AI能從“渣技術”里學到一點奔跑的技巧吧，

但是結果很不幸，AI很好地詮釋了“邯鄲學步”：不僅沒掌握跑步技巧，反而在起點就跌倒了，

然后Liao讓AI自己繼續訓練，所謂師父領進門，修行在個人，AI能否將人類技術和自學能力結合起來？

結果令人興奮，經過90個小時的訓練，AI終于學會了像人一樣奔跑！

最終成績是1分25秒，已經能跑進全球排行榜的前15名，離超過人類不遠了，

接下來要做的就是再向AI教授更多技巧，奈何本人技術太渣。

所以要想進一步提高AI的水平，必須找頂級高手來幫忙，

頂級高手助陣

Liao觀察速通排行榜上的錄像，發現頂級玩家的技巧是把左腿抬高可以跑的更快。

△排名第一玩家gunmaneko的踢腿技巧

他開始全球排名前二的玩家gunmaneko和Kurodo請教踢腿技巧的操作。

兩位玩家熱情地回答了他的問題。其中Kurodo指出這個技巧的關鍵在于減少游戲角色在縱向的移動，并提出把保持身體高度加入AI的獎勵函數，

Liao向Kurodo分享了他的代碼，Kurodo慷慨地使用代碼記錄了50次自己游戲時的按鍵記錄發給Liao。

Liao嘗試使用這些數據對AI進行預訓練，但效果并不好。AI還沒來得及學會踢腿技巧，倒先把基本的跑步方法忘記了，

Liao不得不改變方法，他把Kurodo的數據注入到AI的回放緩存*（Replay Buffer）*中，這相當于修改AI的記憶，使AI有一半的記憶是自己的，另一半來自Kurodo。

并且是AI每自己玩一次，就注入一次Kurodo的數據，保證AI隨機從記憶中選取一段來學習時選到兩種記憶的概率相同，避免在學習新技巧的過程中把基本操作忘掉。

AI使用Kurodo的數據訓練了15個小時，終于學會了踢腿，但因為兩種記憶無法協調在一起，跑時間長了動作會不穩定，

Liao此時把Kurodo的記憶移除，又讓AI自己訓練了25小時，總訓練時間達到了65小時，

最終AI的成績達到1分08秒，終于進入前十。

打破世界紀錄

Liao把教AI玩這個游戲的過程做成視訊發在網上。一個月前，外媒Gismodo問他：為什么AI還沒有打破世界紀錄？

于是Liao重新訓練了一個只為優化速度而存在的新AI。

新AI改用Prioritized DDQN算法，因為這種算法會給學習效率更高的狀態增加權重而不是均勻采樣，能使新AI迅速學會舊AI已經掌握了的技巧，

并且，新AI的獎勵函數去掉了身體高度，膝蓋彎曲角度等參數，改成只和前進速度相關。

新AI先用已有數據進行只有幾分鐘的預訓練，隨后是40小時的自訓練，最終，新AI每秒所做的動作數在訓練環境中由9提高到18，并在測試環境中達到25，

新AI對踢腿技巧的掌握非常穩定，即使被障礙物影響也能迅速恢復，

快速高效的動作使AI的成績提高到47.34秒，比人類最高紀錄48.34秒剛好快1秒，

這才終于算是，在人工智能超越人類的游戲列表中又增加了一項。

One More Thing

你以為這就完了？

跑完100米不算完，這款游戲還有一種世界級難度——“是男人就跑完馬拉松”。

為Liao提供幫助的玩家Kurodo最近剛剛提交了世界紀錄，全球也只有兩人完成了這項壯舉，

很難想象他們在電腦前連續按幾個小時QWOP的畫面，

另外，QWOP的開發者Bennett Foddy一直在堅持開發這類“變態”難度的獨立小游戲。

有一款Getting Over It with Bennett Foddy名氣頗高，中文名“掘地求升”。玩法就是一個裝在壇子里的人不停用錘子讓自己升高。

Foddy曾經在普林斯頓大學部和牛津大學部擔任博士后研究員，現在是一名獨立游戲設計師。QWOP就是他在普林斯頓大學部時期開發的，

我只能說，學霸開發的游戲，學渣真的玩不起，

0 条回复 A文章作者 M管理員

暫無討論，說說你的看法吧

1

綠市集：免費活動歌頌永續生活
2023/05/26
2

CT檢查免顯影劑 AI只花90秒鎖定腦傷區與體積精準即時搶救
2023/05/26
3

捲假包風波！王思佳親解「不回小S留言」原因：不想拖下水
2023/05/26
4

日本長野殺警案！霰彈槍射殺4人「2警1女亡」議長兒凌晨落網
2023/05/26
5

網路紅什麼／汙衊老闆性騷擾！纏訟近3年千萬粉絲帳號被封小慧君嘴硬：只是違規而已
2023/05/26
6

疫情中斷後首次重啟！塔利班宣布恢復阿富汗對中國直飛航線
2023/05/26