夢晨 曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
13年以前,有這樣一款“變態”級難度的游戲曾風靡一時,
它的名字簡單粗暴——QWOP,意思是讓玩家用這四個鍵位控制游戲人物的左右大腿和小腿,以最快的速度跑完100米,
實際上,大部分玩家剛上手的時候,可能連起點線都邁不過去就Game Over了。
如果你能跑出幾米遠,絕對算是一個高手,甚至能在朋友面前炫耀一番,
QWOP的難點在于,一旦角色失去平衡就很難再挽回,需要在100米的距離內一直保持重心不過于向前后傾斜。
當你經過苦練第一次跑起來時,又會被50米處作者故意設置的欄桿擺一道:說好的100米短跑怎么變跨欄了?
△某小編當年的游戲截圖
在那個4399小游戲盛行的年代,這款也被戲稱為“是男人就跑100米”,因為難度過于“變態”,QWOP開發者曾收到過很多辱罵郵件,
雖然絕大部分人難以跑到終點,但仍有一批骨灰級玩家樂此不疲,他們不僅能輕松跑完,至今還為競爭世界排名而不斷挑戰,
2個月前,一位日本玩家創造了新的世界紀錄:48.34秒。
看到這款“沙雕游戲”,你是不是會想到強化學習來訓練雙足機器人的畫面?
一位來自波士頓咨詢的數據分析師Wesley Liao也是這么想的。
不過別以為“變態”難度的游戲到了AI面前就變成了毛毛雨,
Liao綜合了之前多種強化學習算法,最后甚至請來了“世界名師”教學,費了好大一番功夫,才終于讓AI在上周打破人類玩家的記錄,
可見這款游戲的難度一點都不比圍棋低啊。(手動狗頭)
小試牛刀
一開始,Liao使用OpenAI Gym強化學習環境來訓練AI,先設定好游戲的狀態、操作和獎懲機制。
狀態包括每個身體部位和關節的位置、速度和角度,操作方式限定為11種:4個QWOP按鍵、6種兩兩按鍵組合以及不按任何鍵,
用來訓練AI的算法是ACER(具有經驗回放能力的Actor-Critic),這種算法的優點是,不僅可以從其最近獲得的經驗中學習,也可以學習存儲數據中更早的經驗。
由于ACER非常復雜,Liao使用了別人的實現代碼“Stable Baselines”。
Liao首先嘗試了讓AI自己學習。經過多次實驗后,他發現AI只學會了“蹭膝蓋”這種方式跑過終點,速度很慢。
這和許多人類普通玩家以及其他強化學習算法是一樣的,離高手的水平還差很遠,更不用談打破紀錄了,
仔細分析可以發現,AI根本沒有學習到跨步機制,只是學習到了最安全、最慢的方法來到達終點,
看來靠AI完全自學是不行了,
學會奔跑
類似于DeepMind用頂級棋手教AlphaGo下棋,Liao想到是不是也可以讓人類玩家來教一下AI,
但是Liao本人的技術和頂級玩家差距太大,自己最多也只能跑到28米,
這都不重要,重要的是起碼Liao跨出更大步伐的技巧,只能寄希望于AI能從“渣技術”里學到一點奔跑的技巧吧,
但是結果很不幸,AI很好地詮釋了“邯鄲學步”:不僅沒掌握跑步技巧,反而在起點就跌倒了。
然后Liao讓AI自己繼續訓練。所謂師父領進門,修行在個人,AI能否將人類技術和自學能力結合起來?
結果令人興奮,經過90個小時的訓練,AI終于學會了像人一樣奔跑!
最終成績是1分25秒,已經能跑進全球排行榜的前15名,離超過人類不遠了,
接下來要做的就是再向AI教授更多技巧,奈何本人技術太渣,
所以要想進一步提高AI的水平,必須找頂級高手來幫忙,
頂級高手助陣
Liao觀察速通排行榜上的錄像,發現頂級玩家的技巧是把左腿抬高可以跑的更快。
△排名第一玩家gunmaneko的踢腿技巧
他開始全球排名前二的玩家gunmaneko和Kurodo請教踢腿技巧的操作。
兩位玩家熱情地回答了他的問題,其中Kurodo指出這個技巧的關鍵在于減少游戲角色在縱向的移動,并提出把保持身體高度加入AI的獎勵函數。
Liao向Kurodo分享了他的代碼,Kurodo慷慨地使用代碼記錄了50次自己游戲時的按鍵記錄發給Liao,
Liao嘗試使用這些數據對AI進行預訓練,但效果并不好。AI還沒來得及學會踢腿技巧,倒先把基本的跑步方法忘記了。
Liao不得不改變方法,他把Kurodo的數據注入到AI的回放緩存*(Replay Buffer)*中。這相當于修改AI的記憶,使AI有一半的記憶是自己的,另一半來自Kurodo,
并且是AI每自己玩一次,就注入一次Kurodo的數據,保證AI隨機從記憶中選取一段來學習時選到兩種記憶的概率相同,避免在學習新技巧的過程中把基本操作忘掉。
AI使用Kurodo的數據訓練了15個小時,終于學會了踢腿,但因為兩種記憶無法協調在一起,跑時間長了動作會不穩定。
Liao此時把Kurodo的記憶移除,又讓AI自己訓練了25小時,總訓練時間達到了65小時。
最終AI的成績達到1分08秒,終于進入前十,
打破世界紀錄
Liao把教AI玩這個游戲的過程做成視訊發在網上。一個月前,外媒Gismodo問他:為什么AI還沒有打破世界紀錄?
于是Liao重新訓練了一個只為優化速度而存在的新AI,
新AI改用Prioritized DDQN算法,因為這種算法會給學習效率更高的狀態增加權重而不是均勻采樣,能使新AI迅速學會舊AI已經掌握了的技巧。
并且,新AI的獎勵函數去掉了身體高度,膝蓋彎曲角度等參數,改成只和前進速度相關。
新AI先用已有數據進行只有幾分鐘的預訓練,隨后是40小時的自訓練。最終,新AI每秒所做的動作數在訓練環境中由9提高到18,并在測試環境中達到25。
新AI對踢腿技巧的掌握非常穩定,即使被障礙物影響也能迅速恢復,
快速高效的動作使AI的成績提高到47.34秒,比人類最高紀錄48.34秒剛好快1秒。
這才終于算是,在人工智能超越人類的游戲列表中又增加了一項,
One More Thing
你以為這就完了?
跑完100米不算完,這款游戲還有一種世界級難度——“是男人就跑完馬拉松”。
為Liao提供幫助的玩家Kurodo昨天剛剛提交了世界紀錄,全球也只有兩人完成了這項壯舉,
很難想象他們在電腦前連續按幾個小時QWOP的畫面,
另外,QWOP的開發者Bennett Foddy一直在堅持開發這類“變態”難度的獨立小游戲。
有一款Getting Over It with Bennett Foddy名氣頗高,中文名“掘地求升”。玩法就是一個裝在壇子里的人不停用錘子讓自己升高,
Foddy曾經在普林斯頓大學部和牛津大學部擔任博士后研究員,現在是一名獨立游戲設計師,QWOP就是他在普林斯頓大學部時期開發的,
我只能說,學霸開發的游戲,學渣真的玩不起,
QWOP在線游戲地址:
http:http://www.foddy.net/Athletics.html
參考鏈接:
[1] https:http://github.com/Wesleyliao/QWOP-RL
[2] https:http://www.speedrun.com/qwop
[3] https:http://gizmodo.com/an-ai-was-taught-to-play-the-worlds-hardest-video-game-1846388137
[4] https:http://towardsdatascience.com/achieving-human-level-performance-in-qwop-using-reinforcement-learning-and-imitation-learning-81b0a9bbac96
[5] https:http://www.youtube.com/watch?v=82sTpO_EpEc
[6] https:http://wesleyliao.com/
馬拉松那款太變態了吧,按7個多小時?