AI分析《賽博朋克2077》玩家評價后：真愛粉的趣味暴露了

CDPR三度延期《賽博朋克 2077》，可把玩家憋壞了，

12月10日上線當天，網上一夜間流行起各種賽博朋克的梗：

前期預售800萬份，上線首日就收回成本，3天時間就有17萬留言評價…..

盡管CDPR不給游戲加密，默許盜版，但絕大部分玩家毫不介意為《2077》掏錢。

從來沒有哪家廠商能像「波蘭蠢驢」這樣被玩家擁戴，

但是，《賽博朋克 2077》剛上線，按照Steam的評分規則，得到了「多半好評」。

好評率僅有73%，今天也只達到79%。

分數不低，但對于有《巫師》系列在前的CDPR來說，這個成績還是有些意外。

誰在給《賽博朋克 2077》差評？大家在吐槽什么？

一位最硬核玩家Kamil Czarnogórski，用AI分析了Steam上的評價，看看大家在討論《賽博朋克2077》的時候，都在說什么，

《賽博朋克 2077》，你還好嗎？

Kamil使用Transformer，對抓取的Steam評論頁有效資訊進行向量化，并使用UAMP來對數據進行可視化，最后用k均值算法對關鍵詞進行聚類分析，得出了下面的結果，

先看吐槽部分。《賽博朋克 2077》，對于玩家吐槽最多、給出差評最集中的兩個點，一是配置要求高、二是游戲優化差、bug多。

在配置方面，出現頻率最高的詞匯是游戲硬件配置相關，比如RTX、1080P、DLSS等等。

一波高配置玩家，秀了一把流暢運行的配置清單：

RTX2060、i7 8700、16GB內存，感覺畫面就像一部電影，

45-65幀，RTX 2080、i9-9900K與32GB的內存，光追效果全開，運行流暢。

2080ti和9700k沒有問題，可以開最高畫質，幀率穩定60幀，

3080 FE和5800X，可以達到到80-100幀率，分辨率1440p，其他設置都是最高。

可以看出，要想較為流暢地運行《賽博朋克2077》，一塊2060或更好的N卡是必須的。

目前，2060大陸電商售價在2500-3000左右，而2060只能算將將滿足最高畫質要求，要想玩的「從容」，還得更高配置，

加上i7 8700處理器，要開最高畫質玩《賽博朋克2077》，整套設備至少8000-10000元起步，

原來第一時間阻止我們玩《賽博朋克2077》的不是工作\學業，而是錢，

有了真金白銀，攢起了高配置電腦，但游戲的bug和崩潰情況還是令人頭疼，

吐槽出現頻率最多的詞是崩潰（crashes），且玩家反映，崩潰情況多數出現在啟動時、角色創建，以及鏡頭轉場，比如過場動畫和玩家視角的銜接，

其它小bug也頻頻出現，一位名叫staigerd89的玩家分享說，他的角色一直被一個特定NPC不明原因尾隨：

崩潰和各種小bug，是目前這款游戲被吐槽最多的情況。

此外，有大量玩家反映，主機平臺優化太差，遠不如PC，

甚至有真愛粉先買了主機版，發現效果不好后，又花錢買了PC版，

在游戲性方面，玩家也提到打擊和射擊感比較生澀和遲滯，子彈打在物體上力量不突出，像是打海綿一樣。

不可避免的，負面評價中另一個高頻詞是退款。

盡管被大量吐槽，但游戲本身精良的畫面，和用心的制作細節還是讓大家對它充滿了期待。

給出差評的玩家，大部分認為目前的問題不影響整體質量，未來隨著版本更新、bug修復，優化會越來越好。

這一類評價中，出現最多的詞是wait、patch、better。

「波蘭蠢驢」向來不在意盜版傳播，也不給游戲加密，因為總有真愛粉支持正版。大家對CDPR的耐心和期待，也遠超其它游戲廠商，

而且，游戲上線一天后，英偉達方面也立刻更新460.79版驅動，針對《賽博朋克 2077》做了全方位的支持和優化，幾天下來，好評率從73%上升到79%，

好評最多：擼貓

「配置要求高」、「前期bug多」、「感謝Steam給我退款」……《賽博朋克 2077》，你還好嗎？

其實，仍然有多數玩家給出了好評。

好評中出現最多詞匯，竟然是擼貓（petting the cats）。

大家紛紛表示，這是年度最佳擼貓游戲，

此外，玩家贊譽的點集中在畫面效果好、游戲世界細節到位、夜城沉浸感強，

所以總的來說，《賽博朋克 2077》細節還不完善，前期bug較多，會出現崩潰。

但總體制作精良，未來更新令人期待，

3步走，用AI解析Steam評論

那么，從「優化」、「退款」到「擼貓」，這些精準的關鍵詞分析結果，Kamil是怎么得出的呢？

數據處理

首先，獲取上面這些（吐槽、擼貓等）評論的文本數據。

Steam有一套游戲的配置工具包Steamworks，其中一項功能是獲取Steam游戲的評測，可以篩選時間、語言、正負面評價等，每次獲取20條。

只需要寫個Python腳本，就能迭代獲取《賽博朋克2077》的所有英文評論，

這些評論是一組組句子，接下來要將它們切分成token（字，包括單詞和標點符號），用NLP的Python工具包NLTK，通過sent_tokenlize對所有句子進行字詞分割，

在那之后，再對輸入進行向量化（embedding），這里用到的框架是Sentence Transformers（BERT和XLNet結合的多語言句子向量框架）。

分析數據的目的，是為了尋找句子的語義相似度，因此采用了框架中的預訓練模型roberta-large-nli-stsb-mean-tokens。

這里的語義相似度，就是將相似的句子聚集在一起的關鍵，例如這些吸貓評論：

用這種模型對數據進行處理后，就能將輸入的評論轉換為高維向量（便于聚類分析），

數據可視化

接下來，是將這些向量可視化，更好地看清評論的分布，

但經過Transformer獲得的高維向量，還不能直接可視化，

因此，需要將這些1024維向量（轉換出來的高維向量，是將語義編碼成1024個數字的序列），先降維成二維向量。

這里會用到一種名為UMAP （統一流形逼近和投影）的技術，能將高維向量轉變成二維向量。

在二維向量的可視化圖中，彼此接近的點表示具有相似含義的句子，如果發生簇分離，則代表評價的內容并不相同。

如下圖，經過處理后的可視化評論中，綠色代表正面評價，紅色代表負面評價，顏色越深，表示負面評價的占比越大，（例如上面那些有關退款的評價，就可以組成一個退款群了）

而在離集群很遠的左上角，有一小撮人在“自說自話”，這群人給出的140條評價，全都是好評，

沒錯，這就是剛剛那群沉迷吸貓的玩家……（畢竟，連水下也能吸貓）

當然，快樂吸貓只是游戲中的一個細節，

為了更全面地搜集有關游戲的整體評價，還需要對這些數據進行聚類分析，

聚類分析

聚類分析，是對評價進行整體分類的方法，也就是對這些處理后的二維向量進行分組。

例如被分到「游戲會更好」的評價組里，就會看到大量的wait、patch、better，這些詞共同組成了這個評價，

這里的聚類分析，采用的是k均值算法（k-means），

k均值算法唯一需要的參數是簇數（將這些二維向量分成多少組），這里盲猜75。

簇數越大，分類就越細，反之則越普遍，運用k均值算法后的75個分類如下：

其中，每一簇都會有一個質心（centroid），是一句最能代表集群的“虛構”的話。

為了做出像上面評價那樣的可視化關鍵詞，會在簇中選取與質心最接近的句子，并分析句子作者的游玩時間：

在那之后，會將分析后的字詞進行可視化：

至此，就完成了對《賽博朋克2077》Steam上評論的分析。

這次篩選出來的的評論，主要是作者精選的15類評論，包括5個討論最多的話題、5個評價最高的話題和5個評價最低的話題。

如果你還有更好的分類方法的話，可以自己上手操作起來了~

作者介紹

Kamil Czarnogórski，畢業于格但斯克大學部（University of Gdańsk）計算機科學系，這是一個位于波蘭的大學部，

《賽博朋克2077》的開發商CDPR也來自波蘭。

Kamil Czarnogórski表示，這次做的評論分析，只針對發行后的24小時內的游戲評價。

在他進行分析的這段時間里，Steam上對于《2077》的評價已經上漲到了80%，截至12月14日，有關《2077》的評價已經達到了81%。

當然，游戲具體如何，還得親自一試，

目前這位小哥已經上手了這款游戲，打算給出自己的見解，

你已經玩了《賽博朋克2077》嗎？

「波蘭蠢驢」的新作品滿足你的期待嗎？

歡迎留言告訴我們~

AI分析《賽博朋克2077》玩家評價后：真愛粉的趣味暴露了

綠市集：免費活動歌頌永續生活

CT檢查免顯影劑 AI只花90秒鎖定腦傷區與體積精準即時搶救

捲假包風波！王思佳親解「不回小S留言」原因：不想拖下水

日本長野殺警案！霰彈槍射殺4人「2警1女亡」議長兒凌晨落網

網路紅什麼／汙衊老闆性騷擾！纏訟近3年千萬粉絲帳號被封小慧君嘴硬：只是違規而已

疫情中斷後首次重啟！塔利班宣布恢復阿富汗對中國直飛航線