我輸入「精靈寶可夢」,AI竟然生成了不可描述的色情圖像


大數據文摘授權轉載自AI科技評論

作者:耳洞打三金

大家好我是三金,想必大家都知道,來自OpenAI的CLIP和DALL.E如同魔法設計師一樣,從文本生成栩栩如生的圖像的強大功能令人印象深刻,

文本提示:穿著芭蕾舞短裙的蘿卜寶寶在遛狗,

AI生成的圖像:


然而就在今日,三金我上班摸魚的時候,發現Reddit上一位名叫Steves的網友表示,他在無意中發現了一些奇怪的趨勢,似乎表明OpenAI接受了色情內容圖像和版權材料(copyrighted material)的數據集訓練——

CLIP和DALL.E似乎把口袋妖怪/精靈寶可夢(pokemon )和色情圖像(porn)混淆了!


因為當Steves輸入文本提示“pokemon”之后,由CLIP引導AI模型(DALL-E dVAE)生成了如下不堪入目的辣眼睛圖像–前方高能,NSFW警告!!!

AI生成的精靈寶可夢圖像一:


注:原圖可能引起不適,現已打馬賽克

AI生成的精靈寶可夢圖像二:


注:原圖可能引起不適,現已打馬賽克

(注: NSFW是一個英文網路用語,“Not Safe For Work”或者“Not Suitable For Work”的縮寫,意思就是某個網路內容不適合上班時間瀏覽。它通常被用于標記那些帶有淫穢色情、暴力血腥、極端另類等內容的郵件、視訊、部落格、論壇帖子等,以免讀者不恰當的點擊瀏覽,)

上面這些到底是生成了個啥?真是不可描述、令人不忍直視……

然而三金我可是知道精靈寶可夢應有的樣子應該是下面這樣萌萌噠的:


Steves之后問道:

“有沒有其他人在使用CLIP和DALL-E時遇到過這樣的事? 我也看到了一個關于罌粟被檢測為貴賓犬的公開問題,但我還沒有進行探究。”


那么這究竟是怎么一回事呢?

Steves為此專門寫了一個部落格介紹此事,原來他是看到DALL.E之后,對之產生了極大的興趣,他最近一直都在玩CLIP和DALL-E,并且用的是推特網@advadnoun分享在colab上的代碼,該代碼基于DALL-E的解碼器和CLIP從文本生成圖像的,

colab鏈接:

https:http://colab.research.google.com/drive/1Q-TbYvASMPRMXCOQjkxxf72CXYjR_8Vp?usp=sharing

Steves首先對DALL·E和CLIP做了一個簡單的介紹,DALL·E是一個神奇的魔法設計師模型,而支持DALL·E生成神奇效果的核心離不開CLIP模型,簡單來說,CLIP是一個重排序模型,檢查DALL·E生成的所有結果,然后從中挑選出最好的一組來展現,

而就在前幾天OpenAI公布了dVAE,大概可以說dVAE是DALL·E的第1步,CLIP是第4步,

實際上OpenAI目前還沒有公布訓練DALL·E和CLIP的數據集,但是不難想象,像ImageNet這樣的數據集,OpenAI豈能放過,

Steves之后運行上面鏈接的代碼,通過使用CLIP來控制dVAE嵌入中的圖像標記來試驗dVAE,給定一個輸入短語和一個圖像的隨機初始化,可以根據CLIP不斷迭代dVAE圖像的嵌入,直到它生成越來越接近給定的文本提示,

結果如何呢?

Steves的第一個實驗和OpenAI在部落格文章中用完整的DALL·E 所做的 “鱷梨形狀的扶手椅” 實驗是一樣的,盡管這個方法不如完整的DALL·E方法好,但仍然很酷!

至少可以看到扶手椅和鱷梨這兩個元素。


這里對比一下OpenAI官方的生成結果:


Steves之后又輸入文本提示“彩虹立方體”試了試:


Steves注意到上面立方體圖像似乎有運輸板條箱,這讓他想到AI可能會意外捕捉到什么不可控的東西,

Steves最初的疑惑是,受版權保護的材料是否可以由DALL·E或這種基于CLIP的dVAE制作生成,Steves注意到當給AI一個單獨的單詞時,它會開始崩潰,并且產生了像夢一樣的特征,

因此,Steves開始嘗試不同的卡通電視節目,想看看會生成什么。

“卡通電視節目”的生成結果

下面可以看到AI生成的一些90年代末21世紀初的卡通節目的結果,

AI生成的游戲王:


三金眼中的游戲王:


AI生成的美少女戰士:


三金眼中的美少女戰士:


以下是AI生成的菲比精靈,呃,三金我只能看到一堆毛茸茸。,,


三金眼中的菲比精靈:


AI生成的 “愛探險的朵拉”,好嚇人把頭都生成到背包上面去了,


人類眼中的“愛探險的朵拉”:


下面是AI生成的天線寶寶,這是史上最丑的天線寶寶吧,只能算是天災寶寶吧?


三金眼中的天線寶寶:


Pokemon(輕度NSFW)結果

可以看出,盡管以上Steves拿DALL.E生成的卡通動漫形象不是很清晰,且和原有的形象大相徑庭,但多少還能看出一丟丟顏色、形狀和輪廓,且沒有不可描述的畫面。

但是下面AI生成的精靈寶可夢(pokemon)可就令人反胃和嘔吐了,它絕對不是真的寶可夢!

因為Steves最近在行動電話上有看過pokemon,所以他一開始只是輸入pokemon,AI生成的結果很不符合預期:


注:原圖可能引起不適,現已打馬賽克

Steves第二次把AI迭代100次之后AI生成的圖像:


注:原圖可能引起不適,現已打馬賽克

迭代600次之后:


注:原圖可能引起不適,現已打馬賽克

迭代 4000 次之后:


注:原圖可能引起不適,現已打馬賽克

接下來Steves嘗試了不同類型的pokemon,這比僅僅輸入pokemon的可重復性差,有些生成效果還可以,不過Steves也得到了以下圖像:

輸入“squirtle”–杰尼龜之后AI生成的圖像:


注:原圖可能引起不適,現已打馬賽克

三金眼中的杰尼龜:


當輸入“weedle”–獨角蟲之后AI生成的圖像:


注:原圖可能引起不適,現已打馬賽克

三金眼中的獨角獸:


Steves之后發現同樣的事情也發生在數位寶貝(digimon)身上,所以他很好奇精靈寶可夢和數位寶貝是否都緊密地嵌入到CLIP當中,不知何故色情圖像非常接近這兩者,

Steves表示可能還有其他奇怪的組合,只是他還沒有發現,

Steves之后又將這些圖像作為CLIP的輸入進行測試,使用imagenet標簽進行零樣本分類,它們通常分類如下(來自imagenet 1000類標簽):


而一旦Steves加上色情作為標簽,他們就立馬被歸類為色情:


而如果Steves也添加pokemon作為一個標簽,它們絕大多數則被歸類為pokemon:


在OpenAI的論文中,他們沒有討論是如何從互聯網上抓取圖像的,以及是否設置了任何過濾器,所以以上結果的背后原因目前不得而知,但OpenAI明顯應該多顧慮到一些事情,

看到這里大家是否覺得這些結果是Steves刻意而為之呢?

Steves對此說道:

“如果你對這些結果持懷疑態度,那就自己跑跑代碼試試吧!我保證沒有認真挑選過這些例子,我幾乎每次都是這樣,”

為了在Notebook生成的圖像上使用Imagenet標簽評估CLIP,Steves使用經修改后的CLIP github中的以下代碼來處理此問題:


AI為何會把精靈寶可夢和luo體色情聯系到一起?

首先要說明一點的是由于OpenAI并沒有公開DALL.E和CLIP所使用的訓練數據集,所以以下內容都只是網友們的合理猜測而已。

有網友表示這可能是語言學和數據集標簽問題:

當把pokemon(雙向字母組合)拆開來成poke mon看,如下所示,AI可能會自己產生動名詞短語聯想?


所以這可能是一個NLP問題?

而在Reddit上有一位網友表示:“CLIP的訓練集中肯定有NSFW材料(就此而言,還有Imagenet),一旦CLIP / DALL-E看到它就能識別,


例如OpenAI官方前幾天剛推出的顯微鏡網站中可以參見CLIP中的以下神經元,官方證實CLIP的訓練集中確實用到了Imagenet中的NSFW材料!!!


注:原圖可能引起不適,現已打馬賽克

還有一位網友立刻留言說出了真話:“OpenAI為這些大模型獲取足夠多數據的唯一方法就是自動將其從互聯網上搜刮下來,然鵝互聯網上有很多防不勝防的色情內容。”


緊接著這位網友,還有一位網友表示道:

“我不知道該怎么告訴你,但是在互聯網上有著數以百萬計的Pokemon色情圖片,你沒看錯,互聯網上有很多具有明顯xx器官的Pokemon互相發生xx關系的圖片,所以說這些數據集很有可能被OpenAI自動爬蟲收集到訓練數據中,我也不會對此感到驚訝,例如,GPT-3可以引用流行的淫穢粉絲小說,其準確度高到令人質疑。


如何完全禁止AI學習luo體/色情圖像?

既然有這些圖像存在,那想辦法全部去除掉不就行了?

然而一位網友表示,可是這并不能阻止AI通過藝術品來學習luo體,然后將其與真實的人體相匹配,另外解剖學資訊還將為其提供創建色情內容所需的資訊,


“同樣在您的示例中,某些結果看起來像泳衣,我猜測,AI或許能從“穿著衣服的人類圖像”中學習到人類luo體的樣子。”

完全禁止AI學習luo體是正確的解決之道嗎?

有一位網友對此說出了一段比較哲學的話:

“人為地遺漏數據會導致不可預知的偏差。例如,如果從來沒有見過luo體的人類,那么AI將可能永遠也不知道衣服是什么(它從哪里來?它對于人類是什么意義?要到哪里去?),并會產生奇怪的聯想,

這也使得當AI遇到色情時,它也不可能被發現(如果AI都沒學習過什么是luo體,你又怎么指望它去鑒別出luo體從而加以過濾禁止呢?)。

如果您不希望它產生某些圖像,那么應該使用過濾器來過濾掉生成的圖像,而不是阻止它生成這些圖像,有一個notebook可以讓您選擇您不想看到的生成圖像,因此這不是一個不可能的任務。


還有網友表示想要實現通用人工智能,AI必須得學習所有盡可能多的圖像,哪怕是色情圖像,

數據集帶來的倫理問題

我們大致可以認為此事是由數據集帶來的問題,而其實早在去年7月份的時候,

此舉是論文《Large image datasets: A pyrrhic win for computer vision?》中的發現導致的結果,論文作者在數據集中發現了許多有危害類別,包括種族歧視和性別歧視。

這是依賴WordNet名詞來確定可能的類別而沒有檢查圖像標簽帶來的結果。他們還確定ImageNet中也有類似的問題,包括非自愿的色情材料等。


而數據集帶來的種族歧視問題這些年一起又一起,其中有名的一個例子就是Google圖像識別算法把黑人識別成大猩猩:

在遙遠的2015年,一黑人哥們Jacky Alciné震驚地發現,自己被Google圖像識別算法歧視了:Google Photos竟然把他的朋友分類成了“大猩猩”(gorilla)!


Google當時迅速道歉并承諾整改。

可是到了2018年時,據《連線》雜志報道,谷歌并沒有真的整改,只是直接懶省事去掉了“大猩猩(gorilla)”這個類別。


很好,谷歌很有精神嘛,這樣一來就再也不會有黑人群體被識別成大猩猩了,不過,大猩猩也不會有機會被認作大猩猩了,因為算法里沒有大猩猩這個物種存在了。這和上面所說的“如果AI都沒學習過什么是luo體,你又怎么指望它去鑒別出luo體從而加以過濾禁止呢?”是一個道理。

Google之后也承認了從圖像識別的數據集標簽中刪掉了“大猩猩”一項,后來連“黑猩猩”也被屏蔽了,

數據集問題還有哪些難點?

1、副本無處不在

即便MIT主動下線了Tiny Images數據集,但是數據副本無處不在,很多用戶都下載過這些副本到本地,如何保證這些副本不會被再次上傳到網路呢?在reddit上有網友表示知道該數據集的副本地址。

2、人工智能鑒黃系統的工作還能繼續嗎?

如果想要訓練一個人工智能鑒黃系統,那么必須要先人為的制作數據集也就是要對一些圖片打上標簽說這是色情圖片,

問題是這些圖片從何而來呢?

如果是用爬蟲程式從色情網站上收集,那么怎么保證這些圖片當中哪些能用呢?比方說有些無辜受害的情侶被偷拍的照片被不法分子上傳到色情網站,然后爬蟲程式又把它們下載下來,我們難道可以哪怕是為了開發鑒黃系統而理所當然的使用這樣照片嗎?這難道不是對無辜受害者的隱私再一次侵犯嗎?

另外如果說收集的是色情從業者(他們的國家合法化這項職業)的視訊和圖片,那TA們的肖像權就不值得尊重和保護了?

所以說一旦考慮到要嚴格遵守隱私權和肖像權,人工智能鑒黃系統就難以為繼,

3、利用人工智能程式自動判斷種族、性別等歧視是個矛盾

因為如果我們要考慮制造一個AI系統來自動幫助我們判別某些圖片是不是存在某種歧視,那么我們同樣需要收集和利用這些有歧視的圖片,可是在得不到本人允許的情況下我們又何以冠冕堂皇的利用這些圖片來做成“典型”來告訴人工智能說:嗨AI,快看!這個就是XX歧視的圖片,你可得“記住”哈!

那就讓我們“愉快”地拋棄人工智障回到農耕(手工)時代吧!

可是,難道個人或者企業私自收集并利用這些包含隱私/歧視的數據就合法了嗎???

—————————————————

文末,Steves最后表示道:

“人們目前還沒有關于訓練版權數據生成模型的規則,但隨著這些AI模型方法越來越好,這應該是一個被關心的因素。鑒于AI大力出奇跡的生成模式,復制藝術家的風格或內容越來越有可能,也越來越接近真實,我認為這可能是未來內容創作者即將面臨的一個潛在問題,”

然而這件事其實已經發生了,下面正是用CLIP根據文本提示生成的圖像,

文本提示:寧靜,

AI生成的圖像:


文本提示:烏托邦,

AI生成的圖像:


文本提示:反烏托邦,

AI生成的圖像:


實話實說,這三幅圖還挺有色彩感和想象力的,而且最后這幅圖很賽博朋克有沒有,這繪畫水平比三金我都要厲害。

最最后,AI這個令人糟心玩意兒,人類到底該拿你怎么辦呢……

https:http://twitter.com/Ted_Underwood/status/1369091948548653060

https:http://www.reddit.com/r/MachineLearning/comments/m0ll9w/d_openais_clip_and_dalle_seem_to_be_trained_on/

https:http://stevenhickson.blogspot.com/2021/03/test.html

0 条回复 A文章作者 M管理員
    暫無討論,說說你的看法吧