由“企鵝”構成的“炸雞”長什么樣?用“長頸鹿”組成的“雞”是什么鬼…長頸雞嗎?
你或許覺得這種并不存在的事物過于荒誕,而且靠自身的想象力有點難以描述,但最近,
有AI能把這些東西畫出來了。
例如當你給出設定,用“大象”構成的“雞”,一般人還在愁雞頭應該安排在哪,這款最新的AI已經畫完了,而且一口氣畫了幾十張:
情不自禁的想來一個“看懂,掌聲”,
沒錯,OpenAI又整活了,今天要介紹的這位AI界的新晉畢加索正是他們最近訓練出的圖像生成器,DALL·E。
關于會畫畫的AI,狂丸之前沒少介紹過,但DALL·E有點特別,在一定的框架下,它能按照人類的文字描述,給出畫面圖像,無論這段描述有多不著調。
如果讓你畫一幅“一個小白菜寶寶穿著芭蕾舞裙遛狗”,你可能會一臉懵,但DALL·E直接就整出來了:
主角換成皮卡丘也沒問題,而且每只狗子都不一樣:
所以,這看起來就是一個可以利用文本描述生成圖像的AI。人類的指令就是像是完成填空題,有一些可選選項,模式類似:繪制一個“xxx”的“xxx”,比如下圖中,選取了“綠色”,得到了綠色的表。
(綠色,六邊形,鐘表)
于是,不同的關鍵詞就組成了千奇百怪的東西,雖然看著有一絲絲沙雕,但其實這款AI在制圖方面有著比較全面的功能,
DALL·E都能“畫”些什么?
比較基礎的就是“控制屬性”,我們剛才介紹過,例如“立方體”的“老虎”,通過兩個簡單的關鍵詞構成的一組詞匯,然后生成畫面:
“環面”的“水”,很有美感:
還可以“繪制多個對象”,包括他們的空間關系,像是下圖:
一個“小”的“紅色”的方塊,“立”在一個大的“綠色”方塊上,
此時AI不僅要將詞組正確組合,而且要形成正確的關聯,避免混淆。下圖是“一只綠色的大象坐在一只紅色老鼠身上”,可以感受一下AI的抽象畫法:
另外還可以根據“畫面的視角”生成圖片。
如“美洲獅”“坐在山上”的“鳥瞰圖”,當然也可以選擇平視或者特寫等多個視角選項:
根據“畫面風格”變動生成圖片,“狐貍”“坐在森林里”的“3D渲染圖”:
類似的關鍵詞,還可以換成前幾年比較火的低多邊形風格,也可以改成像素風格:
還可以生成“橫截面圖”,這西瓜讓AI切的稀碎:
其他的功能還有很多,例如“推理背景細節”,給出一個大概的方向讓AI補充畫面,
像是“早晨,一只水豚坐在森林里的畫”,AI會根據關鍵詞,推斷光線一類的需求,然后生成不同風格的“畫”這個結果,看效果確實藝術極了:
而我最喜歡的是“合并不相關的概念”。
通常來說,我們組合一個詞匯都是用于描述真實存在的事物,例如木質的桌子。不過好玩的是,DALL·E可以將不同概念的對象“強行”縫合,創造出新的東西,舉個例子,設置由“蝸牛”組成的“漢堡”,于是就出現了漢堡蝸牛:
感覺類似的生成方式,很適合做設計,下圖的關鍵詞是,一個“冰川”“形式”的“茶壺”:
更進一步還可以制作“腦洞插畫”,“皮卡丘”“穿著西裝”“擤鼻涕”:
“動物與動物之間的嵌合體”,用“長頸鹿”組成的“雞”:
還有神話中的不太好想象的“貓龍”,在AI眼里,竟然是長成這樣的:
DALL-E,是什么?
如果你對去年的GTP-3有印象,就能更簡單的理解DALL·E,對,GTP-3就是那個給一些詞或者句子,就能夠自己寫文章的那個AI,
這次的DALL·E也是類似的功能,只不過變成給文字生成圖片了,
其本質跟GPT-3一樣,還是變壓器語言模型,在GTP-3那里,變壓器是從“文字到文字”,這個DALL·E則更進一步,變成了“文字到圖片”,
是不是很神奇?那么,這個AI又是如何做到的呢?根據DALL·E創造者OpenAI的介紹,實現這個DALL·E,有兩個關鍵的核心,第一個,是接收數據流進行訓練,DALL·E會接收圖像和文字所組合的數據流,在模型訓練之前,需要對數據進行預處理,一次接受后,會用到1280個標記,其中256個用于標記文本,1024個用于標記圖像,
之后,便是對這些數據進行自回歸建模,這時候,DALL·E使用了一種名為“自注意力層”以及其中的“注意遮罩”,
怎么理解這個概念呢?大家可以回想一下,平時你在聚精會神地觀察某個東西的時候,是不是會忽略周圍的東西,這時候,你的注意力都集中在那個事物上?
是的,在AI上,也有類似的概念:注意力機制。簡單來說,就是用算法,讓AI可以在不同外界需要下去選擇性地觀察,找出最有用的點,不同的算法得出的不同結果,就類似于咱們對同一事物的不同聚焦點,正如詩云“橫看成嶺側成峰”,
而在“自注意力”上,其實與注意力,只差了一個字,它是后者的一種變體。二者的區別,就是“自注意力”減少了對外部資訊的依賴,在原本就具有的“注意力”分析上,更側重于分析數據流內部各標記的相關性,
在這個DALL·E中,這樣的不同注意力“遮罩”,一共有著64個,
正是有了足夠多關注和分析的角度,保證了訓練中同一輸入中的每個圖像標記,都能或強或弱地與文字標記產生關聯,
其次,DALL·E還有另外一個核心:看看自己畫得好不好,
你讓他畫畫,他其實會先畫出512幅畫,不過嘛,AI在給你輸出結果前,還會自己斟酌斟酌,
這個使用的便是CLIP網路,這是一個評價系統,它會對自己的作品進行評分,然后根據高低順序排列,排名靠前的,才會輸出給你,
DALL·E畫出的沙雕作品
了解完來龍去脈,接下來就是整活時間了,
盡管DALL·E推給你的作品都是精挑細選的,但依然有很多鬼畜他媽給鬼畜開門——鬼畜到家的作品。
例如“地球的橫截面”,有的像是Minecraft里的方塊,有的像是切了一塊火腿,
美洲獅在森林里的黏土動畫,獅子看完想離開森林:
我這一輩子已經坐過數千次馬桶,但“粉色”、“六邊形”馬桶還是第一次看見:
同時這樣的馬桶,它一秒就畫了一堆,
(共30個,以上為節選)
我們都沒有見過“環形”的“西瓜”,但DALL·E給出的答案似乎也有點道理:
而這個“四面體”的“斑馬”徹底給我笑吐了。
大自然看完,直呼內行。
還有用長頸鹿構成的烏賊:
下圖分別是用貓熊構成的鱷魚、羊駝、企鵝、鯨、烏賊,哪個最可愛?
用企鵝構成的黃瓜:
由企鵝構成的炸雞…那這到底算是炸雞還是炸企鵝?
不過無論是哪一種,都挺萌,而且看起來似乎也挺好吃的。
最后推薦一波DALL·E繪制的最匪夷所思的畫作,“企鵝與肉餅”,真正的——“笑死,企鵝肉”,