外網(wǎng)爆火的「你說我畫」自動作畫工具,我們測了下,有 1 款真的強
先來欣賞幾張美麗的場景圖吧。
色彩搭配和諧、構(gòu)圖得當有沖擊力,一眼看過去大部分的人也許都會認為它們是出自哪位技藝成熟的畫家之手,然而以上圖片其實均截取自 YouTuber Quick-Eyed Sky 的 Disco Diffusion 三分鐘展示視頻。
而 Disco Diffusion 是一個輸入關(guān)鍵詞就出圖的 AI 創(chuàng)作程序,它目前為 GitHub 的開源項目,任何人都可以玩。但由于還沒像軟件那樣封裝起來,目前只是在谷歌的 Colaboratory(又稱 Colab)中以代碼的形式呈現(xiàn)。
近年來,人工智能技術(shù)發(fā)展迅速,在藝術(shù)創(chuàng)作領(lǐng)域,像 AI 寫作、AI 繪畫、甚至 AI 編曲等早已不是什么新鮮事。隨著更加友好的人機交互界面的推廣,如今普通大眾只要打開開發(fā)者提供的網(wǎng)頁,輕松幾步就能體驗 AI 技術(shù)的魅力了。
這次我們給出了四款號稱用嘴就能畫畫(輸入關(guān)鍵詞就能出稿)的人工智能創(chuàng)作工具來告訴大家它們?nèi)绾问褂?,順便做一個使用方法和出圖效果上的比拼,看看哪款 AI 最易上手,效果最好。
Disco Diffusion:百依百順的乙方
Disco Diffusion 由藝術(shù)家 Somnai 設(shè)計,擁有強大的關(guān)鍵詞轉(zhuǎn)圖像能力,并且由于代碼托管在 Colab 上,所有渲染過程都可以在線上進行,不需要依賴使用者的電腦來運算。
▲ 創(chuàng)作者的推特
▲ Somnai 用 Disco Diffusion 制作的視頻
初次打開 Disco Diffusion 的使用界面你可能會被大量的代碼嚇到,但實際上只要按照如下步驟調(diào)試,要使用它還是很簡單的。
▲ 滿是代碼的界面容易讓人望而卻步
首先往下拖動網(wǎng)頁找到第三項「Settings」,在右手邊「Basic Settings」中我們可以對生成圖像的品質(zhì)進行設(shè)置。
「Step」是指 AI 生成迭代的次數(shù),「Step」數(shù)值越多,運算時間越長,不過藝術(shù)品某程度上是偶然性和美的碰撞,運算次數(shù)多,不代表出來的作品就好看。
下方的「width height」是指成圖的圖片尺寸,此處只能輸入 64 的倍數(shù)(比如 1280, 768),尺寸越大渲染時間越長。
在「Settings」中還有一個叫「Init Settings」的部分,在「init_image」中輸入圖片的地址,可以讓程序以某圖片為基礎(chǔ)參照著進行運算。
點擊下圖圈選部分將本地圖片上傳,然后選中列表中的圖片,在右鍵菜單中找到「復(fù)制路徑」復(fù)制地址,再粘貼到「init_image」上即可。
接下來就是最重要的通過關(guān)鍵詞描述畫作內(nèi)容部分。下拉找到「Settings」中的「Prompts」項,看到「text_prompts」。
▲ 語句中的方括號和引號不要改動
在「text_prompts」中代碼中默認的語句為:
[“A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and Thomas kinkade, Trending on artstation.”, “yellow color scheme”]
翻譯過來就是:
「由畫家 Greg Rutkowski 和 Thomas kinkade 繪制的關(guān)于一座在洶涌的血海中閃耀的奇異燈塔的作品,以 Artstation 為參考庫,黃色配色。」
- 「beautiful painting」為畫種,你可以將它改為「ink painting(墨水畫)」「oil painting(油畫)」「comic(漫畫)」等等。
- 「a singular lighthouse, shining its light across a tumultuous sea of blood」是內(nèi)容描述,決定了你的畫面中將出現(xiàn)什么,這里自由發(fā)揮即可。
- 「greg rutkowski and thomas Kinkade」是成圖更接近哪位畫家的風格,此處可以輸入不止一位畫家。
- 「Trending on artstation」是畫作的參考平臺,即 AI 主要從哪個平臺獲取參照,可以輸入的平臺有「Facebook」「Pixiv」「Pixbay」等等。
- 「yellow color scheme」是整個畫面的主色調(diào)為黃色。
要改變畫的內(nèi)容,只需按照格式調(diào)整語句中相應(yīng)的關(guān)鍵詞(注意逗號,雙引號等要用英語)。
除了更換關(guān)鍵詞,你還可以設(shè)定每個關(guān)鍵詞的權(quán)重,比如當我的畫家風格為「Van Gogh and Monet(梵高和莫奈)」時,我可以寫成「Van Gogh:3」and「Monet:2」,即作品三分像梵高,兩分像莫奈。
有時候如果想讓某個元素不要在畫面里出現(xiàn),我們還可以設(shè)定數(shù)值為負數(shù)。
▲ 請給我一張三分像梵高,兩分像莫奈的萬里無云的天空畫
最后我們還可以在第四項「Diffuse!」中的「n_batches」設(shè)置一次生成多少張圖(變體),也即如果此處輸入 5,則最終可以得到 5 張圖(圖越多需要的時間越長)。
將以上重要參數(shù)設(shè)置完成以后,在頁面的上方點擊「代碼執(zhí)行程序」按鈕,在菜單中選擇「全部運行」后程序即開始運算。
免費用戶一般分配到的是 Colaboratory 的 Tesla K80 顯卡電腦,線上渲染速度比較慢,一張默認尺寸和迭代次數(shù)的圖大概需要一個半到兩小時才能完成。
如果等不及的也可以選擇「連接到本地運行時」用自己電腦的顯卡進行渲染,但是需要用到「Jupyter 筆記本服務(wù)器」等工具,這里就不作展開了。
接下來便是漫長的等待過程,拉到「Diffuse!」底部時你可以看到自己的圖片從一片模糊到逐漸清晰的變化過程。
▲ 程序底部有運算持續(xù)時間和目前步驟顯示
根據(jù)之前程序提供的默認語句,我生成了一張海上燈塔的圖片,畫面效果一流,用來做桌面背景完全沒問題。
接下來我又改動了一些參數(shù),再生成了兩張圖,描述語句如下:
「A painting of a robot angel, flapping her wings in the night sky by Shirow Masamune, Trending on artstation, blue color scheme(一張機械天使在夜空中揮動翅膀的畫,士郎正宗創(chuàng)作,以 Artstation 為參考庫,藍色配色)」
▲ 默認畫質(zhì),耗時 1.5 小時
「Cyberpunk station(賽博朋克車站)」
▲ 448*448 像素,耗時 45 分鐘
首先這兩張圖片都可以算得上是切題?!笝C械天使」圖雖然沒能體現(xiàn)「夜空」這個關(guān)鍵詞,但構(gòu)圖有特色,天使也能展示出明顯的機械感,至于畫有沒有士郎正宗的神韻就見仁見智了。
在「車站」圖的上方我們能看到列車、電纜等要素,紅色、綠色的霓虹燈、屏幕等也是典型的賽博朋克元素,美中不足的就是完成度不高。
NightCafe Creator:風格遷移神器
相比起 Disco Diffusion,NightCafe 用起來就簡單多了。
NightCafe 的網(wǎng)頁提供了兩款智能繪圖工具,左邊的「Text to Image(文本轉(zhuǎn)圖像)」是類似于 Disco Diffusion 的輸入關(guān)鍵詞生成圖工具,右邊的「Style Transfer(風格遷移)」可以把用戶上傳的照片換成名畫風格。
先來測試第一個功能。在「Your text prompt」下方的方框中輸入關(guān)鍵詞,如:A city surrounded by machine(被機械保包圍的城市),然后在下方 16 種風格選取一個。
拉到底部選擇是紋理優(yōu)先(Artist)還是構(gòu)圖優(yōu)先(Coherent)后點擊最下面的「CREATE」,等待幾分鐘,一張方形的圖就生成了。
▲ 成圖過程
如果不滿足于默認圖像的尺寸,你還可以在關(guān)鍵詞輸入界面打開「Show advanced options(顯示高級選項)」。在此模式下你不僅能自定義圖像的尺寸,還可以設(shè)定多張參考的底圖。
風格轉(zhuǎn)移工具的使用也很簡單。上傳一張照片,從 64 種名畫風格中挑選一個,再等 1-2 分鐘,一張驚艷的圖片就誕生了。
將之前燈塔、車站和天使的關(guān)鍵詞去掉作者和參照庫后輸入到 NightCafe Creator ,我們得到了以下三張圖片。
▲ 關(guān)鍵詞:一座在洶涌的血海中閃耀的奇異燈塔,黃色配色。
▲ 關(guān)鍵詞:一張機械天使在夜空中揮動翅膀的畫,藍色配色
▲ 關(guān)鍵詞:賽博朋克車站
所有圖片里效果最好的個人認為是天使的畫,雖然走的是較為抽象的路線,但那一雙像衛(wèi)星的太陽能接收翼的翅膀還是體現(xiàn)出了機械和天使的組合元素,角色的動作也很生動,在 AI 的啟發(fā)下我忍不住也參照著畫了一張。
▲ 自認沒有 AI 畫得有意思
賽博朋克車站的效果中規(guī)中矩,而燈塔圖的效果就很一般了,畫面中出現(xiàn)了很多相似的燈塔,能看起來是為了鋪滿畫面而多次復(fù)制導(dǎo)致的。
Cogview:中文關(guān)鍵詞,一次八張圖
Cogview 是本次測試中唯一支持中文輸入的 AI 工具(字數(shù)限制為 2-30 中文字符),由清華大學的唐杰團隊研發(fā),出圖時間為 1-5 分鐘不等,一次可以生成八張圖,但尺寸不可調(diào)。
從輸入英文關(guān)鍵詞網(wǎng)頁會翻譯為中文再運算這一點推斷,該程序應(yīng)該是以漢語為語言進行訓(xùn)練的,在一堆只能用英文輸入的同類 AI 中顯得難能可貴。
▲ 該團隊去年發(fā)表的論文
其實這款程序最擅長的是真實的照片生成,而非藝術(shù)繪畫。比如當我們輸入「黃豆組成的字母 b」時,AI 會給我們八張符合描述的真實照片。
▲ 已在各個搜索引擎確認過網(wǎng)上并無現(xiàn)成的類似圖片
而之前的 NightCafe Creator 無論怎么切換風格也只能產(chǎn)出類似下圖的「藝術(shù)作品」。
當關(guān)鍵詞是與繪畫有關(guān)時, Cogview 就略遜一籌了,比如當我們想用「Oil Painting Style(油畫風格)」風格生成一座之前描述的塔,八張成圖還是更像照片而非畫作。
賽博朋克車站的畫面效果要好很多,可能是由于本身是建筑物,而且該描述本身也適合寫實風格。
在重新生成燈塔的圖時為了讓它更像畫作,我切換成了水墨風格。Cogview 是這么多款 AI 里面唯一真實地還原了「sea of blood(血海)」的,不過有點詭異就是了。
機械天使的油畫出圖效果就一言難盡了,八張成圖都過于抽象,難以評價。
不過據(jù)說我們現(xiàn)在習慣了的俊美人形帶潔白翅膀的天使形象其實是文藝復(fù)興時期經(jīng)過美化的。《舊約》中描述的天使的外貌本就是千奇百怪的,畢竟天使是超越人類認知能力的存在,怎么可能和人長得一樣呢?
▲ 舊約中描繪的座天使
WOMBO Dream:界面美觀,作品重藝術(shù)感
WOMBO Dream 這款工具我們曾經(jīng)在另外一篇介紹 AI 繪畫的文章里介紹過,它的界面我認為是本次介紹的幾款中最好看的,成圖時間也是幾款中最短的,約為 30 秒。
操作過程和 NightCafe Creation 很像這里就不贅言了,直接上圖。
▲ 關(guān)鍵詞:一張機械天使在夜空中揮動翅膀的畫,藍色配色
▲ 關(guān)鍵詞:一座在洶涌的血海中閃耀的奇異燈塔,黃色配色。
▲ 關(guān)鍵詞:賽博朋克車站
由于該程序只支持最多 100 個英文字母的輸入,有些關(guān)鍵詞我們不得不進行刪減。從三張圖片中我們可以看到 WOMBO Dream 的成圖十分追求「畫感」。
所謂「畫感」,簡單來說就是讓人一看就會認為這一張畫出來的作品,而不像攝影或者 3D 模型擺拍。當然,程序自帶的塔羅牌式畫框?qū)Α府嫺小沟男纬梢苍S有幫助。
▲ 在畫廊中右鍵另存為可以保存不帶畫框的圖片
總結(jié)
現(xiàn)在對四款 AI 作圖工具進行一個簡單總結(jié),首先所有程序都是網(wǎng)頁版,且免費使用。
Disco Diffusion 可以實現(xiàn)最復(fù)雜的關(guān)鍵詞描述,可自設(shè)置的參數(shù)很多,是一個待探索的巨大寶庫,但是成圖時間長,操作界面也相對復(fù)雜。
NightCafe Creator 和 WOMBO Dream 都能快速產(chǎn)出作品,前者可以對畫面尺寸進行設(shè)置,也能容納更多的關(guān)鍵詞,但后者界面更好看,出圖自帶畫框。
Cogview 的好處是支持中文關(guān)鍵詞,在現(xiàn)實照片生成這方面有優(yōu)勢,無法自定義圖片尺寸。
在多款 AI 設(shè)計工具火熱以后,有人開始擔心畫家的工作會不會被取代。在 Disco Diffusion 爆紅以后,公眾號設(shè)計青年實驗室請了幾位設(shè)計大咖探探自己對 AI 作畫的感受,其中插畫師瘋景這樣說道:
「如果有一天 AI 取代了更多的價值,那么我會努力去尋求新的價值,船到橋頭自然直。」
生產(chǎn)力的發(fā)展帶來的是生產(chǎn)方式的變革。我們都知道印象派的誕生是源于 19 世紀攝影技術(shù)的發(fā)明,當人們意識到無論怎么畫都不可能比照相機逼真的時候, 朦朧、個性、抽象等反而成為彌足珍貴的東西。
▲ 莫奈的代表作《日出印象》
如今,AI 畫手的出現(xiàn)又重新對我們的藝術(shù)界發(fā)出了挑戰(zhàn),藝術(shù)家們?yōu)楹葱l(wèi)領(lǐng)土又會以什么樣的策略迎戰(zhàn)呢?我們不妨拭目以待。
Disco Diffusion: https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
Cogview:https://agc.platform.baai.ac.cn/CogView/index.html
WOMBO Dream:https://www.wombo.art/
NightCafe Creator:https://creator.nightcafe.studio/