點選上方藍色字型“
騰訊創業
” 選擇關注公眾號
創投圈大小事,你都能盡在掌握

騰訊創業 | ID:qqchuangye
“谷歌AI作畫自己卷自己。”
本文來源 “量子位”(ID:QbitAI),騰訊創業經授權後轉載。
文/楊淨 金磊 發自 凹非寺
朋友,你知道這個英文單詞是什麼嗎?
Pneumonoultramicroscopicsilicovolcanoconiosis.
這個世界公認最長——由45個字母組成的單詞,意思是“因肺部沉積火山矽質微粒所引起的疾病”(俗稱火山矽肺病)。
但如果說,現在不是讓你拼讀這個單詞,而是……把它給畫出來呢?(讀都讀不出來,還畫畫???)

谷歌最新提出來的一個AI——Parti,它就能輕鬆hold住這事。
在把這個單詞“投餵”給Parti後,它就能有模有樣地生成多張合情合理的肺部疾病圖片:

但這只是Parti小試牛刀的能力,據谷歌介紹,它是目前最先進的“文字轉影像”AI。
例如,跟它說句:“把悉尼歌劇院和巴黎鐵塔做個結合”,輸出結果是這樣的:

(不知道的還真以為是畫報呢)
而且在演算法路數上,還不同於谷歌自家的Imagen,Parti可以說是把“AI作畫”卷出了新高度。

就連谷歌AI負責人Jeff Dean也連發數條推文,玩得不亦樂乎:

1
可擴充套件到200億引數:更逼真,更“聰明”
事實上,Parti的能力還不止於此。
得益於模型可擴充套件到200億引數,一方面,它生成的影像更加細節逼真。
不管是短短幾個字,還是五十多個個單詞的小段落,都能清晰展現出來。
比如,The back of a violin,小提琴的背面。

亦或是照著梵高《星空》來描述的夜晚畫面。ps,這段有67個單詞。

結果Parti也不在話下,一攬子把各種風格的圖全給你畫出來了~

這也正是Parti的第二大能力,不光細節到位,風格也能做到多變。
還有像“浣熊穿正裝,頭戴禮帽,拄著柺杖,拿著個垃圾袋”這種奇特的描述,它也能在整出花活的同時還不落細節。
風格上,則有梵高風、埃及法老風、畫素風、中國傳統繪畫風、抽象主義風……

甚至有時候它還會講雙關笑話。

(Toad’ay,癩蛤蟆)
具體在測試結果上,MS-COCO、Localized Narrative(LN,4倍長的描述)上FID分數,Parti都取得了最先進的結果。

尤其在MS-COCO零樣本的FID得分僅為7.23,微調FID得分為3.22,超過了此前的Imagen和DALL-E 2。
2
所有元件都是Transformer
時隔一個月,谷歌再把AI作畫卷出新高度,結果作者卻說:秘訣很簡單。

Parti主要是將文字生成影像視作序列到序列之間建模。這有點類似於機器翻譯,將文字標記作為編碼器的輸入,目標輸出從文字變成了影像。
從結構上看,它的所有元件只有三部分:編碼器、解碼器以及影像標記器,且都是基於標準Transformer。

首先,使用基於Transformer的影像標記器ViT-VQGAN,將影像編碼為離散的標記序列。
然後再透過Transformer的編碼-解碼結構,將引數擴充套件到200億。
以往關於文字生成影像的研究,除了最早出現的GAN,大體可以分成兩種思路。
一種是基於自迴歸模型,首先文字特徵對映到影像特徵,再使用類似於Transformer的序列架構,來學習語言輸入和影像輸出之間的關係。
這種方法的一個關鍵組成部分就是影像標記器,將每個影像轉換為一個離散單元的序列。比如DALL-E和CogView,就採用了這一思路。
另一種則是這段時間以來進展頻頻的路線——基於擴散的文字到影像模型,比如DALL-E 2和Imagen。
他們摒棄了影像標記器,而是採用擴散模型來直接生成影像。可以看到的是,這些模型產生的影像質量更高,在MS-COCO零樣本FID得分更好。

而Parti模型的成功,則證明了自迴歸模型可以用來改善文字生成影像的效果。
與此同時,Parti還引入併發布了新的基準測試——PartiPrompts,用於衡量模型在12個類別和11個挑戰方面的能力。

但Parti還是有一定的侷限性,研究人員也展示了一些bug:
比如,對否定的描述就沒招了~
一個沒有香蕉的盤子,旁邊一個沒有橙汁兒的玻璃杯。

還會犯一些常識性錯誤,例如不合理地縮放。比如這張圖,機器人竟然比賽車高出好幾倍。

一個穿著賽車服和黑色遮陽板的閃亮機器人自豪地站在一輛F1賽車前。太陽落在城市景觀上。漫畫書插圖。
3
谷歌“自己卷自己”
在這項研究來自Google Research,團隊中的華人居多。

研究核心工作人員包括Yuanzhong Xu、Thang Luong等,目前均就職於谷歌從事AI相關研究工作。
(Thang Luong在谷歌學術上的引用量高達20000+)

△左:Yuanzhong Xu;右:Thang Luong
不過有意思的是,同為“說句話讓AI作畫”,同為出自谷歌之手的Imagen,它跟Parti還真有點千絲萬縷的關係。
在Parti的GitHub的專案文件中就有提到:
感謝Imagen團隊,他們在釋出Imagen之前與我們分享了其最近完整的結果。
他們在CF-guidance方面的重要發現,對最終的Parti模型特別有幫助。

而且Imagen的作者之一Burcu Karagol Ayan,也參與到了Parti的專案中。
(有種谷歌“自己卷自己”那味了)
不僅如此,就連“隔壁”DALL-E 2的作者Aditya Ramesh,也給Parti在MS-COCO評價方面做了討論工作。
以及DALL-Eval的作者們,也在Parti資料方面的工作提供了幫助。
4
One More Thing
有一說一,就“文字生成影像”這事,可不只是研究人員們的寵兒。
網友們在“玩”它這條路上,也是樂此不疲(腦洞不要太大好吧)。
前一陣子讓Imagen畫一幅宋朝“虎戴VR”,直接演變成AI作畫大戰。

△圖:Imagen作畫
DALL·E、MidJourney等“聞訊趕來”參與其中。

△ DALL·E作畫
甚至還有把Wordle和 DALL-E 2搞到一起的:

不過迴歸到這次的Parti,好玩歸好玩,但還是有網友提出了“直擊靈魂”的問題:

啥時候商業化?要是自己“關門玩”就沒意思了。
Parti論文地址:
https://parti.research.google/
GitHub專案地址:
https://github.com/google-research/parti
參考連結:
[1]https://twitter.com/lmthang/status/1539664610596225024
[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289
[3]https://imagen.research.google/
END
你怎麼看谷歌的AI作畫?
歡迎評論區留言,與大家分享。