谷歌，再次把AI作畫卷出新高度

2025-06-30 20:38 騰訊創業

點選上方藍色字型“

騰訊創業

” 選擇關注公眾號

創投圈大小事，你都能盡在掌握

騰訊創業 | ID：qqchuangye

“谷歌AI作畫自己卷自己。”

本文來源 “量子位”（ID:QbitAI），騰訊創業經授權後轉載。

文／楊淨金磊發自凹非寺

朋友，你知道這個英文單詞是什麼嗎？

Pneumonoultramicroscopicsilicovolcanoconiosis.

這個世界公認最長——由45個字母組成的單詞，意思是“因肺部沉積火山矽質微粒所引起的疾病”（俗稱火山矽肺病）。

但如果說，現在不是讓你拼讀這個單詞，而是……把它給畫出來呢？（讀都讀不出來，還畫畫？？？）

谷歌最新提出來的一個AI——Parti，它就能輕鬆hold住這事。

在把這個單詞“投餵”給Parti後，它就能有模有樣地生成多張合情合理的肺部疾病圖片：

但這只是Parti小試牛刀的能力，據谷歌介紹，它是目前最先進的“文字轉影像”AI。

例如，跟它說句：“把悉尼歌劇院和巴黎鐵塔做個結合”，輸出結果是這樣的：

（不知道的還真以為是畫報呢）

而且在演算法路數上，還不同於谷歌自家的Imagen，Parti可以說是把“AI作畫”卷出了新高度。

就連谷歌AI負責人Jeff Dean也連發數條推文，玩得不亦樂乎：

1

可擴充套件到200億引數：更逼真，更“聰明”

事實上，Parti的能力還不止於此。

得益於模型可擴充套件到200億引數，一方面，它生成的影像更加細節逼真。

不管是短短幾個字，還是五十多個個單詞的小段落，都能清晰展現出來。

比如，The back of a violin，小提琴的背面。

亦或是照著梵高《星空》來描述的夜晚畫面。ps，這段有67個單詞。

結果Parti也不在話下，一攬子把各種風格的圖全給你畫出來了~

這也正是Parti的第二大能力，不光細節到位，風格也能做到多變。

還有像“浣熊穿正裝，頭戴禮帽，拄著柺杖，拿著個垃圾袋”這種奇特的描述，它也能在整出花活的同時還不落細節。

風格上，則有梵高風、埃及法老風、畫素風、中國傳統繪畫風、抽象主義風……

甚至有時候它還會講雙關笑話。

（Toad’ay，癩蛤蟆）

具體在測試結果上，MS-COCO、Localized Narrative（LN，4倍長的描述）上FID分數，Parti都取得了最先進的結果。

尤其在MS-COCO零樣本的FID得分僅為7.23，微調FID得分為3.22，超過了此前的Imagen和DALL-E 2。

2

所有元件都是Transformer

時隔一個月，谷歌再把AI作畫卷出新高度，結果作者卻說：秘訣很簡單。

Parti主要是將文字生成影像視作序列到序列之間建模。這有點類似於機器翻譯，將文字標記作為編碼器的輸入，目標輸出從文字變成了影像。

從結構上看，它的所有元件只有三部分：編碼器、解碼器以及影像標記器，且都是基於標準Transformer。

首先，使用基於Transformer的影像標記器ViT-VQGAN，將影像編碼為離散的標記序列。

然後再透過Transformer的編碼-解碼結構，將引數擴充套件到200億。

以往關於文字生成影像的研究，除了最早出現的GAN，大體可以分成兩種思路。

一種是基於自迴歸模型，首先文字特徵對映到影像特徵，再使用類似於Transformer的序列架構，來學習語言輸入和影像輸出之間的關係。

這種方法的一個關鍵組成部分就是影像標記器，將每個影像轉換為一個離散單元的序列。比如DALL-E和CogView，就採用了這一思路。

另一種則是這段時間以來進展頻頻的路線——基於擴散的文字到影像模型，比如DALL-E 2和Imagen。

他們摒棄了影像標記器，而是採用擴散模型來直接生成影像。可以看到的是，這些模型產生的影像質量更高，在MS-COCO零樣本FID得分更好。

而Parti模型的成功，則證明了自迴歸模型可以用來改善文字生成影像的效果。

與此同時，Parti還引入併發布了新的基準測試——PartiPrompts，用於衡量模型在12個類別和11個挑戰方面的能力。

但Parti還是有一定的侷限性，研究人員也展示了一些bug：

比如，對否定的描述就沒招了~

一個沒有香蕉的盤子，旁邊一個沒有橙汁兒的玻璃杯。

還會犯一些常識性錯誤，例如不合理地縮放。比如這張圖，機器人竟然比賽車高出好幾倍。

一個穿著賽車服和黑色遮陽板的閃亮機器人自豪地站在一輛F1賽車前。太陽落在城市景觀上。漫畫書插圖。

3

谷歌“自己卷自己”

在這項研究來自Google Research，團隊中的華人居多。

研究核心工作人員包括Yuanzhong Xu、Thang Luong等，目前均就職於谷歌從事AI相關研究工作。

（Thang Luong在谷歌學術上的引用量高達20000+）

△左：Yuanzhong Xu；右：Thang Luong

不過有意思的是，同為“說句話讓AI作畫”，同為出自谷歌之手的Imagen，它跟Parti還真有點千絲萬縷的關係。

在Parti的GitHub的專案文件中就有提到：

感謝Imagen團隊，他們在釋出Imagen之前與我們分享了其最近完整的結果。

他們在CF-guidance方面的重要發現，對最終的Parti模型特別有幫助。

而且Imagen的作者之一Burcu Karagol Ayan，也參與到了Parti的專案中。

（有種谷歌“自己卷自己”那味了）

不僅如此，就連“隔壁”DALL-E 2的作者Aditya Ramesh，也給Parti在MS-COCO評價方面做了討論工作。

以及DALL-Eval的作者們，也在Parti資料方面的工作提供了幫助。

4

One More Thing

有一說一，就“文字生成影像”這事，可不只是研究人員們的寵兒。

網友們在“玩”它這條路上，也是樂此不疲（腦洞不要太大好吧）。

前一陣子讓Imagen畫一幅宋朝“虎戴VR”，直接演變成AI作畫大戰。

△圖：Imagen作畫

DALL·E、MidJourney等“聞訊趕來”參與其中。

△ DALL·E作畫

甚至還有把Wordle和 DALL-E 2搞到一起的：

不過迴歸到這次的Parti，好玩歸好玩，但還是有網友提出了“直擊靈魂”的問題：

啥時候商業化？要是自己“關門玩”就沒意思了。

Parti論文地址：

https://parti.research.google/

GitHub專案地址：

https://github.com/google-research/parti

參考連結：

[1]https://twitter.com/lmthang/status/1539664610596225024

[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289

[3]https://imagen.research.google/

END

你怎麼看谷歌的AI作畫？

歡迎評論區留言，與大家分享。

相關文章

憋了幾個禮拜，谷歌開發者大會資訊量爆炸了…

憋了幾個禮拜，谷歌開發者大會資訊量爆炸了…

為什麼都去卷文字生成影像？？？

為什麼都去卷文字生成影像？？？

史上最強AI全家桶！谷歌Gemini2.5雙殺OpenAI，上架250美金天價VIP

史上最強AI全家桶！谷歌Gemini2.5雙殺OpenAI，上架250美金天價VIP

谷歌正在摧毀OpenAI和Sora

谷歌正在摧毀OpenAI和Sora

一文看懂GoogleCloudNext25AI大更新：Google一夜十二次，能否逆襲當回AI界老大

一文看懂GoogleCloudNext25AI大更新：Google一夜十二次，能否逆襲當回AI界老大

錘爆Sora，尺度最大，谷歌釋出最強影片模型Veo2，叫板海螺可靈

錘爆Sora，尺度最大，谷歌釋出最強影片模型Veo2，叫板海螺可靈

一文讀懂Google2025I/O大會：在搜尋引擎的”廢墟“上，重建AI驅動的新王國？｜亮馬橋小紀嚴選

一文讀懂Google2025I/O大會：在搜尋引擎的”廢墟“上，重建AI驅動的新王國？｜亮馬橋小紀嚴選

DeepMind最強「基礎世界模型」誕生！一張圖一鍵生成3D遊戲|【經緯低調分享】

DeepMind最強「基礎世界模型」誕生！一張圖一鍵生成3D遊戲|【經緯低調分享】

拍一張要花400多？！明星搶著曬的撕拉片，AI也能整！還被我們做成了復古廣告片

拍一張要花400多？！明星搶著曬的撕拉片，AI也能整！還被我們做成了復古廣告片

AI早知道｜釦子智慧體新增支援DeepSeekR1/V3模型；位元組OmniHuman數字人模型

AI早知道｜釦子智慧體新增支援DeepSeekR1/V3模型；位元組OmniHuman數字人模型

Copyright © 2025 | WordPress Theme by MH Themes