為什麼都去卷文字生成影像？？？

MLNLP

(

機器學習演算法與自然語言處理

)社群是國內外知名自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流，特別是初學者同學們的進步。

轉載自 | 李rumor

作者 | rumor

卷友們好，我是rumor。

躺在我微信浮窗裡最多的就是文字生成影像的工作了，本來這個方向我以為我是可以拿捏的，結果自從他們開始用Diffusion模型之後我就再也跟不上了，而且這類文章動輒20頁起，慢慢地我就放過了自己。

那天我在清理這些報道庫存時，突然油然而生一個拷問：為什麼大家都在卷這個方向？這些生成的畫作雖然讓人驚豔，但它們能產生實際的價值嗎？應該如何去落地甚至商業化呢？

帶著這個問題，我一狠心把知道的Paper都下載了，它們分別是：

OpenAI的DALLE (21/01)、GLIDE (22/03)、DALLE2 (22/04)
Meta的Make-A-Scene (22/03)
Google的Imagen (22/05)、Parti (22/06)
智源悟道2.0 (21/06)、智源阿里達摩院和清華合作的CogView (21/11)
百度的文心ERNIE-ViLG (21/12)
位元組的CLIP-GEN (22/03)

可以看到今年這個方向有多熱鬧了，Google和OpenAI甚至開始自己卷自己，前後腳放出不同的工作。

說回正題，關於為什麼大家都在卷這個方向，在看過了上述文章們的Intro之後，我發現觀點還是比較統一的，核心就是不斷追求模型的理解能力。

正如ERNIE-ViLG所引用Richard Feynman的話：

What I cannot create, I do not understand

當模型能根據文字創造準確對應的影像時，就證明它已經具備了CogView中所列舉的四種能力：

從畫素點中解藕出形狀、顏色等一系列特徵，也就是說給模型輸入一張圖片時，它真的能像人一樣去「看」到其中的各種物體和特徵，而不是一個個無意義的畫素點
理解文字
將影像中的物體和特徵與單詞對齊（包括同義詞），意味著模型能夠把同一事物的兩種模態聯絡起來
學習到如何將各種物體、特徵組合起來，這種生成能力需要更高的認知水平

隨著資源的不斷投入，這些生成的圖片以肉眼可見的速度越來越強，那麼這些圖片雖然fancy，但能如何落地、產生什麼實際價值呢？

首先最直接的，就是輔助藝術家進行創作，甚至獨立創作，比如去年底我就發現一位博士同學用AI生成的4張畫作在淘寶拍賣賣到了2304元，也調研到了一些國外的網站，利用AI技術付費生成特定風格的創作。在寫這篇文章的時候我又在淘寶搜尋，發現依然有人在拍賣AI生成的藝術品，而且價格不菲：

說實話我不是這個落地方向的支持者，我認為畫作背後「人」的思考和經歷才是成就藝術的原因。但價值是人定的，恰巧最近又趕上了NFT，所以這個方向究竟會發展成什麼樣也未可知。

另一個落地方向，是兒童教育。Meta最新的工作Make-A-Scene就很適合這個方向，讓兒童們繪製草圖，描述場景，就可以生成很棒的作品，從而啟蒙孩子對美術的興趣和想象力。這個方向還是很有實際意義並且能變現的。

還有一個方向，是內容製作。這個方向的前景就很廣闊了，先說3D的，現在3D動畫和遊戲的市場已經不必多說了（還捎帶上元宇宙），但做一個3D人物和場景都需要建模、貼紋理、繫結骨骼、做動畫、加特效等複雜的流程，如果AI能輔助其中幾個環節的生產，會節省很多人力成本，提升內容產出速度。而且目前模型生成的真實物體也很逼真了，再往遠了想，以後說不定輸入一個劇本，就能輸出一部電影了。

不過目前的模型能力離終極目標還有不小的距離，模型的可控性還需要進一步提升。

AI一直在潛移默化地影響我們的生活，有好有壞，比如搜尋引擎用AI演算法做排序，就有人用AI演算法生成大量垃圾內容做SEO；再比如剪輯軟體利用AI來減少人工配音成本，就有人盜取他人影片，用AI換個聲音洗稿製作大量垃圾剪輯。

雖然有不好的事情發生，但好在這是一個對抗的過程，兩方的演算法都會在對抗中越來越強大。

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP社群 ( 機器學習演算法與自然語言處理 ) 是由國內外自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名自然語言處理社群，旗下包括 萬人頂會交流群、AI臻選匯、AI英才匯 以及 AI學術匯 等知名品牌，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。