為什麼都去卷文字生成影像???


MLNLP 

機器學習演算法與自然語言處理 

)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景 是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流,特別是初學者同學們的進步。

轉載自 | 李rumor
作者 | rumor
卷友們好,我是rumor。
躺在我微信浮窗裡最多的就是文字生成影像的工作了,本來這個方向我以為我是可以拿捏的,結果自從他們開始用Diffusion模型之後我就再也跟不上了,而且這類文章動輒20頁起,慢慢地我就放過了自己。
那天我在清理這些報道庫存時,突然油然而生一個拷問:為什麼大家都在卷這個方向?這些生成的畫作雖然讓人驚豔,但它們能產生實際的價值嗎?應該如何去落地甚至商業化呢?
帶著這個問題,我一狠心把知道的Paper都下載了,它們分別是:
  1. OpenAI的DALLE (21/01)、GLIDE (22/03)、DALLE2 (22/04)
  2. Meta的Make-A-Scene (22/03)
  3. Google的Imagen (22/05)、Parti (22/06)
  4. 智源悟道2.0 (21/06)、智源阿里達摩院和清華合作的CogView (21/11)
  5. 百度的文心ERNIE-ViLG (21/12)
  6. 位元組的CLIP-GEN (22/03)
可以看到今年這個方向有多熱鬧了,Google和OpenAI甚至開始自己卷自己,前後腳放出不同的工作。
說回正題,關於為什麼大家都在卷這個方向,在看過了上述文章們的Intro之後,我發現觀點還是比較統一的,核心就是不斷追求模型的理解能力
正如ERNIE-ViLG所引用Richard Feynman的話:
What I cannot create, I do not understand
當模型能根據文字創造準確對應的影像時,就證明它已經具備了CogView中所列舉的四種能力:
  1. 從畫素點中解藕出形狀、顏色等一系列特徵,也就是說給模型輸入一張圖片時,它真的能像人一樣去「看」到其中的各種物體和特徵,而不是一個個無意義的畫素點
  2. 理解文字
  3. 將影像中的物體和特徵與單詞對齊(包括同義詞),意味著模型能夠把同一事物的兩種模態聯絡起來
  4. 學習到如何將各種物體、特徵組合起來,這種生成能力需要更高的認知水平
隨著資源的不斷投入,這些生成的圖片以肉眼可見的速度越來越強,那麼這些圖片雖然fancy,但能如何落地、產生什麼實際價值呢?
首先最直接的,就是輔助藝術家進行創作,甚至獨立創作,比如去年底我就發現一位博士同學用AI生成的4張畫作在淘寶拍賣賣到了2304元,也調研到了一些國外的網站,利用AI技術付費生成特定風格的創作。在寫這篇文章的時候我又在淘寶搜尋,發現依然有人在拍賣AI生成的藝術品,而且價格不菲:
說實話我不是這個落地方向的支持者,我認為畫作背後「人」的思考和經歷才是成就藝術的原因。但價值是人定的,恰巧最近又趕上了NFT,所以這個方向究竟會發展成什麼樣也未可知。
另一個落地方向,是兒童教育。Meta最新的工作Make-A-Scene就很適合這個方向,讓兒童們繪製草圖,描述場景,就可以生成很棒的作品,從而啟蒙孩子對美術的興趣和想象力。這個方向還是很有實際意義並且能變現的。
還有一個方向,是內容製作。這個方向的前景就很廣闊了,先說3D的,現在3D動畫和遊戲的市場已經不必多說了(還捎帶上元宇宙),但做一個3D人物和場景都需要建模、貼紋理、繫結骨骼、做動畫、加特效等複雜的流程,如果AI能輔助其中幾個環節的生產,會節省很多人力成本,提升內容產出速度。而且目前模型生成的真實物體也很逼真了,再往遠了想,以後說不定輸入一個劇本,就能輸出一部電影了。
不過目前的模型能力離終極目標還有不小的距離,模型的可控性還需要進一步提升。
AI一直在潛移默化地影響我們的生活,有好有壞,比如搜尋引擎用AI演算法做排序,就有人用AI演算法生成大量垃圾內容做SEO;再比如剪輯軟體利用AI來減少人工配音成本,就有人盜取他人影片,用AI換個聲音洗稿製作大量垃圾剪輯。
雖然有不好的事情發生,但好在這是一個對抗的過程,兩方的演算法都會在對抗中越來越強大。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP社群  機器學習演算法與自然語言處理 ) 是由國內外自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名自然語言處理社群,旗下包括  萬人頂會交流群、AI臻選匯、AI英才匯  以及  AI學術匯  等知名品牌,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章