
MLNLP
(
機器學習演算法與自然語言處理
)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景 是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流,特別是初學者同學們的進步。
(
機器學習演算法與自然語言處理
)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
轉載自 | 李rumor
作者 | rumor
卷友們好,我是rumor。
躺在我微信浮窗裡最多的就是文字生成影像的工作了,本來這個方向我以為我是可以拿捏的,結果自從他們開始用Diffusion模型之後我就再也跟不上了,而且這類文章動輒20頁起,慢慢地我就放過了自己。
那天我在清理這些報道庫存時,突然油然而生一個拷問:為什麼大家都在卷這個方向?這些生成的畫作雖然讓人驚豔,但它們能產生實際的價值嗎?應該如何去落地甚至商業化呢?
帶著這個問題,我一狠心把知道的Paper都下載了,它們分別是:
-
OpenAI的DALLE (21/01)、GLIDE (22/03)、DALLE2 (22/04)
-
Meta的Make-A-Scene (22/03)
-
Google的Imagen (22/05)、Parti (22/06)
-
智源悟道2.0 (21/06)、智源阿里達摩院和清華合作的CogView (21/11)
-
百度的文心ERNIE-ViLG (21/12)
-
位元組的CLIP-GEN (22/03)
可以看到今年這個方向有多熱鬧了,Google和OpenAI甚至開始自己卷自己,前後腳放出不同的工作。
說回正題,關於為什麼大家都在卷這個方向,在看過了上述文章們的Intro之後,我發現觀點還是比較統一的,核心就是不斷追求模型的理解能力。
正如ERNIE-ViLG所引用Richard Feynman的話:
What I cannot create, I do not understand
當模型能根據文字創造準確對應的影像時,就證明它已經具備了CogView中所列舉的四種能力:
-
從畫素點中解藕出形狀、顏色等一系列特徵,也就是說給模型輸入一張圖片時,它真的能像人一樣去「看」到其中的各種物體和特徵,而不是一個個無意義的畫素點
-
理解文字
-
將影像中的物體和特徵與單詞對齊(包括同義詞),意味著模型能夠把同一事物的兩種模態聯絡起來
-
學習到如何將各種物體、特徵組合起來,這種生成能力需要更高的認知水平
隨著資源的不斷投入,這些生成的圖片以肉眼可見的速度越來越強,那麼這些圖片雖然fancy,但能如何落地、產生什麼實際價值呢?
首先最直接的,就是輔助藝術家進行創作,甚至獨立創作,比如去年底我就發現一位博士同學用AI生成的4張畫作在淘寶拍賣賣到了2304元,也調研到了一些國外的網站,利用AI技術付費生成特定風格的創作。在寫這篇文章的時候我又在淘寶搜尋,發現依然有人在拍賣AI生成的藝術品,而且價格不菲:

說實話我不是這個落地方向的支持者,我認為畫作背後「人」的思考和經歷才是成就藝術的原因。但價值是人定的,恰巧最近又趕上了NFT,所以這個方向究竟會發展成什麼樣也未可知。
另一個落地方向,是兒童教育。Meta最新的工作Make-A-Scene就很適合這個方向,讓兒童們繪製草圖,描述場景,就可以生成很棒的作品,從而啟蒙孩子對美術的興趣和想象力。這個方向還是很有實際意義並且能變現的。

還有一個方向,是內容製作。這個方向的前景就很廣闊了,先說3D的,現在3D動畫和遊戲的市場已經不必多說了(還捎帶上元宇宙),但做一個3D人物和場景都需要建模、貼紋理、繫結骨骼、做動畫、加特效等複雜的流程,如果AI能輔助其中幾個環節的生產,會節省很多人力成本,提升內容產出速度。而且目前模型生成的真實物體也很逼真了,再往遠了想,以後說不定輸入一個劇本,就能輸出一部電影了。
不過目前的模型能力離終極目標還有不小的距離,模型的可控性還需要進一步提升。
AI一直在潛移默化地影響我們的生活,有好有壞,比如搜尋引擎用AI演算法做排序,就有人用AI演算法生成大量垃圾內容做SEO;再比如剪輯軟體利用AI來減少人工配音成本,就有人盜取他人影片,用AI換個聲音洗稿製作大量垃圾剪輯。
雖然有不好的事情發生,但好在這是一個對抗的過程,兩方的演算法都會在對抗中越來越強大。

掃描二維碼新增小助手微信
關於我們

關鍵詞
模型
能力
影像
文字
智源