轉載自:新智元 | 編輯:Aeneas 昕朋
轉載自:新智元 | 編輯:Aeneas 昕朋
【導讀】2022年有哪些人工智慧的突破?今天,李飛飛高徒Jim Fan盤點了年度十大AI亮點。
人工智慧的爆炸正在扭曲我們的時間感。
你能相信Stable Diffusion只有4個月大,而ChatGPT的出現還不到一個月嗎?
打個形象的比喻,只要眨一下眼,你就會錯過一個全新的行業。
2022年的AI領域,大規模的生成模型像雨後春筍一樣地冒出,改變了整個AI界的格局。
而且,這些模型正在迅速走出實驗室,在現實中被應用。
比如,LLM技術就啟發了兩個新興的領域——決策代理(遊戲、機器人等等)和 AI4Science。
李飛飛高徒Jim Fan為我們總結了2022年的十大AI高光時刻。讓我們把時間倒轉,看看2022年都有哪些令人驚歎的AI突破。

一、文字-影像生成
DALLE-2是第一個可以從任意標題生成逼真的高解析度影像的大規模擴散模型。
它啟動了AI的藝術革命,催生了許多新的應用程式、初創公司和思維方式。

但 DALLE-2被保護在OpenAI的圍牆後面,並沒有開源。
在OpenAI之後,LMU的StabilityAI和runwayml邁出了英勇的一步,基於「潛在擴散」演算法訓練了他們自己的網際網路規模的text2image模型。他們稱該模型為「穩定擴散」,並開源了程式碼和權值(weighs)。

事實證明,Stable Diffusion的開放性,讓它給遊戲帶來了鉅變。
現在,許多初創公司和研究實驗室都在Stable Diffusion的基礎上建立新的應用程式,Stable Diffusion本身也被開源社群不斷改進。
最近,Stable Diffusion已經達到了v2.1版本,可以在單個GPU上運行了。

另外,今年還有來自GoogleAI的兩個image2text模型。GoogleAI既沒有釋出模型也沒有釋出API,但從論文中,我們仍然可以看到不少有趣的見解。
Imagen
https://imagen.research.google

Parti
https://parti.research.google。它是一個沒有diffusion的Transformer模型。

二、文字-文字生成
大家都知道,我說的是ChatGPT!
這是歷史上唯一一個在5天內就獲得了100萬用戶的應用程式。
ChatGPT也大大啟發了我們人類的創造力。
在這個列表中,可以看到所有有用的和有想象力的關於ChatGPT想法:https://github.com/f/awesome-chat

ChatGPT和GPT-3.5都使用了一種叫做RLHF(「從人類反饋中強化學習」)的新技術。
這也就意味著,提示工程或許很快就會消失了。

ChatGPT的流行,已經催生了一波新的創業公司和競爭者,比如Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai。
這些競爭者提供瞭如此直觀的搜尋方式,連谷歌的高管們都開始出汗了!

三、文字- 機器人模型
如何給GPT提供胳膊和腿,讓它們能打掃你混亂的廚房?
與NLP不同,機器人模型需要與物理世界互動。
在今年,大的預訓練Transformer終於開始解決機器人領域最難的問題了!
VIMA
10月,我和同事建立了一個 「機器人GPT 」——名為VIMA的tranformer。
它可以接收任何混合的文字、影像和影片作為prompt,並輸出機器人手臂的控制。
我們的模型被稱為VIMA(「VisuoMotor Attention」),已經完全開源了。
現在,單個智慧體已經能夠解決視覺目標、影片的一次性模仿、新概念基礎、視覺約束等,具有了模型容量和資料的強大擴充套件性。

RT-1
沿著與VIMA類似的路徑,來自GoogleAI的研究人員釋出了RT-1,這是一種在700項任務和130K的人類演示上訓練的機器人transformer。
這些資料是由13個機器人在17個月內收集的,是字面意義上的鋼鐵部隊!

四、文字 – 影片
本質上說,影片就是隨著時間的推移捆綁在一起的一系列影像,給我們創造了運動的錯覺。
如果我們可以做text2image,那為什麼不在裡面加上時間軸,來獲得額外的樂趣呢?
目前,文字 – 影片領域有3個重大的工作,但沒有一個是開源的。
Make-A-Video
首先是Meta AI的Make-A-Video:不需要成對的文字-影片資料,就可以得到文字-影片的生成。
您可以在此處註冊試用訪問許可權:https://makeavevideo.studio

論文連結:https://arxiv.org/abs/2209.14792

Imagen Video
Google AI的Imagen Video:它能使用擴散模型生成高畫質影片,基於Imagen靜態影像生成器。
演示:http://imagen.research.google/video/

論文連結:https://arxiv.org/abs/2210.02303

Phenaki
來自谷歌AI的Phenaki: 從開放領域的文字描述中生成可變長度的影片。
演示:https://phenaki.video

論文連結:https://arxiv.org/abs/2210.02399

五、文字-3D建模
從設計創新產品到在電影和遊戲中創造奇妙的視覺效果,3D建模正成為文字-X生成模型的下一片藍海。
令人驚喜的是,2022年出現了許多卓有前途的3D生成模型。在此,Fan列舉了3個模型。
DreamFusion
首先登場的,是Google AI研究團隊與UC Berkeley聯合開發的DreamFusion。

論文連結:https://arxiv.org/pdf/2209.14988.pdf
該模型使用二維文字到影像的擴散模型來執行文字到三維的合成。
基於NeRF演算法,DreamFusion可以透過給定文字生成3D模型。

該模型可以從任何角度檢視,在任意照明下可以重新點亮,還可以合成到任何三維環境當中。
Magic3D
第二項成果,是英偉達AI團隊的兩個專案,名為GET3D和Magic3D。

GET3D論文連結:https://nv-tlabs.github.io/GET3D/assets/paper.pdf

Magic3D論文連結:https://arxiv.org/pdf/2211.10440.pdf
GET3D僅使用二維影像進行訓練,可生成具有高保真紋理和複雜幾何細節的三維圖形。

該模型允許使用者立即將其形體匯入3D渲染器和遊戲引擎,以便進行後續編輯。
Magic3D與DreamFusion類似,使用文字到影像模型生成2D影像,然後最佳化為體積NeRF(神經輻射場)資料,將低解析度生成的粗略模型最佳化為高解析度的精細模型。

根據英偉達AI團隊,由此產生的Magic3D方法,可以比DreamFusion更快地生成3D目標。
Point-E
繼年初推出的DALL-E 2用天才畫筆驚豔所有人之後,週二OpenAI釋出了最新的影像生成模型「POINT-E」,它可透過文字直接生成3D模型。

論文連結:https://arxiv.org/pdf/2212.08751.pdf
相比競爭對手們(如谷歌的DreamFusion)需要幾個GPU工作數個小時,POINT-E只需單個GPU便可在幾分鐘內生成3D影像。

根據測試,Prompt輸入後POINT-E基本可以秒出3D影像,此外輸出影像還支援自定義編輯、儲存等功能。
六、會玩《我的世界》的AI
《我的世界》是一款測試AI通用智慧的絕佳遊戲。首先,它是一款無限開放的沙盒遊戲,極度體現玩家的創造力。
其次,該遊戲有1.4億的玩家群體,是英國總人口的兩倍。使用者基礎如此龐大,供AI學習的遊戲資料可謂是源源不絕。
那麼,AI能否和人類一樣盡情揮灑想象力呢?

Jim Fan和同事合作開發了第一個玩《我的世界》的AI「MineDojo」,它可以在自然語言提示下解決許多工。

論文連結:https://arxiv.org/pdf/2206.08853.pdf
Fan的最終目標是建立一個「具身的ChatGPT」。目前,MineDojo平臺已經完全開源。
與此同時,Jeff Clune的團隊宣佈了一個名為影片預訓練(VPT)的模型,該模型可以直接輸出鍵盤和滑鼠的動作。

論文連結:https://arxiv.org/pdf/2206.11795.pdf
VPT擁有更廣闊的視野,但不受語言條件的限制。在這點上,MineDojo和VPT恰好相輔相成。

七、AI外交官
Meta AI推出的CICERO是第一個在《外交》遊戲中實現人類水平表現的人工智慧智慧體。

論文連結:https://www.science.org/doi/10.1126/science.ade9097
《外交》是一款七人制經典策略遊戲,可以說是棋盤遊戲Risk、紙牌遊戲撲克和電視節目Survivor的結合。該遊戲需要廣泛的自然語言協商才能與人類合作和競爭。
然而,CICERO的出現表明,人工智慧現在已經有說服他人和虛張聲勢的能力。

目前,DeepMind也宣佈開發自己的外交官AI智慧體。那麼,如果CICERO使用這個AI模型,又會發生什麼呢?
八、音訊-文字模型
Whisper是OpenAI釋出的一個大型開源語音識別模型,在英語語音識別方面有接近人類水平的魯棒性和準確性。

論文連結:https://arxiv.org/pdf/2212.04356.pdf
Whisper經過了來自網路的680,000小時音訊資料的訓練。Open AI強調,Whisper的語音識別能力已達到人類水準。

Open AI將Whisper開源,是否是為了解鎖更多文字token,用以訓練萬眾矚目的GPT-4呢?
九、核聚變
DeepMind與瑞士洛桑聯邦理工學院(EPFL)聯合開發了第一個核聚變相關的深度強化學習系統,可以保持核聚變等離子體在託卡馬克內的穩定。

論文連結:https://www.nature.com/articles/s41586-021-04301-9
同樣在本月,美國能源部宣佈了一項巨大的突破:人類首次實現了核聚變反應的淨能量增益!

這是人類首次實現這一里程碑。這一生,我們或許會成為聚變文明!
十、應用於生物學的Transformer
2021年,AlphaFold開啟了語言模型預測蛋白質3D結構的序幕。

7月,DeepMind宣佈了「蛋白質宇宙」——將AlphaFold的蛋白質資料庫擴充套件到2億個結構!
此外,英偉達AI研究團隊還拓展了BioNeMo大型語言模型的框架,以幫助生物技術公司和研究人員生成、預測和理解生物分子資料。

影片講解:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s
以上便是Jim Fan對2022年十大AI亮點的盤點。當然,Fan也表示,還有無數令人興奮的作品為人工智慧的進步做出了貢獻。
每篇論文都是AI大廈裡的一磚一瓦,所有的努力都應該慶祝。
不過,Fan在最後也強調,隨著人工智慧系統變得越來越強大,我們必須意識到潛在的危險和風險,並採取措施減輕它們。
無論是透過仔細的培訓設計、適當的監督還是全新的保障方法,人工智慧的安全與倫理成為越來越的AI專家所討論的議程。
毫無疑問,2022年是充滿奇蹟的一年,也是令人驚歎的一年。未來一年又會有什麼震驚世界的突破?我們與你一起關注。
參考資料:
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
CVPR/ECCV 2022論文和程式碼下載
後臺回覆:CVPR2022,即可下載CVPR 2022論文和程式碼開源的論文合集
後臺回覆:ECCV2022,即可下載ECCV 2022論文和程式碼開源的論文合集
後臺回覆:Transformer綜述,即可下載最新的3篇Transformer綜述PDF
目標檢測和Transformer交流群成立
掃描下方二維碼,或者新增微信:CVer222,即可新增CVer小助手微信,便可申請加入CVer-目標檢測或者Transformer 微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要備註:研究方向+地點+學校/公司+暱稱(如目標檢測或者Transformer+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer222,進交流群
CVer學術交流群(知識星球)來了!想要了解最新最快最好的CV/DL/ML論文速遞、優質開源專案、學習教程和實戰訓練等資料,歡迎掃描下方二維碼,加入CVer學術交流群,已彙集數千人!

▲掃碼進群
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
