深度拆解Sora:技術的驚喜與失望,「世界模型」的可能與想象|此話當真EP19

用聲音,聽見真格。
「此話當真」是一檔泛商業類播客,我們希望搭建這樣一個分享和交流的平臺,讓每一個對商業、科技、創投充滿好奇的人都能在這裡有所收穫。每期播客將會由不同的真格投資人擔任主持,和各領域的領軍人物一起帶大家深入瞭解科技趨勢,以及創新技術的影響力。交流科技熱點,我們只想給你最專業的解讀。
當然,我們希望這不僅僅是一個播客,更是一次創業的探索。真格,你的創業第一站!我們期待與你相遇,一同發現新的可能。
深度拆解 Sora:技術的驚喜與失望,
「世界模型」的可能與想象
嘉賓介紹
於立軍:卡內基梅隆大學人工智慧領域的博士生,北京大學本科。CMU 導師是 Alexander Hauptmann 博士,聚焦於多媒體的研究。曾在 Google DeepMind 工作。
符堯:愛丁堡大學博士生,北京大學本科,哥倫比亞大學碩士。研究方向是人類語言的大規模生成模型,包括資料工程,複雜推理長上下文,以及模型背後的科學原理。開源社群 LLaMafia 建立人。
時間軸
03:05  Sora VS VideoPoet:勝在時長和解析度
05:02  語言模型規模擴大之後:走向多模態基礎模型的一大步
10:06  Sora 的核心貢獻:高質量的資料集
12:25  新近研究結果:超長 transformer 或可在成本增長可控的情況下實現
17:37  Compression Network 為什麼重要?學習空間的生成邏輯
22:44  Sora 的特別之處:Diffusion Denoising 的訓練方式
27:57  Sora 與 GPT 結合的可能性
33:05  理想的「世界模型」要能夠「預測未來」
38:02  大模型能夠理解更多細分場景下的精細化規則
46:26  Sora 會是多大的模型?
58:47  Sora 能實現 In-Context Learning 嗎?
01:05:49  10 秒長度的影片或許只要 1 分鐘就能生成:推理速度的提升空間巨大
01:08:28  效能提升的門檻與初創公司的挑戰
01:11:28  「有多少人工就有多少智慧」
01:15:58  讓聰明人去更新模型架構,還不如去清洗資料效果好
01:22:01  用合成數據做訓練:大模型「活在」人造世界裡
01:28:36  缺乏互動的情況下,「生成的多樣性」可能被高估了
01:32:17  在算力相對不足的情況下實現模型效果,這才是有挑戰的地方
01:37:45  論文被拒,卻做出驚豔世界的產品:「大力出奇跡」VS 學術創新
01:39:32  硬體「突圍」、融合戰略、多模態交叉與「湧現」的想象力
相關閱讀
提到的論文
  • VideoPoet: A large language model for zero-shot video generation, by Lijun Yu
  • Scalable Diffusion Models with Transformer, by William Peebles, Saining Xie
  • WALT: Photorealistic Video Generation with Diffusion Models, by Lijun Yu
  • World Model on Million-Length Video And Language With RingAttention
  • Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
  • ViViT: A Video Vision Transformer
相關資料
VideoPoet:

Google 於 2023 年底釋出的專注於影片生成的大語言模型,能夠執行各種影片生成任務。和絕大多數影片領域模型不同,VideoPoet 並沒有走 diffusion 的路線,而是沿著 transformer 架構開發,將多個影片生成功能整合到單個 LLM 中,證實了 transformer 在影片生成任務上的極大潛力。

Encoder-Decoder:編碼器與解碼器。編碼器將輸入序列轉換成一個固定長度的上下文向量。解碼器從上下文向量中生成輸出序列。
Scaling Law:在計算機科學和數學中,擴充套件定律(Scaling Law)是描述系統隨著其規模的增長而發生的變化的定律。這些定律通常用於分析大規模系統的行為,尤其是在計算機科學中研究系統性能和效率時經常會用到。
Transformer:Transformer 模型是一種用於自然語言處理(NLP)和其他序列到序列(sequence-to-sequence)任務的深度學習模型。它由 Vaswani 等人在 2017 年的論文《Attention is All You Need》中提出,其主要創新是引入了自注意力機制(self-attention mechanism)。
Autoregression Model:自迴歸模型,基於時間序列自身的歷史值來預測未來值,透過將當前時刻的觀測值與前一時刻的觀測值之間的關係進行建模。
Diffusion Models:透過學習把影像逐步變成純噪聲的逆操作,把任何一個純噪聲影像變成有意義的影像,從而完成影像生成。
Video Compression Network:將原始影片作為輸入,透過一個影片壓縮網路將其轉換為在時間和空間上壓縮的潛在表示,以減少模型的計算負擔和提高訓練效率。
Data Curation:對資料集中的資料進行選擇、清理和組織,以獲得高質量的用於訓練模型的資料集。
Stable Diffusion:經過訓練可以逐步對隨機高斯噪聲進行去噪以獲得感興趣的樣本,例如生成影像。在畫素空間中執行,去噪過程的時間和記憶體消耗都非常昂貴。
Latent Diffusion:能夠在較低維度的潛空間上應用擴散過程而不是使用實際的畫素空間,因此可以減少記憶體和計算成本。
Latent Space:機器學習模型學習到的資料的低維表示。這種壓縮表示捕捉了資料中的基本特徵和關係,使模型能夠高效地執行任務。
Pixel Space:畫素空間。
Context Window:指語言模型在進行預測或生成文字時,所考慮的前一個 token 或文字片段的大小範圍。較大的上下文視窗可以使模型做出更準確的預測或生成。
Consistency Model:一種生成模型,可以在取樣中生成高質量的資料而不需要對抗訓練。透過從預訓練的擴散模型中 Distil(蒸餾)知識和採用學習指標來得到最佳的樣本質量。但是 Distil 限制了 Consistency Models 的質量不能超過預訓練的擴散模型。
Sparse Attention:處理大規模資料時,只關注資料中的一小部分,以提高計算效率。
In-Context Learning:在大型語言模型(如 GPT-3)中流行的機器學習方法,可以根據幾個例項理解任務並提供答案。此方法使模型能夠利用接收到的輸入資料快速適應新任務,無需額外的引數更新或訓練。
Curve Fitting:曲線擬合。
你可以透過小宇宙、蘋果 Podcast 、喜馬拉雅收聽我們。如果你對節目有任何的建議與期待,歡迎在留言區互動~
如果你有任何的創業想法或是有合作的想法,歡迎發郵件到 [email protected]
推薦閱讀

相關文章