“位元組暗示我太窮”:Seed團隊1000張H100訓練7B模型,釋出全球首個25秒AI影片,驗證視覺生成ScalingLaw?

整理 | Tina
這是全球首個由 AI 生成的 25 秒影片,由字節跳動釋出的 Seaweed-7B 模型生成。
字節跳動近日宣佈在影片生成領域取得重大突破——Seaweed-7B。這是一個引數量僅為 70 億的影片生成基礎模型,該模型在核心任務上的表現超越了引數量為其兩倍的主流模型,而訓練成本僅為其約三分之一。
字節跳動早在去年就開始預熱 Seaweed 專案,如今,位元組 Seed 團隊終於放出了技術報告,詳細介紹了其技術架構和應用案例,並強調了其在成本效益方面的突破。
這也是 Seed 團隊成員的一次曝光。
Seaweed-7B 專案由多個團隊共同研發。核心研發團隊包括由蔣路、馮佳時等領導的研究團隊,下設模型、資料方向和基礎設施團隊。此外,專案得到了朱文佳和吳永輝的支援。今年 2 月下旬,原 Google DeepMind 副總裁吳永輝正式加入字節跳動,出任 Seed 基礎研究負責人。蔣路則早在去年就已加盟位元組,作為前谷歌高階科學家,他曾主導谷歌的影片生成相關工作,並在多個核心產品中發揮了關鍵作用,包括 YouTube、雲服務、AutoML、廣告、Waymo 和翻譯等。同時,蔣路也是卡內基梅隆大學(CMU)的兼職教授。
而他們放出來的宣傳影片,這兩天也讓社群逐漸沸騰起來,引發了廣泛而熱烈的討論。
從 Seaweed-7B 看影片生成的下一階段
和目前主流的 AI 影片模型類似,Seaweed-7B 支援影像轉影片、基於參考影像生成影片、半擬真的人物形象、多鏡頭切換以及高畫質解析度輸出等常規功能。
真正令人驚豔的是,它具備當前其他 AI 影片模型尚未實現的五項關鍵能力:
首先,它可以 同步生成音訊和影片。目前大多數模型都是先生成影片,再單獨新增聲音。雖然已有一些“音訊驅動影片”的研究,但仍處於實驗階段。Seaweed-7B 的音畫一體生成,在效率和內容一致性方面都邁出了一大步。
其次,它支援 長鏡頭生成。OpenAI 的 Sora 雖然曾展示過分鐘級影片,但公開可用版本的時長普遍仍在 20 秒以內。此次字節跳動展示的 25 秒影片不僅拉長了時長,更是在單條提示詞下一次性生成,質量也遠超以往拼接或續寫的方式。
第三,Seaweed-7B 擁有 即時生成能力。據介紹,該模型能以 1280×720 解析度、24 幀每秒的速度即時生成影片,這在當前 AI 影片領域幾乎是革命性的突破,將極大提升互動效率,也為即時創作和虛擬角色應用場景提供了新的可能性。
第四,它引入了名為 CameraCtrl-II 的功能,支援在三維世界中進行鏡頭排程。研究團隊表示,該方法可透過設定鏡頭角度,生成高度一致且動態豐富的影片,甚至可作為三維檢視合成器使用。
最後,模型在 物理模擬與真實感表現 方面也實現了顯著提升。傳統 AI 影片模型在處理旋轉、舞蹈、滑冰等複雜動態時常顯生硬,而 Seaweed-7B 的表現更為自然流暢,雖然仍有提升空間,但已明顯優於過去幾個月業內常見的模型效果。
這些影片效果讓很多人覺得驚豔,不少網友感嘆其在即時攝像機控制、長時高畫質影片生成和多鏡頭流暢切換方面的突破,直呼“太瘋狂了”、“再次驚豔中國”,尤其“即時影片生成”的概念讓人聯想到未來 AI 在遊戲等領域的可能性。

資源受限環境中,架構設計尤其重要
雖然影片生成的許多技術都受到影像生成技術的啟發,但影片生成面臨著獨特的挑戰。與靜態影像不同,影片需要對運動動態進行建模,並保持長序列的時間一致性。這些要求極大地增加了訓練和推理的計算複雜度,使得影片生成模型成為開發和部署中最耗費資源的基礎模型之一。
2024 年 Sora 的釋出被視為影片生成領域的重要里程碑,但訓練這類模型往往需要極其龐大的算力,通常動輒上千張 GPU。
Seaweed-7B 的訓練成本則小很多,僅 66.5 萬 H100 GPU 小時,相當於在 1,000 張 H100 GPU 上連續執行約 27.7 天。
雖然該模型僅 70 億引數,但從影像到影片的效果能超越同類 140 億的模型。

在影像轉影片的任務中,Seaweed-7B 在各項指標上均大幅優於 Sora。
在文字轉影片的任務中,Seaweed-7B 在 Elo 評分中位列前 2-3 名,緊隨排名第一的模型 Veo 2 之後,效能與 Wan 2.1-14B 相當。
而該模型能夠以顯著降低的計算成本實現極具競爭力的效能,也跟背後的架構設計決策密切相關。
根據公開資訊,該模型採用 DiT(擴散變換器)架構,並透過對抗性後訓練(APT)技術最佳化生成速度和質量。它只需單次神經函式評估即可生成 2 秒的 720p 影片,推理速度比同類模型提升 62 倍。同時也提出了變分自編碼器(VAE)設計,VAE定義了生成真實感和保真度的上限, 這可能是該模型生成的影片具有高真實感和生動運動的主要因素。
在資料上,該團隊開發了一套高吞吐量且靈活的影片管理流程,包括管理影片編碼和解碼、執行時間分割、空間裁剪、質量過濾等。
憑藉這一基礎架構,讓 Seed 團隊每天能夠處理超過 50 萬小時的影片資料,足以用於訓練,因此可以將精力集中在有效地挖掘高質量影片片段上。為了最佳化影片片段處理時的吞吐量,他們使用了兩個現代框架:BMF 以及 Ray 。
在 Infra 層面,字節跳動圍繞“高效訓練”進行了系統性的基礎設施最佳化,顯著提升了模型的算力利用率與資源效率。具體而言,團隊採用三維並行策略(資料並行、上下文並行、模型切分)來應對長上下文影片訓練的挑戰,並引入“執行時負載均衡”機制,動態調配影像與影片樣本在不同 GPU 間的分佈,緩解聯合訓練時的負載不均問題。
此外,Seaweed-7B 還創新性地設計了多級啟用檢查點(MLAC)機制,支援將中間啟用儲存在 GPU、CPU 或磁碟等多層級介質中,不僅大幅降低了視訊記憶體佔用,還減少了重計算帶來的效能損耗。為進一步提升訓練吞吐,團隊還透過 kernel 融合手段,將多個記憶體訪問密集的操作整合到單個 CUDA kernel,顯著提升了運算強度與 GPU 利用率。
位元組在論文中表示,得益於這些系統級最佳化,Seaweed-7B 在大規模分散式訓練中實現了 38% 的 FLOPs 利用率,成為當前 AI 影片生成領域中兼顧效能與效率的代表性模型之一。
不過,有意思的是,儘管字節跳動認為其資源消耗“適度”,不少網友卻對此持有不同看法,直呼“字節跳動在暗示我太窮”。
他們指出,動用上千張頂級 GPU 進行近一個月的訓練,無論如何都絕非小數目,強調這依然是需要巨大算力的投入,所謂“適度的計算資源”的說法並不恰當。

“字節跳動在暗示我‘GPU 窮人’。一個訓練了 66.5 萬張 H100 小時的模型,卻被稱作‘成本高效’、‘計算資源適度’。”
參考連結:
https://arxiv.org/html/2504.08685v1
https://www.linkedin.com/posts/eddieyoon_this-is-the-worlds-first-25-second-ai-generated-activity-7317677545821192192–o0W/
宣告:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

相關文章