團隊“DeepSeek”化!位元組SeedEdge啟動不足兩月,衝刺AGI再發新作,訓練成本再節省40%

整理 | 褚杏娟
1 月下旬,位元組正式設立代號為“Seed Edge”的研究專案,目標是探索 AGI 的新方法,其中“Seed”是豆包大模型團隊名稱,Edge 代表最前沿的 AGI 探索。
該專案團隊近日釋出了其最新的研究成果:一項針對 MoE 架構的關鍵最佳化技術 Comet,可將大模型訓練效率提升 1.7 倍,成本節省 40%。
據悉,相較 DeepSeek 近期開源的 DualPipe 等 MoE 最佳化方案,Comet 可以像外掛那樣直接接入已有的 MoE 訓練框架,支援業界絕大部分主流大模型,且無需對訓練框架進行侵入式改動。Comet 也可以與 DualPipe 方案聯合使用。
Comet 主要解決的是 MoE 模型裡的專家放置挑戰。單個 GPU 無法容納所有專家,通常做法是將專家分佈在不同的 GPU 上,因此 GPU 之間需要頻繁地交換資料。為了減少通訊開銷,一種有效的策略是將通訊與專家計算重疊。
Seed 團隊指出,在分散式環境中,通訊與計算的重疊存在兩個問題:第一,隨著資料塊規模的縮小,計算效率降低,導致 GPU 計算資源的利用不足。此外,粗粒度的劃分在通訊的初始和結束階段會導致不可避免的 GPU 空閒時間。第二,由於 MoE 的動態特性,專家在執行時的輸入形狀各異,給 GPU 帶來了多樣化的通訊和計算負擔。將通訊和計算任務封裝在不同的核心中,限制了對硬體資源的控制,導致核心效能不穩定,阻礙了通訊與計算的無縫重疊。
Comet 則透過兩項關鍵設計實現了通訊與計算的細粒度重疊:1. 透過識別 MoE 中通訊和計算操作之間的複雜資料依賴關係,最佳化計算通訊管道的結構;2. 透過動態分配 GPU 執行緒塊來平衡通訊和計算工作負載,提高延遲隱藏效率。
據悉,Comet 由大約 1.2 萬行的 C++、CUDA 程式碼以及 2000 行 Python 程式碼組成。Comet 提供了一套使用者友好的 Python API,開發者可以將這些 API 無縫整合到他們的框架中。
位元組在各種並行策略下,將 Comet 整合到了 Megatron-LM 中,並對其進行了驗證。在 Nvidia H800 和 L20 叢集上的廣泛實驗表明,與現有的最先進 MoE 系統相比,Comet 在典型的 MoE 層上實現了 1.96 倍的加速,對於端到端的 MoE 模型執行(如 Mixtral-8x7B、Qwen2-MoE、Phi3.5-MoE 等),平均加速 1.71 倍。當前,Comet 已被部署到擁有超過一萬塊 GPU 的生產叢集中,用於加速大規模 MoE 模型的訓練和推理,節省了數百萬的 GPU 小時。
與 Megatron-Cutlass、Megatron-TE、FasterMoE 和 Tutel 相比,Comet 的端到端延遲分別降低了 34.1%、42.6%、44.4% 和 31.8%。
開原始碼:https://github.com/bytedance/flux/pull/54/
研發成果單月“三連擊”
位元組已在內部組建 AGI 長期研究團隊,代號“Seed Edge”,核心目標是做更長期、更基礎的 AGI 前沿研究。Seed Edge 初步確定了五大研究方向,包括:
  • 探索推理能力邊界:探索更高效且更通用、提升模型推理能力的方法;
  • 探索感知能力邊界:找到統一生成和理解表示的方法,探索世界模型建模,探索比語言更好的對世界進行表示的建模;
  • 探索下一個 Scaling 方向:在預訓練和推理階段的 Scaling Laws 之外,探索 Multi-Agent 和 Test-Time Training 等方向;
  • 探索下一代學習正規化:如探索比 Next-Token Prediction 更高效的學習目標,比 Backpropagation 更高效的學習方法,比大資料 Pretraining+Alignment 更高效的學習正規化;
  • 探索下一代軟硬一體的模型設計:面向下一代訓練和推理硬體的結構特點設計下一代模型,達到訓練效率、推理效率、模型效能的多目標同時最佳化,並進一步壓榨下一代硬體能力。
自正式對外公佈後,在過去的整個 2 月份,Seed Edge 專案團隊公開了三項成果。
團隊先是與北京交通大學聯合釋出和開源了通用影片生成實驗模型 VideoWorld。與 Sora 和 DALL-E 不同,它不依賴語言來理解世界,僅僅觀察影片就足以學習複雜的任務。同時,它基於一種潛在動態模型,可高效壓縮影片幀間的變化資訊,顯著提升知識學習效率和效果。在不依賴任何強化學習搜尋或獎勵函式機制前提下,VideoWorld 達到了專業 5 段 9×9 圍棋水平,並能夠在多種環境中執行機器人任務。
值得注意的是,位元組釋出 VideoWorld 相關訊息的 2 月 10 日,當天視覺認知概念股走強。參與該模型專案的北交大博士 Zhongwei Ren 還在小紅書上感嘆“學術民工誤入華爾街片場”,並稱該模型還在“煉丹”階段。
之後,團隊提出了全新的稀疏模型架構 UltraMem,該架構有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構提升 2-6 倍,推理成本最高可降低 83%。該研究還揭示了新架構的 Scaling Law,證明其不僅具備優異的 Scaling 特性,更在效能上超越了 MoE。
此外,團隊還提出一個基於大語言模型 (LLM) 和最優先樹搜尋 (BFS) 的高效自動形式化定理證明系統 BFS-Prover。團隊發現,簡單的 BFS 方法經過系統最佳化後,可在大規模定理證明任務中展現卓越效能與效率,無需複雜的蒙特卡洛樹搜尋和價值函式。在數學定理證明基準 MiniF2F 測試集上,BFS-Prover 取得了 72.95% 準確率,超越此前所有方法。
 Seed Edge 研究逐漸
“DeepSeek”化
一定程度上,位元組要打造的 Seed Edge 專案團隊與 DeepSeek 相似。
Seed Edge 鼓勵跨模態、跨團隊合作,為專案成員提供寬鬆的研究環境,實行採用更長週期的考核方式,以保障挑戰真正顛覆性的 AGI 課題。同時,Seed Edge 也將得到單獨的算力資源保障。
根據晚點的報道,位元組每半年考核一次績效,但為 Seed Edge 專案人員提供更長考核週期,同時不做嚴格的過程考核,而是在專案取得突破進展後再做最終評估。Seed 團隊主要考核模型層的效果,Seed Edge 則考核研究成果的價值。
對於 Seed Edge 還有一個特別的考核和激勵設計:如果一位研究者經過多輪考核週期後取得了重要的研究成果,位元組還會 “補償” 此前幾輪週期的考核績效,“鼓勵探索更長週期、不確定的和大膽的課題”。
而根據在 Seed Edge 實習過的知乎答主 Alan 的表述,“Seed 是國內唯一一家能在實習生身上提供難以想象的高資源投入的地方”。其在經過五輪技術面試以及最後語音部門負責人親自面試後加入團隊,稱“這裡對於前沿未知技術探索的氛圍非常濃厚”,團隊不聚焦刷榜,而是真正從 AGI 角度思考問題。另外,團隊規模偏向小而精,各成員都很優秀,溝通成本非常低,並給了實習生很高的自由度。
用卡方面,知乎答主 tyfr 提到,自己為了驗證一個想法而跑幾百卡的實驗是稀鬆平常的,就算任務突然掛了,幾百卡空一天,也不會發警報斥責浪費資源。
另外,答主 swtheking 表示,Seed 內部現在很重視外部的 impact 和 research,所以團隊裡每個人都能有機會出國參與國際會議,將自己的一部分工作發表論文來提升個人和團隊影響力。
Seed Edge 專案團隊成員也逐漸年輕化,如 VideoWorld 模型的核心作者是在讀博士,在位元組團隊長期實習 3 年。
去年 5 月,為儲備最具潛力的研究人才,豆包大模型團隊啟動了“Top Seed 人才計劃”,以極具競爭力的待遇在全球招募頂尖博士畢業生加入。
“我們看中的人一定是最 top 的 5% 的人。”位元組各部門負責人也表達了對團隊成員的期待:進來(位元組)之後去做 95% 的人做不到的事情;最關鍵的點其實是創造力,敢於打破我們現在的認知;有堅定的目標和信念,對技術非常有熱情、有想象力;有紮實的功底,動手能力也很強;有比較強的好奇心,有探索的慾望;能夠承受挫折,“我們日常工作中的挫折感往往是大於成就感的,我們願意給更長的週期,讓大家去解決真正有挑戰的事情。”
值得注意的是,近期位元組大模型團隊進行了一次架構調整。2 月 21 日,原谷歌 DeepMind 副總裁吳永輝博士加入位元組擔任大模型團隊 Seed 基礎研究負責人。吳永輝博士主要負責 AI 基礎研究探索工作,偏基礎研究;而之前負責人朱文佳主要負責模型應用相關的工作,偏模型應用,兩個人都在 Seed 部門,都向梁汝波彙報。團隊易帥對整體科研氛圍的影響尚不知曉。
參考連結:
https://www.zhihu.com/question/4580911331/answer/112547776593

相關文章