獨家|對話螞蟻Ling團隊:聊聊用國產卡降本這回事兒

作者 | 王一鵬
3 月 7 日,螞蟻團隊開源了兩個 MoE 模型 Ling-Lite 和 Ling-Plus(中文名稱為“百靈”),併發布了技術論文《Every Flop Counts》。其中 Ling-Lite 共有 168 億引數,激活了 27.5 億引數; Ling-Plus 共有 2900 億引數,激活了 288 億個引數。螞蟻團隊的研究方向是透過最佳化模型架構和訓練過程、改進異常處理的訓練方法、提高模型評估效率進一步降低模型的預訓練成本。其尤為突出的一點是,使用規格相對較低的國產硬體,即可完成預訓練工作,成本比使用更高規格的 NV 硬體,還要低 20%,是個非常因地制宜的技術方案。
不過,當該技術論文經由外媒報道,傳回國內,圍繞一些關鍵資料,卻出現了誤讀——有報道稱 Ling-Plus 模型使用低規格硬體的預訓練成本為 508 萬人民幣,遠低於 DeepSeek。但實際上,論文中提到的成本是在訓練 1T token 的前提下實現的,與消耗了 14.8T Token (技術報告口徑)的 DeepSeek V3 並不匹配 。
螞蟻團隊的工程師後續也在朋友圈進行了闢謠:“我們還沒有做到比 DeepSeek 低”,並在知乎釋出了補充性的技術解讀內容:《關於我們摳 FLOPS 的一些點滴》。另有螞蟻團隊專家對 InfoQ 表示:DeepSeek V3/R1 的成本最佳化,是在 NV Hopper 卡上的極致最佳化;DeepSeek V3 的報告裡展示了用 FP8 精度軟硬體協同最佳化,和演算法配合,得到了讓人印象非常深刻的單次訓練成本。
而 Ling-Plus 的成本最佳化工作,主要反映了 AI 基礎設施的工程能力,要能持續運作、減少中斷。這裡的成本比較是從基礎設施的角度進行的,經過最佳化組織、加入容錯機制,相比於國外硬體,能更好的配合國產卡,實現更低的工程成本。
InfoQ 也與螞蟻 Ling 團隊做了一場簡單的對話,希望能在上述技術材料外,給大家更多資訊參考。以下為對話原文,在保持原意的清況下,略有刪改。
InfoQ:能否幫我們簡單回顧下《Every Flop Counts》論文裡,我們實現的技術成績?
Ling 團隊:目前大模型研發領域比較公認的實踐是,MoE 架構模型的訓練與稠密模型相比,會困難很多,訓練過程中的穩定性比較差,尤其是一些新架構,均衡難度較大。
在 Ling 這個 300B 的 MoE 模型的訓練過程中,我們對此也深有體會,特別是當使用可以借鑑的材料更少的非 NVIDIA 加速卡的時候,我們“被迫”解決了很多問題。
很難說這些問題和解決方法算是成績,但是我們分享出來的這些問題和解決方法、思路,對其他著手嘗試這些加速卡的團隊應該也有一定借鑑作用,大概能幫他們節省點時間。
InfoQ:具體是怎樣的新思路?
Ling 團隊:其實在國產卡上訓練 300B 甚至更大量級的 MoE 模型,據我瞭解,並不只有螞蟻一家在做,大家應該都不同程度地遇到了很多困難。
當我們看到,在不同算力平臺上能跑出一模一樣的 loss 曲線,我們非常興奮。所以在我們完成一個大階段的訓練後,就第一時間把 Ling 開源了出來,同時分享了我們的一些思考、方法和經歷。
我覺得這裡面像 MoE 的 scaling law 分析、跨平臺訓練的一整套解決方案、還有一些 bitter lesson,對行業都有一定的借鑑意義。當然,無論從模型尺寸還是 benchmark 效果來看,Ling 都不是最頂尖的,業界還有很多優秀團隊的模型效果值得我們去努力追趕。
當前 AI 領域的創新是以“天”記的,春節都不放假,我們對其他天才團隊都很尊重。在實現 AGI 的路上,大家有競爭,但更重要的是在彼此印證、互相鼓勵、共同進步。
InfoQ:如果對應著 R1 引數規模所消耗的 Token 量,Ling-Plus 的訓練成本大概處於什麼水平?怎麼衡量?
Ling 團隊:如果是在 Hopper 架構 GPU(比如 H800)上,DeepSeek V3(R1 的預訓練模型)針對該架構最佳化得非常極致(比如 FP8 混合精度訓練),再加上硬體成本也低,整體的訓練成本要比 Ling 低不少。
但我覺得關於成本大家可能有一個誤解,Ling 在訓練上主要考慮的問題是如何實現非 Hopper 架構 GPU 上的訓練,確保正確性,同時儘量降低成本,所以像 FP8 這種 Hopper 架構獨有的特性,我們並沒有考慮在內。在這個大的思路下,透過我們的一些技術努力,可以在國產加速卡上實現相當甚至更低的訓練成本。但我個人覺得能不能訓比成本高低要更重要。
另外,不管是 DeepSeek V3 還是 Ling,技術報告上提到的成本,都是參考價格和單次訓練,其實並不是真實和完整開銷,比如前期的技術預研,也都是巨大的投入。
InfoQ:為什麼使用 NV 算力和國產算力,可以最終實現 loss 接近。透過軟體最佳化,真的可以彌補硬體差距嗎?
Ling 團隊:實現 loss 非常接近,是軟硬體一體的事情。國產算力在 TFLOPS 上雖然不如 NVIDIA 最高階的晶片,但至少在我們使用的這些平臺上,硬體的計算精度本身都是沒有問題的。而硬體穩定性來看,國產算力確實也還有差距。因此我們做了不少技術努力,比如訓練監測框架 XPUTimer、loss 和 grad 尖刺監控機制等,來努力確保訓練的穩定。
再看軟體,國產算力的軟體生態相比 NVIDIA 也有明顯差距,在我們完成 loss 對齊的過程中,確實需要付出很多努力來進行運算元、框架等的對齊,也非常慶幸最後努力沒有白費。
InfoQ:各型號加速卡測試下來,綜合體驗如何?
Ling 團隊:我們不方便點名所有用到的卡,但在訓練過程中,我們確實嘗試了不同廠家的不同型號的加速卡,具體限制很多,但這個限制也讓我們體驗到了國產加速卡的進步,作為模型研發團隊,我們的首要目標肯定是訓練出能力更強、效能更高的模型,既然異構問題客觀存在,就要克服這些問題。
InfoQ:在 loss 對齊工作上,我們之前提到,團隊曾定下了嚴苛標準:“基礎運算元(除符合預期的精度誤差)完全對齊 + 分散式訓練框架前後向計算完全對齊 + 大規模訓練長跑 loss 差異低於 0.1%”,讀者應該怎麼形象地理解這個指標的嚴苛程度?
Ling 團隊:把 MacOS 改成 Windows?我也不知道應該怎麼比喻。實際就是把運算元和訓練框架幾乎所有細節都摸了個遍。我在知乎文章也有提到,同時我們在做的 scaling law 研究發現:不訓練直接預測 loss 的誤差都能做到 0.5% 以內。這一定程度上說明 LLM 的 loss 是一個非常確定的東西,這麼看的話,0.1% 也沒有很苛刻吧。
InfoQ:AReaL 也開源了,能否簡單聊聊 AReaL ?與《Every Flop Counts》的工作相比,該怎麼衡量 AReaL 工作的重要性?
Ling 團隊:AReaL 是螞蟻和清華團隊合作的一項工作,是使用強化學習方法進行推理模型訓練的工作,之前開源了 0.1 版,0.2 版本正在研發中,應該很快也會發出。強化學習的方法也是最近很火的 DeepSeek-R1 的方法。非常理解大家想看一個簡單的相互 PK,但在整個 AI 的歷史程序中,使用優質資料(答案)的訓練,和使用獎勵機制的強化學習方式經常是交替被採納的,沒有預訓練推進到一定程度,強化學習模型就很難取得成果,但一旦訓練資料達到瓶頸的時候,強化學習方法就又迴歸視線,人的學習可能也是這樣一個過程,從復讀式學習,到從得到的正負反饋成長。
InfoQ:該如何描述大模型發展和高階算力的關係?目前 LLM Arena 裡排名靠前的模型,還是靠著大規模 N 卡叢集訓練出來的。
Ling 團隊:其實用國產算力做後訓練和推理還是比做預訓練要成熟不少的,Ling 的後訓練也是在國產算力上完成的。
峰值算力、視訊記憶體量、卡間互聯頻寬、還有一些新特性,比如低精度支援等,肯定都是多多益善,對提升訓練效率或者訓練成本都是非常有用的。
整體來看,NVIDIA GPU 的生態目前確實還是領先的,這個領先不僅體現在硬體效能更優秀,很大程度也體現在軟體生態更成熟,以及相關的嘗試經驗更多。
這次我們開放出來的 Ling 就是國產萬卡叢集訓練的結果,隨著時間積累,相信很快就會有更多基於國產大規模叢集的成果開放出來,這些經驗的交流和累積,對於生態的成熟應該會有巨大幫助,這也是開源的意義之一。
InfoQ:團隊接下來還有什麼進一步規劃?
Ling 團隊:Ling 團隊接下來在下一代基座模型、推理模型、多模態大模型上都會持續投入,我們近期就會開源一個基於 Ling-lite 蒸餾訓練得到的長推理模型。
在基座模型方面,雖然目前 Ling 開源的模型最大尺寸是接近 300B,但實際上,更大尺寸的模型在國產卡上也是可以訓練的。我們希望可以儘快可以跟大家分享新的基座模型成果,比如更高效的模型架構、更低成本的訓練方法、更大尺寸的模型等等。
 會議推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
今日薦文
豆包大模型負責人飛書賬號遭停,或因內部糾紛引關注;眾擎機器人CEO炮轟朱嘯虎:快退出宇樹股份;宇樹確認已盈利至少5年 |AI週報
用“千行程式碼”作弊軟體騙過大廠!00後拿4個頂級Offer後瀟灑拒掉:技術面試早該淘汰了?
GPT-4o “吉卜力”爆火,Prompt、SD 白學了?!大模型能力進化碾壓一切
OpenAI 宣佈採用競對 Anthropic 協議,一夜將 MCP 送上熱搜!Karpathy:趕緊歇了吧
你也「在看」嗎?👇

相關文章