
近日,據外媒報道,中國金融科技巨頭螞蟻集團在人工智慧領域取得了重大突破。有知情人士透露,螞蟻集團使用由阿里巴巴和華為製造的國產晶片,開發出了將人工智慧訓練成本降低 20% 的方法。
據稱,螞蟻集團在訓練“專家混合”(Mixture of Experts,以下簡稱 MoE)模型時運用了多種最佳化方法,在國產晶片的基礎上取得了與使用英偉達 H800 等晶片差不多的訓練效果:計算成本從 635 萬元人民幣 / 萬億 Token 降低至 508 萬元人民幣,但模型效能卻能與 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相媲美。
這一訊息引發了廣泛關注,螞蟻所帶來的成果令海外的網友感到震驚。許多人紛紛發出感嘆:“中國變化太快”、“美國禁止向中國供應晶片,只會讓中國晶片製造業更快發展”、“這釋放出一個強有力的訊號:人工智慧領域的主導地位並非英偉達一家獨攬”。

而螞蟻的相關成果早在 3 月 11 日就已公開發表,螞蟻集團 Ling 團隊在其技術報告論文中,介紹了這一系列“不使用高階 GPU 來擴充套件模型效能”的創新策略。此外,螞蟻還指出了他們在過程中遇到的挑戰和教訓。“即使是硬體或模型結構的微小改動,也可能引發問題,比如導致模型的錯誤率突然上升。”
隨著企業在人工智慧領域投入大量資金,MoE 模型已成為一種熱門選擇。這種技術將任務劃分為較小的資料組,就像組建了一支專家團隊,每個成員專注於一項工作的某個部分,從而提高了工作效率。然而,雖然 DeepSeek、阿里 Qwen、MiniMax 等系列的 MoE 模型在特定任務中已展現出優越效能,但這類模型的訓練通常依賴高效能計算資源,如英偉達 H100/H800 等先進 GPU,其高昂的成本讓許多小公司望而卻步,也限制了該技術的更廣泛應用。
在技術報告中,螞蟻首先就探討了訓練 MoE 模型所面臨的這些挑戰,重點是要克服此類系統中普遍存在的成本效率低下和資源限制問題。為此,他們提出了一系列系統最佳化策略,以便在有限的資源和預算約束下實現高效的 LLM 訓練,平衡資源成本和模型效能,包括最佳化模型架構和訓練策略、改進訓練異常處理、提高模型評估效率和工具使用能力。
在最佳化模型方面,他們從架構、訓練框架和儲存三方面進行了最佳化。
-
模型架構最佳化:基於對密集模型和 MoE 模型縮放規律的綜合分析,選擇與可用計算資源最匹配的架構。
-
訓練框架最佳化:針對異構計算平臺,將多個訓練框架整合為一個統一的分散式深度學習框架,即開源專案 DLRover DLRover 。其開發了一種輕量級除錯工具 XPUTimer,它有助於快速、經濟高效地分析任務效能,同時減少了 90% 的記憶體使用量。此外,還實施了一種與平臺無關的非同步訓練策略 EDiT(彈性分散式訓練),它提高了訓練效率,訓練時間在各種配置下最多可縮短 66.1%。
-
儲存最佳化:採用裝置多租戶和使用者空間檔案系統(FUSE)等技術,實現大規模訓練的高效能和多叢集適應性。儲存和訓練流程的協同設計提高了 MoE 場景中的 I/O 效率,將時間開銷減少了 50%。
針對大規模訓練中的硬體錯誤和損耗異常,螞蟻開發了一套穩健的異常處理機制,包括一套即時監控整個訓練過程異常的多層次異常檢測系統和為減少異常情況對訓練進度影響而實施的一種自動恢復機制。
同時,為了最佳化對跨叢集模型訓練的監測,他們嘗試改進了以下評估基準和框架:
-
綜合評估資料集:為減少模型初始表現不佳並提高穩定性,構建了一些特定領域的評估資料集,並優化了相應的預測策略和提示模板。
-
高效評估系統:基於自主創新的離線推理框架(即 Flood),開發了一套可擴充套件的跨叢集評估系統,其結果穩定,平均偏差小於 0.5%。
-
自動分析系統:為了提供即時反饋以調整訓練策略,開發了一個自動系統,將評估結果與模型效能和資料集相關聯。
在提高大型模型的工具使用能力上,螞蟻重點關注高質量資料合成和自適應工具學習兩個關鍵方面。
為了有效生成高質量、可擴充套件和多樣化的工具使用資料,螞蟻團隊利用知識圖譜技術和廣義呼叫指令來提取多樣化和複雜的函式鏈,從而增強凌模型在各種實際場景中的適用性。團隊利用拒絕取樣和糾錯等學習策略開發了自省式多機器人互動對話,以增強模型的自適應工具使用能力。
據螞蟻介紹,他們開發並開源的 Ling 系列 MoE 模型,就是一個基於上述技術最佳化成功平衡資源成本與模型效能的示例。
其中,Ling-Lite 包含 168 億個引數和 27.5 億個啟用引數,Ling-Plus 則擁有 2900 億個引數和 288 億個啟用引數。知情人士稱,該公司計劃利用其開發的大語言模型 Ling-Plus 和 Ling-Lite 的最新突破,為包括醫療保健和金融在內的行業提供人工智慧解決方案。
根據一系列綜合評估基準, 引數大小相似的情況下,在有限的資源和預算約束下訓練的 Ling-Lite 模型,英語理解能力與 Qwen2.5-7B-Instruct 相當,同時優於 Llama3.1-8B-Instruct 和 Mistral-7B-v0.3-Instruct;在數學和程式碼基準測試中,Ling-Lite 的效能與 Qwen2.57B 相當,優於 Llama3.1-8B 和 Mistral-7B v0.3。

同樣的前提條件下,Ling-Plus 模型與 DeepSeek 等前沿開源模型效能不相上下。Ling-Plus 的英語理解能力與 DeepSeek-V2.5-Chat 和 Qwen2.5-72B-Instruct 相當,在 GPQA 資料集上的得分還高於 DeepSeekV2.5,在事實知識基準 SimpleQA 上與 DeepSeek-V2.5 的表現相似。在數學和中文的測試上,Ling-Plus 的總體效能與 Qwen2.5-72B 相近,較高於 DeepSeek-V2.5 和 Llama3.1-70B 的基準得分。程式碼測試中,Ling-Plus 的得分與 Qwen2.5-72B 相當、整體略低於 DeepSeek-V2.5 。


不過,螞蟻強調,Ling-Plus 模型不如 DeepSeek V3。
此外,Ling-Plus 在五種不同的硬體配置對 9 萬億個 token 進行了預訓練,使用高效能硬體配置(裝置 D)訓練 1 萬億個 token 估計需要花費約 635 萬人民幣;相比之下,使用較低規格的硬體系統可將成本降至約 508 萬人民幣,節省了近 20% 的成本。

LLM 訓練是一個具有挑戰性和資源密集型的過程,往往伴隨著各種技術困難。錯誤和異常情況很常見,有些問題相對容易解決,有些問題則需要花費大量時間和精力。
“在超大規模模型的訓練過程中,與硬體相關的因素和對網路結構看似微小的修改都會對模型的穩定性和收斂性產生重大影響。”螞蟻團隊在報告中提到。具體來說,螞蟻在整個過程中遇到了損失發散、損失尖峰和專家負載不平衡等挑戰。
其中,保持均衡的專家利用率對於 MoE 模型的有效性至關重要。大範圍的損失峰值會導致突然的梯度激增,從而破壞路由平衡,嚴重破壞專家負載平衡。一旦專家失衡,問題就會升級,導致整個模型普遍不穩定。透過將尖峰緩解技術與平衡損失和上述路由器 zloss 相結合,螞蟻才成功地實現了包含數千億個引數的 MoE 模型的穩定訓練。這種方法帶來了穩定的損失軌跡,沒有觀察到損失發散、大範圍損失尖峰或專家路由平衡中斷的情況。
同時,LLM 在不同平臺間遷移訓練面臨多方面挑戰,這主要是因為基礎操作的實現方式和框架層面存在差異,可能會導致訓練結果不同,凸顯了嚴格的對齊策略的必要性。為推動 Ling 在多個平臺上的遷移,螞蟻開展了大量預備實驗,旨在確保跨平臺基本操作和通訊演算法的一致性,並考慮到數值計算中固有的微小精度誤差。在驗證這些基礎元件後,他們才進行大規模大語言模型的訓練。
然而,事實證明,僅驗證基本操作不足以實現無縫的跨平臺遷移。在後續訓練階段,他們又觀察到遷移後不同平臺之間的損失收斂情況存在顯著差異。為解決這一問題,其將對齊工作從基本操作擴充套件到框架本身。這個過程需要消除所有潛在的差異源;否則,就無法確定錯誤的根本原因。因此,他們實現了兩個平臺上包括矩陣乘法(matmul)和線性變換在內的基本操作的完全對齊。
在框架層面,其處理了諸如注意力機制、多層感知器(MLPs)和路由元件等模組在實現過程中的差異,以避免浮點運算導致的精度誤差,透過這些努力實現了跨平臺前向傳遞計算的完全對齊。此過程中,他們解決了張量並行(TP)變化和輔助損失計算引發的問題,並糾正了某些通訊操作中的錯誤。在反向傳遞計算時,藉助前向傳遞對齊過程中獲得的經驗,他們能夠高效識別並糾正梯度傳播中的錯誤,尤其是路由元件中的錯誤。
雖然這些問題在單獨出現或單元測試時可能看似微不足道,但在整個訓練過程中,它們的累積效應會對大語言模型的收斂結果產生重大影響。即使是微小的差異,經過多次迭代疊加,也可能導致最終損失收斂出現巨大偏差。
據一位知情人士稱,螞蟻集團現在雖仍在使用英偉達的產品進行人工智慧開發,但在其最新模型的訓練中,目前主要依賴來自 AMD 以及國產廠商的替代晶片產品。
如果這些國產晶片流行起來,可能會影響英偉達目前作為受歡迎人工智慧晶片生產商所享有的地位。儘管現在英偉達的晶片仍然非常搶手,效能也較為強勁,但一直存在嚴格的出口管制。今年早些時候,自 DeepSeek 展示瞭如何以遠低於 OpenAI 和谷歌母公司 Alphabet 數十億美元的投入訓練出高效能模型後,英偉達的股價就一度短暫下跌。
參考連結:
https://www.bloomberg.com/news/articles/2025-03-24/jack-ma-backed-ant-touts-ai-breakthrough-built-on-chinese-chips
https://arxiv.org/pdf/2503.05139
宣告:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

今日薦文
