
2025 年 4 月伊始,正值中國清明假期,太平洋彼岸的 Meta 公司便釋出了 Llama 4 模型。該模型參考了 DeepSeek 的技術,採用 FP8 精度訓練的 MoE 架構,並且是訓練原生的多模態模型。此次釋出包含兩種尺寸的模型,儘管如此,其實際測試效果卻不盡如人意,這在 AI 圈內引發了軒然大波。緊接著,Google 推出了 A2A 協議(Agent2Agent),旨在解決未來多智慧體之間如何溝通協作的問題。一時間,關於 MCP 與 A2A 是否可替代、能否互競的討論再度升溫。4 月 16 日,OpenAI 再接再厲,正式釋出了兩款全新的人工智慧推理模型,o3 與 o4-mini,開啟 AI“看圖思考”能力。

將時間線稍微拉長,回溯到 2025 年春節以來的短短數月,足以讓我們深切感受到 AI 領域變化之迅猛。曾經的“各領風騷三五月”,如今已縮短為“只領風騷兩三週”的節奏,並且這種加速的趨勢仍在持續。
-
模型方面:
-
LLM 與多模態領域: 阿里的 Qwen 系列、Google 的 Gemini 系列、OpenAI 的 GPT 系列,以及 DeepSeek 的多篇前沿論文(如 NSA、GRM)和 KIMI 與 DeepSeek“撞車”的 MoBA 模型,紛紛“你方唱罷我登場”,各展風采。
-
AI4S、具身智慧等方向: 雖然探索從未停歇,但與大語言模型領域不同,尚未收斂到一個統一的架構上持續深化、最佳化,仍在時序模型、圖神經網路(GNN)、圖注意力網路(GAT)、擴散模型、時空變換網路(STTN)等多個方向持續探索。
-
類 Sora 文生影片模型: 包括快手的可靈、位元組的即夢、阿里的永珍等,基本都圍繞擴散模型範式展開,發展節奏介於 LLM 和 AI4S 之間。國內傳媒院校以及奧美等 4A 級廣告公司也開始涉足應用,抖音、快手等平臺上已有大量 AI 生成的短影片,其觀看流量迅速增長。看似“百花齊放春滿園”,實際滿園一種花。
-
智慧體方面:
-
繼 Open AI 釋出 DeepResearch,Google 和 xAI 也釋出了各自對標的 DeepSearch 後,真正將 Agent 熱潮點燃的是 Monica 與 3 月 6 日凌晨釋出的 Manus。緊接著,開源復刻的 OpenManus、OWL 相繼問世,並進一步帶動了 MCP(Model Context Protocol)及智慧體間通訊協議(如 ANP、如 IEEE SA-P3394 標準等)的科普。 -
AI 原生應用方面:
-
騰訊公司低調發布了 IMA 應用(手機應用商店可下載),並迅速在年輕知識工作者中形成了良好的口碑效應。

本文將基於以上快速變化的背景,聚焦於推動 AI 技術飛躍發展背後的關鍵引擎——大模型訓練過程。無論是備受矚目的 Llama 4 釋出、智慧體領域協議之爭,還是迅速迭代的大模型架構背後,都離不開強大的算力基礎設施作為支撐。事實上,當前的人工智慧競賽早已進入到算力驅動時代,算力的規模、效率與穩定性直接決定了大模型迭代速度與效果。
接下來,我們將深入介紹大模型訓練的一般流程,探討其面臨的具體挑戰、技術細節以及未來發展的關鍵趨勢。
所有的大模型和智慧,都離不開算力。而我們離理想中的完美大模型訓練系統還很遙遠。實際上訓練演算法團隊、模型團隊、AIInfra 團隊需要深度地融合,逐步實現從百卡、千卡、萬卡、十萬卡的突破。大模型訓練是一個複雜且資源密集的過程,涉及多個階段:
在這個階段,模型研究團隊透過單點研究完成模型設計,並將大模型部署到叢集上進行初步訓練。初期可能會遇到資料吞吐、資料對齊等問題,但這些問題通常在模型啟動初期就能被發現並解決。例如,資料對齊問題可能導致模型在不同節點上的梯度計算不一致,從而影響訓練效果。但是這些問題很快就被發現了,因為在模型啟動初期。便開始繼續訓練。
在研發過程中,大模型團隊可能會遇到“災難性問題”,如隱藏的小 bug 導致叢集頻繁報錯。這些問題需要在不停止訓練的情況下“邊修邊訓”來解決。例如,一個隱藏的小 bug 可能導致叢集在訓練到 40% 時頻繁崩潰,這需要團隊快速定位問題並進行修復,同時保持訓練的連續性。

經過災難性地邊開車邊修車的過程,大模型團隊會積累豐富的全棧技術,使得復刻下一個版本的大模型變得更加高效。例如,DeepSeek 從 V1、V2、V3、R1 的過程,模型能力的加速會越來越快;OpenAI 的模型從 GPT-4 至 GPT-4.5 的模型能力提升約為 10 倍,獲得了“難以量化但全方位增強的智慧”。在這個階段,團隊通常會最佳化模型架構和訓練演算法,以提高訓練效率和模型效能。
在經歷了模型能力的加速期後,會發現 Scaling Law(規模定律)依然發揮著重要作用。要實現下一個 10 倍乃至百倍的效能提升,關鍵在於資料效率,即能夠利用更多算力,從同樣數量的資料中學到更多知識的方法。
Transformer 架構之所以廣泛應用,是因為它在利用資料方面非常高效,能夠吸收和壓縮資訊,並實現泛化。它最大的特點就是能用計算資源高效地吸收資訊。 然而,其潛在瓶頸也逐漸凸顯出來:
-
Transformer 從資料中獲得有用資訊的深度是有限的,當計算能力快速增長,而資料增長相對緩慢時,資料就會成為這種標準模式的瓶頸。這就需要演算法創新,開發出能夠利用更多算力從同樣數量的資料中學到更多知識的方法。
-
Transformer 架構的一個主要優勢是其在資料效率方面的表現。它能夠透過 Self Attention 自注意力機制有效地捕捉長距離依賴關係,從而在處理大規模資料集時表現出色。然而,隨著模型規模的增加,資料效率的提升變得越來越困難。例如,一個擁有 1000 億引數的模型可能需要數百萬個訓練樣本才能達到最佳效能,而資料的增長速度往往無法跟上模型規模的增長。
-
在訓練過程中,損失曲線的監控是確保模型正常執行的關鍵。透過即時監控 Loss 損失曲線,可以及時發現訓練過程中的異常趨勢,並採取相應的最佳化措施。例如,如果損失曲線在訓練過程中出現波動,可能是因為權重資料在多卡之間分佈不均勻導致計算聚合的時候溢位,這種問題其實在 infra 層面排查是挺困難的,演算法上看上去沒什麼問題。
除了上述內容,我們還需要持續最佳化整個大模型的訓練系統,彌補訓練啟動前演算法團隊和 Infra 團隊未能完成的協同設計(co-design)。例如密切監控訓練過程中的各類統計指標,確保不會出現預期外的異常情況。

此外,除了資料和算力的增長,Transformer 架構中的演算法改進對效能的影響也是疊加式的。每次演算法效能提高 10% 或 20%,疊加在資料效率上就會帶來顯著的提升效果。目前能看到的是 OpenAI 和 DeepSeek 正在進入 AI 研究的新階段,將開始積累資料效率方面的成果。
事實上,在大規模並行叢集,也就是到萬卡和十萬卡的 AI 叢集上會遇到的許多問題,並非規模擴大後才出現,而是從一開始就存在的。這些問題大多在小規模階段就能被觀察到,只是隨著規模擴大,它們會演變成災難性問題。
-
預訓練與強化學習的資料矛盾。 預訓練資料集通常追求廣度和多樣性。但當涉及模型強化學習,也就是 LLM+RL 時,若要讓模型獲得清晰的獎勵訊號 Reward 和良好的訓練環境,就很難同時保持資料集的廣度。預訓練本質上是一個數據壓縮的過程,旨在發現不同事物之間的聯絡。它更側重於類比和抽象層面的學習。而推理 Reasoning 則是一種需要謹慎思考的特定能力,能夠幫助解決多種型別的問題。透過跨領域的資料壓縮,預訓練模型能夠掌握更高層次的抽象知識。
-
Scaling Law 尚未觸及理論極限。從機器學習和演算法發展的角度來看,我們尚未觸及明確 Scaling Law 和 Transformer 架構的理論上限。不同代的模型架構(或者說不同引數規模的模型)本質上是模型規格演進的必然結果。例如,我們無法簡單地用 30B 模型的架構和資料量直接訓練一個 160B 的模型。當計算需求超出單叢集的承載能力時,就不得不轉向多叢集訓練架構,所以現在出現了很多 AIInfra 研究異構場景的技術點。

構建萬卡甚至十萬卡規模的集群系統並非最終目標,真正的核心在於其實際產出價值——即能否訓練出一個優秀的大模型。OpenAI 已經跨過了大模型訓練的四個階段,進入了一個新的算力紀元。對於 OpenAI 和 DeepSeek 這樣的團隊來說,計算資源已不再是主要瓶頸。這一轉變對行業和公司自身的影響是深遠的,畢竟從 2022 年開始,進入了百模型大戰,到 DeepSeek 出來大殺四方這段時間期間,大部分演算法和模型廠商來說都是長期處於計算資源受限的環境中。
那麼在萬卡叢集的整體層面,什麼會限制進行模型大規模訓練?是晶片、處理器、記憶體、網路還是電源?既然國內很多團隊處於轉型階段,那麼對晶片、處理器等的需求是什麼?
在大模型訓練過程中,系統層面的瓶頸並非單一因素所致,而是計算、儲存、通訊、能源等多維度的綜合挑戰。也就是對於大模型來說,AIInfra 扮演著重要的角色。
計算晶片(如 GPU/TPU)的效能直接影響訓練效率,包括算力密度(TFLOPS)、視訊記憶體容量(如 HBM 頻寬)和高速互聯能力(NVLink/RDMA)。例如,千億引數模型的訓練需要 TB 級視訊記憶體儲存引數和中間狀態,而視訊記憶體頻寬不足會導致計算單元閒置,形成"記憶體牆"。此外,隨著模型規模擴大,單叢集的計算能力可能無法滿足需求,迫使團隊轉向多叢集架構,此時狀態同步和通訊開銷成為新瓶頸。
記憶體系統的最佳化同樣關鍵。除了視訊記憶體,主機記憶體(DRAM)和儲存(SSD/HDD)的層級協同也影響資料吞吐。例如,訓練過程中的檢查點(checkpoint)儲存和載入需要高效的記憶體管理,而儲存 I/O 延遲可能拖慢整體流程。因此,現代訓練系統需要視訊記憶體、記憶體和儲存之間的頻寬匹配,避免某一環節成為短板。
在大規模分散式訓練中,網路通訊往往是主要瓶頸之一。AllReduce 等集合操作需要高效的跨節點資料傳輸,而低頻寬或高延遲的網路(如傳統乙太網)會導致同步時間大幅增加。當前,800Gbps RDMA 網路正在成為超算叢集的標配,但拓撲設計(如 Dragonfly、Fat-Tree)和通訊排程演算法(如拓撲感知的 AllReduce)仍需最佳化,以避免網路擁塞。

此外,多叢集訓練引入了更復雜的通訊問題。例如,跨資料中心的訓練可能受限於廣域網(WAN)頻寬,而一致性協議(如引數伺服器的同步策略)的選擇會影響訓練穩定性和速度。因此,國內團隊在構建萬卡級叢集時,不僅需要高速互聯硬體,還需軟體層面的通訊最佳化,如梯度壓縮、非同步訓練等。
隨著計算密度提升,電源和散熱成為不可忽視的限制因素。單機櫃功率已從傳統的 10kW 提升至 30kW 以上,而風冷散熱效率接近極限,液冷技術(如冷板、浸沒式)逐漸普及。這不僅涉及硬體改造(如供電冗餘、冷卻管路設計),還需軟體層面的功耗管理,如動態電壓頻率調整(DVFS)和任務排程最佳化,以降低整體能耗。
在算力受限情況下,透過低精度訓練(FP8/BF16)、動態稀疏化等技術提升硬體利用率。萬卡級叢集的穩定性要求硬體級容錯(如自動恢復)、全域性記憶體一致性(CXL 技術)等特性。目前,行業正在探索 3D 封裝、存算一體、光互聯等新技術,以突破傳統架構限制。

總的來說,大模型訓練的瓶頸本質是系統級的挑戰,需從晶片、網路、能源到軟體棧的全棧最佳化。當前的算力基礎設施對大模型訓練起到關鍵性作用,而我們離理想中的完美大模型訓練系統還很遙遠。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
