
6 月 30 日,百度正式開源文心大模型 4.5 系列模型,涵蓋 47B、3B 啟用引數的混合專家(MoE)模型,與 0.3B 引數的稠密型模型等 10 款模型,並實現預訓練權重和推理程式碼的完全開源。
目前,文心大模型 4.5 開源系列已可在飛槳星河社群、HuggingFace 等平臺下載部署使用,系列權重按照 Apache 2.0 協議開源,同時開源模型 API 服務也可在百度智慧雲千帆大模型平臺使用。值得關注的是,此次文心大模型 4.5 系列開源後,百度實現了框架層與模型層的“雙層開源”。
相關連結:
https://huggingface.co/models?other=ERNIE4.5
https://aistudio.baidu.com/modelsoverview

早在今年 2 月,百度就已預告了文心大模型 4.5 系列的推出計劃,並明確將於 6 月 30 日起正式開源。
文心大模型 4.5 是百度於 2025 年 3 月 16 日釋出的新一代多模態基礎大模型,屬於百度人工智慧核心產品體系的重要升級版本。此次百度一次性推出 10 款文心大模型 4.5 系列開源模型,在獨立自研模型數量佔比、模型型別數量、引數豐富度、開源寬鬆度與可靠性等關鍵維度上,均處於行業領先位置。

據介紹,ERNIE 4.5 型號(尤其是基於 MoE 的 A47B 和 A3B 系列)的先進功能由幾項關鍵技術創新支撐:
-
多模態異構 MoE 預訓練。基於文字與視覺模態進行訓練,更精準捕捉多模態資訊的細微差異,從而提升文字理解生成、影像理解及跨模態推理等任務效能。為避免模態間學習相互干擾,百度團隊設計了異構 MoE 結構,並引入了模態隔離路由機制,採用路由正交損失與多模態 token 均衡損失雙重最佳化。這些架構設計確保兩種模態特徵均得到高效表徵,從而在訓練過程中實現相互強化。
-
可擴充套件高效的基礎設施。百度團隊提出了一種新異構混合並行和分層負載均衡策略,以實現 ERNIE 4.5 模型的高效訓練。透過採用節點內專家並行、記憶體最佳化流水線排程、FP8 混合精度訓練和細粒度重計算方法,顯著提升預訓練吞吐量。在推理方面,提出了多專家並行協作方法和卷積碼量化演算法,以實現 4-bit/2-bit 無損量化。此外,團隊還引入了具有動態角色切換的 PD 分解,以有效利用資源,從而提升 ERNIE 4.5 MoE 模型的推理效能。基於 PaddlePaddle 構建的 ERNIE 4.5 可在各種硬體平臺上提供高效能推理。
-
針對特定模態的後訓練。為了滿足實際應用的多樣化需求,團隊針對特定模態對預訓練模型的變體進行了微調,並針對通用語言理解和生成進行了最佳化。VLM 專注於視覺語言理解,並支援思考和非思考模式。每個模型都結合使用了監督微調 (SFT) 、 直接偏好最佳化 (DPO) 或一種名為統一偏好最佳化 (UPO) 的改進強化學習方法進行後訓練。
此外,文心大模型 4.5 開源系列均使用飛槳深度學習框架進行高效訓練、推理和部署。在大語言模型的預訓練中,模型 FLOPs 利用率(MFU)達到 47%。實驗結果顯示,其系列模型在多個文字和多模態基準測試中達到 SOTA 水平,尤其在指令遵循、世界知識記憶、視覺理解和多模態推理任務上效果突出。
百度表示,在文字模型方面,文心大模型 4.5 開源系列基礎能力強、事實準確性高、指令遵循能力強、推理和程式設計能力出色,在多個主流基準評測中超越 DeepSeek-V3、Qwen3 等模型。在多模態模型方面,文心大模型 4.5 開源系列擁有卓越的視覺感知能力,同時精通豐富視覺常識,並實現了思考與非思考統一,在視覺常識、多模態推理、視覺感知等主流的多模態大模型評測中優於閉源的 OpenAI o1。此外,在輕量模型上,文心 4.5-21B-A3B-Base 文字模型效果與同量級的 Qwen3 相當,文心 4.5-VL-28B-A3B 多模態模型也是目前同量級最好的多模態開源模型,甚至與更大引數模型 Qwen2.5-VL-32B 不相上下。

文心 4.5 預訓練模型在主流基準測試中表現



點選底部閱讀原文訪問 InfoQ 官網,獲取更多精彩內容!
首屆 AICon 全球人工智慧開發與應用大會(深圳站)將於 8 月 22-23 日正式舉行!本次大會以 “探索 AI 應用邊界” 為主題,聚焦 Agent、多模態、AI 產品設計等熱門方向,圍繞企業如何透過大模型降低成本、提升經營效率的實際應用案例,邀請來自頭部企業、大廠以及明星創業公司的專家,帶來一線的大模型實踐經驗和前沿洞察。一起探索 AI 應用的更多可能,發掘 AI 驅動業務增長的新路徑!

今日薦文

你也「在看」嗎?👇