從「開模型」到「開體系」

👦🏻 作者: 鏡山
🥷 編輯: Kavana
🧑🎨 排版: NCon

6 月 30 日,百度正式開源文心大模型 4.5 系列,包括 10 款模型、預訓練權重與推理程式碼,並同步釋出配套工具與實踐案例。
曾幾何時,百度的開源策略曾引發討論。因此,百度這次的開源動作在技術圈引發了不小的關注,目前在 X 和 Reddit 上出現了不少積極聲音。
對此,「十字路口」從百度相關人士得到的回覆是:
「開源閉源只是路線差異,應用好用和生態繁榮才是最終目的。」
🚥
帶著對這種「立場逆轉」的好奇,「十字路口」團隊也深入研究了這份技術報告,發現了幾個值得關注的亮點。
在技術報告中,我們看到了一些亮點
1)最大看點:多模態理解能力大幅增強
ERNIE-4.5 系列一共開源了 10 個大模型。
這次開源的ERNIE 4.5系列的產品線更加明確,分為 3 塊:2 個 0.3 B 系列;4 個 A3B 系列;4個A47B 系列,小中大杯都覆蓋了。
其中的文字模型系列專門針對通用語言理解和生成能力進行了最佳化,讓 AI 在處理日常對話、文字創作等任務時表現更好。而多模態模型系列則支援「思考模式」和「非思考模式」兩種工作狀態。
我們整理了一個清單,並做了視覺化:

這些模型在多個文字和多模態基準測試中都達到了 SOTA 水平,比如在技術報告中介紹了ERNIE-4.5-Base 預訓練模型的效能表現。在通用、推理、數學、知識、程式設計方面 Benchmark 上的表現都還不錯:

在這篇長達 68 頁的技術報告中,我們在文章底部發現了兩個技術團隊做的有趣的測試案例。他們給 ERNIE-4.5-VL 輸入一段影片,用來檢驗模型的視覺理解和感知能力。
【1】讓 ERNIE-4.5-VL 「看影片寫文案」,用來將影片拆解為重要事件並簡潔描述:
【2】讓 ERNIE-4.5-VL 精準查詢影片細節,用來檢驗模型準確定位並識別影片中特定事件:

從這個測試案例可以看出,ERNIE-4.5-VL 在理解影像和影片方面確實很不錯,對視覺知識的深刻理解和感知能力和它在各項視覺能力測試中的表現,正好呼應上了。
比如,在影片理解和視覺感知的 Benchmark (LongVideoBench等基準測試)中,ERNIE-4.5-VL 的得分優勢比較明顯:

在官方技術部落格裡,ERNIE-4.5 在多項包含視覺感知、視覺知識以及文件圖表理解能力的 Benchmark 中,像是 RealWorldQA、雙語的MMBench ,它的表現甚至要超過閉源模型 OpenAI-o1:

ERNIE-4.5-VL 的視覺能力,很大程度上源於它採用了創新的「多模態異構混合專家(MoE)模型」架構,把處理文字和處理影像的訓練合併到了一個模型裡。
簡單說,就是把處理文字和處理影像的「專家」放在同一個模型裡,讓它們既能合作又不會互相干擾。
為了避免文字和影像訓練時互相影響,ERNIE 4.5設計了「異構 MoE」結構:既有共享的部分讓不同型別資訊能夠交流,又有各自專門的「專家」負責處理特定內容。

這種架構最大的好處就是:AI 模型在學習的時候,同時接觸文字和圖片兩種資訊。就像一個人同時學習閱讀和看圖一樣,這樣訓練出來的 AI 能更敏銳地察覺到不同資訊之間的微妙區別。因此,它在理解文字、生成文字、看懂圖片,以及把文字和圖片聯絡起來思考這些任務上,都表現得更出色。
文字資訊和視覺資訊都能得到充分的「表達機會」。

我們曾在介紹 Agent 產品時,判斷「多模態融合」將越來越重要,現在它已經從基礎大模型的身上體現了出來。
2)大模型門檻降低
在翻閱技術報告的過程中,我們發現 ERNIE 4.5 在「省資源」上又進步了不少。
從框架角度來看,ERNIE 4.5系列模型的是自家的飛槳框架。值得注意的是,AI 大模型「狂飆」的這些日子裡,深度學習框架成了基礎模型「大玩家」的必選項,各家幾乎都在 All in。
幾個月前飛槳 3.0 正式釋出,這個深度學習框架能減少 Llama 預訓練 80% 分散式核心程式碼開發,將 DeepSeek-R1 滿血版單機部署吞吐提升一倍。
現在,我們在這份技術報告中也發現了飛槳的身影。
透過飛槳,ERNIE 4.5 模型在 2016 個NVIDIA H800 GPU 和 RoCE 互聯的環境下 FLOPs 利用率(MFU)達到 47%。這些技術和配置使得 ERNIE 4.5 能夠處理極其龐大的資料。
從模型架構角度看,技術團隊幾乎在所有方面都在想辦法提高效率。
我們把這些複雜的技術全部視覺化,併為每項技術都舉了一個例子,方便理解。比如,下面這一套「異構混合並行」+「多層級負載均衡」的策略,就是提升預訓練吞吐的重要框架:

為了實現這些「高效率化策略」,具體技術手段有四種:節點內專家並行、視訊記憶體友好的流水線排程、FP8 混合精度訓練和細粒度重計算。
每一種都在鑽研提效:

在推理方面,技術團隊提出了 2 種最佳化方法 —— 多專家並行協同量化方法、卷積編碼量化演算法。兩套方案的共同目標都是:讓訓練好的 AI 模型在實際應用時反應更快,使用者等待時間更短:

這樣,模型甚至能做到效果接近無損的 4-bit 量化和 2-bit 量化:

此外,還有兩個很有意思的最佳化,可以更加充分地利用資源:

總的來看,即使是引數最大的 ERNIE-4.5-A47B 模型,也能夠在單個節點上部署。
具體來說,只需要 4 張 80GB 的 A800 或 H800 GPU(4-bit 精度),或者 1 塊 141GB 的 H20 GPU(2-bit 精度)就夠了。除了英偉達的 GPU 之外,ERNIE-4.5 也能透過飛槳部署到各種不同品牌的硬體平臺中。
這意味著使用者有更多硬體選擇,部署起來也更加靈活。
最重要的是,這麼複雜的 AI 模型現在也能在相對便宜的硬體上跑起來了,創業團隊和企業客戶部署大模型的門檻更加低了。
3)針對不同場景的專門訓練
最近我們還看到,多模態任務越來越重要。在不同場景下,AI 大模型處理圖片、影片的能力往往決定了應用效果的好壞。
甚至出現了一種:底層的「多模態融合」直接決定了上層「應用建築」能蓋多高。如果想要進入到更廣的應用場景裡,基礎大模型的多模態能力就顯得非常重要。
面對這樣的趨勢,我們在技術報告中看到 ERNIE 4.5 選擇根據不同任務需求,對模型進行「定製化的後訓練」:

翻來覆去地閱讀過後,我們發現,為了讓模型在多模態方面表現更好,技術團隊採用了多階段最佳化。每個模型都要經過「多階段後訓練」。這就像模型畢業後再參加職業培訓,專門學更實用、更精細的技能。
這裡,主要用到了三種方法:SFT、DPO、UPO:

技術本身過於複雜,我們通俗點解釋:
【1】SFT 就是給模型更多「正確答案」讓它學習,提升準確性
【2】DPO 則是讓模型學會「察言觀色」,選擇更符合使用者喜好的回答方式
【3】UPO 可以理解為「全面集合」,它能夠結合多種偏好最佳化技術,更全面地讓模型貼合人類喜好和需求。
可以看出,在技術團隊的眼中,多模態能力的重要性很高。因為它直接決定了 AI 基礎模型能在多少場景下,真正幫到使用 LLM 構建應用的創業團隊。
從「開模型」到「開體系」
在介紹完 ERNIE 4.5 的模型技術之後,報告的後半部分特意提及了一些便於開發者使用的套件。
此次與 ERNIE 4.5系列(含MoE/稠密、多模態/純文字的 10 款模型)本體一起開源的還有 2 個訓練&部署工具鏈以及 API,再加上飛槳社群,可以說百度首度打通了「從下載到上線的體系」。
現在 ERNIE 4.5 全部模型(包括預訓練、精調和推理程式碼)和專案已經在 Hugging Face 、GitHub、飛槳星河社群上線。
除了百度官方的文心一言,飛槳社群也可以直接進行對話測試。

比如,我們選擇 ERNIE-4.5-300B-A47B 模型,可以在飛槳 Playground 中直接測試,支援各種引數調節:

【1】ERNIEKit 可以幫使用者完整調教模型、做高效調優(就是用更少資源達到更好效果)。
【2】模型訓練好後,可以直接用 FastDeploy 部署上線使用。
整個流程一氣呵成,開發者不用再到處找工具拼湊了。

ERNIEKit 和 FastDeploy 很大地提升了開發部署效率,所有程式碼都可以在對應模型頁面一鍵複製。
比如,用 ERNIEKit 做微調很簡單,下載模型到本地,只需要複製一行程式碼:
執行 Erniekit 工具, 做 SFT(監督式微調):
在監督微調後,用DPO(偏好最佳化)來進一步對齊:
用 FastDeploy可以一鍵把模型部署成 HTTP API 服務,方便前端或應用直接呼叫。
比如,以 OpenAI API 介面啟動 FastDeploy 推理服務的基本部署命令示例:
飛槳社群還有很多基於基礎模型的應用專案和實踐教程。
比如,我瀏覽旗艦多模 ERNIE-4.5-VL-424B-A47B 這個模型時,發現《從零構建智慧行業應用: ERNIE+RAG+Agent 實戰指南》系列教程已經更新到 2025 年 7 月 1 日版本,其中利用到的基礎模型已經替換成了 ERNIE-4.5:


類似的應用和專案還有很多,可以按照我們下面做的這個視覺化卡片查詢:

🚥
當複雜的 AI 能力變成幾行程式碼就能呼叫的「一鍵開發」,再加上這種「大禮包式」的開發工具包,這種轉變讓更多人有機會參與到 AI 應用的創造中來。
更多的想法得以落地,更多的可能性正在被釋放。
期待今年在基礎模型領域湧現更多這樣的突破,「十字路口」也將繼續關注並解讀這些「有亮點」的技術報告。

