站在開源拐點，深度學習框架亟需一場價值重估

2025-08-20 08:51 夕小瑤科技說

這兩年，大家的目光幾乎被“大模型”三個字牢牢吸住了，誰超越了誰、榜單排名第一，少有人關注模型之外的東西。

直到 Deepseek 用非常低的成本訓練出能和 OpenAI 媲美的模型，這一下子“打醒”了很多人——

原來在大模型進化的路上，不是光靠“買卡堆料”、“卷模型引數”就能一路狂奔的。

再加上，前段時間 DeepSeek 還放出了一些技術殺手鐧，開源了很多底層技術，讓很多人回過神兒來——

除了模型本身，還有太多重要的拼圖，比如訓練推理的效率、高效的框架、適配的硬體等等，缺一不可。

終於，近期的關注點開始迴歸到深度學習領域的經典四層架構了——

大模型之下，是深度學習框架層。

在如今推理類模型橫行的時代下，“Test-time Scaling Law”的紅利顯然還沒有被壓榨殆盡，如何讓大模型“吐字”更快一點，就能有望讓模型的智慧程度再高一點。

至此，深度學習框架的重要性被放大了，亟需一場價值重估。

大模型動輒幾千億的引數，一個深度學習框架能否在同等的算力下，儘可能的縮短模型訓練時間的同時保住訓練效果？

推理時，能否在降低延遲、提升吞吐的情況下穩住計算精度？

部署時，能否輕鬆的適配公司的硬體設施，發揮出硬體最大效能？

這些問題，都是深度學習框架被日漸放大的價值。

因為，大模型的這些工程化難題，都藏在了深度學習框架裡。

大模型時代，框架的使命感

最近，筆者發現了一組比較驚人的數字——

百度深度學習框架「飛槳」適配 DeepSeek-R1 後，據官方測試，其 FP8 推理的單機每秒輸出 token 數，可以達到 1000+，如果是 INT4 位元部署的話，每秒輸出 token 數甚至可達 2000 以上。

相比主流的方案 vLLM FP8 和 SGLang FP8，分別快了 37.2% 和 111.4% 。

而在 WINT4 的極致效能下，比 vLLM FP8 快約 176.2%，比 SGLang FP8 快約 325.7%

還有一組來自飛槳官方公眾號的數字——

“吞吐提升 144%”、“解碼速度提升 42%”、“首 token 推理速度提升 37%”。

這裡先簡單解釋一下解碼速度和吞吐兩個概念。

解碼速度：指的是模型在推理時生成 Token 的速度，也是如今推理類模型實現推理階段 scaling law 的重要關注指標。

吞吐：指單位時間內模型能處理的整體輸出量，代表併發場景下的總處理能力。

舉個例子。你在一家餐廳點餐，解碼速度就像廚師炒一道菜的速度（比如每分鐘炒 10 盤菜）。而吞吐則是餐廳一小時能服務多少盤菜（考慮所有廚師和訂單）。

在解碼速度不變（單次生成效率沒變）的情況下，吞吐提升 144%，說明系統整體效率大幅提高，這對高併發場景特別重要，能服務更多使用者。
吞吐接近，說明系統整體處理能力沒怎麼變，但解碼速度提升 42%，意味著單次生成任務的響應更快了。這對即時性要求高的場景很關鍵，使用者會明顯感覺到“模型反應更快了”。
Prefill 是大模型推理的初始階段，長序列的 Prefill 階段通常很耗時，因為注意力計算量隨序列長度平方增長。首 Token 推理速度提升 37%，使用者等待時間更短。這對長文字處理（比如總結長文章、處理法律文件）特別有幫助。

這背後，是最新的飛槳框架3.0。

可以這麼理解，飛槳框架3.0 就是為大模型量身定製的深度學習框架。

前段時間 DeepSeek 開源周，第一天炸場的就是 FlashMLA，被認為是目前業內最優的大模型推理方案之一。

飛槳為了把 DeepSeek R1 的推理效能壓榨到極致，對 MLA 運算元進行了多級流水線編排、精細的暫存器及共享記憶體分配最佳化。

透過深度調優 MLA 運算元，效能比 FlashMLA 領先 4%~23%。

不僅僅是為 DeepSeek R1 這樣的開源模型量身定製了一套高效推理方案，飛槳框架3.0更可以讓模型效能“更上一層樓”。

要說以前的大模型專案如何落地，我只能說什麼花樣都有。

過去，閉源模型時代，大模型的效果和落地方案往往被捆綁銷售，企業很難自由選擇最優組合。

但現在，一切都不一樣了，大模型終於重回開源生態主導。

DeepSeek 開源技術搭配飛槳框架3.0 的“王炸組合”，讓開發者既能用上頂尖模型，又能享受極致推理效率，還能輕鬆適配 A800 等非 Hopper 架構硬體。

靈活性和普適性，正是深度學習框架的使命所在。

承載這個使命的國貨之光，我覺得「百度飛槳」是當仁不讓的。這裡有必要展開科普。

模型要“追新求變”，框架得“厚積求穩”

作為一個從 2016 年就開源的國產老牌框架，飛槳可以說是國內寥寥無幾的能經受的住 AI 發展史嚴苛檢驗的深度學習框架。

模型要“追新求變”，但框架一定要“厚積求穩”。

飛槳框架3.0 正式版剛剛正式釋出。

從它的設計理念圖就能看出來——

充分考慮大模型分散式訓練和推理效能。

比如，動靜統一自動並行便是為了支撐大模型分散式訓練而生。

你可以這樣理解，在飛槳框架中，開發者只需要寫單機程式碼，做一些簡單的“張量切分標註”，飛槳就能自動幫開發者切分資料、安排通訊，最佳化視訊記憶體和排程，找到最省力的分散式並行策略。

為開發者省掉了大量的分散式效能最佳化工作，而且自動支援 MoE（混合專家模型）、Dense 等多種模型架構。

比如用飛槳訓練 Llama 模型，透過這個黑科技，核心程式碼量直接砍掉 50%。

“編譯器自動最佳化”技術，可以將多個運算元融合成一個大運算元，透過減少訪存量和運算元數量，能夠大幅提升模型效能。

比如，Llama 2 和 Stable Diffusion 模型，僅透過編譯器自動最佳化技術，就得到了超過 30% 的推理效能提升。

透過神經網路編譯器最佳化、運算元深度調優這些黑科技，可以說，飛槳框架把硬體效能榨得乾乾淨淨。對 MLA 運算元的調優後，甚至比 DeepSeek 的 FlashMLA 還要快 4%~23%。

要知道，DeepSeek 這次開源的很多技術都只是針對 H 卡做的，做了很多專用最佳化。而飛槳，作為一個通用的深度學習框架，卻能在垂直問題上，做到比專用框架更強的效能表現，我只能說——

牛逼。

再比如訓推一體，簡單理解就是訓練和推理用同一套“劇本”，不用分開寫兩套程式碼。

既可以在訓練階段使用動態計算圖來實現模型高效除錯迭代，又可以在部署階段自動將其轉換至靜態圖，實現訓練和推理的能力複用。

深度學習框架最大的魅力就是通用性。

保持通用性的同時，還能有超越專用設計的效能表現，是一件極其困難的事情。沒有充分硬核的技術積澱，是很難做到的。

飛槳不僅做到了，還聯合 24 傢伙伴釋出飛槳生態發行版，並且進一步將崑崙芯、海光、寒武紀、昇騰、燧原 5 家國產硬體納入飛槳例行發版體系。

甚至，聯合晶片企業制定了國家標準，設計了近 90 個介面，各家的晶片都可以直接用這個標準化的方式接進來，不會再受制於硬體差異

大模型，不是孤立的“模型之爭”，而是系統化的“能力之戰”。這種“夠老夠穩”的底蘊，我覺得正是大模型落地所需的堅實後盾。

在這場綜合的效率、實用、生態的變革中，飛槳的含金量在上升。

結語

當大模型競賽進入下半場，文心 4.5、Qwen、DeepSeek 的這一大波開源浪潮，讓大模型重回開源生態主導。

正如上文提到的飛槳框架3.0 帶給 DeepSeek R1 的效能突破，提醒我們：引數只是表像，深耕底層的 Infra 建設，是可以真正讓大模型轉化為可持續的生產力。

框架真正的價值是通用性。既能靈活應對 Dense、MoE 等各類模型結構的最佳化迭代，也能遮蔽掉部署階段繁雜的硬體最佳化適配細節。

而且在中國 AI 產業算力異構化（崑崙、海光、昇騰、寒武紀等等）、場景碎片化的背景下，國產框架正在進化出更頑強的技術韌性，其含金量在持續上升，成為 AI 生態的支撐性關鍵軟體。

飛槳深度學習框架，是時候被重新審視、價值重估了。

相關文章

飛槳新一代框架3.0正式釋出：減少Llama預訓練80％分散式核心程式碼，R1滿血版單機部署吞吐量翻倍

飛槳新一代框架3.0正式釋出：減少Llama預訓練80％分散式核心程式碼，R1滿血版單機部署吞吐量翻倍

OpenAIo3模型執行成本估算大幅上調：單次任務從3000美元漲至3萬美元；高通收購MovianAI丨AIGC日報

OpenAIo3模型執行成本估算大幅上調：單次任務從3000美元漲至3萬美元；高通收購MovianAI丨AIGC日報

Nature認證DeepSeek成科研工具全能者，國內高校如何借力大模型？

Nature認證DeepSeek成科研工具全能者，國內高校如何借力大模型？

惡意阻礙上市索賠2300萬｜最高法二審判決書

惡意阻礙上市索賠2300萬｜最高法二審判決書

AI早知道｜百度飛槳推出新一代框架3.0；OpenAl推出免費AI學習平臺OpenAlAcademy

AI早知道｜百度飛槳推出新一代框架3.0；OpenAl推出免費AI學習平臺OpenAlAcademy

[模型]新越STEAMAK4203D電動直升機裝機CHH首發分享

[模型]新越STEAMAK4203D電動直升機裝機CHH首發分享

百度文心全面開放，AI下半場的“開源”新局

百度文心全面開放，AI下半場的“開源”新局

大疆DJIFlip深度體驗：再一次挑戰無人機形態「下限」

大疆DJIFlip深度體驗：再一次挑戰無人機形態「下限」

8點1氪：網友曝小米車主駕駛中睡著；羽毛球漲價幅度超過黃金；調查顯示一線城市約50％人口在租房

8點1氪：網友曝小米車主駕駛中睡著；羽毛球漲價幅度超過黃金；調查顯示一線城市約50％人口在租房

用電路積木拼出遙控汽車、發電風車，80+電路拼搭，超好玩的光電博物館

用電路積木拼出遙控汽車、發電風車，80+電路拼搭，超好玩的光電博物館

Copyright © 2025 | WordPress Theme by MH Themes