站在開源拐點,深度學習框架亟需一場價值重估

這兩年,大家的目光幾乎被“大模型”三個字牢牢吸住了,誰超越了誰、榜單排名第一,少有人關注模型之外的東西。
直到 Deepseek 用非常低的成本訓練出能和 OpenAI 媲美的模型,這一下子“打醒”了很多人——
原來在大模型進化的路上,不是光靠“買卡堆料”、“卷模型引數”就能一路狂奔的。
再加上,前段時間 DeepSeek 還放出了一些技術殺手鐧,開源了很多底層技術,讓很多人回過神兒來——
除了模型本身,還有太多重要的拼圖,比如訓練推理的效率、高效的框架、適配的硬體等等,缺一不可。
終於,近期的關注點開始迴歸到深度學習領域的經典四層架構了——

大模型之下,是深度學習框架層。
在如今推理類模型橫行的時代下,“Test-time Scaling Law”的紅利顯然還沒有被壓榨殆盡,如何讓大模型“吐字”更快一點,就能有望讓模型的智慧程度再高一點。
至此,深度學習框架的重要性被放大了,亟需一場價值重估。
大模型動輒幾千億的引數,一個深度學習框架能否在同等的算力下,儘可能的縮短模型訓練時間的同時保住訓練效果?
推理時,能否在降低延遲、提升吞吐的情況下穩住計算精度?
部署時,能否輕鬆的適配公司的硬體設施,發揮出硬體最大效能?
這些問題,都是深度學習框架被日漸放大的價值。
因為,大模型的這些工程化難題,都藏在了深度學習框架裡。

大模型時代,框架的使命感

最近,筆者發現了一組比較驚人的數字——
百度深度學習框架「飛槳」適配 DeepSeek-R1 後,據官方測試,其 FP8 推理的單機每秒輸出 token 數,可以達到 1000+,如果是 INT4 位元部署的話,每秒輸出 token 數甚至可達 2000 以上。
相比主流的方案 vLLM FP8 和 SGLang FP8,分別快了 37.2% 和 111.4% 。

而在 WINT4 的極致效能下,比 vLLM FP8 快約 176.2%,比 SGLang FP8 快約 325.7%
還有一組來自飛槳官方公眾號的數字——
“吞吐提升 144%”、“解碼速度提升 42%”、“首 token 推理速度提升 37%”。

這裡先簡單解釋一下解碼速度和吞吐兩個概念。
解碼速度:指的是模型在推理時生成 Token 的速度,也是如今推理類模型實現推理階段 scaling law 的重要關注指標。
吞吐:指單位時間內模型能處理的整體輸出量,代表併發場景下的總處理能力。
舉個例子。你在一家餐廳點餐,解碼速度就像廚師炒一道菜的速度(比如每分鐘炒 10 盤菜)。而吞吐則是餐廳一小時能服務多少盤菜(考慮所有廚師和訂單)。
  • 在解碼速度不變(單次生成效率沒變)的情況下,吞吐提升 144%,說明系統整體效率大幅提高,這對高併發場景特別重要,能服務更多使用者。
  • 吞吐接近,說明系統整體處理能力沒怎麼變,但解碼速度提升 42%,意味著單次生成任務的響應更快了。這對即時性要求高的場景很關鍵,使用者會明顯感覺到“模型反應更快了”。
  • Prefill 是大模型推理的初始階段,長序列的 Prefill 階段通常很耗時,因為注意力計算量隨序列長度平方增長。首 Token 推理速度提升 37%,使用者等待時間更短。這對長文字處理(比如總結長文章、處理法律文件)特別有幫助。
這背後,是最新的飛槳框架3.0
可以這麼理解,飛槳框架3.0 就是為大模型量身定製的深度學習框架。
前段時間 DeepSeek 開源周,第一天炸場的就是 FlashMLA,被認為是目前業內最優的大模型推理方案之一。
飛槳為了把 DeepSeek R1 的推理效能壓榨到極致,對 MLA 運算元進行了多級流水線編排、精細的暫存器及共享記憶體分配最佳化。
透過深度調優 MLA 運算元,效能比 FlashMLA 領先 4%~23%。

不僅僅是為 DeepSeek R1 這樣的開源模型量身定製了一套高效推理方案,飛槳框架3.0更可以讓模型效能“更上一層樓”。
要說以前的大模型專案如何落地,我只能說什麼花樣都有。
過去,閉源模型時代,大模型的效果和落地方案往往被捆綁銷售,企業很難自由選擇最優組合。
但現在,一切都不一樣了,大模型終於重回開源生態主導
DeepSeek 開源技術搭配飛槳框架3.0 的“王炸組合”,讓開發者既能用上頂尖模型,又能享受極致推理效率,還能輕鬆適配 A800 等非 Hopper 架構硬體。
靈活性和普適性,正是深度學習框架的使命所在。
承載這個使命的國貨之光,我覺得「百度飛槳」是當仁不讓的。這裡有必要展開科普。

模型要“追新求變”,框架得“厚積求穩”

作為一個從 2016 年就開源的國產老牌框架,飛槳可以說是國內寥寥無幾的能經受的住 AI 發展史嚴苛檢驗的深度學習框架。
模型要“追新求變”,但框架一定要“厚積求穩”。

  飛槳框架3.0 正式版剛剛正式釋出。

從它的設計理念圖就能看出來——
充分考慮大模型分散式訓練和推理效能。
比如,動靜統一自動並行便是為了支撐大模型分散式訓練而生。
你可以這樣理解,在飛槳框架中,開發者只需要寫單機程式碼,做一些簡單的“張量切分標註”,飛槳就能自動幫開發者切分資料、安排通訊,最佳化視訊記憶體和排程,找到最省力的分散式並行策略。

為開發者省掉了大量的分散式效能最佳化工作,而且自動支援 MoE(混合專家模型)、Dense 等多種模型架構。
比如用飛槳訓練 Llama 模型,透過這個黑科技,核心程式碼量直接砍掉 50%。
“編譯器自動最佳化”技術,可以將多個運算元融合成一個大運算元,透過減少訪存量和運算元數量,能夠大幅提升模型效能。

比如,Llama 2 和 Stable Diffusion 模型,僅透過編譯器自動最佳化技術,就得到了超過 30% 的推理效能提升
透過神經網路編譯器最佳化、運算元深度調優這些黑科技,可以說,飛槳框架把硬體效能榨得乾乾淨淨。對 MLA 運算元的調優後,甚至比 DeepSeek 的 FlashMLA 還要快 4%~23%。
要知道,DeepSeek 這次開源的很多技術都只是針對 H 卡做的,做了很多專用最佳化。而飛槳,作為一個通用的深度學習框架,卻能在垂直問題上,做到比專用框架更強的效能表現,我只能說——
牛逼。
再比如訓推一體,簡單理解就是訓練和推理用同一套“劇本”,不用分開寫兩套程式碼。
既可以在訓練階段使用動態計算圖來實現模型高效除錯迭代,又可以在部署階段自動將其轉換至靜態圖,實現訓練和推理的能力複用。
深度學習框架最大的魅力就是通用性
保持通用性的同時,還能有超越專用設計的效能表現,是一件極其困難的事情。沒有充分硬核的技術積澱,是很難做到的。
飛槳不僅做到了,還聯合 24 傢伙伴釋出飛槳生態發行版,並且進一步將崑崙芯、海光、寒武紀、昇騰、燧原 5 家國產硬體納入飛槳例行發版體系。
甚至,聯合晶片企業制定了國家標準,設計了近 90 個介面,各家的晶片都可以直接用這個標準化的方式接進來,不會再受制於硬體差異
大模型,不是孤立的“模型之爭”,而是系統化的“能力之戰”。這種“夠老夠穩”的底蘊,我覺得正是大模型落地所需的堅實後盾。
在這場綜合的效率、實用、生態的變革中,飛槳的含金量在上升。

結語

當大模型競賽進入下半場,文心 4.5、Qwen、DeepSeek 的這一大波開源浪潮,讓大模型重回開源生態主導
正如上文提到的飛槳框架3.0 帶給 DeepSeek R1 的效能突破,提醒我們:引數只是表像,深耕底層的 Infra 建設,是可以真正讓大模型轉化為可持續的生產力。
框架真正的價值是通用性。既能靈活應對 Dense、MoE 等各類模型結構的最佳化迭代,也能遮蔽掉部署階段繁雜的硬體最佳化適配細節。
而且在中國 AI 產業算力異構化(崑崙、海光、昇騰、寒武紀等等)、場景碎片化的背景下,國產框架正在進化出更頑強的技術韌性,其含金量在持續上升,成為 AI 生態的支撐性關鍵軟體。
飛槳深度學習框架,是時候被重新審視、價值重估了。

相關文章