為被榨乾!英偉達下場最佳化DeepSeek-R1,B200效能暴增25倍,成本更更低

AI 算力競爭愈發白熱化的 2025 年,英偉達在 2 月 25 日投下一枚技術核彈:基於 Blackwell 架構的 DeepSeek-R1-FP4 模型橫空出世。
這項突破不僅讓推理速度暴增 25 倍,更將成本壓縮至傳統方案的 1/20,徹底改寫了 AI 部署的經濟學規則。
傳送門:https://huggingface.co/nvidia/DeepSeek-R1-FP4

FP4 + Blackwell:一場精度的藝術

傳統 AI 模型普遍採用 FP16 或 FP8 精度,而 DeepSeek-R1-FP4 首次將權重和啟用值量化至 FP4(4 位浮點)
透過英偉達 TensorRT-LLM 的最佳化,模型在 MMLU 基準測試中實現了 FP8 模型 99.8%的效能,卻僅需 1/2 的視訊記憶體和磁碟空間。
這種“用 4 位精度跑出 8 位效果”的黑科技,本質是透過動態量化策略,在計算關鍵路徑保留高精度,而在非敏感區域極致壓縮。

B200 碾壓 H100:25 倍吞吐量神話

搭載 Blackwell 架構的 B200 GPU,配合 FP4 量化方案,交出了 21,088 token/秒的恐怖成績單。對比前代 H100 的 844 token/秒,推理速度提升達 25 倍。
更驚人的是,每 token 成本驟降 20 倍,使得企業部署百億級大模型的邊際成本趨近於零。有開發者測算,基於該技術構建的 API 服務,每百萬 token 成本可低至 0.25 美元且仍有利潤空間。
上面這張圖表,對比了不同 GPU 型號(H100、H200、B200)在輸出令牌速率每百萬令牌成本上的表現:
縱軸:輸出令牌速率(Output Tokens):
  • B200
    (2025 年 2 月)輸出速率達 25,000 tokens,是 H100(1,000 tokens)的 25 倍,H200(5,899 tokens)的 4.2 倍
  • 時間線顯示硬體迭代速度極快:H200 在 2025 年 1 月至 2 月效能提升約3.5 倍,而 B200 在同期直接碾壓前代。

未來之戰:4 位精度的邊界探索

儘管 FP4 已展現驚人潛力,業界仍在探索更低精度(如 FP2)的可能性。
英偉達工程師透露,Blackwell 架構的動態精度切換技術已進入測試階段,未來可能實現“關鍵計算用 FP4,普通計算用 FP2”的混合精度模式。這場位元級的戰爭,正在重新定義 AI 的算力經濟學。

網友評論

DeepSeek-R1 在 Blackwell 上的最佳化簡直太瘋狂了。25 倍的收入增長和 20 倍的成本降低,這種進展簡直不可思議。我特別喜歡它與 DeepSeek 本週開源推動的結合,展示了硬體與開源模型結合後所能實現的巨大潛力。
– EOF –
小小一讚👍,年薪百萬❤️


相關文章