英偉達下場,首次最佳化DeepSeek-R1!B200效能狂飆25倍,碾壓H100

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 新智元
編輯 | 好睏 犀牛
當FP4的魔法與Blackwell的強大算力相遇,會碰撞出怎樣的火花?
答案是:推理效能暴漲25倍,成本狂降20倍!
隨著DeepSeek-R1本地化部署的爆火,英偉達也親自下場,開源了首個基於Blackwell架構的最佳化方案——DeepSeek-R1-FP4。
在新模型的加持下,B200實現了高達21,088 token每秒的的推理吞吐量,相比於H100的844 token每秒,提升了25倍。
與此同時,每token的成本也實現了20倍的降低。
透過在Blackwell架構上應用TensorRT DeepSeek最佳化,英偉達讓具有FP4生產級精度的模型,在MMLU通用智慧基準測試中達到了FP8模型效能的99.8%。

DeepSeek-R1首次基於Blackwell GPU最佳化

目前,英偉達基於FP4最佳化的DeepSeek-R1檢查點現已在Hugging Face上開源。
模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4

後訓練量化

模型將Transformer模組內的線性運算元的權重和啟用量化到了FP4,適用於TensorRT-LLM推理。
這種最佳化將每個引數從8位減少到4位,從而讓磁碟空間和GPU視訊記憶體的需求減少了約1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化後的FP4權重檔案,併為給定的提示生成文字響應,請參照以下示例程式碼:
硬體要求需要支援TensorRT-LLM的英偉達GPU(如B200),並且需要8個GPU來實現tensor_parallel_size=8的張量並行。
效能最佳化程式碼利用FP4量化、TensorRT引擎和平行計算,旨在實現高效、低成本的推理,適合生產環境或高吞吐量應用。
from tensorrt_llm import SamplingParamsfrom tensorrt_llm._torch import LLMdefmain(): prompts = ["Hello, my name is","The president of the United States is","The capital of France is","The future of AI is", ] sampling_params = SamplingParams(max_tokens=32) llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True) outputs = llm.generate(prompts, sampling_params)# Print the outputs.for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")# The entry point of the program need to be protected for spawning processes.if __name__ == '__main__': main()
對於此次最佳化的成果,網友表示驚歎。
「FP4魔法讓AI未來依然敏銳!」網友Isha評論道。
網友algorusty則聲稱,有了這次的最佳化後,美國供應商能夠以每百萬token 0.25美元的價格提供R1。
「還會有利潤。」
網友Phil則將這次的最佳化與DeepSeek本週的開源5連發結合了起來。
「這展示了硬體和開源模型結合的可能性。」他表示。

DeepSeek全面開源

如今DeepSeek持續5天的「開源周」已經進行到了第3天。
週一,他們開源了FlashMLA。這是DeepSeek專為英偉達Hopper GPU打造的高效MLA解碼核心,特別針對變長序列進行了最佳化,目前已正式投產使用。
週二開源了DeepEP,這是一個專為混合專家系統(MoE)和專家並行(EP)設計的通訊庫。
週三開源的是DeepGEMM。這是一個支援稠密和MoE模型的FP8 GEMM(通用矩陣乘法)計算庫,可為V3/R1的訓練和推理提供強大支援。
總的來說,不管是英偉達開源的DeepSeek-R1-FP4,還是DeepSeek開源的三個倉庫,都是透過對英偉達GPU和叢集的最佳化,來推動AI模型的高效計算和部署。
參考資料:
https://x.com/NVIDIAAIDev/status/1894172956726890623
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章