剛剛,DeepSeek放出重磅開源!一文詳解FlashMLA….

上週 DeepSeek 官宣下週開源五連發:
網友表示:這回,真 OpenAI 來了。
就在剛剛,第一個開源專案來了,與推理加速有關,FlashMLA:
開源專案地址:
https://github.com/deepseek-ai/FlashMLA
開源兩個小時,Github 已經有 2.7k+ Star:
專案的核心功能是:
“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”
翻譯一下就是
“FlashMLA 是一款針對英偉達 Hopper 架構 GPU 最佳化的高效 MLA 解碼核心,專門為處理變長序列的服務場景進行了最佳化。"
一句話概括:
FlashMLA 是深度求索專為 Hopper 架構 GPU(如H800)設計的高效解碼核心,透過最佳化可變長序列的多頭潛在注意力計算,在解碼階段實現 3000GB/s 記憶體頻寬和 580TFLOPS 算力的極限效能,顯著提升大模型長上下文推理效率。
有網友表示:
目前已經有人用上了,並表示 Pure engineering:
這個專案屬於工程最佳化,極限壓榨硬體效能
專案開箱即用:
環境要求:
  • Hopper GPU
  • CUDA 12.3 及以上版本
  • PyTorch 2.0 及以上版本
在專案的最後,官方還表示,這是受到了 FlashAttention 2&3 和英偉達 CUTLASS 專案的啟發。
FlashAttention 是能實現快速且記憶體高效的精確注意力,主流大模型都有在用。最新的第三代,可以讓H100利用率飆升至75%。訓練速度提升1.5-2倍,FP16下計算吞吐量高達740TFLOPs/s,達理論最大吞吐量75%,更充分利用計算資源,此前只能做到35%。
而 FlashMLA 不僅透過硬體級最佳化實現了效能飛躍,還為 AI 推理的工程實踐提供了開箱即用的解決方案,成為當前大模型推理加速的關鍵技術突破。
第一天就有這樣的猛料。
非常期待後面四天開源的東西!
正如網友所說:
The whale is making waves!
鯨魚正在掀起波浪!
DeepSeek 牛哇!
·················END·················

相關文章