剛剛，DeepSeek放出重磅開源！一文詳解FlashMLA….

2025-08-22 21:59 JackCui

上週 DeepSeek 官宣下週開源五連發：

網友表示：這回，真 OpenAI 來了。

就在剛剛，第一個開源專案來了，與推理加速有關，FlashMLA：

開源專案地址：

https://github.com/deepseek-ai/FlashMLA

開源兩個小時，Github 已經有 2.7k+ Star：

專案的核心功能是：

“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”

翻譯一下就是：

“FlashMLA 是一款針對英偉達 Hopper 架構 GPU 最佳化的高效 MLA 解碼核心，專門為處理變長序列的服務場景進行了最佳化。"

一句話概括：

FlashMLA 是深度求索專為 Hopper 架構 GPU（如H800）設計的高效解碼核心，透過最佳化可變長序列的多頭潛在注意力計算，在解碼階段實現 3000GB/s 記憶體頻寬和 580TFLOPS 算力的極限效能，顯著提升大模型長上下文推理效率。

有網友表示：

目前已經有人用上了，並表示 Pure engineering：

這個專案屬於工程最佳化，極限壓榨硬體效能。

專案開箱即用：

環境要求：

Hopper GPU
CUDA 12.3 及以上版本
PyTorch 2.0 及以上版本

在專案的最後，官方還表示，這是受到了 FlashAttention 2&3 和英偉達 CUTLASS 專案的啟發。

FlashAttention 是能實現快速且記憶體高效的精確注意力，主流大模型都有在用。最新的第三代，可以讓H100利用率飆升至75%。訓練速度提升1.5-2倍，FP16下計算吞吐量高達740TFLOPs/s，達理論最大吞吐量75%，更充分利用計算資源，此前只能做到35%。

而 FlashMLA 不僅透過硬體級最佳化實現了效能飛躍，還為 AI 推理的工程實踐提供了開箱即用的解決方案，成為當前大模型推理加速的關鍵技術突破。

第一天就有這樣的猛料。

非常期待後面四天開源的東西！

正如網友所說：

The whale is making waves！

鯨魚正在掀起波浪！

DeepSeek 牛哇！

·················END·················

相關文章

項賢明：誤解“全面發展”是學業負擔問題的思想根源

項賢明：誤解“全面發展”是學業負擔問題的思想根源

洪子誠｜讀北島《回答》：堅定、不妥協的意志，否定的、宣言式的詩情

洪子誠｜讀北島《回答》：堅定、不妥協的意志，否定的、宣言式的詩情

東亞新文化｜重新思考“技術影像”：媒體的媒介性及其透明性

東亞新文化｜重新思考“技術影像”：媒體的媒介性及其透明性

有恆產者有恆心

有恆產者有恆心

2024年華語院線：當越來越多的電影開始「有話要說」

2024年華語院線：當越來越多的電影開始「有話要說」

三月的倫敦地鐵裡，北島新作等待每一個迷路的人

三月的倫敦地鐵裡，北島新作等待每一個迷路的人

女導演，好，真好，太好了

女導演，好，真好，太好了

朱永新：一位教育學家心中的理想學生，是這樣的…

朱永新：一位教育學家心中的理想學生，是這樣的…

東正教與福音派能相融嗎？不能——福音派的視角（上篇）

東正教與福音派能相融嗎？不能——福音派的視角（上篇）

芥川龍之介：鼻子（魯迅譯本）

芥川龍之介：鼻子（魯迅譯本）

Copyright © 2025 | WordPress Theme by MH Themes