“源神”DeepSeek!突破H800效能上限,FlashMLA重磅開源,算力成本還能降

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 量子位
作者 | 白交
DeepSeek開源周第一天,降本大法公開——
FlashMLA,直接突破H800計算上限。
網友:這怎麼可能??
它是為Hopper GPU開發的高效MLA解碼核心,專門針對可變長度序列進行了最佳化,目前已經投入生產。
MLA,正是DeepSeek提出的創新注意力架構。從V2開始,MLA使得DeepSeek在系列模型中實現成本大幅降低,但是計算、推理效能仍能與頂尖模型持平。
按照官方介紹來說,FlashMLA使用之後,H800可以達到3000GB/s記憶體,實現580TFLOPS計算效能。
網友們紛紛點贊:向工程團隊致以崇高的敬意,從Hopper的張量核中擠出了每一個FLOP。這就是我們將 LLM 服務推向新前沿的方式!
已經有網友用上了。

開源第一天:FlashMLA

目前GitHub頁面已經更新。短短一小時,Star星數已經超過1.2k。
此次已經發布:
  • 支援BF16;
  • 分頁KV快取,塊大小為 64
快速啟動:
環境要求:
  • Hopper GPU
  • CUDA 12.3 及以上版本
  • PyTorch 2.0 及以上版本
在專案的最後,它還表示,這是受到了FlashAttention 2&3和英偉達CUTLASS專案的啟發。
FlashAttention是能實現快速且記憶體高效的精確注意力,主流大模型都有在用。最新的第三代,可以讓H100利用率飆升至75%。訓練速度提升1.5-2倍,FP16下計算吞吐量高達740TFLOPs/s,達理論最大吞吐量75%,更充分利用計算資源,此前只能做到35%。
核心作者是Tri Dao,普林斯頓大牛,Together AI的首席科學家。
而英偉達CUTLASS是CUDA C++ 模板抽象的集合,用於在 CUDA 內實現高效能矩陣-矩陣乘法 (GEMM) 和所有級別和規模的相關計算。

MLA,DeepSeek基本架構

最後再來說說,MLA,多頭潛在注意力機制,DeepSeek系列模型的基本架構,旨在最佳化Transformer模型的推理效率與記憶體使用,同時保持模型效能。
它透過低秩聯合壓縮技術,將多頭注意力中的鍵(Key)和值(Value)矩陣投影到低維潛在空間,從而顯著減少鍵值快取(KV Cache)的儲存需求。這種方法在長序列處理中尤為重要,因為傳統方法需要儲存完整的KV矩陣,而MLA透過壓縮僅保留關鍵資訊。
V2版本中,這一創新性架構把視訊記憶體佔用降到了過去最常用的MHA架構的5%-13%,實現了成本大幅降低。它的推理成本僅為Llama 370B的1/7、GPT-4 Turbo的1/70。
而在V3,這一降本提速就更為明顯,直接讓DeepSeek吸引全球目光。
也就在今天,DeepSeek-R1 在HuggingFace上獲得了超過10000個贊,成為該平臺近150萬個模型之中最受歡迎的大模型。
HuggingFace CEO發文公佈了這一喜訊。
The whale is making waves!鯨魚正在掀起波浪!
好了期待一下,接下來的四天會發些什麼呢?

GitHub連結:

https://github.com/deepseek-ai/FlashMLA

參考連結:

https://x.com/deepseek_ai/status/1893836827574030466

技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章