
作者:陳巍 蘇揚
來源:騰訊科技
文章已授權
芯事重重“算力經濟學”系列研究,聚焦有關算力、成本相關話題的技術分析、產業穿透,本期聚焦DeepSeek的使用者現狀、算力儲備、資本支出和產業影響。
-
開源針對Hopper架構GPU(例如H100或H800)加速MLA機制計算的FlashMLA核心 -
開源加速MoE模型高效通訊和並行處理,實現H800頻寬翻倍的DeepEP程式碼庫 -
開源採用CUDA編寫,適用於矩陣和MoE模型計算,支援FP8精度的高效能通用矩陣乘法庫DeepGEMM -
開源V3/R1訓練中採用的計算與通訊重疊的雙向管道/流水線並行演算法DualPipe,用以提升資源利用率 -
開源利用SSD和RDMA網路頻寬設計的並行檔案系統3FS檔案系統,用以提升模型訓推效率

DeepSeek接入潮的負效應:移動端日活減半




2000萬日活的入場券:預估需要2.78萬張GPU

養一個大模型團隊——60億元


給國產算力帶來5000億的機會


