DeepSeek 開源周第五天
2 月 28 日是 DeepSeek “開源周”的第五天。上午 9 點,DeepSeek 在推上宣佈了今天的主角:3FS + SmallPond。
Fire-Flyer File System:一種並行檔案系統,充分利用現代固態硬碟(SSD)和遠端直接記憶體訪問(RDMA)網路的頻寬。https://github.com/deepseek-ai/3FS
SmallPond:一個基於 DuckDB 和 3FS 構建的輕量級資料處理框架。https://github.com/deepseek-ai/smallpond

3FS 亮點:
⚡ 在 180 節點叢集中,總讀取吞吐量達 6.6 TiB/s⚡ 在 25 節點叢集中,GraySort 基準測試吞吐量達 3.66 TiB/分鐘⚡ 每個客戶端節點的 KVCache 查詢峰值吞吐量超過 40 GiB/s🧬 分離式架構,具備強一致性語義✅ 支援以下應用場景:訓練資料預處理、資料集載入、檢查點儲存與恢復、嵌入向量搜尋、V3/R1 推理中的 KVCache 查詢
3FS 是什麼東東?
Fire-Flyer File System(3FS)是一種高效能分散式檔案系統,旨在應對 AI 訓練和推理工作負載的挑戰。
它利用現代固態硬碟(SSD)和遠端直接記憶體訪(RDMA)網路,提供一個共享儲存層,從而簡化分散式應用程式的開發。3FS 的主要特點和優勢包括:
1、效能與易用性
-
【分離式架構】結合數千個 SSD 的吞吐量和數百個儲存節點的網路頻寬,使應用程式能夠以無地域限制的方式訪問儲存資源。
-
【強一致性】透過採用鏈式複製與分配查詢(CRAQ)實現強一致性,使應用程式程式碼簡單易懂,便於推理。
-
【檔案介面】開發了基於事務性鍵值儲存(如 FoundationDB)的無狀態元資料服務。檔案介面廣為人知且普遍使用,無需學習新的儲存 API。
2、多樣化工作負載
-
【資料準備】將資料分析管道的輸出組織成分層目錄結構,並高效管理大量中間輸出。
-
【資料載入器】透過使計算節點能夠隨機訪問訓練樣本,消除資料預取或混排資料集的需求。
-
【檢查點】支援大規模訓練的高吞吐量並行檢查點。
-
【推理的 KVCache】提供一種成本效益高的替代方案,取代基於 DRAM 的快取,提供高吞吐量和顯著更大的容量。
網友:選 3FS 還是 Deep File System?
✅ 3FS
-
3FS 是一種針對 AI 工作負載最佳化的高效能分散式檔案系統,利用現代 SSD 和 RDMA 網路實現快速資料訪問。 -
它實現了 6.6 TiB/s 的讀取吞吐量,顯著加速 AI 訓練和推理,減少瓶頸。 -
與 Lustre、Ceph、HDFS 和 IBM Spectrum Scale (GPFS) 相比,3FS 專為 AI 設計,使其在深度學習應用中可能更高效。 -
它支援可擴充套件的 AI 基礎設施,能夠處理大規模資料集,並確保計算節點之間的一致性,實現無縫模型訓練。 -
3FS 是開源的,非常適合 AI 研究實驗室、資料中心和高效能計算(HPC)應用,旨在普及高效能 AI 儲存。
DeepSeek 開源周系列:
-
《第一彈:DeepSeek 推出 FlashMLA》 -
《第二彈:DeepSeek 推出 DeepEP》 -
《第三彈:DeepSeek 推出 DeepGEMM》 -
《第四彈:DeepSeek 一口氣發三個》
網友評論
“謝謝!你才是真·OpenAI”

還有很多網友在催 DeepSeek 趕緊釋出 V4 和 R2。

😄 於是有網友做了一個對比圖:美國的大模型 VS 中國的大模型
