不用英偉達嚴選?DeepSeek為何自研高效能檔案系統3FS,挑戰行業“標準答案”

   作者 | 羅燕珊、Tina
DeepSeek 檔案系統背後的“王炸”到底是什麼?
2 月 28 日,DeepSeek 開源周第五日迎來了 Fire-Flyer File System (3FS):一套基於現代 SSD 與 RDMA 網路全部頻寬的並行檔案系統。
按照官方的說法,3FS 專為應對 AI 訓練和推理工作負載的挑戰而設計,將為 DeepSeek 的資料訪問全程加速。它以高吞吐、低延遲和強一致性為核心設計理念,為分散式應用開發者提供了一個簡化的共享儲存層。
在具體應用中,3FS 涵蓋了從資料準備(將資料分析管線的輸出組織成分層目錄並高效管理海量中間結果)、資料載入(無需額外預取或洗牌資料集,支援跨節點隨機訪問訓練樣本)、檢查點(提供並行高吞吐的檢查點儲存與過載)到推理階段的 KVCache(為大規模語言模型推理提供高吞吐且容量更大的快取)等多種關鍵環節。據悉,在 V3 與 R1 版本模型中,3FS 正是透過在這些環節的出色表現,大幅提升了訓練與推理過程的效率與穩定性。
為滿足這些高負載需求,3FS 在架構設計上具備以下核心特性與優勢:
  • 分離式架構:整合數千塊 SSD 與數百個儲存節點的網路頻寬,無需考慮資料區域性性即可完成大規模並行儲存訪問。
  • 強一致性:利用鏈複製與分配式查詢(CRAQ)實現強一致性,簡化了上層應用的開發難度。
  • 檔案介面:基於成熟的元資料服務與事務型鍵值儲存(如 FoundationDB),提供通用而熟悉的檔案 API,無需額外學習新協議。
效能表現方面,在一個由 180 個儲存節點組成的大規模叢集中(每節點含 2×200Gbps InfiniBand 網絡卡與 16 塊 14TiB NVMe SSD),3FS 在同時執行訓練任務的背景流量下,依然實現了約 6.6 TiB/s 的整體讀取吞吐量。
在大型 3FS 叢集上進行讀取壓力測試的吞吐情況。
同時,其 GraySort 基準測試突破 3.66 TiB/ 分鐘。在由 25 個儲存節點和 50 個計算節點構成的叢集上,3FS 透過兩階段(基於鍵字首位的 Shuffle 分割槽 + 分割槽內排序)讀取 / 寫入資料,完成了對 110.5 TiB 資料、8192 個分割槽的排序,僅耗時 30 分鐘 14 秒,平均吞吐量達到 3.66 TiB/ 分鐘。

在推理場景下,為最佳化大規模語言模型(LLM)的 KVCache 查詢速度,3FS 提供了高吞吐、強一致性的資料訪問能力,單個客戶端節點峰值可達 40+ GiB/s,同時支援高效的垃圾回收操作。

DeepSeek-V3 的專案地址:https://github.com/deepseek-ai/3FS
填補開源市場空白
目前,業界已有多款專為 AI 時代設計的儲存系統,其中既有老牌廠商 DDN(DataDirect Networks),也湧現出像 VAST Data、Weka.io 等初創公司。
DDN 起源於 HPC 時代。當時,儘管 HPC 擁有強大的計算能力,但儲存效能無法跟上需求。為此,DDN 開發了與 HPC 框架匹配並加速執行的儲存技術。隨著 AI 的崛起,DDN 也不斷適應新挑戰,成為支援大規模 AI 應用的關鍵技術。
值得一提的是,NVIDIA 也選擇 DDN 來展示其基礎設施能力,據 DDN 的說法,如今七年過去了,DDN 仍是 NVIDIA 內部唯一使用的資料儲存技術,並廣泛應用於 X 公司的 Colossus AI 叢集和眾多客戶的 AI 應用中。但基於 DDN 的背景,它還是更偏向傳統 HPC 儲存,面向超算中心、AI 訓練、金融等高效能儲存需求。
根據 DeepSeek 的介紹,3FS 每個儲存節點配備了 2×200Gbps InfiniBand 網絡卡,整體叢集效能達到了 6.6TiB/s,特別是在實際業務場景中展現出的效能,使得單一叢集的表現能夠位居國內前列。同時,值得注意的是,DDN 在今年 2 月推出了基於 Infinia 2.0 的儲存平臺的“重大更新”。
相較之下,雖然 WEKA 和 VAST 在技術上仍然是初創公司,但也受到了一些大模型明星公司的青睞。比如大模型六小虎中的月之暗面,採用的正是 WEKA。透過與 WEKA 整合,並利用其 KVCache 技術,實現了高效的令牌快取,極大地提升了資料處理的容量、速度和效率。
需要注意的是,上述這些公司提供的解決方案通常是商業級專用技術,而 3FS 的出現被部分業內人士視為“在開源層面填補了高效能並行檔案系統的空白”。
針對 3FS 的開源,一位匿名受訪的資深儲存技術專家也對 InfoQ 表示:“DeepSeek 的開源周肯定讓不少人失眠,各種 AI Infra 基礎架構都被陸續開源出來,向全球展示了中國企業在技術研發上的深厚積累和創新能力。3FS 的開源讓大家直觀地瞭解到分散式檔案系統在大模型訓練場景的作用,讓業界意識到高效能檔案系統已成為大模型訓練不可或缺的一環。”
他進一步總結了 3FS 的幾個特點:
其一是高效能。“單節點 40 GB/s 的讀頻寬基本上把網路效能壓滿,也達到了國際上一線品牌產品的效能指標。高效能全閃檔案系統通常都能做到這個級別,IO500 榜單裡也有不少叢集能達到 TB/s 的總頻寬。但幻方在 Infiniband 網路大規模叢集組網時,還解決了擁塞問題,這一點非常了不起。”
其二是 AI 訓練和推理的全流程最佳化。“AI 訓練和推理的全流程最佳化,把業務和儲存整合成一個基礎平臺,發揮出了儲存的極致效能,給模型廠商和儲存廠商提供了新的最佳化思路。”
其三是提供 KVCache 訪問協議,在大規模 AI 推理場景下有優勢。他指出 DeepSeek 的 KVCache 訪問協議,提供了更具價效比的推理解決方案,對於業界來說是“一個很大的突破”。
把 KVCache 放到高效能分散式檔案系統緩解了推理對視訊記憶體容量的要求,把 KVCache 解除安裝到儲存上,以存代算,可以節省算力出來支撐更多的計算任務。這推動了高效能檔案系統在推理場景的落地,幫助儲存廠商拓展了一個新的場景,對整個業界是影響非常大的事情
不過,該儲存技術專家也提醒道,業界應理性看待 3FS,“高效能檔案系統的使用和運維門檻相對較高,尤其是 3FS 這類專有的高效能檔案系統,在充分理解它的工作原理前避免盲目跟進,畢竟不是所有公司都具備幻方的基礎設施和人才儲備。”
與此同時,JuiceFS 蘇銳也從分散式檔案系統與大模型訓練的角度發表了看法。他指出,AI 業務涉及大量非結構化資料,包括文字、影像和影片等格式,同時企業還必須應對資料量的急劇增長。在這樣的背景下,分散式檔案系統成為 AI 訓練中一項關鍵的儲存技術
“3FS 是一個高效能並行檔案系統,設計上它採用高效能 SSD 和高效能的 IB 網路,適合在資料中心部署,進行 LLM 需要的 IO 密集型的任務和計算密集型任務,如資料清洗和預訓練。對 IO 效能要求高的業務,提供結合 FUSE 和基於共享記憶體的非同步 IO 的原生客戶端,以獲得接近核心客戶端的效能。”蘇銳說道。
在 4 月 10-12 日將於北京舉辦的 Qcon 全球軟體開發大會上,我們特別設定了【智慧時代的儲存架構】專題。該專題邀請了來自美團、百度、炎融、螞蟻等專家,深入探討深入探討大模型引領的智慧時代下,分散式儲存如何與其互相促進,並更好地做出架構迭代、創新。
檢視大會日程解鎖更多精彩內容:https://qcon.infoq.cn/2025/beijing/track/1772
宣告:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
InfoQ 老友!請留步!極客邦 1 號客服上線工作啦!
後續我將透過微信影片號,以影片的形式持續更新技術話題、未來發展趨勢、創業經驗、商業踩坑教訓等精彩內容,和大家一同成長,開啟知識交流之旅
歡迎掃碼關注我的微信影片號~

相關文章