誰能想到DeepSeek為了搞大模型自己弄了套檔案系統?
2月28日,DeepSeek開源周的最後一天,DeepSeek直接公開了V3和R1訓練推理過程中用到的Fire-Flyer檔案系統(簡稱3FS,第三個F代表File)和基於3FS和DuckDB構建的輕量級資料處理框架Smallpond。

圖片來源:X
3FS是一個真正意義上面向現代SSD(固態硬碟)和RDMA(遠端直接訪問)網路的檔案系統,它可以把固態硬碟的頻寬效能利用到極致,並表現出了驚人的速度:180節點叢集中的聚合讀取吞吐量為6.6TiB/s;25節點叢集中GraySort基準測試的吞吐量為3.66TiB/分鐘;每個客戶端節點的KVCache查詢峰值吞吐量超過40GiB/s。
KCORES聯合創始人karminski-牙醫評價道:“DeepSeek顛覆了儲存架構。”

圖片來源:X
根據DeepSeek團隊介紹,3FS就是為了AI訓練和推理工作負載的挑戰所開發的。它利用現代SSD和RDMA網路來提供共享儲存層,從而簡化分散式應用程式的開發。
它可以在沒有雙方作業系統介入的情況下,將資料直接從一臺計算機的記憶體傳輸到另一臺計算機,也不需要中央處理器、CPU快取或上下文交換參與。特點就是高通量、低延遲,尤其適合在大規模平行計算機叢集中使用。
那這樣方便的系統,有什麼作用呢?每經小編請DeepSeek大模型用白話來解答這一問題。

而在DeepSeek開源3FS檔案系統前幾個小時,OpenAI推出了期待已久的GPT-4.5,之前這個模型的代號為“Orion”。OpenAI聲稱這是其迄今最大、知識最豐富的模型,現已向每月訂閱費用達200美元的ChatGPT Pro使用者開放。
OpenAI執行長阿爾特曼表示,新模型的執行成本太高了,下週OpenAI將增加數萬塊GPU,提供算力支撐。
在馬斯克旗下xAI的Grok 3釋出時,大家都興奮地表示,Scaling Law(規模法則)還沒有撞牆。但GPT-4.5一齣,外界發現,OpenAI“撞牆”了。
GPT-4.5的預訓練計算量是GPT-4的10倍,但是基準測試只比4o好5%。在AIME和GPQA等困難的學術基準測試中,GPT-4.5的表現也達不到o3-mini、DeepSeek-R1和Claude 3.7 Sonnet等領先AI推理模型的水平。

圖片來源:X
阿爾特曼都只能解釋道,雖然它又貴,又慢,又不夠好。但是它有人情味兒。
有博主測評後表示,GPT-4.5這情商高得直接把智商乾沒了。

圖片來源:數字生命卡茲克
而GPT-4.5的價格也是高到離譜,每百萬Tokens輸出價格150美元(約合人民幣1093.5元),是其他模型的10~100倍,更別說和DeepSeek比了。
2月26日,DeepSeek宣佈了錯峰價格制度,DeepSeek-R1在高峰期每百萬Tokens輸出價格為2.19美元(約合人民幣15.9元),低谷期的價格僅為0.55美元 (約合人民幣4元)。以低谷期的價格計算,GPT-4.5的價格是DeepSeek-R1的近270倍。

圖片來源:X
DeepSeek為何能做出成本高效的AI模型呢?從這周開源的五大專案就能看出來,DeepSeek主打的就是“榨乾”硬體效能。
第一天:FlashMLA架構,直接“爆改”英偉達GPU,突破H800計算上限;
第二天:DeepEP,第一個用於MoE(混合專家)模型訓練和推理的開源EP(專家並行)通訊庫,提供高吞吐量和低延遲的all-to-all GPU核心;
第三天:DeepGEMM,僅300行程式碼的通用矩陣乘法庫;
第四天:連開三源,創新的雙向流水線並行演算法DualPipe、用於MoE的負載均衡演算法EPLB,以及訓練和推理框架的效能分析資料;
第五天:3FS和Smallpond,高效的分散式檔案系統和以之為基礎的資料處理框架壓榨固態硬碟效能。
在DeepSeek的數彈連發後,有網友稱,DeepSeek成領頭羊了。

圖片來源:X
那讓我們來看看,DeepSeek是怎麼評價GPT-4.5這一模型的吧。

所以說,與其用OpenAI的天價模型,真不如使用DeepSeek更高效的R1模型。但老是“伺服器繁忙,請稍後再試”,怎麼辦?
不用擔心,2月12日每日經濟新聞App和每經網全面接入DeepSeek、Kimi、豆包、智譜清言、文心一言和通義千問6款大模型。使用者透過每日經濟新聞App和每經網就能與大模型自由對話還能一鍵“問公司”“問投資”“問基金”。
不得不說,用起來真的很絲滑,目前使用量已經超15萬次了!
咋用呢?超簡單!
先下載每日經濟新聞App
https://www.nbd.com.cn/corp/2016app/index.html
再往下看
↓
一、 在每日經濟新聞App首頁,點選“DeepSeek”圖示或首頁輪播圖“自由問+問公司問投資問基金免費使用DeepSeek、Kimi、豆包等六款大模型”。

二、 進入“每經大模型平臺”頁面,即可使用DeepSeek、Kimi、豆包、智譜清言、文心一言和通義千問6款大模型中任意一款。

最近,每經“136計劃”還增加了新功能:
大模型解讀投資熱榜。
只需點選投資熱榜中的任意新聞。

立即就能得到大模型的全面分析。
還能一鍵生成圖片分享給朋友。


告別“伺服器繁忙”
快用每日經濟新聞App吧!
(免責宣告:本文內容與資料僅供參考,不構成投資建議,使用前請核實。據此操作,風險自擔。)
記者|嶽楚鵬
編輯|程鵬 蘭素英 杜波
校對|孫志成

|每日經濟新聞 nbdnews 原創文章|
未經許可禁止轉載、摘編、複製及映象等使用
如需轉載請向本公眾號後臺申請並獲得授權
推薦閱讀↓
