↑點選藍字 關注我們
3 月 1 日,在“開源五連發”後,DeepSeek 又來了一個“One More Thing”為開源周收官 —— 首次披露了其模型推理系統 DeepSeek-V3 / R1 的技術細節及成本利潤率。

短期內,中國的 MaaS(模型即服務)模式可能是最差的商業模式,大廠相互卷低價和免費,滿血版 DeepSeek R1 每百萬 token(輸出)只收 16 元。 如果每日輸出 1000 億 token,基於 DeepSeek 的服務每月的機器成本是 4.5 億元,虧損 4 億元;用 AMD 晶片月收入 4500 萬元,月機器成本 2.7 億元,這意味著虧損也超過 2 億元。
此次 DeepSeek 的開源周並非要回應某個具體質疑,但其公佈的利潤率之高,顯然與這個計算完全相反。人們首先想到了尤洋。
尤洋也在四個小時後發文「《關於 DeepSeek MaaS 成本》」回應,稱 DeepSeek 官方這一計算方法不能用於 MaaS 盈虧評估。在論述中,他延續了“基於大模型的 Mass 服務不賺錢”的觀點。
“又顛覆了很多人的認知”,他認為“很多供應商做不到這個水平”,"MaaS 能否成功,關鍵在於技術實力和使用者基礎"。
1、犧牲員工的春節假期,綁上國產晶片,宣傳效果很好。
2、拉人頭病毒傳播,邀請碼直接送代金券,拉人頭在小紅書上快速形成病毒式擴散。
尤洋不太相信矽基流動工程師的水平高於英偉達和 SGLang/vLLM 的頂尖工程師。
ColossalAI 重大 Bug 揭秘:DeepSeek-R1 模型微調陷阱 維護創新:對潞晨雲算力雲平臺的公開信
“程式碼都是潞晨 CTO 負責的,抄襲程式碼事件後,璐晨 CTO 離職,加入了袁進輝老師的公司。你說可笑不可笑?”
原本只是討論 MAAS 盈利模式的測算,我就在跟 DeepSeek Infrastructure 團隊的技術探討中顯得很張揚,不是很有禮貌。現在微博小紅書知乎上到處都是對我個人或我的創業公司的人身攻擊和無端指責,我沒有精力一條一條地解釋。 我跟 DeepSeek 的辯論我又沒有說錯,我的計算和分析都沒有問題,只是語氣不太好以及和技術無關的言論措辭不準確,一晚上幾十個人讓我道歉。
DeepSeek之所以出圈,是因為DeepSeek用低成本嚇住了華爾街,直接導致華爾街股市崩盤。 DeepSeek的論文中顯示只需558萬美元就可以訓練一個一流大模型。 華爾街原本預計訓練成本是幾億美元。 其實,這個成本是容易引起嚴重誤解的,特別是對華爾街非AI技術背景的分析師。 DeepSeek公佈的是一次實驗的成本,而開發一個大模型可能需要幾十次實驗。 需要重大創新的時候,可能需要幾百次實驗。 為什麼呢? 大模型訓練是非凸最佳化,我們是無法理論證明模型訓練是收斂的,完全是靠實驗觀察。 另外,大模型訓練是隨機演算法。嚴謹一點,每改一個超引數或者架構都應該把實驗重做一遍。 一次實驗前90%時間訓練不好,最後10%也可能訓練得很好。 Google最開始探索的時候,就是超引數搜尋去大規模實驗,一個模型訓練就需要幾百次實驗。
-
DeepSeek-V3 / R1 推理系統概覽
https://zhuanlan.zhihu.com/p/27181462601
-
如何看待尤洋對 DeepSeek 成本文章的回應以及開團矽基流動
https://www.zhihu.com/question/13752772042/answer/113786841913
-
如何評價北京潞晨科技尤洋稱 “deepseek 應該感謝美國恩情”?
https://www.zhihu.com/question/13759294910
-
DeepSeek 和尤洋對模型服務成本的測算方式差別在哪裡?對 AI 產業有什麼參考意義?
https://www.zhihu.com/question/13751256341
-
DeepSeek成本的理性分析
https://zhuanlan.zhihu.com/p/27632603155
END
熱門文章


↓分享、在看與點贊~Orz