DeepSeek公佈利潤率——引發兩家國產AI公司創始人隔空互嗆

OSCHINA
↑點選藍字 關注我們
3 月 1 日,在“開源五連發”後,DeepSeek 又來了一個“One More Thing”為開源周收官 —— 首次披露了其模型推理系統 DeepSeek-V3 / R1 的技術細節及成本利潤率。
根據 DeepSeek 公開的資訊計算,它理論上一天的總收入為 562027 美元,成本利潤率高達 545%
此次 DeepSeek 盈利資料公佈後瞬間成為行業焦點,引發廣泛討論,尤其是引發了兩家國產 AI Infra 公司創始人 —— 尤洋與袁進輝的爭論。
事件的兩個主角,一方是尤洋及其創辦的潞晨科技,另一方是袁進輝及其創立的矽基流動。
先是 DeepSeek 的這篇技術分享在知乎釋出後,不少使用者開始 @尤洋,讓他點評。這是因為此前在 DeepSeek 被各家服務商爭相部署的熱潮裡,他是最積極的反對聲音之一。
此前尤洋曾在社交平臺上計算過部署 DeepSeek 的成本和收益,並得出結論,部署 DeepSeek 並提供服務的 AI Infra 公司,都是在虧錢,並且是“月虧四億”。他提到:
短期內,中國的 MaaS(模型即服務)模式可能是最差的商業模式,大廠相互卷低價和免費,滿血版 DeepSeek R1 每百萬 token(輸出)只收 16 元。
如果每日輸出 1000 億 token,基於 DeepSeek 的服務每月的機器成本是 4.5 億元,虧損 4 億元;用 AMD 晶片月收入 4500 萬元,月機器成本 2.7 億元,這意味著虧損也超過 2 億元。
此次 DeepSeek 的開源周並非要回應某個具體質疑,但其公佈的利潤率之高,顯然與這個計算完全相反。人們首先想到了尤洋。
尤洋也在四個小時後發文《關於 DeepSeek MaaS 成本》」回應,稱 DeepSeek 官方這一計算方法不能用於 MaaS 盈虧評估。在論述中,他延續了“基於大模型的 Mass 服務不賺錢”的觀點。
袁進輝也在 DeepSeek 文章釋出一小時後就火速評論道:
“又顛覆了很多人的認知”,他認為“很多供應商做不到這個水平”,"MaaS 能否成功,關鍵在於技術實力和使用者基礎"。
緊接著兩家國產 AI Infra 公司創始人隔空互嗆的“對戰”開始了:
首先是尤洋直接發了一篇直接批評矽基流動這家公司的文章:「《坑人的矽基流動》」(現已刪除)。
尤洋稱本來不想發這些東西,但是矽基流動的袁進輝老師頻繁在朋友圈裡陰陽他,"這家公司疑似組織水軍在網上長期黑我。今天 DeepSeek 有一篇文章指向我,他也在那裡煽風點火。"
尤洋稱矽基流動三週前網站訪問量大增,原因是:
1、犧牲員工的春節假期,綁上國產晶片,宣傳效果很好。
2、拉人頭病毒傳播,邀請碼直接送代金券,拉人頭在小紅書上快速形成病毒式擴散。
尤洋認為,2 月 12 日 superclue 釋出評測把矽基流動的 API 效能排到倒數第一,這很公平;從 pr 稿來看,矽基流動有 15 億的代金券需要兌現,但是這家公司只有 1-2 億的現金,風險很大。
尤洋不太相信矽基流動工程師的水平高於英偉達和 SGLang/vLLM 的頂尖工程師。
袁進輝第一時間進行了回應,一方面強調了矽基流動一系列動作背後的思路,另一方面直接抖出“潞晨程式碼抄襲”的舊案。
ColossalAI 重大 Bug 揭秘:DeepSeek-R1 模型微調陷阱
維護創新:對潞晨雲算力雲平臺的公開信
尤洋立馬在朋友圈轉發袁進輝的朋友圈截圖並回應:
“程式碼都是潞晨 CTO 負責的,抄襲程式碼事件後,璐晨 CTO 離職,加入了袁進輝老師的公司。你說可笑不可笑?”
差不多同一時間,尤洋的潞晨科技宣佈將在一週後停供 DeepSeek API。
在這期間,潞晨科技前 CTO 也針對抄襲程式碼事件揭露了一些往事
針對前 CTO 發文,尤洋回覆:
次日(3 月 2 日)早上,尤洋向 DeepSeek 道歉:
今日(3 月 3 日),尤洋再度回應:
原本只是討論 MAAS 盈利模式的測算,我就在跟 DeepSeek Infrastructure 團隊的技術探討中顯得很張揚,不是很有禮貌。現在微博小紅書知乎上到處都是對我個人或我的創業公司的人身攻擊和無端指責,我沒有精力一條一條地解釋。
我跟 DeepSeek 的辯論我又沒有說錯,我的計算和分析都沒有問題,只是語氣不太好以及和技術無關的言論措辭不準確,一晚上幾十個人讓我道歉。
 並發表文章《DeepSeek成本的理性分析》
DeepSeek之所以出圈,是因為DeepSeek用低成本嚇住了華爾街,直接導致華爾街股市崩盤。
DeepSeek的論文中顯示只需558萬美元就可以訓練一個一流大模型。
華爾街原本預計訓練成本是幾億美元。
其實,這個成本是容易引起嚴重誤解的,特別是對華爾街非AI技術背景的分析師。
DeepSeek公佈的是一次實驗的成本,而開發一個大模型可能需要幾十次實驗。
需要重大創新的時候,可能需要幾百次實驗。
為什麼呢?
大模型訓練是非凸最佳化,我們是無法理論證明模型訓練是收斂的,完全是靠實驗觀察。
另外,大模型訓練是隨機演算法。嚴謹一點,每改一個超引數或者架構都應該把實驗重做一遍。
一次實驗前90%時間訓練不好,最後10%也可能訓練得很好。
Google最開始探索的時候,就是超引數搜尋去大規模實驗,一個模型訓練就需要幾百次實驗。
相關連結
  • DeepSeek-V3 / R1 推理系統概覽

    https://zhuanlan.zhihu.com/p/27181462601

  • 如何看待尤洋對 DeepSeek 成本文章的回應以及開團矽基流動

    https://www.zhihu.com/question/13752772042/answer/113786841913

  • 如何評價北京潞晨科技尤洋稱 “deepseek 應該感謝美國恩情”?

    https://www.zhihu.com/question/13759294910

  • DeepSeek 和尤洋對模型服務成本的測算方式差別在哪裡?對 AI 產業有什麼參考意義?

    https://www.zhihu.com/question/13751256341

  • DeepSeek成本的理性分析

    https://zhuanlan.zhihu.com/p/27632603155

END
熱門文章
分享在看點贊~Orz

相關文章