DeepSeek的六萬張卡如何回本?

究其DeepSeek訓練其模型到底使用了多少張英偉達卡,據《DeepSeek-V3技術報告》官方給出的是2048張英偉達H800晶片和1萬張A100顯示卡。而半導體研究機構SemiAnalysis認為DeepSeek囤積了包括1萬張A100、1萬張H100、1萬張特供版H800、3萬張特供版H20在內的六萬張英偉達GPU卡。
不重要,這不是本文要討論的。
而,DeepSeek的這六萬張卡如何回本?
簡而言之一個詞:開源。
以下是本文邏輯:
1、”DeepSeek+”行情到來,開源背後的經濟賬
2、都在搞錢,那麼DeepSeek的錢怎麼搞?
01
“DeepSeek+”行情到來,開源背後的經濟賬
2月10日,OpenAI創始人山姆·奧特曼在個人部落格分享了他對人工智慧經濟學的三個觀察(《Three Observations》)。他分享了人工智慧經濟學的三個觀察。
(一)AI模型的智慧水平大致等於用於訓練和執行它所需資源的對數值。這些資源主要包括訓練算力、資料和推理算力。實踐表明,投入的資金可以持續帶來可預測的收益提升;這種scaling law在多個數量級的範圍內都保持準確。
(二)使用特定水平AI的成本每12個月下降約10倍,較低的價格又會帶來更廣泛的應用。這一點可以從2023年初的GPT-4到2024年中的GPT-4o的變化中得到印證,其中每個token的價格在這段時間內降低了約150倍。相比之下,摩爾定律以每18個月翻倍的速度改變了世界,而AI的發展速度則更為驚人。
(三)智慧的線性增長能帶來超指數級的社會經濟價值。因此,我們看不到任何理由認為這種指數級增長的投資會在近期停止。
在山姆·奧特曼的“AI經濟學”框架中,模型能力的提升與成本的邊際遞減是其核心命題。據山姆·奧特曼在接受採訪中稱,隨著智慧模型固定級別的智力水平的一旦實現,其訓練成本每年都會下降約10倍。“這很瘋狂!就像摩爾定律是溫和的改變世界!”山姆·奧特曼感嘆。
不得不說,除了其實踐經驗,OpenAI最近這關於開源的最新認可,和DeepSeek最近在商業上的“倒逼”有著直接關係。開源策略的深層意義,在於構建一個“技術-資料-商業”的飛輪。
2月17日,DeepSeek正式宣佈接入微信並開展灰度測試。DeepSeek與微信的合作,本質是將模型能力嵌入高頻社交場景,獲取海量使用者互動資料。
2月3日,DeepSeek官宣與阿里雲以及百度智慧雲聯合,透過雲服務觸達企業客戶,透過共享技術資源、最佳化演算法等方式,進行生態共建。
2月初,DeepSeek和三大運營商達成戰略合作,實現AI技術在通訊服務中的深度融入,這包括網路管理、服務最佳化、使用者體驗等多個維度的突破性進展。
1月29日,微軟和DeepSeek共同宣佈,DeepSeek-R1已經在微軟的AI平臺Azuer AI Foundry和Github可用,開發者可以使用新模型進行測試和構建基於雲的應用程式和服務。
以阿里云為例,其平臺AI元件產品PAI Model Gallery支援雲上一鍵部署DeepSeek系列模型,包括DeepSeek-V3、DeepSeek-R1等。使用者無需編寫程式碼,即可透過阿里雲平臺實現模型訓練的過程。值得一提的是, PAI Model Gallery自身是對阿里雲使用者開源的。而PAI Model Gallery的兩種資費方式,線上服務(EAS)計費和分散式訓練(DLC)計費,都是根據使用者實際使用的資源來計算費用的,比如按使用時間或者次數來收費。這代表了AI開源業界普遍的一種收費模式。
DeepSeek和這些B端企業的合作模式類似於Android的開源生態:DeepSeek提供底層模型框架,合作伙伴貢獻場景與資料,最終透過模型迭代實現“越用越強”的正迴圈。
山姆·奧特曼對AI算力趨勢的深刻觀察,正體現在DeepSeek 的算力創新中。DeepSeek-V3的崛起——透過開源模式和技術創新,將訓練成本壓縮至557.6萬美元(基於H800 GPU租賃成本計算),僅為同類閉源模型的1/10甚至更低。這種成本優勢的背後,是演算法、框架與硬體的協同最佳化:FP8混合精度訓練使計算效率提升20%以上,而DeepSeekMoE架構以及多頭潛在注意力機制(MLA)架構,透過細粒度專家分配,讓每個Token的啟用引數僅佔模型總規模的5.5%(37B/671B)。
因為其較低的硬體成本投入,DeepSeek-R1的釋出一度使得英偉達股價大跌。但有趣的是,根據經濟學傑文斯悖論,算力創新和大幅提升的背後,恰恰會帶動高效能硬體(如英偉達GPU)的需求並使其可能會呈現反彈式增長。
這與傑文斯悖論的核心邏輯相吻合:即技術進步提高了資源利用效率,降低了成本,進而刺激了需求增加,最終導致資源消耗總量的上升。
多說一句傑文斯悖論:英國經濟學家傑文斯發現,19世紀中葉,隨著第一次工業革命工業化的程序,蒸汽機效率的提升雖然使煤的使用更加經濟,但結果卻是煤炭的需求飆升。這其實恰恰滿足了均衡理論中的供需關係的改變:即價格降低,勢必會帶來需求量的大幅提升。產品便宜了,買家自然就會變多。
2月12日,英偉達在部落格中介紹了利用 DeepSeek-R1 和推理時擴充套件技術來自動生成最佳化 GPU 核心的最新研究成果,效果異常的好。英偉達表示,其對於 DeepSeek-R1 的最新進展及其應用潛力感到非常興奮。
智慧的線性增長能帶來超指數級的社會經濟價值。大模型技術的發展迭代,必將反哺整個人工智慧和晶片行業的發展迭代速率。
這裡我們來具體算一筆賬吧。
賬本落在經濟上,大模型開源,各方怎麼個互惠互利?
一句話:B端(企業)得到DeepSeek的大模型賦能,C端(使用者)得到B端企業更好的服務,而DeepSeek則得到B端企業的算力和其服務的C端的使用者和資料。
DeepSeek的六萬張顯示卡投入,這筆重要且巨大的開支,透過開源,DeepSeek能夠將這些成本分攤到整個生態系統中。一方面,開源吸引了大量的開發者和企業參與到模型的訓練和最佳化中,降低了單個企業的投入成本,也就是降低了單個企業用於構建人工智慧大模型的邊際費用;另一方面,開源也促進了DeepSeek技術的快速迭代和升級,提高了模型的效能和準確性,從而降低了後期的維護成本。此外,透過與其他企業的合作,DeepSeek還能夠獲得額外的收入來源,如技術授權、定製化服務等。
開原始碼不僅降低了DeepSeek自身的開發成本,還為合作方帶來了技術上的節省成本槓桿。透過共享程式碼和演算法,DeepSeek能夠幫助合作方快速構建和最佳化自己的AI模型,避免了重複投入和研發週期。此外,DeepSeek還提供了豐富的訓練資料和工具,使得合作方能夠更加高效地訓練和最佳化模型。這些節省下來的成本,可以成為合作方進一步投入AI領域的動力。而這一切,也都來自DeepSeek的模型創新。
自此,不難理解關於DeepSeek“國運級應用”的評價了。
02
都在搞錢,那麼DeepSeek的錢怎麼搞?
眾所周知,DeepSeek目前是免費的,併成功倒逼一眾人工智慧大模型公司也隨之宣佈其產品未來免費供給C端。
但正如所有企業都需要營利,天下並沒有免費的午餐。DeepSeek的搞錢之道,依然是開源,開源,開源。
其具體邏輯,透過B端開源技術降維與生態鎖定:即用開原始碼降低B端客戶接入門檻,再用增值服務構建自身的壁壘。B端免費算力與資料反哺:即用對B端的開源獲取B端免費的算力;B端的廣泛覆蓋又反哺C端的全方位覆蓋,從而帶來更多token樣本(token是資料在被模型處理之前或過程中被分割成的最小單元),大量開源得到的token樣本加成會使DeepSeep自身模型算力成本大幅降低,算力效率大幅飛躍使自身模型更最佳化,從而又大幅降低自身模型開發維護升級成本。
這種“算力-資料-模型”的三角迴圈,使得DeepSeek的單位訓練成本降低,DeepSeek也正像其無需人工進行標註的機器學習模型一樣,可以達到自學習、自維護、自營收益的高效階段。
具體來說,DeepSeek透過向B端使用者開源其技術和資料資源,吸引他們參與到模型的訓練和最佳化中。這些B端使用者可以是企業、研究機構或開發者團隊等,他們擁有豐富的資料和場景資源,能夠為模型提供更加多樣化的訓練樣本和測試環境。透過向這些使用者提供技術支援,DeepSeek能夠降低大模型的算力成本和提高使用者的參與度。與此同時,這些B端使用者在使用模型的過程中也會產生大量的資料和反饋,這些資料可以用於進一步最佳化模型和提高其效能,促進DeepSeek自身模型的快速迭代。這種向B端開源從而獲取算力和資料的模式,不僅降低了DeepSeek的運營成本,還提高了其模型的準確性和泛化能力。
同時,隨著B端使用者的不斷增加和深入參與,DeepSeek能覆蓋到更多的C端使用者和應用場景。這些C端使用者可以是個人消費者、中小企業或行業使用者等,他們對於智慧化需求日益增加。透過向這些使用者提供智慧化的服務和解決方案,DeepSeek能夠吸引他們參與到模型的訓練和最佳化中,從而進一步增加Token訓練樣本的數量和多樣性。這些Token訓練樣本可以用於進一步提高模型的準確性和泛化能力,從而形成C端對B端的反哺。
獲得大量開源Token訓練樣本能夠降低模型算力成本。DeepSeek利用這些樣本進行更加高效的模型訓練和最佳化。這種“自迭代”使模型能夠在較少的算力硬體資源下達到更好的效能表現。這對於DeepSeek來說自然是一筆巨大的成本節省。
當然,儘管DeepSeek在技術和應用方面已經取得了顯著的進展,但目前仍然存在一些不完善之處。例如:對於某些複雜場景的處理能力有限等問題。
而透過開源策略的實施和生態系統的構建,DeepSeek正在逐步解決這些問題。一方面透過吸引更多的開發者和企業參與到模型的訓練和最佳化中來增加token樣本的數量和多樣性;另一方面透過與合作伙伴的開源合作來拓展應用場景和提高模型的泛化能力,充分提升模型處理複雜場景的能力,正如前文所提到。
DeepSeek的商業模式,似乎正創新出一條AI公司的“自進化”之路。
DeepSeek的商業模式,本質是一場“用模型養模型”的試驗:透過開源吸引生態夥伴,降低獲客與資料獲取成本;再透過B端增值服務與C端資料價值變現,支撐算力擴容;最後,模型效能提升吸引更多合作伙伴,獲得更多增值收益,形成無需人工干預的“資料-算力-收益”閉環。
這一路徑的可行性已初現端倪:DeepSeek-V3的後訓練階段僅消耗5K GPU小時,不到預訓練的0.2%,說明模型的自學習能力顯著增強。若其能持續壓縮迭代成本,六萬張顯示卡的回本週期可能從行業平均的3-5年縮短至18個月。
然而,爭議依然存在。但無論如何,DeepSeek已證明:在AI的競技場上,低成本與高效能並非零和遊戲,而開源生態可能是打破算力壟斷、提升算力效率的最優解。
參考文獻:
DeepSeek-V3技術報告解讀 來源:機器學習演算法那些事
行業資訊 | Sam Altman凌晨發文,AI Agent將重塑世界經濟 來源:深圳市人工智慧行業協會
DeepSeek R1不程式設計就能生成GPU核心,比熟練工程師好,驚到了英偉達 來源:機器之心
全網首發 | PAI Model Gallery一鍵部署階躍星辰Step-Video-T2V、Step-Audio-Chat模型 來源:阿里雲大資料AI平臺
點選推薦」,錦鯉附身!
– END –
最新話題:停車場機器人
歡迎關注“首席商業評論”影片號留言討論!
投稿及內容合作|[email protected]
廣告及商務合作|[email protected]

相關文章