網上關於DeepSeek的說法,哪些是錯誤的?

1st
DeepSeek成功繞過了NVIDIA CUDA?
錯誤!
這是個流傳很廣的說法,意指DeepSeek透過繞過CUDA,徹底擺脫了NVIDIA的依賴。
聽起來確實很提氣,但這個言論的依據是DeepSeek採用了PTX程式設計替代了CUDA C/C++程式設計。
實際上,DeepSeek這麼幹的初衷,是為了解決H800 GPU被閹割的互聯頻寬,不得不下沉到更低一層,用“PTX手搓”來提升跨晶片通訊能力。

(如果換成H100,完全不需要這麼做,因為互聯頻寬足夠)。

那麼用了PTX就是繞過了CUDA嗎?完全不是。
PTX(Parallel Thread Execution)是NVIDIA CUDA程式設計模型的一部分,它是 CUDA 編譯器將原始碼(如 CUDA C/C++)轉換為低級別、硬體相關的機器指令之前的一個中間階段
PTX在執行時會進一步被編譯成在NVIDIA GPU上執行的最終機器碼(SASS),然後交給GPU完成最終執行。
整個流程可以參考下圖↓
實際上,DeepSeek就是跳過了第一個環節,直接用更為複雜的PTX來編寫程式。
這樣雖然程式設計複雜度高,但是既解決了前面說所的跨晶片通訊瓶頸,又可以降低開銷、提升執行效率(把第一部分編譯過程省了)。
老司機都懂的,

這相當於我們以前不用C這樣的高階語言,直接拿彙編來寫程式,門檻高但是效率也高。

不得不說,DeepSeek這招確實確實挺高,但是直接採用PTX程式設計並不等於擺脫了CUDA生態依賴。
首先PTX本身就是CUDA生態的一部分,同時PTX程式碼只能在N家GPU上執行,且依賴N記驅動、工具鏈和庫,並不提供跨平臺、跨廠商支援,另外PTX的編寫和除錯,仍然需要依靠CUDA提供的工具。
總的來說,雖然DeepSeek透過直接編寫PTX獲得了更低階的控制,提升程式碼執行效率,解決跨晶片通訊瓶頸。
但這並不算繞開CUDA,因為PTX程式碼仍然需要CUDA的編譯、執行和管理機制來執行。

2nd
DeepSeek僅用600萬美元完成訓練?
既對又不對!
數字是正確的,而且真實的數字比這個還少,只有557.6萬美元。
但是我們需要理性的看待這個數字。
首先說這個資料哪裡來的,它來源於DeepSeek V3的技術報告。(https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)
在報告中明確指出,DeepSeek-V3 的完整訓練(含預訓練、上下文擴充套件和後訓練)僅需278.8萬H800GPU小時,總成本約 557.6 萬美元。(按2美元/H800GPU小時計算)
而單看預訓練,每訓練1萬億個Tokens,需消耗18萬H800GPU小時,摺合36萬美元。
玩過大模型訓練的都明白,這個花費確實太低了,比如Meta Llama3 405B的訓練成本約3930萬H100 GPU小時,是DeepSeek的14倍,而後者的671B的引數量更大。
(花血本砸錢的6小虎和巨頭們肯定哭暈在廁所,迎接他們的將是投資人的“拷打”

但是,需要特別說明的是:大模型訓練成本≠大模型開發成本。
557.6萬美元,這僅僅是訓練

消耗的GPU算力成本

,不包括整體軟硬體投入、資料採集與處理、軟體和系統開發、人力等等綜合成本。
那麼具體多少錢?官方沒有披露,我們不妨問問DeepSeek自己,看它怎麼說↓
semianalysis.com也給出了DeepSeek的AI TCO分析,這張表很有參考價值,當然,這張表也只是按照自己囤卡來計算的GPU服務總成本+叢集運營成本
光這部分的成本算下來就超過了25億美元。
所以,一開始,大家被600萬美元的模型成本給敲懵了,甚至開始恐慌,GPU被做空。
但細細推敲下來,600萬隻是冰山一角,所以你看,這幾天N家的股票開始慢慢回調了。
U1S1,557.6萬美元的淨算力成本,已經足夠震撼了。
DeepSeek依靠創新的演算法和架構做到了這一點,用更低的成本來訓練和推理模型。
這也給廣大創業公司打來了一扇窗,大家不再需要汗牛充棟囤卡堆算力,只要演算法好,完全可以借雞下蛋,租用GPU機時來搞定模型。
同時,也給廣大AI創業公司關上了一扇門,跟投資人要錢買鏟子、囤算力沒那麼容易了。
更深遠的影響還在後面,比如低算力需求,可以讓不怎麼強的國產算力卡真正走上臺面,既然大家不需要卷算力,確實可以卷卷自足可控了。
以及,我們可以考慮在自己筆記本上,執行一個性能相當不錯的模型啦。
3rd
美國5大巨頭全部接入DeepSeek?
這確實是真的,英偉達、微軟、英特爾、AMD、AWS五大巨頭確實先後宣佈上架或者集成了DeepSeek。
英偉達,DeepSeek-R1正式登陸NVIDIA NIM;
亞馬遜,DeepSeek-R1在Amazon Bedrock和SageMaker AI上線;
微軟,DeepSeek-R1在雲服務Azure上部署;
英特爾公佈,DeepSeek目前能夠在英特爾產品上執行;
AMD,DeepSeek-V3整合到Instinct MI300X GPU上。
這事兒確實“振奮人心”,但這件事,並不是像某些媒體說的那樣,“老外被DeepSeek打服了,集體認慫”。
只能說老外蹭起流量來比我們還猛呀,

大家只是覺得DeepSeek還是個不錯的模型,有資格跟我在一個桌吃飯了。
而且這種所謂上架也不是第一次,舉個例子,英偉達NVIDIA NIM其實上架了大量開源模型,比如Llama系列,StableDiffusion系列。
還包括阿里系的qwen系列,百度的飛槳OCR,以及零一萬物和百川智慧的模型。
所以,此番上架個DeepSeek也沒啥稀奇的,既然賣鏟子,所有的礦主和礦工都是我的生態,只有其他賣鏟子的才是我的敵人。(相信英特爾和AMD也是這個思路)。
再看AWS和Azure,作為“雲化鏟子”,他們早就看到了雲化算力、託管式模型服務是雲計算的下一個增長點,此刻下場也理所當然,毫不意外。
當然,他們的套路也不是給了DeepSeek專寵,而是一隻羊也是趕,一群羊也是趕。
比如AWS的Bedrock,其實已經網羅了170多個形形色色的模型,還差你這一個麼?
不過,AWS還是給了DeepSeek足夠的面子:一個獨立的Provider分類。
不像很多模型,只能擠在HuggingFace大目錄下。
但也僅限於這點小面子,因為DeepSeek在Bedrock上的部署模式還是基於Marketplace自助式,而並非像AWS親兒子Nova和乾兒子Claude那樣,是全託管Serverless模式。
還有一點很有意思,跟國外巨頭相比,可能因為春節假期原因,國內巨頭鏟子商們蹭熱度明顯慢了半拍,雖遲但到,趕在今天開工前,他們也都齊刷刷的上架了DeepSeek。

嘿嘿,嘿嘿這個節奏,很像去年大家集體卷帕魯,年中集體卷黑神話一樣呀。
不管怎麼說,這波流量讓大家都賺到了。
4th
DeepSeek遭受攻擊,國內“復仇者聯盟”集體救場?
DeepSeek被攻擊時真的,這個提示目前還掛在官方註冊頁面。
人紅是非多,何況是紅遍全球,遭人嫉妒被攻擊並不奇怪。
但是令人啼笑皆非的是接下來的劇情,相信類似的文字大家過年期間在某些文章或者短影片裡都刷到過——
這鬼扯的劇情還真有人相信了,我真無了個大語。
我就不解釋了,能信這條的,你怎麼跟他解釋沒有用


2023年春節,GPT讓很多圈裡人,開始重新認識AI的價值,2025年春節,DeepSeek徹底破圈,讓更多普通人,也認識到了AI的價值。
你能想象在一個偏遠的漁村小島上,你的初中同學會跟你聊DeepSeek嗎?
我這幾天也小試了一下DeepSeek,總體感覺還可以,尤其作為“嘴替”,它輸出的內容不“八股”,更像個人,你會被某些回答驚豔到。
但同樣的,幻覺問題還是很多,比如仍然答不對“9.9和9.11哪個大”,比如聯網搜尋後,對多個搜尋結果的歸納和提取不夠好。
幻覺多可能是因為訓練語料庫不夠的原因,而被大家津津樂道的“嘴替/更像人”,我覺得恰恰可能是DeepSeek對輸出內容安全的力度不夠,尚未遭受“社會毒打”。
另外,今天開工估計有更多的人湧向了DeepSeek,這種人肉DDoS充分考驗DeepSeek的資源量和推理架構,反正整個下午,我開啟DeepSeek,都是這樣的。
不過,不管是曇花一現還是變身巨頭,DeepSeek的意義都是深遠的,其核心價值是走了一條與各大巨頭、AI獨角獸都不一樣的道路,而且還走通了。
我年前還說:創業公司再難出巨頭。現在這句話可以暫時收回了。
也許,在中國正有一批DeepSeek們,他們就像哪吒,打破所有偏見,挑戰各大巨頭,只因“我命由我不由天”。

相關文章