DeepSeek的150人小團隊,怎麼就讓矽谷顫抖了?

本文內容整理自網路公開資料。
責編 |  001  排版 | 二月
第 8811 篇深度好文:6095 字 | 12分鐘閱讀
宏觀趨勢
筆記君說:
SemiAnalysis 是一家精品半導體研究和諮詢公司。Dylan Patel是SemiAnalysis首席分析師。這是Dylan Patel新鮮出爐的Deepseek 分析。
筆記俠對本份報告進行了翻譯,第一時間分享給最近在持續關注Deepseek 的俠友們。
這份報告的核心,是指出DeepSeek憑藉“多頭潛在注意力(MLA)”等創新技術,顯著降低推理成本;結合專家混合模型(MoE)的動態路由演算法和多標記預測技術,實現演算法效率的指數級提升,推動相同算力下模型效能的跨越式發展。
同時,在組織架構上,DeepSeek透過扁平化架構、自建資料中心、頂尖人才戰略(百萬美元級薪酬挖角清北精英),形成遠超谷歌等巨頭的創新速度,是中國AI初創企業首次在核心演算法層面對西方形成實質性挑戰。
一、DeepSeek如風暴般席捲全球
DeepSeek 風靡全球。在過去的一週裡,DeepSeek 是世界上唯一一個想談論的話題。就目前而言,DeepSeek 的每日流量現在遠高於 Claude、Perplexity 甚至 Gemini。
但對於觀察者來說,這並不完全是“新”新聞。DeepSeek已經有幾個月了。這家公司並不是新公司。
DeepSeek非常有才華,美國更廣泛的公眾並不關心。當世界最終關注時,它在一種不反映現實的強迫性炒作中得到了關注。
我們想強調的是,現在演算法的改進太快了,這對英偉達和GPU來說也是不利的。
現在的情況是,DeepSeek非常高效,不需要更多的計算,而由於模型的改變,所有東西現在都出現了巨大的產能過剩。雖然傑文斯悖論也被過度炒作,但傑文斯更接近現實,模型已經誘導了需求,對H100和H200的定價產生了實際影響。

二、DeepSeek和High-Flyer(幻方量化基金)
High-Flyer(幻方)是一家中國對沖基金,是使用人工智慧進行交易演算法的早期採用者。他們很早就意識到人工智慧在金融領域以外的潛力,以及規模化的關鍵見解。
因此,他們一直在持續增加GPU的供應。在嘗試使用數千個GPU的叢集模型後,High-Flyer(幻方)在2021年做出了投資,購買了10000個A100 GPU,當時還沒有任何出口限制。這得到了回報。
隨著High-Flyer(幻方)的改進,他們意識到是時候在2023年5月剝離出“DeepSeek”了,目標是追求更專注、更進一步的AI能力。High-Flyer(幻方)自籌資金,因為當時外部投資者對AI幾乎沒有興趣,缺乏商業模式是主要擔憂。High-Flyer(幻方)和DeepSeek今天經常共享資源,包括人力和計算資源。
DeepSeek現在已經發展成為一個嚴肅的專案,絕不像許多媒體所說的那樣是一個“副業專案”。我們有信心,即使考慮到出口管制,他們的GPU投資也超過5億美元。
三、GPU的情況
我們相信他們可以訪問大約50000個英偉達Hopper GPU ,這與一些人聲稱的50000個H100不同。英偉達根據不同的法規制造了不同版本的H100(H800、H20),目前只有H20可以供中國型號提供商使用。注意,H800的計算能力與H100相同,但網路頻寬更低。
我們相信DeepSeek有大約10000個H800和大約10000個 H100。此外,他們還有更多的H20訂單,英偉達在過去9個月中生產了超過100萬個中國專用GPU。這些GPU在High-Flyer(幻方)和DeepSeek之間共享,並在一定程度上地理分佈。它們用於交易、推理、培訓和研究。
我們的分析顯示,DeepSeek的總伺服器資本支出幾乎達到13億美元,其中相當大一部分成本(7.15億美元)與運營此類叢集有關。
DeepSeek只從中國招募人才,不考慮之前的資歷,非常注重能力和好奇心。DeepSeek經常在頂尖大學如北京大學和浙江舉辦招聘活動,許多員工畢業於這些大學。職位不一定是預先定義的,招聘過程是他們的招聘廣告甚至宣稱可以擁有10,000個GPU,且沒有使用限制。他們非常具有競爭力,據稱會為有前途的候選人提供超過130萬美元的薪水,遠遠超過中國的大型科技公司。他們擁有約150名員工,但正在迅速增長。
正如歷史所顯示的那樣,一家資金充足且專注的初創公司往往能夠突破可能性的界限。DeepSeek缺乏像谷歌這樣的官僚機構,並且由於他們自籌資金,可以在想法上快速行動。
然而,與谷歌一樣,DeepSeek(在很大程度上)執行自己的資料中心,而不依賴外部方或提供商。這為實驗開闢了更多空間,使他們能夠在整個堆疊上進行創新。
我們相信他們是當今最好的“開源權重”實驗室,擊敗了Meta的Llama、Mistral和其他實驗室。
四、DeepSeek的成本和效能
DeepSeek的價格和效率本週引發了狂熱,頭條新聞是DeepSeek V3的訓練成本為“600萬美元”。這是錯誤的。這類似於指向產品材料清單的某個特定部分並將其歸為整個成本。預訓練的成本在總成本中佔非常小的一部分。
1.訓練費用 
我們相信預訓練的數字遠遠低於實際在模型上花費的金額。我們確信他們的硬體支出遠高於5億美元。為了開發新的架構創新,在模型開發期間,有相當大的支出用於測試新想法、新架構思想和改進。
DeepSeek的一項關鍵創新——多頭潛在注意力——花費了大量資金。花了幾個月才開發出來,並花費整個團隊的人力和GPU時間。
論文中提到的600萬美元成本僅包括預訓練執行中的GPU成本,而這只是模型總成本的一部分。研發以及硬體本身的總擁有成本等重要部分被排除在外。作為參考,Claude 3.5 Sonnet需要花費數百萬美元進行訓練,如果這是Anthropic所需的總成本,那麼他們就不會從谷歌籌集數十億美元,從亞馬遜籌集數百億美元。這是因為他們必須進行實驗,提出新的架構,收集和清理資料,支付員工費用等等。
那麼, DeepSeek 是如何擁有如此龐大的叢集的呢?出口控制的滯後是關鍵所在,將在下面的出口部分進行討論。
2.縮小差距——V3的效能
V3無疑是一個令人印象深刻的模型,但值得強調的是相對於什麼而言令人印象深刻。許多人將V3與GPT-4o進行了比較,並強調了V3如何擊敗了4o的效能。這是真的,但GPT-4O是在2024年5月釋出的。AI 進展迅速,2024 年 5 月是演算法改進的另一個生命週期。
此外,我們並不驚訝地發現,在給定的時間後,需要更少的計算就能實現類似或更強的能力。推理成本下降是 AI 改進的標誌。
一個例子是,可以在筆記型電腦上執行的小模型具有與GPT-3相當的效能,GPT-3需要一臺超級計算機來訓練和多個GPU來推斷。
換句話說,演算法的改進允許更少的計算量來訓練和推斷相同能力的模型,這種模式反覆出現。這次世界注意到了這一點,因為它來自中國的實驗室。但小型模型越來越好並不是新鮮事。
到目前為止,我們所見證的模式是,人工智慧實驗室花費了更多的絕對資金,以獲得更智慧的產品。據估計,演算法進展為每年4次,這意味著每過一年,實現相同能力所需的計算量會減少4倍。Anthropic(OpenAI的死對頭)的執行官達里奧認為,演算法的進步甚至更快,並且可以產生一個10倍的改進。就GPT-3質量的推理定價而言,成本已經下降了1200倍。
當研究GPT-4的成本時,我們看到類似的成本下降,儘管是在曲線的早期。雖然成本差異的減少可以解釋為不再那樣保持能力恆定。在這種情況下,我們看到演算法的改進和最佳化創造了成本下降了10倍,而能力增加。

需要明確的是,DeepSeek的獨特之處在於他們首先實現了這種成本和能力。他們在釋出開放重量方面是獨一無二的,但之前的Mistral和Llama模型也曾這樣做過。DeepSeek已經實現了這種成本水平,但如果到年底,成本再下降5倍,也不要感到震驚。
3.R1的效能與o1匹配嗎?
另一方面,DeepSeek R1能夠取得與GPT o1相當的成績,而o1在9月份才剛剛公佈,DeepSeek怎麼能這麼快趕上來呢?
答案是,推理是一種新的正規化,具有更快的迭代速度,比以前的正規化在更小的計算量下獲得了有意義的收益。正如我們在本文中概述的那樣,以前的模式依賴於預訓練,而這變得越來越昂貴,也越來越難以取得穩健的成果。
新正規化專注於透過合成數據生成和強化學習後在現有模型上進行後期訓練來提高推理能力,從而以更低的價格更快地獲得收益。
較低的進入門檻加上易於最佳化意味著DeepSeek能夠比平時更快地複製o1方法。隨著玩家在新正規化中找到更多的擴充套件方式,我們預計匹配能力之間的時間差距將會增加。
請注意,R1論文沒有提到所使用的計算量。這不是偶然的——為訓練後的R1生成合成資料需要大量的計算量。更不用說RL了。
R1是一個非常好的模型,我們對此沒有異議,而且如此迅速地趕上推理優勢,在客觀上令人印象深刻。DeepSeek是中國的,並且資源更少,這一事實讓它更加令人印象深刻。
但R1提到的一些基準也是誤導。比較R1和o1是很棘手的,因為R1並未明確提及它們不領先的基準。雖然R1在推理效能上與之匹配,但在每個指標上都不是明顯的贏家,在許多情況下它比o1更差。
我們還沒有提到o3。o3的能力顯著高於R1或o1。事實上,OpenAI最近分享了o3的結果,基準擴充套件是垂直的。“深度學習遇到了瓶頸”,但型別不同。
4.谷歌的推理模型和R1一樣好
雖然DeepSeek R1被瘋狂炒作,但一個月前,一家市值2.5萬億美元的美國公司釋出了一款更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。這款模型可以使用,並且比R1便宜得多。即使透過API為模型提供了更大的上下文長度。
在已報道的基準測試中,谷歌的Flash 2.0 Thinking擊敗了DeepSeek R1,儘管基準測試並不能說明全部情況。谷歌只發布了3個基準測試,所以這還不完整。
儘管如此,我們認為谷歌的模式是穩健的,在許多方面與DeepSeek R1抗衡,但沒有受到任何炒作。這可能是因為谷歌的營銷策略乏善可陳和使用者體驗差,但R1是一箇中國人的驚喜。
需要明確的是,這些都不會影響DeepSeek的顯著成就。DeepSeek作為一家快速發展、資金充足、聰明且專注的初創公司的結構,正是它擊敗Meta等巨頭的原因。在釋出推理模型時,這是值得稱讚的。

五、技術成就
DeepSeek破解了程式碼並解鎖了領先實驗室尚未實現的創新。我們預計DeepSeek釋出的任何改進幾乎會立即被西方實驗室效仿。
這些改進是什麼?大多數架構成就都與DeepSeek V3相關,這也是R1的基礎模型。讓我們詳細介紹這些創新。
1.訓練(前期和後期)
DeepSeek V3在以前從未見過的規模上使用了多標記預測(MTP),這些是附加的注意力模組,用於預測接下來的幾個標記,而不是單個標記。這在訓練期間提高了模型效能,並在推理期間可以丟棄。這是一個演算法創新的例子,使效能在更低的計算量下得到改善。
還有一些額外的考慮因素,比如在訓練中提高FP8(8位浮點格式)的準確性,但美國領先的實驗室已經進行了一段時間的FP8訓練。
DeepSeek v3 也是專家模型的混合體,這是一個由許多其他小型專家組成的大模型,這些專家專門從事不同的事情。MoE(專家混合)模型面臨的一個難題是如何確定哪個標記會到達哪個子模型或“專家”。DeepSeek 實現了一個“路由網路”,以一種平衡的方式將標記路由到正確的專家,而不影響模型效能。
這意味著路由非常高效,在訓練每個標記時,相對於模型的整體規模,只會改變一些引數。這增加了訓練效率和推理成本。
儘管有人擔心專家混合(MoE)效率的提高可能會減少投資,但達里奧表明,更強大的人工智慧模型的經濟效益是如此巨大,以至於任何成本節約都會迅速重新投資於構建更大的模型。
MoE(專家混合)的效率提高不會減少整體投資,而是將加速AI的擴充套件努力。這些公司專注於將模型擴充套件到更多的計算資源,並在演算法上提高它們的效率。
在DeepSeek R1方面,它從擁有一個穩健的基礎模型(v3)中受益匪淺。這部分歸功於強化學習(RL)。RL有兩個重點:格式化(以確保它提供連貫的輸出)以及有用性和無害性(以確保模型有用)

。推理能力在對合成資料集進行微調時顯現出來。這就是O1所發生的事情。

請注意,在R1論文中沒有提到計算量,這是因為提到使用了多少計算量會表明他們擁有的GPU比他們的敘述所暗示的要多。如此規模的RL(強化學習)需要大量的計算量,特別是生成合成資料。
此外,DeepSeek使用的一部分資料似乎來自OpenAI的模型,我們認為這將對從輸出資料提取政策產生影響。這在服務條款中已經是非法的,但未來的新趨勢可能是採用某種形式的KYC(瞭解你的客戶)來阻止提取。
說到蒸餾,DeepSeek R1論文中最有趣的部分可能是能夠透過微調推理模型的輸出,將非推理的小型模型轉化為推理模型。資料集整理包含總共80萬個樣本,現在任何人都可以使用R1的CoT輸出建立自己的資料集,並在這些輸出的幫助下建立推理模型。我們可能會看到更多的小型模型展示推理能力,從而提高小型模型的效能。
2.多頭潛在注意(MLA)
MLA是一項關鍵的創新,顯著降低了DeepSeek的推理價格。原因是MLA將每個查詢所需的KV快取量(指在大模型推理過程中,鍵值快取KV Cache所佔用的記憶體大小)減少了約93.3%。 
與標準注意力相比,KV快取是變換器模型中的一種記憶體機制,用於儲存表示對話上下文的資料,從而減少不必要的計算。
正如在我們的縮放法則文章中所討論的,KV快取會隨著對話上下文的增長而增長,併產生相當大的記憶體約束。大幅減少每個查詢所需的KV快取量,會減少每個查詢所需要的硬體量,從而降低成本。
然而,我們認為DeepSeek是在以成本為代價提供推理以獲取市場份額,而實際上並沒有賺到任何錢。谷歌Gemini Flash 2 Thinking仍然更便宜,谷歌不太可能以成本價提供這種產品。MLA特別吸引了許多美國領先實驗室的目光。MLA在DeepSeek V2中釋出,該版本於2024年5月釋出。
與H100相比,H20具有更高的記憶體頻寬和容量,因此DeepSeek在推理工作負載方面也具有更高的效率。他們也宣佈了與華為的合作關係,但迄今為止在Ascend計算方面的合作還很少。
*文章為作者獨立觀點,不代表筆記俠立場。
好文閱讀推薦
分享、點贊、在看,3連3連!


相關文章