DeepSeek被誤讀的5個真相,AI大佬親自揭秘 2025-04-21 21:21 APPSO 讓我們再複習一遍:小紅靠捧,大紅靠命。 DeepSeek 已經爆火了一個春節,紅起來自然是非就多。尤其在海外局勢變化錯綜複雜的情況下,DeepSeek 的中國血統,給它招來了許多謠言。 Stability AI 曾經的研究主管 Tanishq Mathew Abraham 昨天挺身而出,以自己業內人士的身份下場,指出了 DeepSeek 極為特殊的幾點: 1.效能實際上與 OpenAI 的 o1 一樣好,這是一個前沿模型,標誌著開源真正趕上了閉源 2.與其他前沿模型相比,DeepSeek 以相對較低的訓練費用完成 3.易於使用的介面,結合其網站和應用程式中可見的思維鏈,吸引了數百萬新使用者加入 除此之外,他更是針對幾大流行的謠言,寫了長長一篇博文,分析解釋了圍繞在 DeepSeek 四周的(離譜)言論。 以下為部落格文章,內容有所編輯: 2025 年 1 月 20 日,一家名為 DeepSeek 的中國 AI 公司開源併發布了他們的推理模型 R1。鑑於 DeepSeek 是一家中國公司,美國及其 AGI 公司存在各種「國家安全擔憂」。由於這一點,關於它的錯誤資訊已經廣泛傳播。 這篇文章的目的是反駁自 DeepSeek 釋出以來,許多關於 DeepSeek 的極端糟糕的 AI 相關觀點。同時,作為一個在生成式 AI 前沿工作的 AI 研究人員,提供更有平衡性的觀點。 謠言 1:可疑!DeepSeek 是一家突然冒出來的中國公司 完全錯誤,到 2025 年 1 月,幾乎所有生成式 AI 研究人員都已經聽說過 DeepSeek。DeepSeek 甚至在完整版釋出前幾個月就釋出了 R1 的預覽! 任何傳播這種謠言的人,很可能並不從事人工智慧工作——如果你不涉足該領域,卻以為自己瞭解這個領域的一切,是荒謬且極其自負的。 DeepSeek 的首個開源模型 DeepSeek-Coder,於 2023 年 11 月釋出。當時是業界領先的程式碼 LLMs(編者注:專注於理解和生成程式碼的語言模型)。正如下面的圖表所示,DeepSeek 在一年內持續發貨,達到 R1: 這不是一夜之間的成功,他們進步的速度也沒有什麼可疑之處。在人工智慧發展如此迅速,且他們擁有一個明顯高效的團隊的情況下,一年內取得這樣的進步在我看來是非常合理的。 如果您想知道哪些公司在公眾視野之外,但 AI 領域內備受看好,我會推薦關注 Qwen(阿里巴巴)、YI(零一萬物)、Mistral、Cohere、AI2。 需要注意的是,它們沒有像 DeepSeek 那樣持續釋出 SOTA 模型,但它們都有潛力釋出出色的模型,正如它們過去所展示的那樣。 謠言 2:撒謊!這個模型的成本不是 600 萬美元 這是一個有趣的問題。這類謠言認為 DeepSeek 想避免承認他們有非法的幕後交易來獲取他們不應獲得的計算資源(由於出口管制),從而在關於模型訓練成本的真實性上撒謊。 首先,600 萬美元這個數字值得好好研究。它在 DeepSeek-V3 論文中有提及,該論文是在 DeepSeek-R1 論文釋出前一個月釋出的: DeepSeek-V3 是 DeepSeek-R1 的基礎模型,這意味著 DeepSeek-R1 是 DeepSeek-V3 加上一些額外的強化學習訓練。所以在某種程度上,成本已經不準確,因為強化學習訓練的額外成本沒有被計算在內。但那可能只會花費幾十萬美元。 好的,那麼 DeepSeek-V3 論文中提到的 550 萬美元,是不正確的嗎?基於 GPU 成本、資料集大小和模型大小的眾多分析,已經得出了類似的估計。 請注意,雖然 DeepSeek V3/R1 是一個 671B 引數的模型,但它是一個專家混合模型,這意味著模型的任何函式呼叫/前向傳遞只使用約 37B 引數,這是計算訓練成本所使用的值。 然而,DeepSeek 的成本,是基於當前市場價格估計的這些 GPU 的成本。我們實際上並不知道他們的 2048 個 H800 GPU 叢集(注意:不是 H100s,這是一個常見的誤解和混淆!)的成本。通常,連續的 GPU 叢集在批次購入時成本會更低,因此甚至可能更便宜。 但是這裡有個問題,這是最終執行的成本。在這成功之前,可能進行了許多在小規模的實驗和消融,這一部分會需要相當大的成本,但這些並未在此處報告。 除此之外,可能還有許多其他成本,如研究員薪資。SemiAnalysis 報告稱,DeepSeek 的研究員薪資傳聞約為 100 萬美元。這相當於 AGI 前沿實驗室如 OpenAI 或 Anthropic 的高薪水平。 通常,當報道和比較不同模型的訓練成本時,最終的訓練執行成本是最受關注的。但由於糟糕的論調和錯誤資訊的傳播,人們一直在爭論額外的成本使 DeepSeek 的低成本和高效運營性質受到質疑。這是極其不公平的。 無論是從消融/實驗的角度,還是從其他 AGI 前沿實驗室的研究人員薪酬的角度來看,成本都非常顯著,但這些通常在這樣的討論中沒有被提及! 謠言 3:這麼便宜?所有美國 AGI 公司都在浪費錢,看跌英偉達 我認為這又是一個相當愚蠢的看法。與許多其他 LLM 相比,DeepSeek 在訓練中確實效率更高。是的,許多美國前沿實驗室在計算上效率低下是非常可能的。然而,這並不一定意味著擁有更多的計算資源是壞事。 老實說,每當聽到這樣的觀點,我就清楚地知道他們不懂 scaling laws,也不懂 AGI 公司 CEO(以及任何被視為 AI 專家的人)的心態。 Scaling laws 表明,只要我們繼續將更多的計算能力投入到模型中,我們就能獲得更好的效能。當然,AI 擴充套件的確切方法和方面隨著時間的推移而發生了變化:最初是模型大小,然後是資料集大小,現在是推理時間計算和合成資料。 自 2017 年原始 Transformer 以來,更多的計算能力等於更好的效能的整體趨勢似乎仍在持續。 更高效的模型意味著您可以在給定的計算預算下獲得更高的效能,但更多的計算資源仍然更好。更高效的模型意味著可以用更少的計算資源做更多的事情,但使用更多的計算資源,可以做到更多! 你可能有自己的關於 scaling laws 的看法。你可能認為即將出現一個平臺期。你可能認為過去的表現並不能預示未來的結果。 但如果所有最大的 AGI 公司都在押注 scaling laws 能夠持續足夠長的時間,以實現 AGI 和 ASI。這是他們的堅定信念,那麼唯一合理的行動就是獲取更多的計算能力。 現在你可能認為「NVIDIA 的 GPU 很快就會過時,看看 AMD、Cerebras、Graphcore、TPUs、Trainium 等」,blabla。有數百萬種針對 AI 的硬體產品,都在試圖與 NVIDIA 競爭。其中之一可能在將來獲勝。在這種情況下,也許這些 AGI 公司會轉向它們——但這與 DeepSeek 的成功完全無關。 個人而言,我認為沒有強有力的證據表明其他公司會撼動 NVIDIA 在 AI 加速晶片領域的統治地位,鑑於 NVIDIA 目前的市場統治地位和持續的創新水平。 總體而言,我看不出為什麼 DeepSeek 意味著你應該看跌 NVIDIA。你可能有其他理由看跌 NVIDIA,這些理由可能非常合理且正確,但 DeepSeek 似乎不是我認為合適的理由。 謠言 4:模仿罷了!DeepSeek 沒有做出任何有意義的創新 錯誤。語言模型的設計和訓練方法有很多創新,其中一些比其他更重要。以下是一些(不是完整的列表,可以閱讀 DeepSeek-V3 和 DeepSeek-R1 論文以獲取更多詳細資訊): 多頭潛注意力 (MLA) – LLMs 通常是指利用所謂的多頭注意力(MHA)機制的 Transformer。DeepSeek 團隊開發了一種 MHA 機制的變體,它既更節省記憶體,又提供更好的效能。 GRPO 與可驗證獎勵 – 自從 o1 釋出以來,AI 從業者一直在嘗試複製它。由於 OpenAI 對它的工作方式一直相當保密,大家不得不探索各種不同的方法來實現類似 o1 的結果。有各種嘗試,如蒙特卡洛樹搜尋(谷歌 DeepMind 在圍棋中獲勝所採用的方法),結果證明不如最初預期的那樣有希望。 DeepSeek 展示了一個非常簡單的強化學習(RL)管道實際上可以實現類似 o1 的結果。除此之外,他們還開發了自己變種的常見 PPO RL 演算法,稱為 GRPO,它更高效且效能更好。我想 AI 社群中的許多人都在想,我們為什麼之前沒有嘗試過這種方法呢? DualPipe – 在多個 GPU 上訓練 AI 模型時,有許多效率方面需要考慮。你需要弄清楚模型和資料集如何在所有 GPU 之間分配,資料如何透過 GPU 流動等。你還需要減少 GPU 之間任何資料傳輸,因為它非常慢,最好儘可能在每個單獨的 GPU 上處理。 無論如何,有許多設定此類多 GPU 訓練的方法,DeepSeek 團隊設計了一種新的、效率更高且速度更快的解決方案,稱為 DualPipe。 我們非常幸運,DeepSeek 完全開源了這些創新,並寫了詳細的介紹,這與美國 AGI 公司不同。現在,每個人都可以受益,用這些創新的辦法來提高他們自己的 AI 模型訓練。 謠言 5:DeepSeek 正在「汲取」ChatGPT 的知識 戴維·薩克斯(美國政府的 AI 和加密巨頭)和 OpenAI 聲稱,DeepSeek 使用一種稱為蒸餾的技術「汲取」ChatGPT 的知識。 首先,這裡的「蒸餾」一詞使用得非常奇怪。通常,蒸餾指的是在所有可能的下一個詞(token)的全機率(logits)上進行訓練,但這個資訊甚至不能透過 ChatGPT 暴露出來。 但是好吧,就假設我們在討論如何使用 ChatGPT 生成的文字進行訓練,儘管這並不是該術語的典型用法。 OpenAI 及其員工聲稱 DeepSeek 自己使用 ChatGPT 生成文字並在此基礎上進行訓練。他們沒有提供證據,但如果這是真的,那麼 DeepSeek 顯然違反了 ChatGPT 的服務條款。我認為這對一家中國公司來說,法律後果尚不明確,但我對此瞭解不多。 請注意,這僅限於 DeepSeek 自己生成了用於訓練的資料。如果 DeepSeek 使用了來自其他來源的 ChatGPT 生成資料(目前有許多公開資料集),我的理解是這種「蒸餾」或合成數據訓練並未被 TOS 禁止。 儘管如此,在我看來,這並不減少 DeepSeek 的成就。與 DeepSeek 的效率方面相比,作為研究人員,讓我印象更深刻的是他們對 o1 的複製。我非常懷疑對 ChatGPT 進行「蒸餾」有任何幫助,這種懷疑完全是出於 o1 的 CoT 思維過程從未公開過,那麼 DeepSeek 如何能夠學習它呢? 此外,許多 LLMs 確實在 ChatGPT(以及其他 LLM)上進行了訓練,而且在新抓取的任何網際網路內容中自然也會有 AI 文字。 總體而言,認為 DeepSeek 的模型表現良好僅僅是因為它簡單提煉了 ChatGPT 的觀點,是忽略了 DeepSeek 在工程、效率和架構創新方面的現實。 應該擔心中國在人工智慧領域的霸權嗎? 或許有一點?坦白說,現在和兩個月前相比,中美 AI 競賽在實質上並沒有太多變化。相反,外界的反應相當激烈,這確實可能透過資金、監管等方面的變化影響整體 AI 格局。 中國人一直都在人工智慧領域具有競爭力,DeepSeek 現在讓他們變得無法忽視。 關於開源的典型論點是,由於中國落後,我們不應該公開分享我們的技術,讓他們趕上。但顯然,中國已經趕上了,他們實際上很久以前就已經趕上了,他們在開源方面實際上處於領先地位,因此不清楚進一步收緊我們的技術,實際上的幫助是否有那麼大。 請注意,像 OpenAI、Anthropic 和 Google DeepMind 這樣的公司肯定有比 DeepSeek R1 更好的模型。例如,OpenAI 的 o3 模型的基準測試結果相當令人印象深刻,他們可能已經有一個後續模型正在開發中。 在此基礎上,隨著像星門專案以及 OpenAI 即將到來的融資輪等重要額外投資,OpenAI 和其他美國前沿實驗室將擁有充足的計算能力,以保持他們的領先地位。 當然,中國將向人工智慧發展投入大量額外資金。所以總的來說,競爭正在升溫!但我認為,美國 AGI 前沿實驗室保持領先的道路仍然相當有希望。 結論 一方面,一些 AI 人士,尤其是 OpenAI 的一些人,試圖淡化 DeepSeek。而另一方面,一些評論家和自稱專家對 DeepSeek 又反應過度。 需要指出的是,OpenAI、Anthropic、Meta、Google、xAI 和 NVIDIA 等並沒有就此完蛋。不,DeepSeek (很可能)沒有在說他們所做的事情上撒謊。 然而無論如何,必須承認的是:DeepSeek 應得到認可,R1 是一個令人印象深刻的模型。 原文連結: https://www.tanishq.ai/blog/posts/deepseek-delusions.html