作者：Aeneas 好睏

轉載：新智元

【寫在開頭】

最近微信推薦機制調整了，可能有些朋友會收不到我們的推送，大家別忘了給海角春藤加上星標，以免錯過更多精彩！

直播預告

正文

他們急了！特朗普的AI沙皇和微軟紛紛指控DeepSeek「偷竊」資料，DeepSeek不斷遭受來自美國IP的不間斷大規模攻擊。Anthropic CEO更是發出檄文：再不加強對中國的晶片管制，就來不及了！

它急了，它急了！

就在昨天，美國各方頻頻發出對DeepSeek「偷竊資料」的指控。

先是特朗普的AI事務主管David Sacks聲稱，有所謂「確鑿證據」表明DeepSeek利用了OpenAI模型的輸出資料來開發自身技術。

然後微軟的研究人員就跟著站出來表示，與DeepSeek相關的個人，曾在去年秋天使用OpenAI的API大規模提取資料。

剛剛， Anthropic CEO Dario Amodei也發出了長篇檄文：DeepSeek的進展表明，美國應該加強對華晶片出口管制！

不僅如此，美國還針對DeepSeek的線上服務，進行不間斷的大規模攻擊。

直到目前，API和網頁對話服務都還處於異常狀態。

據悉，美國海軍已向相關人員發出郵件示警，提醒「不得以任何形式下載、安裝或使用DeepSeek模型」。

而作為美國忠實「盟友」的義大利，也在第一時間跟進了制裁——直接把蘋果和谷歌應用商店裡的DeepSeek APP，全給下架了。

蘋果App Store向義大利使用者顯示的通知稱，該應用「目前在您所在的國家或地區不可用」。谷歌應用平臺則顯示在義大利「不支援」下載。

微軟和OpenAI：DeepSeek偷我們資料，有證據

DeepSeek僅用了2048塊英偉達H800，投入560萬美元，就訓出了約6710億引數的V3模型，由此引發前所未有的風暴。

彭博社表示，如今微軟和OpenAI已經在展開調查，DeepSeek是否曾以未經授權的方式，獲得了OpenAI的資料輸出。

他們表示，這類活動可能已經違反了OpenAI的服務條款，或者說相關團體正在試圖繞過OpenAI對可獲取資料量的限制。

知情人士透露，微軟作為OpenAI的技術合作夥伴及其最大投資者，已將此事透露給了OpenAI。

彭博社這樣描述DeepSeek-R1模型引起的轟動效應：「這一潛在威脅動搖了美國科技公司的行業領先地位，導致與AI相關的科技股大跌，包括微軟、英偉達、甲骨文以及谷歌母公司Alphabet。本週一，這些公司的市值合計蒸發近1萬億美元。」

特朗普的AI事務專員David Sacks週二表示，已有「證據」表明DeepSeek利用了OpenAI模型的輸出來開發自己的技術。

在接受福克斯新聞採訪時，Sacks表示，DeepSeek利用蒸餾技術獲得了能力，即一個AI模型使用另一個模型的輸出進行訓練。

「有確鑿證據表明DeepSeek透過蒸餾技術提取了OpenAI模型的知識，而我認為OpenAI對此並不高興。」

不過，到底都有哪些證據，卻隻字未提。

OpenAI：正在展開調查

而針對Sacks的言論，OpenAI也在一份宣告中表示，中國的一些團隊「正在使用包括蒸餾在內的方法，試圖複製美國先進的AI模型。」

我們已經注意到DeepSeek可能不當蒸餾我們模型的跡象，正在對之審查，並將在掌握更多資訊後進行分享。

我們正在採取一系列保護措施來維護智慧財產權，包括謹慎評估在釋出模型時應包含哪些前沿技術能力。

我們認為，與美國政府保持密切合作對於保護最先進的模型至關重要，這可以防止競爭對手和其他相關方獲取美國的核心技術。

在業界，蒸餾其實是一種常見做法。

但在OpenAI但服務條款中，有這麼一條規定：使用者不得「複製」其任何服務或「使用輸出來開發與OpenAI存在競爭的模型」。

有專家指出，DeepSeek在訓練中用到了GPT-4的輸出

業內人士透露，中美兩國的AI實驗室，普遍都會用OpenAI模型的輸出內容。畢竟OpenAI斥巨資僱傭了人員訓練模型產生更接近人類的響應，這種人類對齊訓練成本高昂，需要大量人力。

UC伯克利的AI博士生Twik Gupta就表示：「初創公司和學術界普遍會使用ChatGPT等經過人類對齊的商業LLM輸出，來訓練新模型。這相當於免費獲得了人類反饋這個訓練環節。」

DeepSeek是「克隆」？LeCun轉發：不懂別瞎說

對於這些流傳甚廣的說法，LeCun前幾日就轉發了Perplexity CEO Aravind Srinivas的帖子，表示澄清。

Aravind Srinivas寫道，很多人以為中國克隆了OpenAI的成果，他們明顯對模型訓練方式的理解很片面。

DeepSeek已經找到了強化學習微調的方法，他們的「DeepSeek-R1 Zero」論文中，也沒有使用監督微調。

隨後，他們結合了一些SFT，並透過良好的拒絕取樣（即過濾）來增加領域知識。

DeepSeek-R1之所以表現出色，主要原因在於它是從零開始學習推理能力，而不是簡單模仿人類或其他模型。

機器學習大牛Sebastian Raschka也對於這種說法表示駁斥。

他表示，在LLM的背景下，「蒸餾」這個術語的使用已經相當寬泛。

團隊只是為SFT建立並整理了一個數據集，用於訓練基於Qwen和Llama的R1模型。

Anthropic CEO長篇檄文：加大制裁力度，趕緊的

Anthropic CEO Dario Amodei也剛剛發出萬字檄文，對美國政府發出警告——

DeepSeek的崛起，就證明美國對華的晶片管制應該繼續加碼！

有趣的是，針對Amodei的行為，LeCun轉發了以下這個梗圖。

檄文全文如下。

出口管制肩負著一個重要使命：確保我們在AI發展中保持領先地位。為此，美國及其盟友的AI公司就必須開發出比中國更優秀的模型。

幾周前，我曾提出加強美國對華晶片出口管制的理由。緊接著，DeepSeek就以更低的成本，實現了接近美國前沿AI模型的效能。

結合這些情況來看，我認為加緊出口管制，比一週前顯得更重要了！

AI發展的三個動態特徵

在闡述政策主張之前，我將描述AI系統的三個基本動態特徵。

1. Scaling Law

AI的一個特性，就是在其他條件相同的情況下，擴大AI系統的訓練規模會導致在各類認知任務上的效能平穩提升。

例如，一個100萬美元的模型可能解決20%的重要程式設計任務，1000萬美元的可能解決40%，1億美元的可能解決60%，以此類推。

這些差異在實踐中往往帶來重大影響——再增加10倍投入，可能意味著從本科生到博士水平的跨越——因此各公司都在大力投資訓練這些模型。

2. 曲線位移

AI領域正不斷湧現大大小小的創新理念，使系統變得更有效或更高效：可能是模型架構的改進，或只是最佳化模型在底層硬體上的執行方式。

新一代硬體同樣具有這種效果。

這通常會導致曲線位移：如果創新帶來2倍的「計算乘數」（Compute Multiplier，CM），那麼只需500萬美元而非1000萬美元就能在程式設計任務上達到40%的成功率；或者用5000萬美元而非1億美元達到60%的成功率。

每家前沿AI公司都經常發現這樣的算力倍增效應：通常是小幅度的（約1.2倍），有時是中等規模的（約2倍），偶爾會有顯著的（約10倍）。

由於更智慧系統的價值極高，這種曲線位移往往促使公司增加而非減少模型訓練投入：成本效率的提升將完全用於訓練更智慧的模型，僅受限於公司的財務資源。

人們通常會有「先貴後便宜」的思維模式——彷彿AI是一個質量恆定的單一產品，變得更便宜時就能用更少的晶片來訓練。

但關鍵在於規模曲線（scaling curve）：當曲線位移時，我們只是更快地達到目標，因為終點的價值無比重要。

2020年，我的團隊就發表論文指出，演算法進步帶來的曲線位移每年約為1.68倍。這個速度現已顯著提升，且尚未考慮效率和硬體因素。

我估計現在這個數字可能達到每年4倍。訓練曲線的位移也會帶動推理曲線位移，因此多年來在保持模型質量不變的情況下，價格持續大幅下降。

例如，比GPT-4晚15個月釋出的Claude 3.5 Sonnet，在幾乎所有基準測試中都超越了GPT-4，而API價格僅為後者的十分之一。

3. 正規化轉變

有時，被擴充套件的基礎要素會發生變化，或訓練過程中會引入新的擴充套件型別。

2020年至2023年間，擴充套件主要集中在預訓練模型上：這些模型在海量網際網路文字上訓練，只需少量額外訓練。

到了2024年，使用強化學習（RL）訓練模型生成思維鏈已成為擴充套件的新焦點。

Anthropic、OpenAI、DeepSeek等公司發現，這種訓練顯著提升了模型在特定、可客觀衡量的任務（如數學、程式設計競賽）及類似推理任務上的表現。

這種新正規化始於常規預訓練模型，然後在第二階段使用RL新增推理能力。

值得注意的是，由於這種RL方法較新，我們仍處於擴充套件曲線（scaling curve）的早期：所有參與者在第二階段RL上的投入都相對較小。從10萬美元增加到100萬美元就能帶來顯著提升。

DeepSeek-R1不值一提

上述三個動態特徵可以幫助我們理解DeepSeek最近釋出的模型。

大約一個月前，DeepSeek釋出了名為「DeepSeek-V3」的純預訓練模型。隨後在上週，他們又釋出了新增第二階段訓練的「R1」模型。

雖然從外部視角難以完全掌握這些模型的所有細節，但以下是我對這兩次釋出的深入理解。

DeepSeek-V3的釋出堪稱重大創新，這本應在一個月前就引起業界廣泛關注。

作為一個預訓練模型，它在某些重要任務上的表現已經接近美國最先進的模型，同時顯著降低了訓練成本。

DeepSeek團隊透過一系列令人印象深刻的創新實現了這一突破，主要集中在提升工程效率方面。他們在「鍵值快取」（Key-Value cache）管理方面做出了特別創新的改進，並且將MoE方法推進到了前所未有的水平。

然而，我們需要仔細審視：

DeepSeek並非「只用600萬美元就做到了美國AI公司需要數十億美元才能做到的事」。

Claude 3.5 Sonnet是一箇中等規模的模型，訓練成本在數千萬美元級別（具體數字不便透露）。此外，3.5 Sonnet的訓練過程完全沒有涉及更大或更昂貴的模型（與某些傳言相反）。

Sonnet的訓練是在9-12個月前進行的，而DeepSeek的模型是在去年11、12月訓練的，但在眾多內部和外部評估中，Sonnet仍然保持明顯領先。

因此，一個客觀的說法是：「DeepSeek以較低的成本（但遠未達到外界猜測的比例）開發出了一個性能接近7-10個月前美國模型水平的產品」。
如果成本曲線的歷史下降趨勢是每年約4倍，這意味著在正常業務發展過程中——即在 2023年和2024年出現的常規成本下降趨勢中——我們預計現在會出現比3.5 Sonnet/GPT-4便宜3-4倍的模型。

由於DeepSeek-V3不如這些美國前沿模型——在擴充套件曲線上大約差了2倍，這個估計對DeepSeek-V3來說已經相當寬容——這表明如果DeepSeek-V3的訓練成本比一年前開發的美國當前模型低約8倍，這完全符合預期。

我不會給出具體數字，但從前面的分析可以清楚看出，即使按照表麵價值來看DeepSeek的訓練成本，他們最多隻是符合行業趨勢，甚至可能還達不到這個水平。

例如，這比原始GPT-4到Claude 3.5 Sonnet的推理價格差異（10倍）還要小，而且3.5 Sonnet是比GPT-4更優秀的模型。

這些都表明，DeepSeek-V3並非獨特的突破，也不是從根本上改變LLM經濟學的創新；它只是持續成本降低曲線上的一個預期點。

這次的特殊之處在於，首先展示預期成本降低的是一家中國公司。這種情況前所未有，具有重要的地緣政治意義。

然而，美國公司很快就會跟進——他們不是透過複製DeepSeek，而是因為他們同樣在實現常規的成本降低趨勢。
DeepSeek和美國AI公司目前都擁有比訓練其主打模型時更多的資金和晶片。

這些額外的晶片用於研發模型背後的理念，有時也用於訓練尚未成熟的更大模型（或需要多次嘗試才能完善的模型）。

據真實性未經證實的報道，DeepSeek擁有50,000片Hopper晶片，我估計這在規模上與主要美國AI公司相差約2～3倍。

因此，DeepSeek作為一家公司的總投入與美國AI實驗室的差距並不顯著。
值得注意的是，「擴充套件曲線」分析可能過於簡化，因為不同模型各有特色，優劣勢各異；擴充套件曲線的資料只是一個忽略了諸多細節的粗略平均值。

正如前文所述，Claude在程式設計能力和人機互動設計方面表現卓越。在這些及其他特定任務上，DeepSeek與之相比仍有較大差距。這些優勢特性並未反映在擴充套件曲線的資料中。

上週釋出的R1模型引發了公眾的廣泛關注，但從創新或工程的角度來看，它遠不如V3具有研究價值。

R1增加的第二階段訓練（強化學習），是複製了OpenAI在o1上所做的工作。

然而，由於我們仍處於模型「擴充套件曲線」的早期階段，只要以一個強大的預訓練模型為基礎，多家公司都有可能開發出這類模型。在已有V3的基礎上，開發R1的成本可能相當低。

因此，我們正處於一個關鍵的轉折點，即暫時出現了多家公司都能生產出高質量推理模型的局面。但隨著各公司在這些模型的擴充套件曲線上繼續向上攀升，這種局面將很快改變。

出口管制力度還需加大

以上內容都是為我的核心關注點作鋪墊：對中國的晶片出口管制。

我對這種情況的看法如下：

目前存在一個持續的趨勢，即各公司在訓練強大的AI模型上的投入不斷增加，儘管成本曲線會週期性下移，訓練特定智慧水平模型的成本也在迅速下降。

然而，由於訓練更智慧模型所帶來的經濟價值極其巨大，任何成本節約幾乎立即就被消耗殆盡——這些節省下來的成本又被投入到使用相同鉅額預算開發更智慧的模型中。

對於美國實驗室尚未發現的創新，DeepSeek開發的效率創新很快就會被美國和中國的實驗室應用於訓練數十億美元級別的模型。

這些模型的表現會比他們之前計劃訓練的數十億美元模型更優異——但投入仍將保持在數十億美元水平。

這個數字會持續攀升，直到我們實現在幾乎所有領域都超越絕大多數人類智慧水平的AI。

開發出在幾乎所有領域都超越絕大多數人類智慧水平的AI將需要數百萬片晶片、至少數百億美元的投入，這很可能發生在2026-2027年。

DeepSeek的釋出並不會改變這一預期，因為它們基本符合這些計算中一直考慮在內的預期成本下降曲線。

這意味著在2026-2027年，我們可能會面臨兩個截然不同的世界。

在美國，多家公司必定會獲得所需的數百萬片晶片（耗資數百億美元）。關鍵問題在於中國是否也能獲得這樣數量的晶片。
如果中國能獲得，我們將生活在一個兩極世界，美國和中國都將擁有強大的AI模型，這將推動科技呈現爆發式發展——我將其稱為「資料中心裡的天才國度」（countries of geniuses in a datacenter）。

但這種兩極格局不一定能永遠維持平衡。

即使美中兩國在AI系統上實力相當，中國可能會將更多的人才、資金和注意力投入到這項技術當中。

結合其龐大的工業基礎優勢，這可能幫助中國在全球舞臺上獲得主導地位，不僅是在AI領域，而是在所有領域。
如果中國無法獲得數百萬片晶片，我們將生活在一個單極世界，只有美國及其盟友擁有這些模型。

單極世界的持續時間尚難預測，但存在這樣一種可能：由於AI系統最終可以協助開發更智慧的系統，暫時的領先優勢可能會轉化為持久的優勢。

因此，在這種情況下，美國及其盟友可能會在全球舞臺上確立主導地位並長期保持這一優勢。
嚴格執行的出口管制是唯一能阻止中國獲得數百萬片晶片的手段，因此也是決定我們最終是進入單極還是兩極世界的最關鍵因素。
DeepSeek的表現並不意味著出口管制失敗。如前文所述，DeepSeek擁有中等到大規模數量的晶片，因此他們能夠開發並訓練出一個強大的模型並不令人意外。

他們所面臨的資源限制並不比美國AI公司明顯更多，出口管制也並非促使他們「創新」的主要因素。他們只是一群極具才華的工程師，這也顯示了為什麼中國是美國的重要競爭對手。
DeepSeek的AI晶片儲備中，由應該但還沒被禁的晶片、在禁令前交付的晶片等構成。

這表明出口管制實際上正在發揮作用並不斷完善：監管漏洞正在被逐步填補；否則，他們所有的晶片可能都是最頂級的H100。

如果我們能夠及時堵住這些漏洞，就可能阻止中國獲得數百萬片晶片，從而增加形成美國領先的單極世界格局的可能性。