顯示卡並不愁賣?黃仁勳首次公開回應DeepSeek,點贊DeepSeek模型推理能力,指出後訓練是“智慧核心”

在 DeepSeek 出圈將近一月之久,英偉達 CEO 黃仁勳終於首次公開回應 DeepSeek。當地時間 2 月 21 日,在美國 AI 資料情報平臺 DataDirect Networks(DNN)公司舉辦的名為“Beyond Artificial”的主題活動上,DNN 的 CEO 亞歷克斯·布扎裡(Alex Bouzari)和黃仁勳進行了面對面對話。
對話中,黃仁勳表示 DeepSeek 模型在推理階段表現出色,但是他認為後訓練才是智慧的核心。同時,黃仁勳表示:“DeepSeek 從天而降,人們說不再需要進行任何計算,事實恰恰相反。
因為 DeepSeek 所在做的讓人們意識到,大模型可以比我們想象得更有效。因此它正在擴張和加速 AI 的使用。”
圖 | 從左到右:黃仁勳、DNN 的 CEO 亞歷克斯·布扎裡(Alex Bouzari)(來源:https://www.linkedin.com/events/7293474398047502337/comments/)
那麼,為什麼黃仁勳會說後訓練才是智慧的核心?為何黃仁勳能夠如此淡定?下面為大家嘗試揭開上述問題的答案。
Scaling Law 放緩,DeepSeek R1 在後訓練階段“閃現智慧”
阿聯酋阿布扎比先進技術研究所研究員鄒航表示,大語言模型的訓練成本主要集中在預訓練階段,通常需要千卡甚至萬卡叢集在萬億級別的詞元上訓練數百萬個 GPU 小時。
而後訓練的成本的數量級一般遠小於預訓練。比如 DeepSeek V3 在 2048 張英偉達 H800 叢集上訓練了 14.8 萬億個詞元,一次完整訓練的成本約為 533 萬美金。
單次後訓練只花費約 1 萬美金,僅相當於預訓練的千分之二,同時模型並非一定要在萬卡叢集上訓練。因此,Deep Seek R1 模型的後訓練成本肯定高於 DeepSeek V3 模型,但是單次訓練成本的數量級應該是相近的。
鄒航指出,目前我們能夠明顯觀察到預訓練的縮放定律(Scaling Law)正在放緩。例如,馬斯克的 xAI 公司剛剛釋出的大模型 Grok3,雖然在 20 萬個英偉達 H100 上完成訓練,但是該模型相比 GPT-4o 以及 DeepSeek V3 的提升卻是相當有限。所以,在預訓練邊際成本正在急速加大的同時,邊際收益卻幾乎陷入停滯。
因此,OpenAI 於 2024 年 9 月份釋出的 o1 模型所代表的推理時縮放(inference-time scaling),正在成為業界的新正規化。然而,在 OpenAI o1 模型釋出之後,業界思路一直停留在過程獎勵模型以及蒙特卡洛樹搜尋上。
在 OpenAI o1 釋出之後長達 3 個多月的空白期裡,據鄒航所知圍繞 OpenAI o1 類模型的復現模型,幾乎都無法達到與 OpenAI o1 相當的水平。這在以日為更新單位的大模型領域是非常難以想象的。
推理時縮放的難點在於,大模型的內嵌思維鏈到底該如何設計。業界早先的思路之所以效果不好(這一點在 DeepSeek R1 的技術報告中也被證實),主要是因為過程獎勵監督以及蒙特卡洛樹搜尋很大程度上限制了模型推理時思維鏈的結構。類比一下,人類在思考複雜問題時,思路是千變萬化的,並不存在一個固定的結構。
因此,鄒航認為 DeepSeek 之所以能夠轟動全球,包含了兩個缺一不可的要素:第一,DeepSeek V3 模型透過工程技術以及演算法的共同最佳化,大大降低了預訓練的成本;第二,DeepSeek R1 獨立探索出了有效的推理時縮放正規化,其中最核心的發現是在數學、程式碼等具有明確答案的推理任務中,僅僅依靠強化學習(而非人類標註資料監督)的獎勵,模型便能實現頓悟,展現出類似人類思考中的反思、多角度驗證及反證等認知過程。
這一核心思路結合後續精巧的強化學習演算法,使得基於 DeepSeek V3 模型進行後訓練得到的 DeepSeek R1 模型,達到甚至超過了 OpenAI o1 的效果。因此,如果沒有 DeepSeek R1 媲美 OpenAI o1 的驚人表現,那麼 DeepSeek V3 中訓練成本最佳化的意義顯然會大大減低。
所以,鄒航認為在預訓練縮放規律放緩的前提下,基本可以認為 DeepSeek R1 所代表的深度思考類大模型的智慧是在後訓練過程中出現的。需要說明的是,這裡的智慧和知識有著明顯區別,因為知識通常是在預訓練階段獲得的。
中國人民大學陳旭教授則表示,所謂的開悟指的是,當模型在前期訓練到一定程度時,突然展現出類似人類的自我反思和策略調整能力。此前,大模型開發者已經在實驗中觀察到這類現象。對於其背後的原理,目前領域內並沒有達成共識,仍然處於觀察階段。
DeepSeek R1 浪潮將會刺激高效能 GPU 的需求
此外,很多人關注到 DeepSeek V3 的預訓練成本較高,後訓練成本較低。這是因為基礎模型在訓練的時候需要非常多的語料,比如可能需要接近 1T 的 Token。而使用人類反饋強化學習(RLHF,Reinforcement Learning fromHuman Feedback)的話,就不用太多的語料訓練。
那麼,後訓練一定會消耗更多資源嗎?對於 DeepSeek 以及 OpenAI 這樣的產業級大模型來說,的確會消耗比較多的資源。但如果訓練稍微小的模型,所消耗的資源就會比較少。
以 DeepSeek 的 R1 模型為例,它在推理階段會進行大量的思考。當你向 DeepSeek R1 提出一個問題,在給出最終問題之前,它會在回答框裡先輸出一段由灰色字型組成的段落,這段灰色字型代表著它的思考過程,即模型正在輸出思維鏈。那麼,它推理的過程越長,消耗的算力就越多。
而此前英偉達的股價大跌事實上並不是一個理性的表現。陳旭認為,之所以 DeepSeek 能夠在短期內影響英偉達的股價,是因為 DeepSeek 在訓練上找到了一條捷徑,這讓它在預訓練階段節約了很多算力,也許讓大家看到了降低算力成本的希望。
但是,對於一家小公司或者一個小團隊來說,這依然是非常多的算力。舉個不恰當的例子,以星巴克的杯型為例,以前需要的可能是“超大杯的算力”,現在需要的是“大杯的算力”。假如一直按照這樣的趨勢來發展,很有可能發展為只需要“中杯的算力”。
那麼,預訓練和後訓練到底誰重要?陳旭表示,他認為目前很難講兩者誰更重要。OpenAI 前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)曾表達過預訓練已經走到盡頭的說法,即僅僅依靠預訓練將無法再提高預訓練的效能。
正因此,人們開始越來越側重於在模型的推理階段,使用測試時擴充套件定律‌(‌inference time scaling)來做更復雜的推理,以此來提高模型效能。但是,如果沒有針對基座模型開展大規模的訓練,就很難實現較好的推理能力。
(來源:資料圖)
那麼,DeepSeek 是否真的極大影響了英偉達陳旭表示,英偉達的股價之所以受到影響,可能是因為人們認為, DeepSeek 找到了訓練大模型的捷徑,與此同時,DeepSeek 開源了更多模型的細節,讓人們更有信心做復現並進行進一步的開發。
自從 OpenAI 於 2022 年末以閉源形式出圈,到 DeepSeek 於 2025 年初以開源形式出圈以來,領域內一直在自行摸索,有時甚至不知道往哪兒發力。在這段時間內大家完全是兩眼一抹黑,既不清楚未來的路,也不知道能否探索出來,就好比所有大模型開發者都站在一個迷霧森林裡,沒有人知道從哪條路可以走出森林。
而 DeepSeek 的開源,等於為大家提供了一條“公開的路”,讓大模型開發者沿著這條路並輔以適當的“修路”,就可以往降本增效的方向去努力。這極大增加了大模型開發者的信心,正是這種信心讓大家覺得算力還會得到進一步降低。
那麼,為什麼仍然需要英偉達顯示卡?對於中國來說,如果美國一直封禁英偉達的高階顯示卡,其實這才是真正會讓英偉達感到擔心的事情。
“因為這是鎖不住的,像華為以及其他公司研發的晶片,目前已經具備還算不錯的效能。美國越是封鎖,中國人的能力被激發得越快。”陳旭表示,“目前,中國和美國是兩個大模型研發投入較高的國家,而只有美國撤銷封鎖禁令,才會對英偉達產生利好。同時,我非常期待國產顯示卡的快速發展。”
而隨著外部企業甚至連中小學都要接入 DeepSeek 模型,這必將產生更多算力需求。
(來源:資料圖)
對於一款大模型來說,它在預訓練階段所使用的算力是相對固定的,即大模型完成訓練之時,也是預訓練結束使用算力之時。而推理階段發生於大模型回答問題的時候,每當 DeepSeek 回答一位真人使用者的問題,它就會進行一次推理。
騰訊的混元大模型為例,其已經接入 DeepSeek 的 R1 模型,這就意味著騰訊將 DeepSeek R1 部署到了自家伺服器上,那麼這時騰訊就要為模型推理時所使用的算力付費。

同理,目前

百度

搜尋也已經已經接入 DeepSeek R1,那麼百度搜索就要為算力付費。也就是說,假如有越來越多的外部企業接入 DeepSeek,必然要使用更多的算力,進而必然要使用更多的顯示卡。

鄒航也表達了同樣的觀點。他表示,DeepSeek R1 類深度思考模型在推理能力的增強上並非毫無代價。相對於沒有應用推理時計算縮放的大模型,DeepSeek R1 必須先思考(即便思考時間非常短暫)然後再回答。
DeepSeek R1 內嵌的思維鏈就像人類在思考時打腹稿或者把思路寫在草稿紙上。而思維鏈的生成過程實際上也是推理的一部分。因此,顯而易見的是此類模型在數學等複雜推理類任務時,推理成本會急速上升。
例如,DeepSeek R1 在解決數學競賽難度的問題上思考時間常常會長達數分鐘,OpenAI o3 在高推理成本的設定下單次推理的成本就高達數千美金。
短期看來,近期大規模部署 DeepSeek R1 類深度思考模型的浪潮反而會刺激對於英偉達高效能 GPU 的需求。而從長期來看,DeepSeek 在 V3 模型探索中所展現出來的訓練以及推理成本最佳化,更是會讓業界進一步推進大模型各方面成本的降低,從而讓大模型能夠走入尋常百姓家。對於英偉達來講,這似乎也不算壞訊息。
參考資料:
https://www.linkedin.com/events/7293474398047502337/comments/
https://www.zhihu.com/question/12997012517
https://techcrunch.com/2025/02/21/nvidia-ceo-jensen-huang-says-market-got-it-wrong-about-deepseeks-impact/
運營/排版:何晨龍


相關文章