劉知遠詳解DeepSeek出圈背後的邏輯:自身演算法的創新以及OpenAI的傲慢

作者 | CCF
AI 如果想要真正賦能全人類,讓每個人都能夠用得上、用得起大模型和通用人工智慧,那麼高效性顯然是一個非常重要的命題。

我們認為智慧革命顯然也要走過一條類似於資訊革命的階段,不斷去提高能力密度,降低計算成本,讓大模型得以更加普惠。
“DeepSeek R1 的開源,讓全球的人能夠意識到深度思考的能力。這相當於讓整個人工智慧領域再次迎來了類似於 2023 年初 ChatGPT 的時刻,讓每個人感受到大模型的能力又往前邁進了一大步。但同時,我們也需要合理地評估 DeepSeek 本身的重要意義。”清華大學長聘副教授劉知遠日前在參與由中國計算機學會青年計算機科技論壇(CCF Young Computer Scientists & Engineers Forum,YOCSEF)策劃的直播活動中表示,這場直播的主題為“夜話 DeepSeek:技術原理與未來方向”,共同參與話題討論的還有復旦大學教授邱錫鵬、清華大學教授翟季冬等。
直播截圖
在這場直播中,劉知遠分析了 DeepSeek 成功出圈帶來的啟示,並分析了大模型技術未來發展的趨勢。劉知遠認為,DeepSeek V3 展示瞭如何用十分之一甚至更少的成本完成達到 GPT-4 和 GPT-4o 水平的能力,此外 DeepSeek R1 的出圈也證明了 OpenAI 犯了“傲慢之罪”——它不開源,不公開技術細節,且定價過高。
以下為劉知遠在直播中的觀點實錄,經本人同意發表:
今天我將從宏觀角度為大家介紹 DeepSeek R1 所代表的大規模強化學習技術,及其基本原理。同時,我們也會探討為什麼 DeepSeek R1 能夠引起如此多的關注。
首先,我們來看 DeepSeek 最近釋出的 R1 模型,它具有非常重要的價值。這種價值主要體現在 DeepSeek R1 能夠完美復現 OpenAI o1 的深度推理能力。
因為 OpenAI o1 本身並沒有提供關於其實現細節的任何資訊,OpenAI o1 相當於引爆了一個原子彈,但沒有告訴大家秘方。而我們需要從頭開始,自己去尋找如何復現這種能力的方法。DeepSeek 可能是全球首個能夠透過純粹的強化學習技術復現 OpenAI o1 能力的團隊,並且他們透過開源併發布相對詳細的介紹,為行業做出了重要貢獻。
我們可以大致總結了 DeepSeek R1 的整個訓練流程,它有兩個非常重要的亮點或價值。首先,DeepSeek R1 創造性地基於 DeepSeek V3 基座模型,透過大規模強化學習技術,得到了一個純粹透過強化學習增強的強推理模型,即 DeepSeek-R1-Zero。這具有非常重要的價值,因為在歷史上幾乎沒有團隊能夠成功地將強化學習技術很好地應用於大規模模型上,並實現大規模訓練。DeepSeek 能夠實現大規模強化學習的一個重要技術特點是其採用了基於規則(rule-based)的方法,確保強化學習可以規模化,並實現面向強化學習的擴充套件(Scaling),這是它的第一個貢獻。
DeepSeek R1 的第二個重要貢獻在於其強化學習技術不僅侷限於數學、演算法程式碼等容易提供獎勵訊號的領域,還能創造性地將強化學習帶來的強推理能力泛化到其他領域。這也是使用者在實際使用 DeepSeek R1 進行寫作等任務時,能夠感受到其強大的深度思考能力的原因。
這種泛化能力的實現分為兩個階段。首先,基於 DeepSeek V3 基座模型,透過增強推理過程的可讀性,生成了帶有深度推理能力的 SFT(Supervised Fine-Tuning,監督微調)資料。這種資料結合了深度推理能力和傳統通用 SFT 資料,用於微調大模型。隨後,進一步透過強化學習訓練,得到了具有強大泛化能力的強推理模型,即 DeepSeek R1。
因此,DeepSeek R1 的重要貢獻體現在兩個方面:一是透過規則驅動的方法實現了大規模強化學習;二是透過深度推理 SFT 資料與通用 SFT 資料的混合微調,實現了推理能力的跨任務泛化。這使得 DeepSeek R1 能夠成功復現 OpenAI o1 的推理水平。
所以,我們其實應該非常重視 DeepSeek R1。它由於開源,讓全球的人能夠意識到深度思考的能力,這相當於讓整個人工智慧領域再次迎來了類似於 2023 年初 ChatGPT 的時刻,讓每個人感受到大模型的能力又往前邁進了一大步。但同時,我們也需要合理地評估 DeepSeek 本身的重要意義。
如果說 2023 年初 OpenAI 釋出的 ChatGPT 讓全球看到了大模型非常重要的價值,那麼這一次的強推理能力其實也是 OpenAI 在 2024 年 9 月釋出的 o1 率先實現的。而 DeepSeek R1,我們認為它在歷史上更像是 2023 年 Meta 的 LLaMA。它能夠透過開源復現,並且把這些事情全部公開給全球,讓大家能夠快速地建立起相關能力,這是我們對 DeepSeek R1 及其重要意義的一個準確認識。
當然,為什麼說 DeepSeek R1 能夠取得如此全球性的成功呢?我們認為這與 OpenAI 採用的一些策略有非常大的關係。OpenAI 在釋出 o1 之後,首先選擇不開源,其次將 o1 深度思考的過程隱藏起來,第三是 o1 本身採用了非常高的收費。這使得 o1 無法在全球範圍內讓儘可能多的人普惠地感受到深度思考所帶來的震撼。
而 DeepSeek R1 則像 2023 年初 OpenAI 的 ChatGPT 一樣,讓所有人真正感受到了這種震撼,這是 DeepSeek R1 出圈的非常重要的原因。如果我們進一步將 DeepSeek 釋出的 R1 和之前的 V3 結合起來考慮,那麼它的意義在於:在非常有限的算力資源支援下,透過強大的演算法創新,突破了算力瓶頸,讓我們看到即使在有限的算力下,也能做出具有全球意義的領先成果。
這件事對中國 AI 的發展具有非常重要的意義。當然,我們也應該看到,AI 如果想要真正賦能全人類,讓每個人都能夠用得上、用得起大模型和通用人工智慧,那麼高效性顯然是一個非常重要的命題。
而在這個方面,我們其實有非常多的話題可以去討論。除了剛才我和邱錫鵬老師提到的強化學習本身需要在未來探索更加高效的方案之外,我們還需要研究出更加高效的模型架構。例如,V3 所採用的 MoE 架構,未來應該也會有許多其他相關的高效架構方案。進一步地,國浩和翟季冬老師稍後也會介紹高效的算力應用等話題。
這其實也是 DeepSeek V3 和 R1 帶給我們的另一個非常重要的啟示。我們也會認為,整個人工智慧的發展在未來追求高效性是我們內在的一個使命和需求。
從這個方面,我想適當展開一點來介紹。我們會看到上一次所謂的科技革命,也就是資訊革命,其非常重要的核心實際上是計算晶片的發展。在過去 80 年時間裡,計算機從最初需要一個屋子才能裝得下的規模,發展到如今每個人手邊都有的手機、PC,以及各種各樣的計算裝置,都可以在非常小的裝置上完成非常強大的計算能力。
所有這一切,其實都源於晶片行業在摩爾定律的指引下,不斷推進晶片製程,提升晶片電路密度,從而實現計算裝置的小型化和普惠化,推動算力的普及。這顯然是我們未來追求高效性的一個非常重要的內在需求。
這也是為什麼我們在去年特別強調要發展大模型的能力密度。實際上,過去幾年我們也能看到類似摩爾定律的現象:大模型的能力密度正以時間的指數級增強。從 2023 年以來,大模型的能力密度大約每 100 天翻一倍,也就是說,每過 100 天,我們只需要一半的算力和一半的引數就能實現相同的能力。
因此,我們相信,面向未來,我們應該不斷追求更高的能力密度,努力以更低的成本——包括訓練成本和計算成本——來實現大模型的高效發展。 從這一點來看,我們顯然可以看到,如果按照能力密度的發展趨勢,我們完全可以實現每 100 天用一半的算力和一半的引數,達到相同的模型能力。而推動這件事情,應當是我們未來發展的使命。
所以,如果我們對標上一個科技革命——也就是資訊革命,顯然對我們即將到來的智慧革命有著非常重要的啟示。實際上,在資訊革命剛剛開始的時候,IBM 的創始人沃森曾認為,世界上不需要超過五臺主機就可以滿足全世界的計算需求。但到了今天,我們可以看到全球有數十億、上百億的計算裝置在服務於全人類的社會。
因此,我們認為智慧革命顯然也要走過一條類似於資訊革命的階段,不斷去提高能力密度,降低計算成本,讓大模型得以更加普惠。所以,我們會認為 AI 時代的這些核心引擎,包括電力、算力以及大模型所代表的智力,這種密度定律應該是普遍存在的。我們需要不斷地透過高質量、可持續的方式去實現大模型的普惠,這應該是我們未來的發展方向。
面向未來,我們認為人工智慧有三大主戰場,它們的目標都是讓通用人工智慧達到頂尖水平。首先,我們要探索人工智慧的科學化技術方案,實現更科學、更高效的人工智慧實現方式。其次,我們要實現計算系統的智慧化,能夠在計算層面以更低的成本、更通用地將大模型應用於各個領域。最後,我們也要在各個領域探索人工智慧的廣譜化應用。
以下是觀眾提問環節:
OpenAI 犯了“傲慢之罪”
Q: DeepSeek 的成功因素裡,最有亮點的一個技術是什麼?
劉知遠:我覺得主要有兩條啟示:DeepSeek V3 給我們的重要啟示在於,它展示瞭如何用 1/10 甚至更少的成本完成達到 GPT-4 和 GPT-4o 水平的能力。DeepSeek V3 在底層算力加速方面做了大量工作。但更重要的是,翟老師特別強調了 DeepSeek V3 實現了演算法和底層軟硬體的協同最佳化。這種一體化最佳化機制讓大家看到,即使成本已經很低,但仍然可以透過最佳化進一步降低成本。雖然 V3 的成本仍然是幾百萬美元甚至幾千萬美元,但相比國際上公認的水平,已經低得多。這也是英偉達股價下降的一個重要原因。
DeepSeek R1 的啟示在於,OpenAI 犯了“傲慢之罪”——它不開源,不公開技術細節,且定價過高。而 DeepSeek 的 R1 則開源且免費,讓全球使用者都能使用,並且公開了所有技術細節。 這使得 DeepSeek 在歷史上佔據了原本應該屬於 OpenAI 的位置,就像當年的 ChatGPT 一樣。DeepSeek 透過極致最佳化有限資源,成功追趕上了國際最先進的模型,我覺得乾的非常漂亮,並且透過開源讓全球都認識到中國團隊的創新能力。
Q:為什麼 DeepSeek 的 R1 模型在這個時間點出現?之前有沒有基於基礎模型直接做強化學習的嘗試?之前也有模型在思維鏈上做過類似工作,為什麼 DeepSeek 的 R1 模型會如此出圈?
劉知遠: 我覺得這件事情還是具有一定的必然性。大概在 2024 年的時候,很多投資人,甚至一些不從事人工智慧領域的人,會來問我:中國的 AI 和美國的 AI 相比,到底是差距變大了還是變小了?我當時明確表示,我們認為中國正在非常快速地追趕,與美國最先進的技術之間的差距正在逐漸縮小。儘管我們面臨一些限制,但這種追趕是顯而易見的。
一個重要的現象可以驗證這一點:2023 年初 ChatGPT 和後面 GPT-4 釋出後,國內團隊復現這兩個版本的模型大概都花了一年時間。2023 年底,國內團隊復現了 ChatGPT 水平的模型能力;2024 年四五月份,一線團隊復現了 GPT-4 水平的能力。但隨後你會發現,像 Sora、GPT-4o 這樣的模型,基本上都是國內團隊在大約半年內完成復現的。這意味著,像 o1 這樣的模型能力,國內團隊在半年左右復現是可預期的。
DeepSeek 本身非常出色,其價值不僅在於能夠復現,還在於它以極低的成本做到了這一點。這是它的獨到之處,也是它脫穎而出的原因。但無論如何,國內一線團隊能夠在半年左右復現 o1 水平的模型能力,我認為這是可以預期的。DeepSeek 能夠更快、更低成本、更高效地完成這項工作,這是它的巨大貢獻。從這個角度看,我認為有一定的必然性。
當然,DeepSeek 能夠達到這樣的出圈效果,也離不開它自身團隊的長期積累,這正如剛才邱錫鵬老師提到的那樣。
Q:(評論區問題)剛剛知遠老師 PPT 裡提到的能力密度是如何定義的?它的內在原因是什麼?
劉知遠: 這個“能力密度”的概念是我們最近半年提出的。關於如何有效地、準確地衡量能力密度,大家可以參考我們發表在 arxiv 上的論文,論文題目是《Densing law of LLMs》。
所謂的能力密度,可以理解為模型在各種評測集上展現出來的能力,除以其引數規模,或者說是啟用的引數規模。我們觀察過去一年半釋出的代表性模型,發現其能力密度大約每 100 天增加一倍。這意味著每過 100 天,我們可以用一半的引數實現相同的能力。這一現象背後有多個因素影響:
  • 資料質量:更高的資料質量取決於資料治理。高質量的資料能夠提升模型的訓練效果。
  • 模型架構:採用更稀疏啟用的模型架構,可以用更少的啟用引數承載更多的能力。
  • 學習方法:包括 OpenAI 在內的所有一線團隊都在開展所謂的“scaling prediction”。在真正訓練模型之前,我們會進行大量的風洞實驗,積累各種預測資料,以確定模型需要什麼樣的資料配比和超參配置,從而達到最佳效果。
綜合這些因素,模型可以用更少的引數承載更多的能力。我們將這一現象類比為晶片行業的摩爾定律。摩爾定律告訴我們,每 18 個月,晶片上的電路密度會增加一倍。這一過程是透過不斷的技術發展實現的。
進一步結合剛才翟老師和國浩老師提到的底層算力最佳化,我們可以將這種最佳化對映到模型訓練階段,從而極大地降低成本。當然,我們並不是說 DeepSeek 的算力可以用 1/10 的成本實現與國外模型相同的能力,但這與 Densing law(能力密度定律)有一定的重疊。
Densing Law 更多地強調模型密度的不斷提高,這不僅體現在訓練階段成本的降低,也體現在推理階段。模型可以用更低的推理成本和更快的推理速度完成相同的能力。我們認為,未來 AI 的發展一定會沿著這條路線前進。過去幾年的發展也在不斷驗證這一點。一個直觀的體驗是,像 OpenAI 這樣的公司,其 API 模型的價格(例如 ChatGPT 水平的模型和 GPT-4 水平的模型)在過去幾年中快速下降。這不僅僅是因為價格戰,而是因為它們可以用更少的資源實現相同的能力,從而以更低的成本提供服務。
我們認為,高效性是未來 AI 發展的一個重要方向,也是我們迎來智慧革命的一個重要前提。
Q: MoE 架構會是通向 AGI 道路上的最優解嗎?
劉知遠: 我的個人感覺是,其實沒有人永遠是對的。
在 2023 年初,OpenAI 釋出 ChatGPT 時,它做對了;它釋出 GPT-4 時,也做對了。但當它釋出 o1 時,它做錯了——它沒有開源,定價策略也出現了失誤。這反而成就了 DeepSeek。我也不認為 DeepSeek 選擇了 MoE 架構,MoE 就永遠是正確的。沒有任何證據證明 MoE 是最優的模型架構。
從學術角度和 AI 未來發展的角度來看,我認為這是一個開放性的問題。未來如何實現高效性?我認為一定是模組化和稀疏啟用的,但具體如何稀疏啟用、如何模組化?我覺得這件事情本身應該是百花齊放的。我們應該保持開放性,鼓勵學生和從業者像 DeepSeek 一樣努力去探索創新。
所以,我本身不太認為 MoE 有任何絕對的壁壘,或者它一定是最優的方法。
DeepSeek 所做的工作
可能也是“摸著 OpenAI 過河”
Q:DeepSeek 技術的爆發,對於中國大模型未來發展道路有哪些啟示?
劉知遠: 首先,我覺得特別值得敬佩的是 DeepSeek 團隊的技術理想主義。因為無論是看他們的訪談還是其他資料,你會發現,那些訪談其實是在 DeepSeek 大火之前很久接受的,內容非常真實,能夠反映他們內在的底層邏輯。從這一點上,我們可以感受到 DeepSeek 是一個非常具有技術理想主義的團隊,以實現 AGI 作為夢想來組建這個團隊。我覺得這一點是非常值得敬佩的。
我覺得同時也會看到,DeepSeek 的梁文峰之前做量化投資,本身投入自己的資金來開展專案,沒有資金上的困擾。那麼相對應地,我覺得中國應該為這樣的技術理想主義團隊提供支援,哪怕他們沒有足夠的資金,也能讓他們沒有後顧之憂地去進行探索。我覺得中國已經到了這樣的階段,需要有更多像 DeepSeek 這樣的團隊,但又不像 DeepSeek 這樣有資金。能否讓他們踏踏實實地去做一些原始創新,做一些出色的工作,這是我覺得非常值得我們思考的第一點。
第二點,我覺得是他們的執行力。DeepSeek 今年這兩個月一炮而紅,大家會覺得很厲害,但實際上,這是經過了多年持續積累的結果。我們看到的是他們不斷積累的進步,量變最終產生了質變。我可以告訴大家,幾年前,幻方就拿著免費算力去吸引我們的學生,與他們建立聯絡。當然,也有學生畢業後加入了 DeepSeek。所以,這是他們多年努力的結果。我認為這也是技術理想主義推動下的長期主義成果。我覺得國內應該有更多的團隊,能夠坐得住冷板凳,更加聚焦,在一些重要問題上持續發力,做出有意義的工作。
DeepSeek 發展到今天,我認為他們所做的工作可能也是在“摸著 OpenAI 過河”,以 OpenAI 為榜樣,去探索 AGI 的實現路徑,並努力去做他們認為正確的事情。 這個過程非常困難,尤其是隨著 OpenAI 變得越來越封閉,o1 復現的難度比當年的 ChatGPT 更大。但我們會看到,只要有理想和執行力,他們就能做到。所以在我看來,國內應該有更多的團隊去學習。具體的技術當然是我們應該學習的一部分,但我覺得應該避免認為因為 DeepSeek 成功了,所以他們所做的一切都是對的。我覺得不一定他們所用的所有技術都是最先進的。我覺得沒有必要因為 DeepSeek 這次成功用了這樣那樣的技術,就認為它們全都是對的。我覺得這反而會限制我們的創新。我覺得我們應該學習的是他們的理想,學習的是他們的堅持,學習的是他們的方法論。這是我想分享的第二點。
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。

相關文章