AI大牛卡帕西盛讚DeepSeek!對著論文誇了半小時,稱其思維能力“難以置信”

AI大牛卡帕西談DeepSeek。
編譯 |  陳駿達
編輯 |  Panken
智東西2月12日訊息,近日,OpenAI聯合創始人、前特斯拉AI總監、知名計算機科學家李飛飛的愛徒安德烈·卡帕西(Andrej Karpathy)在YouTube上釋出一則3.5小時的超長免費課程,向普通觀眾做了一次全面的大模型科普。其中,他花費近半個小時時間,以最近爆火的DeepSeek-R1為例,詳解了背後強化學習技術路徑的巨大潛力。
卡帕西認為,在大模型訓練體系中,預訓練、監督微調和強化學習是其中的三個主要階段,而“強化學習是一切調整到位的環節”。雖然強化學習的本質並不複雜,即“試錯學習”,但在如何選擇出最佳的解決方案、提示詞分佈等問題上還有許多細節尚未明晰,僅停留於各大AI實驗室內部,缺乏統一標準,解決這些問題並不容易。
因此,DeepSeek-R1研究論文的主要貢獻便是:“它首次公開討論了強化學習在大語言模型的應用,並分享了這項技術是如何讓模型湧現出推理能力”。R1在強化學習過程中湧現出的思維能力,被卡帕西稱為“最令人難以置信的成效”。
未來,如果我們繼續在大模型領域對強化學習路徑進行Scaling,就有望讓大模型也能解鎖像AlphaGo“第37步棋”那樣的“神之一手”,創造出人類從未設想過的思考方式,比如用一門全新的語言進行思考。
不過,這一切實現的前提是,我們需要創造足夠大、足夠多樣的問題集,讓模型能自由地探索解決方案。
以下內容是對卡帕西課程中涉及DeepSeek與強化學習內容的總結提煉,完整影片連結及課程材料已附於文末。
本文福利:從預訓練到強化學習再到前沿發展方向,卡帕西三個半小時的大模型入門指南”的課程材料幫大家準備好啦,可在公眾號聊天欄回覆關鍵詞【智東西426獲取。
01.
DeepSeek-R1驗證強化學習魔力
卡帕西稱其“非常可靠”
強化學習的基本工作方式是讓模型在可驗證的問題上(如數學、程式碼)等領域不斷試錯,並根據答案的正誤去激勵那些得出正確答案的行為,最終引導模型實現能力提升。卡帕西稱:“強化學習是一切調整到位的環節。”
當前主流的大語言模型訓練體系主要包含三個階段:預訓練、監督微調(SFT)和強化學習(RL)。預訓練相當於通讀所有教科書的基礎知識,構建知識圖譜;SFT就像是模仿專家解題模板,學習規範化的解題流程;而RL則是透過海量練習題自主探索解題策略。
其中,前兩個階段的預訓練和SFT已發展成熟,被行業廣泛採用。而最具突破性的RL仍處於早期發展階段。雖然OpenAI等公司內部也有進行嘗試,但從未對外界直接披露。
在卡帕西看來,DeepSeek-R1論文的重要意義,正是在於它是第一篇公開討論強化學習在大語言模型應用的論文,並分享了這項技術是如何讓模型湧現出推理能力。這篇論文激發了AI界使用RL訓練大語言模型的興趣,並提供了許多研究結果和技術細節。
DeepSeek在R1論文中分享了R1-Zero在AIME競賽數學問題上的準確性提升過程。卡帕西分析道,AIME數學題本身的難度並不是特別高,但是R1-Zero一開始的表現並不理想。隨著強化學習的步驟越來越多,模型的準確性持續上升,因為它在這類問題上進行了大量的試錯。
比正確率提升還令人驚喜的是,模型在這一過程中打磨出了一套獨特的解決方式。在最佳化的後期,模型傾向於使用更長的回答(也就是更多的token)來獲得更高的準確性。
R1在RL的過程中湧現出了所謂的“aha moment”,這意味著它已經發現,嘗試更多想法,從不同角度嘗試、回溯、重構問題,是能夠明顯提升準確率的。
R1所做的事情其實與人類解決數學問題的模式類似。但這一解決方案並不靠模仿人類,也不是靠硬編碼,而是完全自然湧現的。R1重新發現了人腦的思維過程,自學了思維鏈(CoT)。在卡帕西看來,這是RL運用於大語言模型時,最令人難以置信的成效。
OpenAI的員工先前的公開言論顯示,OpenAI的o1、o3 mini等模型都使用了RL技術。卡帕西稱就效能而言,這些模型和DeepSeek-R1大致相當,DeepSeek-R1是一款非常可靠的思考模型。
不過,並不是所有的模型都適合使用思考模型進行處理,依照卡帕西的個人經驗,他大約80%-90%的查詢依舊是由GPT-4o完成的,當他遇到非常困難的程式碼和數學問題時,才會使用思考模型。
02.
強化學習潛力早有端倪
有望徹底改變思考的形態
RL是一種極其強大的學習方式,這一發現對AI領域來說並不新鮮。AI界已經在一個領域見證了這一點,那就是圍棋。DeepMind開發的AlphaGo,透過自博弈和強化學習,突破了人類棋手的實力上限。
當我們研究AlphaGo的論文時,可以發現一張與DeepSeek論文中極為類似的圖表。這張圖表顯示,隨著強化學習時間長度的不斷增加,強化學習模型(藍色實線)在圍棋上的得分也越來越高,最終超過藍色虛線所表示的李世石的得分。而紫色實現所代表的監督學習模型在逼近人類棋手得分後,未能實現超越。
監督學習模型本是上是在模仿人類專業棋手,但如果只是試圖模仿他們,雖然能在一段時間裡實現能力提升,但最終會達到一個瓶頸,永遠無法從根本上超越人類玩家。
但在強化學習的過程中,模型的力量要大得多。在圍棋的強化學習中,系統會廣泛嘗試那些在經驗上和統計學意義上能贏得比賽的棋步。
AlphaGo會與自己對弈,並使用強化學習來建立推演。系統在學習過程中自主嘗試了很多棋步,最終那些制勝的策略會被加強。強化學習不會受到人類表現的限制,它甚至可以超越像李世石這樣的頂級玩家。
理論上,強化學習可以持續執行,但由於成本原因,DeepMind團隊選擇在某些時候停止,但這一案例充分展示了強化學習的潛力。而透過DeepSeek-R1,我們才開始看到強化學習在大語言模型的推理問題上更為泛化的潛力。
強化學習還讓AlphaGo能夠提出更為新穎的制勝方法——這便是有名的“第37步”。在AlphaGo戰勝李世石的比賽中,它下了一步極為罕見的棋,人類棋手走出這樣一步棋的機率僅為萬分之一。
但事後看來,這是一步制勝的妙棋。AlphaGo在強化學習的過程中,發現了一種人類未知的下棋策略。
未來,如果我們繼續在大語言模型領域對強化學習路徑進行Scaling,或許也有可能解鎖那些讓人類摸不著頭腦的解決方案。卡帕西認為,這有可能包括髮現人類無法發現的類比,全新的思考策略,甚至是發明一種更加適合思考的語言。
從原則上來講,強化學習系統的行為的條條框框要少很多,它會嘗試做任何能實現目標的事情,也會逐漸偏離其原始訓練資料中的語言(如英語)。但實現這些的前提是,我們需要為模型創造足夠大的問題集,讓模型能夠不斷最佳化和完善其解決問題的策略。這正是目前許多大語言模型研究的前沿議題。
03.
多模態AI與語言模型無本質區別
測試時訓練將成為前沿方向
卡帕西還在課程中預言了未來將會出現的幾大AI趨勢。
首先是多模態AI。由於音訊、圖片、影片等內容對AI模型來說沒有本質區別,都可以被token化,因此只要採取大語言模型的訓練邏輯和演進路線,便能提升模型在相關領域的表現。
其次是agents。目前,大部分AI模型還是在執行人類安排的任務,沒有自行規劃長鏈條任務並執行的能力還是其中的重要一環。
此外,測試時訓練(test-time training)將會成為AI研究的前沿。在先前的訓練模式中,訓練後的引數就不會再變化了,這意味著模型停止了學習,它們唯一學到的新東西就是在上下文視窗中的內容。
但在未來,隨著多模態任務讓輸入token量呈現指數級增長,一味提升上下文視窗的容量將無法滿足模型效能提升的需求。測試時訓練能讓模型根據新資料微調其引數,讓其更擅長特定問題的解答。測試時訓練有望提升AI能力的重要方向之一。
04.
結語:DeepSeek的突破性成就廣受認可
強化學習作為上一個世代AI能力突破的重要方向,由DeepSeek在生成式AI時代再度發揚光大。然而,有不少海外競爭對手質疑、貶低DeepSeek的成就和原創性。
但在不少像卡帕西這樣專注於技術本身的廣大AI開發者看來,DeepSeek獲得的種種開源突破,對整個AI界未來的發展來說是有利而無害的,他們也樂見DeepSeek創造出更多令人意想不到的驚喜。
完整影片:https://www.youtube.com/watch?v=7xTGNNLPyMI&t
本文福利:從預訓練到強化學習再到前沿發展方向,卡帕西三個半小時的大模型入門指南”的課程材料幫大家準備好啦,可在公眾號聊天欄回覆關鍵詞【智東西426獲取。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章