點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
轉載自:新智元 |編輯:Aeneas KingHZ
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

【導讀】超越DeepSeek-R1的英偉達開源新王Llama-Nemotron,是怎麼訓練出來的?剛剛放出的論文,把一切細節毫無保留地全部揭秘了!
現在,英偉達Llama-Nemotron系列模型,正式超越DeepSeek-R1!
而且,這些模型已經全部開源了。
換句話說,在推理吞吐量和記憶體效率上顯著超越DeepSeek-R1的一系列推理模型,已經開源可用了。
超越DeepSeek-R1的模型,究竟是怎麼煉出的?
就在剛剛,英偉達釋出了技術報告中,揭秘了模型訓練的關鍵——
· 利用合成數據監督微調+強化學習,全面提升模型的推理能力
· 從頭構建完善的後訓練流程

論文連結:https://arxiv.org/abs/2505.00949
釋出之後,英偉達的這一系列模型在業界引起不小的轟動。
根據人工分析智慧指數,截至2025年4月,Llama-Nemotron-Ultra被認為是目前「最智慧」的開源模型。

這次,英偉達一口氣推出了Llama-Nemotron系列三個模型——LN-Nano 8B,LN-Super 49B和LN-Ultra 253B。
值得一提的是,LN-Ultra不僅在效能上超越了DeepSeek-R1,還能在單個8xH100節點上執行,推理吞吐量更高。
這些模型針對高吞吐量推理進行了最佳化,同時保持強大的推理能力和最多128K的上下文長度。

LN-Ultra在各類推理任務中展現出領先的開源模型效能
並且,在全球AI開源屆,英偉達首次推出了推理開關功能,使用者只需透過系統提示詞「detailed thinking on/off」就可以動態切換標準聊天模式和推理模式。
這種設計讓模型既能滿足日常通用需求,也能勝任複雜的多步驟推理,無需使用不同的模型或架構。

揭秘構建過程
Llama-Nemotron模型的構建,分為五個階段。
第一階段:利用神經架構搜尋(NAS)在Llama 3系列模型基礎上最佳化推理效率,並引入前饋網路融合(FFN Fusion)。
第二階段:透過知識蒸餾和繼續預訓練來恢復模型效能。
第三階段:進行有監督微調(SFT),結合標準指令資料和來自DeepSeek-R1等強大教師模型的推理過程,從而讓模型具備多步驟推理能力。
第四階段:在複雜的數學和STEM資料集上進行大規模強化學習,這是學生模型能夠超越教師模型能力的關鍵一步。對於LN-Ultra,這一階段在GPQA-D基準測試上帶來了顯著效能提升,確立其作為當前開源領域科學推理最強模型的地位。
為了支援如此大規模的強化學習訓練,團隊專門開發了新的訓練框架,包含多項最佳化措施,其中最重要的是支援 FP8精度的生成能力。
最後一個階段:簡短的對齊訓練,重點在於指令跟隨和符合人類偏好。

全新架構設計:最佳化推理效率
藉助神經架構搜尋Puzzle框架,LN-Super和LN-Ultra優化了模型推理效率。
Puzzle能夠在實際部署限制下,將大語言模型轉化為更適配硬體執行的高效版本,如圖3所示。
透過「逐塊區域性蒸餾」的方式,開發者利用Llama 3 Instruct構建了替代Transformer模組的庫。
在這個過程中,每個模組都會被獨立且並行地訓練,逼近原始模組的功能,同時最佳化計算效能。
這樣,每個替代模組都具有特定的「精度-效率」權衡特性:有些模組雖然更高效,但可能會帶來一定的質量下降,從而形成一種在計算成本與模型準確性之間的明確取捨。
這些模組的變體包括:
-
注意力機制移除:某些模組完全省略了注意力機制,從而降低了計算量和KV快取的記憶體消耗。
-
可變的FFN維度:前饋網路的中間維度被調整,能以不同粒度對模型進行壓縮。
在構建好模組庫後,Puzzle會從每一層中選擇一個模組,組裝出一個完整的模型。
這個選擇過程由混合整數規劃(MIP)求解器控制,它會根據一系列約束條件(如硬體相容性、最大允許延遲、記憶體預算或期望的推理吞吐量)來找出最優配置。

Puzzle框架概覽

垂直壓縮與FFN融合
在LN-Ultra模型中,研究者引入了一項額外的壓縮技術,稱為FFN Fusion(前饋網路融合),用於減少模型的序列深度並提升推理延遲效率。
Puzzle在移除部分注意力層後,模型結構中出現的一種特性:模型中常會出現多個連續的FFN塊。
FFN Fusion能識別出這些連續結構,並將其替換為更少但更寬、可並行執行的FFN層。

這種替換方式在不犧牲模型表達能力的前提下,減少了順序計算的步驟,顯著提升了計算資源的利用率——特別是在多GPU環境中,跨層通訊開銷不可忽視的情況下,效果尤為明顯。
圖4展示了在GPQA-Diamond準確率(%)與處理吞吐量(token/秒)之間的權衡。
值得注意的是,LN-Ultra始終在準確性和效率上優於DeepSeek-R1和Llama-3.1-405B,取得了準確性和效率的最佳平衡。

GPQA-Diamond模型的精確度與吞吐量對比

NAS後訓練:知識蒸餾與持續預訓練
在神經架構搜尋(NAS)階段之後,LN-Super和LN-Ultra都進行了額外的訓練,以提升模組之間的相容性,並恢復在模組替換過程中可能出現的質量損失。
-
LN-Super使用Distillation Mix資料集,在知識蒸餾目標下訓練了400億個token。
-
LN-Ultra首先使用相同的蒸餾資料集進行知識蒸餾訓練,訓練了650億個token;隨後又在Nemotron-H第四階段預訓練資料集上繼續訓練了880億個token。
這一最終的預訓練步驟,使LN-Ultra不僅追平了參考模型Llama 3.1-405B-Instruct的表現,還在關鍵基準測試中實現了超越。
這就,表明透過簡短的蒸餾與預訓練,可以在激進的架構最佳化和高模型效能之間實現相容。


監督微調
想讓Llama-Nemotron模型擁有超厲害的推理能力?
監督微調(Supervised Fine-Tuning,SFT)這一步簡直就是「神助攻」。
前面的開發階段,團隊主要在研究怎麼讓模型架構更高效,怎麼把海量知識塞進去。
而SFT就像給模型請了一位「私人教練」,專門針對特定任務的推理步驟,帶著它從DeepSeek-R1這些「學霸」模型身上,偷師推理技巧。
不過要想讓模型真正擁有紮實的推理功底,大規模、高質量的推理訓練資料必不可少。

合成數據
研究者為監督微調精心整理了包含推理和非推理的資料樣本。
對於推理樣本,他們在系統指令中加入「detailed thinking on」(開啟詳細思考),而對於非推理樣本,則使用「detailed thinking off」(關閉詳細思考)。
這種設定,使模型能夠在推理階段根據提示內容切換推理行為。
為推理,精心準備了數學、程式碼等相關領域的合成數據。
為了訓練模型遵循「推理開關」指令,研究者構建了成對的資料集,其中每個提示都對應一個帶推理的回覆和一個不帶推理的回覆。
這種配對方式,使模型能夠根據系統指令學習調節其推理行為。
隨後會依據標準答案或獎勵模型對這些回覆進行篩選。

微調流程
在指令微調資料上,所有模型的訓練,均採用token級交叉熵損失。
在大多數訓練設定中,推理資料和非推理資料會被混合在一起,形成訓練批次,其中每個提示都會根據系統指令「detailed thinking on/off」的條件,與相應的響應配對。
延長訓練至多輪週期能提升效能,對小模型尤為明顯。
這次主要使用NeMo-Aligner來進行強化學習訓練,支援GRPO以及異構模型的訓練。

論文連結:https://arxiv.org/abs/2405.01481
生成階段使用vLLM實現,訓練階段則使用Megatron-LM。
訓練和推理階段共用同一批GPU,在同一裝置上完成。

整個訓練過程中,他們共使用了72個節點,每個節點配備8張H100 GPU。
生成階段採用FP8精度,訓練階段採用BF16精度,最佳化器狀態使用FP32。
每個階段維護一份獨立的模型權重,並在每一步開始時進行同步。

強化學習:超越R1推理能力的關鍵
監督微調(SFT)可以讓模型從強大的教師模型中提煉知識,從而獲得出色的能力。
然而,知識蒸餾本質上為學生模型的效能設定了上限,特別是當學生模型的基礎模型能力不超過教師模型時。
透過監督微調,LN-Ultra的效能可以接近DeepSeek-R1,但無法超越它。
為了使學生模型超越教師模型,大規模強化學習(RL)是一種可行的方法,因為它允許模型持續探索新的可能性並進行自我學習。
由於資源限制,研究者僅對LN-Ultra應用推理RL,結果得到超越教師模型的學生模型。

在整個推理強化學習訓練過程中,在GPQA-Diamond資料集上,LN-Ultra的準確性

訓練流程
對於LN-Ultra,研究者透過大規模強化學習(RL)增強它的科學推理能力,採用DeepSeek-R1同款的分組相對策略最佳化(GRPO)演算法。
整個訓練過程大約需要14萬H100小時,持續訓練模型直至其在推理任務上實現收斂。
圖5顯示了訓練過程中GPQA-Diamond的準確率得分。
獎勵機制設計包含兩類:
-
準確性獎勵:基於標準答案(數值/句子/段落),呼叫Llama-3.3-70B-Instruct模型判斷預測結果匹配度
-
格式獎勵:遵循DeepSeek-AI的方案,強制模型在「詳細思考」模式下用
<think>
標籤包裹推理過程,非該模式時禁止出現此類標籤
研究團隊還對資料進行預處理,包括資料過濾和課程訓練(curriculum training)。
-
資料篩選:預先使用LN-Super對每個問題生成8條響應,剔除透過率≥75%的簡單樣本
-
課程訓練:採用基於透過率的漸進式批次分配(圖6驗證其有效性)
-
動態分佈:以高斯函式建模批次難度,初期側重高透過率(簡單)樣本,後期轉向低透過率(困難)樣本
-
填充邏輯:優先按目標分佈分配樣本,剩餘容量從最大剩餘樣本池補充
-
批內處理:同批次樣本隨機打亂以保持多樣性


用於偏好最佳化的強化學習
在完成科學推理訓練之後,研究者對LN-Super和LN-Ultra模型進行了一個簡短的強化學習階段,重點提升其指令跟隨能力。
研究者還使用RLHF對模型的通用幫助能力和聊天表現進行最佳化,同時保留了模型在數學、科學等其他領域的能力。
如表4所示,LN-Super在Arena Hard測試中取得了88.3的高分,超越了專有模型如Claude 3.5 Sonnet和GPT-4o-2024-05-13,也優於體量更大的開源模型。
為了實現這一結果,他們採用了「線上RPO」(OnLine Reward-Policy Optimization)方法,最大化模型在HelpSteer2資料集上的預測獎勵,獎勵模型使用的是Llama-3.1-Nemotron-70B-Reward。
兩輪線上RPO訓練將Arena Hard得分從69.1提升到88.1。
對於LN-Ultra,他們使用類似流程,但採用了GRPO。
對於LN-Nano,他們進行了兩輪離線RPO訓練,使用基於策略生成的訓練資料。
在第一輪中,結合推理類和非推理類資料,並配合適當的系統提示詞,以最佳化模型的推理控制能力。第二輪則專注於提升指令跟隨能力。

評估結果
研究者在兩個基準類別上評估所有Llama-Nemotron模型的效能:推理任務和非推理任務。
推理類基準包括:AIME24和AIME25、GPQA-Diamond、LiveCodeBench以及MATH500。
非推理類基準包括:用於指令遵循評估的IFEval、用於函式呼叫工具使用評估的BFCL V2 Live以及用於評估對人類對話偏好對齊度的Arena-Hard。
表3顯示,儘管模型體積較小,LN-Nano在所有推理類基準測試中都取得了出色的表現。
這表明,監督微調流程和精心策劃的推理資料集,在將結構化推理能力遷移至小型模型方面是有效的。

表4將LN-Super與其引數規模相近的其他模型進行了對比,可見這個模型在推理任務和非推理任務中都表現出強勁的競爭力。
在「推理關閉」模式下,LN-Super的表現與其蒸餾來源模型Llama-3.3-70B相當;在「推理開啟」模式下,則超越了其他競品模型,例如DeepSeek-R1-Distilled-Llama-70B,在保持良好指令遵循能力的同時展現出強大的推理能力。
這些結果表明,LN-Super是一個兼具推理最佳化模型和非推理模型優點的通用模型,適用於日常助手型任務和結構化推理任務。

表5顯示,LN-Ultra 在推理和非推理基準測試中,與所有現有的開源權重模型相比表現持平或更優。它在GPQA上達到了開源模型中的最先進水平,充分證明了英偉達研究者大規模強化學習訓練方法的有效性。
與DeepSeek-R1需要使用8×H200的硬體配置不同,LN-Ultra專門最佳化為可在單個8×H100節點上高效執行,從而提供更高的推理吞吐量和部署效率。
從表5可見,LN-Ultra的SFT階段已經在多個推理基準測試(包括GPQA和AIME)上接近或達到DeepSeek-R1的效能。

除了模型原本接受訓練的推理和對話能力之外,他們還對模型在一個分佈外任務。
具體來說,模型在JudgeBench資料集上進行了測試,要求區分高質量與低質量的回答。
如表6所示,新模型在該任務上表現優於當前頂尖的專有模型和開源模型。
其中,LN-Ultra成為表現最好的開源模型,明顯超過了 DeepSeek-R1,僅次於專有模型 o3-mini(high)。
此外,LN-Super 的表現也超過了o1-mini,這說明新模型在各類任務中具備很強的泛化能力。

參考資料:
https://arxiv.org/abs/2505.00949
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
