英偉達全新開源模型:三倍吞吐、單卡可跑,還拿下推理SOTA

henry 發自 凹非寺量子位 | 公眾號 QbitAI
眾所周知,老黃不僅賣鏟子(GPU),還自己下場開礦(造模型)。
英偉達最新推出的Llama Nemotron Super v1.5開源模型就專為複雜推理和agnet任務量身打造。
模型在科學、數學、程式設計及agent任務中實現SOTA表現的同時,還將吞吐量提升至前代的3倍,且可在單卡高效執行,實現更準、更快、更輕的“既要又要還要”。
這是怎麼做到的?

模型介紹

Llama Nemotron Super v1.5是Llama-3.3-Nemotron-Super-49B-V1.5的簡稱。它是Llama-3.3-Nemotron-Super-49B-V1的升級版本(該模型是Meta的Llama-3.3-70B-Instruct的衍生模型),專為複雜推理和智慧體任務設計。

模型架構

Llama Nemotron Super v1.5採用神經架構搜尋(Neural Architecture Search,NAS),使該模型在準確率和效率之間實現了良好的平衡,將吞吐量的提升有效轉化為更低的執行成本。
(注:NAS的目標是透過搜尋演算法從大量的可能架構中找到最優的神經網路結構,利用自動化方法替代人工設計神經網路架構,從而提高模型的效能和效率。)
在Llama Nemotron Super v1.5中,NAS演算法生成了非標準、非重複的網路模組(blocks)。相較於傳統的Transformer,其包含以下兩類變化:
  • 跳過注意力機制(Skip attention):在某些模組中,直接跳過了注意力層,或者只用一個線性層來代替。
  • 可變前饋網路(Variable FFN):在前饋網路(Feedforward Network)中,不同模組採用了不同的擴充套件/壓縮比。
由此,模型透過跳過attention或改變FFN寬度以減少FLOPs,從而在資源受限時更高效地執行模型。
之後,研究團隊還對原始的Llama模型(Llama 3.3 70B Instruct)進行了逐模組的蒸餾(block-wise distillation),透過對每個模組構造多個變體,並在所有模組結構中搜索組合,從而構建一個模型。
使它既能滿足在單個H100 80GB顯示卡上的吞吐量和記憶體要求,又儘量減少效能損失。

訓練與資料集

模型首先在FineWeb、Buzz-V1.2 和 Dolma三個資料集共400億個token的訓練資料上進行了知識蒸餾(knowledge distillation,KD),重點關注英語單輪和多輪聊天。
在後訓練階段,模型透過結合監督微調(SFT)和強化學習(RL)的方法,以進一步提升模型在程式碼、數學、推理和指令遵循等關鍵任務上的表現。
這些資料既包括來自公開語料庫的題目,也包含人工合成的問答樣本,其中部分題目配有開啟和關閉推理的答案,旨在增強模型對推理模式的辨別能力。
英偉達表示資料集將在未來幾周內釋出。
總的來說,Llama Nemotron Super V1.5是一個透過NAS自動最佳化架構、精簡計算圖的 Llama 3.3 70B Instruct變體。它針對單卡執行場景做了結構簡化、知識蒸餾訓練與後訓練,兼顧高準確性、高吞吐量與低資源佔用,特別適合英語對話類任務及程式設計任務的部署。
此外,在部署方面,英偉達延續了其一貫的生態優勢:
我們的AI模型專為在 NVIDIA GPU 加速系統上執行而設計和/或最佳化。透過充分利用 NVIDIA 的硬體(如 GPU 核心)和軟體框架(如 CUDA 庫),相比僅依賴 CPU 的方案,模型在訓練和推理階段實現了顯著的速度提升。
該模型現已開源。開發者可以在build.nvidia.com體驗Llama Nemotron Super v1.5或直接從Hugging Face下載模型。

One more thing

作為英偉達最新發布的開源大語言模型,Llama Nemotron Super v1.5隸屬於英偉達Nemotron生態,該生態集成了大語言模型、訓練與推理框架、最佳化工具和企業級部署方案,旨在實現高效能、可控性強、易於擴充套件的生成式 AI 應用開發。
為滿足不同場景需求與使用者定位,英偉達在此生態的基礎上推出了三個不同定位的大語言模型系列——Nano、Super和Ultra。
其中,Nano系列針對成本效益和邊緣部署,適合部署在邊緣裝置(如移動端、機器人、IoT裝置等)或成本敏感型場景(比如本地執行、離線場景、商業小模型推理)。
Super系列則針對單個GPU上平衡的精度和計算效率,它可以在一張高效能 GPU(如 H100) 上執行,不需要多卡或大型叢集。它的精度比Nano高,但比Ultra小巧,適合企業開發者或中型部署。我們上面提到的Llama Nemotron Super v1.5就屬於這一系列。
Ultra則致力於資料中心的最大精度,專為在資料中心、超算叢集、多張 GPU上執行而設計,面向複雜推理、大規模生成、高保真對話等對精度要求極高的任務。
目前,Nemotron已獲得SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte 等企業支援或整合使用,用於構建面向企業級流程自動化和複雜問題解決的AI智慧體平臺。
此外,在Amazon Bedrock Marketplace中也能透過NVIDIA NIM微服務呼叫Nemotron模型,簡化部署流程,支援雲端、混合架構等多種運營方案。
參考連結[1]https://www.marktechpost.com/2025/07/27/nvidia-ai-dev-team-releases-llama-nemotron-super-v1-5-setting-new-standards-in-reasoning-and-agentic-ai/[2]https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/[3]https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5[4]https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
量子位「AI 100」產品榜單啟動招募!
快來提名你心目裡的百強產品~

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章