與物理世界互動的 AI 大模型技術發展加快。

作者丨鄭佳美

編輯丨陳彩嫻

英偉達 GTC 大會熱度飆升。繼黃仁勳在英偉達大會上釋出基礎世界模型 Cosmos 引發業內討論後，英偉達團隊近日又釋出了一個新的物理世界大模型：Cosmos-Reason1。

作為 Cosmos 系列的一個大模型，顧名思義，Cosmos-Reason1 更強調模型的“Reason”（即“推理”）能力。這是繼 DeepSeek R1 採用純強化學習方法替代 SFT 之後，思考推理模型在物理世界中的進一步探索；且據論文介紹，其取得了不錯的成果。

論文地址：https://arxiv.org/abs/2503.15558

與 DeepSeek 跑在雲端不同，Cosmos-Reason1 致力於解決的是人工智慧系統與物理世界互動的問題——這要求跑在物理世界中的 AI 大模型要同時具備感知、理解與執行復雜動作的三個基本能力，即當前具身智慧領域主流的研究熱詞“VLA”，或“具身大腦”。

根據論文介紹，Cosmos-Reason1 可以理解物理世界，並透過長思維鏈（Long CoT）的推理過程在自然語言中生成適當的行為決策。在這個思路上，英偉達的研究團隊開發兩個多模態大模型，分別是 80 億引數的 Cosmos-Reason1-8B 和 560 億引數的 Cosmos-Reason1-56B。

他們分四個階段來進行資料收集與模型訓練，分別是：視覺預訓練、通用 SFT、物理 AI SFT、以及物理 AI 強化學習後訓練。為了評估模型效果，他們分別在物理常識與具身推理兩個方向上制定了 Benchmark，並取得了不錯的表現。

Cosmos-Reason1 技術路線圖概覽

當前 Cosmos-Reason1 已開源，具身智慧先鋒研究者宋舒然等人也參與其中。

物理世界的 AGI 有何不同？

業內一直有觀點認為，AGI 的發展會天然地分為雲端 AGI 與端側 AGI，物理世界中的 AGI 即屬於後者。

但相比雲端 AGI 模型（如 DeepSeek R1 等），能夠與物理世界進行有效互動的 AGI 卻突破緩慢，因其難度更大，不僅要具備雲端 AGI 的理解、推理能力，還需要感知、決策。即使是推理環節，雲端大模型的訓練主要基於網際網路上的大量文字資料，也難以遷移到與物理世界的互動知識中。

物理世界中的 AGI 需要具備什麼能力？

英偉達團隊認為，與設計擅長解決編碼和數學問題的大模型不同，物理世界的大模型應該具備物理世界常識與基於物理世界的具體推理能力。這包含兩方面：

一是物理常識應分為三個主要類別：空間、時間和基礎物理，同時這三個類別又會被進一步劃分為 16 個細粒度的子類別。這關乎到物理世界如何在物理定律下執行，以及 AI 如何與物理世界進行互動；

圖注：物理常識的 16 個子類別，空間包含關係、合理性、可供性與環境；時間包含規劃、相機、因果、指令、行為；基礎物理包括反重力、熱力學、電磁、機械學、客體永恆性、狀態、屬性。

二是他們認為，要為具身推理引入一個二維的知識體系，其包含跨越 5 類具身智慧體的 4 種關鍵推理能力。這樣有助於 AI 智慧體在物理世界中的理解與規劃。

具體而言，具身推理需要具備以下能力：

處理複雜的感官輸入。與處理清晰資料表示的符號推理不同，具身推理必須從原始的、往往不完整且模糊的感官輸入中提取有意義的模式。
預測行動效果。行動會產生物理後果，有效的推理需要直觀地掌握因果關係。AI 系統必須預測一個物體對力會有怎樣的反應，一個機器人的身體將如何與周圍環境相互作用，或者一輛車輛的移動將如何受到地形和物理規律的影響。
遵循物理約束。與通常涉及最佳化離散選擇的抽象問題解決不同，具身推理必須考慮現實世界的物理因素，如慣性、摩擦力和材料屬性。它要求 AI 生成在物理約束條件下可行的長期行動規劃，以確保執行過程中的穩定性、效率和安全性。
從互動中學習。在物理 AI 中，行動不是孤立發生的；每一個動作或決策都會影響環境併產生反饋。具身推理必須基於這些互動不斷更新其理解，使系統能夠動態地改進其行為。

在這個過程中，Cosmos-Reason1 的目標之一是使多模態大模型生成更多符合物理世界要求的反應。在視覺世界中，模型對世界的理解會被表示為影片形式，然後透過影片輸入感知、理解與推理物理世界，再用自然語言將模型的反應表達出來。他們採用的是純解碼的多模態大模型架構，以及混合的 Mamba-MLP-Transformer 架構。

值得注意的是，Transformer 架構此前一直被詬病雖然擅長長序列表達、但無法高效實現空間理解，而 Mamba 架構是典型的非 Transformer 架構，英偉達團隊採用 Mamba 混合或許就是為了中和 Transformer 在物理世界大模型中的短板。

他們使用張量並行度為 4 來訓練 Cosmos-Reason1-8B 模型，而 Cosmos-Reason1-56B 模型則使用張量並行度為 8 和流水線並行度為 2來進行訓練，以支援更長的影片訓練。