對話階躍星辰創始人：2年發16款多模態模型，實現AGI的必經之路

姜大昕詳解階躍星辰多模態佈局。

作者 | 陳駿達

編輯 | 程茜

智東西5月8日報道，在2年內釋出16款多模態大模型之後，業內已將階躍星辰稱之為“多模態卷王”。今天，階躍星辰創始人兼CEO姜大昕向智東西等媒體揭秘了他背後的思考。姜大昕認為，“追求智慧的上限”依舊是現階段AI業內的重點，而多模態正是實現AGI的必經之路。

▲階躍星辰創始人兼CEO姜大昕

在姜大昕看來，無論是從AGI的定義還是AI應用的實際需求而言，多模態能力都是至關重要的。AI在視覺智慧、空間智慧、運動智慧等任何一個方向出現短板，都有可能延緩AGI實現。

在一個多模態模型內融合理解與生成能力，即多模態理解生成一體化，是姜大昕眼中多模態模型能力提升並實現GPT-4級別的類人智慧的關鍵。不過，多模態理解生成一體化架構仍處於探索期，尚未出現像語言模型界Transformer一樣的可拓展（Scalable）架構。

在AI應用領域，階躍星辰更多地將其模型提供給其他應用開發者。姜大昕認為，模型效能的突破會早於商業化。

此外，姜大昕還圍繞著AI技術演進路線、AGI必備要素、多模態模型技術路徑和AI應用等話題進行了介紹。

01.

多模態是AGI必經之路，

階躍密集釋出多項成果

姜大昕稱，當下，AI技術正沿著模擬世界、探索世界、歸納世界的路徑演進。

模仿學習階段，模型主要從海量資料中學習多種模態的表徵，核心問題是如何用深度神經網路統一表達多種模態。

探索世界階段，模型需要具備複雜問題求解能力和慢思考能力。這兩大能力可以透過強化學習技術獲得，前生成式AI時代的AlphaGo、生成式AI時代的OpenAI o1等都是運用了這一技術。在姜大昕看來，DeepSeek-R1將推理模型由“趨勢”轉變為了“正規化”，業內大部分廠商都開始推出類似的模型。

歸納世界階段，模型逐漸具備自主學習能力，能發現客觀世界的規律，在AI for Science領域發揮重要作用。

階躍星辰一直認為，多模態是實現AGI的必經之路。從定義上來看，AGI對標的是人類智慧，除了需要具備語言模態對應的符號智慧，還需具備視覺智慧、空間智慧、運動智慧，任何一個方向出現短板，都會延緩AGI的實現。

從應用角度看，多模態同樣必不可少。智慧系統只有具備聽、看、說等能力後，才能理解使用者環境，和使用者自然互動。

正是基於上述原因，階躍星辰格外重視多模態模型，幾乎以每個月釋出一款基礎大模型的速度進行迭代。日前，階躍星辰聯合Ace Studio開源Ace-Step音樂大模型，引數量僅有3.5B，支援19種語言，最快可在15秒內生成一首歌曲。

近日，階躍星辰還發布了Step-R1-V-Mini多模推理模型，具備高精度感知能力。現場演示影片中，這款模型可以結合照片中的文字、影像資訊，綜合推理，並正確判斷出照片所對應的場館。這款模型已運用至門店巡檢、短劇稽核等生產場景。

02.

視覺領域的GPT-4時刻尚未到來，

押注多模態理解生成一體化

談及未來AI研究的發展趨勢，姜大昕著重分享了多模態理解生成一體化這條技術路徑。

多模態理解生成一體化指的是在同一模型內完成理解與生成任務，這項技術已在語言層面實現。如今的大語言模型既能完成總結、問答等理解型任務，也可以完成撰寫文章等生成性任務。

在多模態領域，由於圖片、影片等模態的複雜度極高，理解生成一體化難題還有待突破，這也導致現有多模態模型在實際應用場景中存在一些侷限性。

例如，在生成一段“教師撰寫板書”的影片時，現有多模態模型已經有能力生成畫面中手的姿勢、粉筆書寫的痕跡，但如果要根據現有畫面內容預測下一步應該書寫什麼內容，就需要整合理解能力。

姜大昕稱：“生成需要理解控制，理解需要生成監督。”也就是說，為了確保生成的內容是有意義的，模型需要對上下文有更好的理解能力；而只有當模型能夠生成內容時，才意味著模型真正理解了上下文。

目前，在多模態理解生成一體化方向，尚未出現可拓展的模型架構。姜大昕認為，對多模態模型而言，逼近人類智慧的“GPT-4”時刻尚未到來，對應大語言模型的發展階段，多模態模型仍處於“前Transformer”時期。

在多模態理解生成一體化架構探索結束後，多模態模型還需走過多個階段：利用海量圖片和影片進行預訓練和指令遵循能力培養、提升視覺時空推理能力、融合3D能力等，最終形成世界模型。姜大昕認為，現在AGI的路線已愈發清晰，如果走到世界模型階段，“我眼中的AGI就實現了”。

姜大昕透露，階躍星辰內部現在有多個團隊在探索多模態理解生成一體化的架構。同時，在這一方向他們已有了最新的成果——開源Step1X-Edit影像編輯模型，這款模型已經初步具備了一定的理解生成一體化能力，階躍星辰也會在未來幾個月內釋出能力更強的影像編輯模型。

03.

超級模型+超級應用雙輪驅動，

模型效能突破早於商業化

階躍星辰一直堅持超級模型+超級應用雙輪驅動的策略，在應用層，2025年最熱的概念就是Agent。姜大昕認為，2025年Agent爆發有兩大必要條件。

首先，多模態能力使Agent能感知環境（視覺、語音等），理解任務上下文。其次，慢思考（深度推理）能力使模型能處理複雜任務，分步驟進行分析與決策。

Agent能力的爆發使階躍星辰看到了智慧終端Agent的潛力，這也是該公司在應用側的重要發力方向。談及這一決策，姜大昕稱，終端是使用者感知的延伸，諸如手機、AI眼鏡、耳機等裝置天然收集環境資料，可幫助Agent理解使用者需求。同時，智慧終端也具備幫助使用者完成特定任務的行動能力。

目前，階躍星辰在智慧終端Agent的落地場景包括手機、汽車與機器人等。在OPPO手機上的“一鍵問屏”功能就使用了階躍星辰的多模態模型；吉利的智慧座艙中則使用了階躍星辰的端到端語音互動技術。

階躍星辰還與智元機器人等展開合作，階躍星辰的多模態大模型相當於機器人的“大腦”，結合具身領域負責動作的“小腦”，實現從感知、理解、規劃任務到控制運動。

在其它AI應用領域，階躍星辰將基礎大模型能力提供給其它各垂類應用開發者。姜大昕認為，模型效能的突破會早於商業化，只有模型效能突破，才能催生具有潛力的應用場景。

04.

結語：堅持基礎模型研發，

多模態成差異化優勢

作為國內較早佈局多模態方向的大模型創企，多模態模型佔階躍星辰模型釋出總量的70%以上。

姜大昕稱，未來，階躍星辰將堅持基礎大模型的研發，追求AGI這一初心不會改變。在當前的基礎大模型格局中，階躍星辰將多模態作為其差異化優勢，積極探索多模態理解與生成一體化這一前沿方向，也相信該領域存在著巨大的機會。

（本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容，未經賬號授權，禁止隨意轉載。）

dignews.cc

對話階躍星辰創始人：2年發16款多模態模型，實現AGI的必經之路

相關文章

最低調「六小虎」階躍星辰開年首秀：Agent落地智慧終端，印奇也來了

對話階躍星辰姜大昕：我們就是“多模態卷王”，這便是階躍衝擊AGI的方式

階躍Agent生態首曝光：手機汽車IoT機器人全覆蓋，千行百業唰唰落地

1/30訓練步驟復刻DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型RL訓練方法

前腳開源最強多模態，後腳曬頂流朋友圈，階躍星辰為大模型應用下了一盤大棋

基座大模型「六進二」：南階躍，北智譜

最大引數300億！階躍星辰與吉利聯合開源兩款多模態大模型

系列|2025IEEEFellow學術大盤點（二）

宇樹科技攜兩款機器人亮相2025GDC｜首席資訊日報

超越GPT-4o和Gemini-1.5，階躍星辰拿下中國大模型第一