大模型下半場,階躍憑什麼領跑多模態之戰

圖為階躍AI生成
堅定理解生成一體化的多模態路線,發力智慧終端 Agent。
作者丨王悅
編輯丨陳彩嫻
DeepSeek “掀桌三個月後,國內大模型的競爭格局大致可劃分為三大陣營:
一是以大廠為代表的資源派,他們手握充足資本,能在基礎模型和落地應用上持續燒錢;二是以 DeepSeek 為代表的技術派,專注於基座模型的突破和投入,在推理、數理或多模態等單點技術上見長;三是以階躍星辰、智譜為代表的國家隊,獲得地方政府的大力支援,能夠潛心做技術積累以追求全面發展。
雖然 DeepSeek 有著明顯優勢,但三股力量都在基礎模型上發力同時又各有長處。而其中,多模態被視為 AGI 程序中的關鍵躍遷點,逐漸成為大模型下一階段競爭的分水嶺。現階段多模態能力突出的獨角獸公司屈指可數,有著多模態卷王稱號的階躍星辰作為一個重要玩家得到了很多關注。
成立年的時間以來,階躍星辰累計釋出了22款自研基座模型,覆蓋文字、語音、影像、影片、音樂、推理等全系列,其中 16 款都是多模態模型,佔比超 成。
外界有一種質疑,階躍平均每個月都發布一款新模型是卷王在衝 KPI,但剖析階躍的研發條線來看就會發現,答案是否定的。多模態的每個條線都是經過了幾個月或者半年的積累才迭代出一個新的產品,這種情況下如果同時看所有模態條線,自然就形成了一兩個月就出一個新成果的局面。
和其他不同的是,階躍從一開始就堅定地走理解生成一體化的路線,這也預判了當下 AI 發展從多模態融合到多模態理解生成一體化的趨勢並且提前做出動作。縱觀國內大模型公司,像階躍這樣重視模態的全覆蓋、並且堅持原生多模理念的公司並不多
階躍星辰創始人、CEO 姜大昕告訴 AI 科技評論,當下 AI 行業的技術趨勢處於非常陡峭的發展區間,追求智慧的上限仍然是一件很重要的事,階躍會繼續在基礎大模型上投入,不錯過這個機會。
1
多模態是下階段基模競爭的技術決勝點
和多位階躍星辰的核心成員交流過後,AI 科技評論發現,他們對多模態的堅信、重視和緊迫程度要高於其他的大模型公司。姜大昕認為,AGI 的終局不僅包括語言符號,還包括視覺、空間、運動智慧等,因此在多模態領域的任何一個方向出現短板,都會延緩實現 AGI 的程序。
Sora實現影片生成效果突破之後行業內視覺模型整體發展的絕對水平都較為有限,雖然各家在不同方面各有長處,然而均在 Sora 的大框架中,未曾迎來下一個發生質變的奇點時刻。
類比 NLP 的進化過程會發現,自然語言處理經歷了從不能規模化預訓練,到 Transformer 這一 Scalable 的文字理解生成一體化架構,再到GPT-3 實現大規模文字訓練和指令跟隨的過程。而在視覺領域,這一程序甚至尚未能實現第一步——視覺理解生成一體化架構。
姜大昕也坦言,知道 Sora 的 DiT 技術路線沒有按照預期中生成理解一體化路線時第一反應有些期待落空。但回頭一想也有道理,因為從多模態融合做到生成理解一體化,中間需要走的路著實很難。
多模態的複雜程度相較於語言來講要高得多。於文字而言,至多有十幾萬個 token,並且呈低維離散分佈的狀態,因此易於進行表達從而實現 next token prediction。於多模態而言,僅是一張1024×1024 的圖片就可以達到 100 萬維,且每個維度都是高維的連續空間,難以實現很好的表徵,從而無法實現 next frame prediction
如果跟隨自然語言的發展路徑,第一步要做的就是具備一個可以 scalable 的理解生成一體化的架構,之後才能實現 predict next frame 、完成指令跟隨,迎來真正的多模態大模型
而多模態大模型之所以關鍵,是因為人、機器與世界互動的形式是多模態的,Agent、具身智慧等一切進一步的人工智慧實現形式都需要以多模態能力為基礎。以智慧體為例,其即時的周圍感知就相當於長影片,最終的目標是理解世界、預測行為。
在理解生成一體化、統一表徵問題的基礎上,多模態大模型即可以利用海量影片資料做視覺預訓練,再泛化到理解生成的各個視覺任務中。隨後在視覺領域引入強化學習和推理能力,再增加時空推理、3D模型、自然語言的能力,從而建模物理世界的互動,訓練能預測行為的 VLA 模型,至此世界模型的雛形就清晰可見。如果能實現世界模型,我眼中的 AGI 就幾乎實現了。姜大昕告訴 AI 科技評論。
要突破影片生成模型侷限性,光靠在現有技術水平下繼續迭代是難以解決的必須在學習正規化上有所改變,理解和生成的一體化是其中繞不開的問題。而階躍星辰從一開始,就確定了理解生成一體化的路線,採用原生多模的方式,在多模態融合技術上跑通了一條路
當下,視覺領域的 GPT-4 時刻還遠遠未到來,但清晰可見的多模態能力將成為 AI 大模型下一階段基礎模型競爭技術決勝點。階躍星辰仍然按照模擬世界——探索世界——歸納世界的節奏進行技術積累,繼續提升基礎大模型的智慧上限和多模態能力。
2
階躍星辰的多模態競爭力解剖
行業內對階躍星辰的評價,一是低調,二是技術數一數二的強悍。反觀階躍星辰的技術發展路線,一直都能在火爆現象浮出水面之前,就踩在趨勢的前沿上。
半年多的時間以來,大模型技術上有兩個趨勢,一是強化學習的重要性越來越凸顯,從 o1 preview 將推理模型從趨勢變成正規化,到 DeepSeek 摒棄監督微調,都說明了推理能力正在開啟更大空間;二是從多模融合到多模理解生成一體化
而在強化學習和多模態這兩個條線,階躍星辰均早有佈局。在推理模型方面,今年1月份釋出的Step R-Mini速度快、能力強,預計未來三個月左右的時間將會推出滿血版推理模型Step R1;在多模態方面,堅持走理解和生成統一路線,搭建了覆蓋圖片、影片、語音多模態模型矩陣
階躍星辰之所以能對技術路線如此堅定清晰,與核心成員是密不可分的。他們親歷了過去十年 AI 發展的歷程,有著深刻的實戰經驗和技術洞察。
創始人、CEO 姜大昕出身於微軟亞洲研究院 NLP 組,近 20 年的研發經驗使他把握住了階躍基礎大模態矩陣的正確的方向;首席科學家張祥雨對多模態模型的技術架構頗有思考,參與著作的《用於影像識別的深度殘差學習》論文(ResNet)是 21 世紀以來全球被引用次數最多的論文;系統負責人朱亦博也是 AI 系統方向的頂級專家,曾任字節跳動任 AI Infra 負責人,從零開始建設國內最大規模的 AI Infra
除核心領軍人物之外,人才密度高也是階躍星辰的一大優勢,目前公司研發人員佔比 80% 以上,擁有多位計算機視覺和自然語言處理領域的頂尖研究員。
在過去一年左右的時間裡,階躍星辰持續領跑多模態領域,收割國內外多個權威榜單的第一名不僅是技術的沉澱,在超級模型加超級應用的雙輪驅動策略中,階躍也基於自身的基礎模型矩陣優勢,差異化地尋找合適的應用形態。
 Agent 需要的模態慢思考能力是階躍的長處所在。因此,階躍水到渠成地將智慧終端 Agent  視為大模型技術落地的核心突破點,最終形成一個從模型到 Agent,從雲側到端側的生態體系。
當下,汽車、手機、具身智慧、IoT 等關鍵應用場景是階躍突破的重點。面向手機終端,階躍星辰與OPPO等手機廠商推出了一鍵問屏一鍵全能搜功能;面向具身智慧,階躍星辰與智元機器人、原力靈機達成戰略合作,共同探索 AI+具身機器人應用場景。
除了技術應用,階躍星辰在商業化上也是實踐派。有開發者反饋,階躍多模態模型的使用者付費率最高。其中,頭部茶飲品牌茶百道全國數千家門店已經接入階躍星辰 Step-1V 多模態理解大模型,完成智慧巡檢、AIGC 營銷等工作
3
基模競爭中的關鍵一極
當前國內大模型的競爭已從百模大戰進入精耕細作階段,應用層的創新繞不過基礎模型的能力邊界,無論是複雜推理、長上下文理解,還是跨領域知識遷移,均依賴底層模型的智慧上限。
多模態能力是突破智慧上限的關鍵路徑——透過融合文字、影像、音訊等多維訊號,模型對世界的理解更接近人類認知正規化,也更靠近 AGI。隨著 AI 技術的進一步發展可以見得,多模態能力已從可選項必爭項。要想在下一輪競爭中取得優勢,多模態是一塊必爭之地。
身為多模態卷王的階躍星辰,憑藉清晰的技術路線和堅定的持續投入,已經積累了多模態方面的差異化優勢。多模態能力的提升也反哺了階躍的基礎大模型矩陣,在未來可見的具身智慧世界模型等前沿方向階躍也會近水樓臺先得月,成為基座大模型競爭中的關鍵一極。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
推薦閱讀

相關文章