階躍星辰再拿多模態榜首,全方位升級釋出六款模型

由月更加速到日更,階躍模型迭代駛入「快車道」。
作者丨朱可軒
編輯丨陳彩嫻
春節將近,各家廠商似乎都在爭取休假前的最後一博,此時步入 2025 年也才半月有餘,大模型玩家們已然捲上了新高度。
先是 OpenAI 打響了開年第一“槍”,ChatGPT 上線了新功能“Tasks”,主打提升了任務執行能力,之後國內一眾廠商也先後釋出了自家成果——
月之暗面釋出了全新的多模態圖片理解模型 moonshot-v1-vision-preview;MiniMax 開源了基礎語言模型 MiniMax-Text-01 和視覺多模態模型 MiniMax-VL-01;生數科技上新了影片大模型 Vidu 2.0;
接著,智譜 AI 推出了端到端多模態大模型 GLM-Realtime;面壁智慧帶來了端側多模態模型 MiniCPM-o 2.6;DeepSeek 開源了 DeepSeek-R1 推理模型……
剛開年,模型更新便多到讓人眼花繚亂,當中也不難發現,多模態、推理和端側依舊是今年各家尋求突破的重點方向。
不得不提的是,在這一各廠商密集上新的“黃金節點”,AI 科技評論關注到,階躍星辰一週內竟一口氣批次更新了 6 款模型,全方位涵蓋語言、語音、推理、圖片理解、影片生成等多類別。
階躍的更新速度在國內大模型廠商中可以說是非常少見,自 1 月 16 日開始,撇開週末雙休,階躍這波幾乎一天一更,主打保質超量完成任務。
最為值得一提的是,多模態領域其實一直都是階躍的舒適區,其去年就已經發布了 8 款相關模型,且在多個業內權威榜單中拿下國內第一。
在此次模型上新中,階躍也繼續帶來了多模態基座模型的新成果——多模態 Step-1o 系列推出多模態理解模型 Step-1o vision、語音模型 Steo-1o Audio 升級,影片生成模型 Step-Video 升級至 V2 版。
值得關注的是,階躍在多模態推理也已開始嶄露頭角,其正式釋出了Step 系列的首款推理模型 Step Reasoner mini (簡稱“Step R-mini”),同時,正在推進視覺推理模型的研發,嘗試將推理能力融入更多互動形態的大模型中。
除多模態外,階躍的語言模型能力也不可小覷,文字創作一直是階躍旗下模型的一大優勢所在,此次階躍也同期釋出了小模型 Step R-mini 和 Step-2 文學大師版,繼續強化 Step-2 模型的創作能力。
2025 年的模型之戰已然打響,而階躍在開年便已火力全開,在多模態方面更是呈現出“卷王”之姿,迅速與其他廠商拉開了差距。
1
多模態「卷」王之王
多模態是階躍一直以來在持續發力的重點方向,也是階躍的優勢所在,去年成立以來,階躍便已在多模態領域推出了 8 款大模型:
包括 Step-1V、Step-1.5V 兩款多模態大模型;Step-1X 影像生成大模型;Step-1.5v-turbo 影片理解模型和 Step-Video 影片生成模型;三款語音大模型——Step-tts-mini 語音復刻和生成大模型、Step-asr 語音識別大模型和 Step-1o Audio 語音大模型。
近日,階躍更新了多模態 Step-1o 系列成果,值得一提的是,Step-1o 也在國內權威的大型模型評估平臺“司南”(OpenCompass)多模態模型評測即時榜單中拿下了第一:
說回新成果,首先,階躍在 Step-1o Audio 的基礎上帶來了升級,這款國內首個千億引數端到端語音大模型距離首發剛過去一個多月,階躍便又迅速迭代了新版本,較之上一版實現了更低延遲,聲音也更為自然。
在通話過程中,Step-1o Audio 升級版不僅能感知理解情緒,還能結合語境,深度理解情感需求,提供最佳回應:
在向其吐槽生活中瑣碎的事情如“開了一天車感覺很累”,她能在誇獎我們“真能幹”的同時給出諸如“喝口水、吃點東西補充能量”的建議,再如圍繞“最近接單很多,感覺腰很痠痛”這一問題,她也能一邊感嘆生意紅火,一邊建議我們要注意身體,記得去醫院看看,人情味滿滿。
此外,升級版也已支援多語種和多方言的對話,並能在中英交流中達到“同傳”。
不止是語音,視覺方向也一併實現了煥新升級。
階躍同期推出了 Step-1o Vision 多模態模型,作為 Step-1o 的視覺版本,與 Step-1V 和 Step-1.5V 兩款更早版本的視覺理解模型相比,實現了模型架構升級,並在在視覺識別、感知、指令跟隨、推理等任務上實現大幅提升,擁有了更強的視覺效能。
此前,在 LMSYS Org 釋出的大模型競技場 Chatbot Arena 榜單中,Step-1V 便已位列視覺領域國內大模型第一,總分同 Gemini-1.5-Flash-8B-Exp-0827 持平。
這次升級版的 Step-1o Vision 又一戰成名,剛剛釋出便在 1 月 20 日 LMSYS Org 最新榜單中,拿下了國內視覺領域大模型第一,超過所有國內大模型廠商,保持住了在多模態領域的領先地位。
LMSYS Org 網址:https://lmarena.ai/
據階躍官方介紹,Step-1o Vision 能夠更準確地識別影像內容,不管是複雜場景還是相似圖片都能輕鬆識別,甚至能精確識別圖中的多種語言。
此外,Step-1o Vision 不僅能看懂圖片,還能根據圖片內容進行推理、輔助答題、激發靈感:
上下滑動檢視長圖
同 Step-1.5v 相比,Step-1o Vision 所關注到的細節也更多:
圖源階躍星辰
值得一提的是,在推理模型的研發上,階躍也正在融入其所擅長的多模態,多模態推理在此次上新中嶄露頭角,其重磅推出了 Step 系列首款推理模型 Step R-mini,這同時也意味著階躍成為目前基座模型最全的公司之一。
根據階躍方面資料顯示,Step R-mini 不僅在 AIME 和 Math 等數學基準測試上,成績超過了 o1-preview,比肩 OpenAI o1-mini,在 LiveCodeBench 程式碼任務上,也比 o1-preview 效果更佳。
從具體效果上來看,Step R-mini 既擅長主動進行規劃、嘗試和反思,又能透過慢思考和反覆驗證的邏輯機制提供準確可靠的回覆。
同時,其最鮮明的亮點在於,已經透過大規模強化學習訓練,並使用 On-Policy(同策略)強化學習演算法,實現了“文理兼修”,既擅長透過超長推理能力,解決邏輯推理、程式碼和數學等複雜問題,也能兼顧文學創作等通用領域。
在實際應用中,只會做數理題的模型其實是很難實現推廣落地的,而只有做到“文理雙修”,模型才能在具備較強推理邏輯能力和數理能力的同時,擁有更通用任務的解決能力,如此進一步提升可用性。
語言推理模型外,階躍也在推進視覺推理模型的研發。
其試圖將推理能力融入更多互動形態的大模型中,針對複雜視覺場景下的 Reasoning 問題,引入慢感知和空間推理的思想,把 Test-Time Scaling 從文字空間轉移到視覺空間,實現在視覺空間下的 Spatial-Slow-Thinking。據 AI 科技評論瞭解,這一模型的正式版本將在今年上線。
除了前所述三款模型,階躍此番針對 Step-Video 影片生成模型也進行了升級,推出 Step-Video V2 版本。
Step-Video 是階躍在去年 11 月上新的模型,此次釋出的V2版本在複雜運動、美感、簡單文字生成、中英雙語輸入和鏡頭語言方面具備更強的生成能力。
AI 科技評論也對此進行了一波實測——
我們發現,在輸入“小男孩變身毒液”後,Step-Video V2 能自動一鍵潤色出細節更豐富的內容,並補充暗色調、模糊背景等環境描寫,自然將這部分融入影片場景中:
同時,對於鏡頭語言也進行了增添,自動幫我們決定了以“特寫鏡頭”展現,有效提升了影片的敘事能力。此外,畫面中的小男孩形象逼真,一整套變身過程也非常流暢、自然。
此外,Step-Video V2 也支援中英雙語輸入,在進行復雜運動展現這方面也能輕鬆駕馭:
Prompt: A skeleton wearing a flower hat and sunglasses dances in the wild at sunset.
值得一提的是,生成內容的美感也是階躍一直在聚焦突破的方向,這一點從其前面推出的 Step-2 文學大師版也同樣能窺見,而 AI 生成影片的美學素養也是很多現有模型還無法兼具的,對此,我們也在躍問影片中進行測試:
以中華傳統文化的展現為例,我們向躍問輸入了“身著傳統服飾、打著傘的女子”“燈籠背景”的提示詞,其能自動潤色出“穿著一襲紅色的旗袍,上面繡著精緻的花紋,手持一把紙傘,傘面是白色的,上面繪有水墨畫,與她的服飾相得益彰。”這些帶有中國風特色元素的內容。
所生成的影片整個畫面色彩很協調,當中融入了中國紅作為主色調,背景的燈籠也並非死板的單一色彩,並能隱約看到佈景中的水墨畫,此外,對於提示詞中提到的“帶有精緻花紋的紅旗袍”“印有水墨畫的傘”這些細節也能夠覆蓋還原到:
2
「文學素養」領先行業
多模態模型儼然成為階躍的拿手好戲,但其自研的語言模型實力也同樣不容忽視。
去年 3 月,成立之初的階躍釋出萬億引數語言大模型 Step-2 一鳴驚人。而 Step-2 作為國內首個由創業公司釋出的萬億引數大模型,直觀體現了 Scaling Law 定律的紅利。
在階躍看來,對於語言模型而言,Scaling Law 是重中之重,而模型容量、訓練資料量是模型語言、文字功底的基石,模型小、預訓練資料量小無法實現智慧湧現,亦無法把握文字。
Step-2 也曾多次在 LiveBench 等國際權威榜單上位列國產大模型第一。
去年11月,在 LiveBench 的多項測評標準中,Step-2 在 IF Average(指令跟隨)的表現上以 86.57 的分數排在第一,超越包括 o1-preview-2024-09-12 在內的所有國內外語言大模型。
這一指標主要衡量模型對語言生成細節的控制力,而這點在文字創作上的表現尤為顯著。在生成高質量、有創意的文字內容的同時,Step-2 模型是能夠根據使用者的指令對文字進行精確調整和最佳化的。
此次,在 Step-2 的基礎上,階躍又帶來了價效比和商用性更高的 Step-2mini 語言模型和精於創作的 Step-2 文學大師版。
據階躍官方介紹,和萬億引數大模型 Step-2 相比較,Step-2mini 以 3% 左右的引數量保有了其 80% 以上的模型效能。
同時,Step-2mini 還擁有更快的生成速度和極高的價效比——在輸入4000tokens的情況下,Step-2mini 的平均首字時延僅 0.17 秒,輸入 1 元/百萬 token;輸出 2 元/百萬 token。
從底層技術上來看,Step-2mini 採用了階躍和清華團隊在《Multi-matrix Factorization Attention》中提出,其自主研發的新型注意力機制架構——MFA(Multi-matrixFactorizationAttention,多矩陣分解注意力)及其變體 MFA-Key-Reuse。
論文連結:https://arxiv.org/abs/2412.19255
此前在 LLM 推理階段,傳統注意力機制存在著 KV 快取隨著批處理大小和序列長度線性增長的情況,這不僅使得記憶體佔用大,推理效率也並不高,常用的 MHA(Multi-HeadAttention,多頭注意力)也一直在嘗試解決這一問題,但其存在效能和資源消耗間的平衡難題。
MFA 則針對前述問題給出瞭解法,相比於 MHA 架構,MFA 節省了近 94% 的 KV 快取開銷,擁有更快的推理速度,並大幅降低了推理成本。換言之,MFA 在不增加額外工程複雜度的前提下,解決了大語言模型高效推理的視訊記憶體瓶頸問題。
Step-2 文學大師版則是階躍專為創作場景研發的語言模型,沿襲了 Step-2 廣袤的知識儲備以及對文字強大的細節把控能力,同時也有著更為強大的內容創作能力。
此前,用大模型輔助創作的內容就經常會被吐槽一眼 AI,創作出來的內容往往缺乏銳度和新意,沒有真情實感和對社會事件的描繪與思考,這本質上是模型過度對齊社會共識所致。
而好的內容創作模型則是需要充分理解使用者創作需求的,邏輯嚴密、語言凝練、言之有物、節奏緊湊,並且擁有深刻思想和和獨特風格,才是這類模型要達成的目標,Step-2 文學大師版的測試結果恰恰印證了這點:
例如,讓躍問以明朝為背景創作第一人稱懸疑小說,並融入《明書·太祖載記》的內容,帶有天災、地裂、克蘇魯等元素。其所創作出的內容確實有模有樣,所有關鍵詞無一遺漏,甚至對於天災、地裂的描述銜接也十分流暢,在克蘇魯這一怪物形象的塑造上也很生動。科幻小說其也同樣不在話下:
上下滑動檢視長圖
上下滑動檢視長圖
3
基模領域「六邊形戰士」
現如今,隨著基座大模型玩家洗牌,競爭已進入更加白熱化的下半場,一邊是對 AGI 理想的堅持,一邊是面對現實的妥協,部分廠商仍在摸索基座大模型的未來,另外一部分則在技術和產品間反覆橫跳,亦或是直接改變了方向。
階躍則一直屬於前者,從基座模型來看,階躍其實也是國內為數不多已形成從理解到生成、從文字、多模態到推理全系列模型矩陣,並堅持預訓練,繼續衝擊 AGI 的大模型創業公司之一。
自成立初起,階躍便一直堅持認為——多模理解和生成的統一是通往 AGI 的必經之路,而模型的演化必然會經歷單模->多模->世界模型三個階段。
其技術發展也是沿著“單模態—多模態—多模理解和生成的統一—世界模型—AGI(通用人工智慧)”這條路徑一步步走來的。
當前,階躍的多模態應用已經愈發廣泛,並被業內多數開發者所認可,持續領跑行業:
例如,網紅 AI 應用胃之書的開發者趙純想就曾表示,透過 AB 測試發現,階躍星辰的模型付費率最高,而 AI 心理療愈應用林間療愈室 CEO 李神龍也在接入階躍的多模態理解大模型後,實現了使用者付費率的提升。
而從整體上來看,無論是去年一月一更的 11 款基座大模型,還是今年一開年便加大攻勢推出的 6 款模型,在如此厚積薄發下,階躍的技術發展無疑已駛入快車道,而其低調務實的做派下也盡顯追逐 AGI 的野心。
如今的階躍星辰,無疑已經成為了基座模型領域的“六邊形戰士”。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。


相關文章