六小虎「階躍星辰」瘋狂了!連發6款大模型,多模態霸榜第一

提一個冷知識。
在 2024 年年初的時候,中國的大模型獨角獸是五家——當時業內常把智譜、月之暗面、MiniMax、百川智慧、零一萬物這幾個備受資本方青睞的大模型初創企業稱為大模型五虎。
這事兒,在去年年中的時候,發生了變化。
2024 年 6 月,由前微軟全球副總裁姜大昕創辦的 AI 大模型公司「階躍星辰」,被曝出正在進行一輪估值 20 億美元的新融資。
大模型五小虎,從此變成了六小虎。
坊間提到階躍星辰時,還常伴隨著“低調”和“神秘”兩個詞。
自此之後,我也一直在關注這家公司的動態,因為我知道,長期低調之後必有大招。
果然,終於等到了!
不過,本以為臨近年底,要發一個重磅模型。
結果,我錯了,是六個——語言、語音、推理、影片生成、視覺理解全模態覆蓋
其中,階躍星辰在最擅長的多模態上繼續領跑國內。全新發布的 Step-1o 系列模型,拿下了國內外 LMSYS Org 和 OpenCompass 多模態 + 視覺雙榜中國 TOP1。階躍多模態的上一個版本 Step-1V 系列,就曾拿下 LMSYS Org 中國大模型第一,這次繼續霸榜。此外,階躍新推出的推理模型 Step R-mini 在視覺推理領域取得突破性進展。
名副其實的多模態卷王。

多模態 Step-1o 系列 :視覺 + 語音

多模態是階躍的傳統強項了,此前就霸榜了中國大模型第一,所以這次最大的看點便是 Step-1o 系列的全新發布和升級。
包括了一個視覺模型 Step-1o Vision 和一個語音模型 Step-1o Audio
要注意的是,這倆模型躍問 APP 裡已經能體驗了,Step-1o Vision 也可在躍問網頁端(https://yuewen.cn)呼叫。
Step-1o Vision 剛上線,在大模型競技場 Chatbot Arena 最新榜單上,便拿下視覺領域國產大模型第一。
而且,在國內權威的大型模型評估平臺“司南”(OpenCompass)多模態模型評測即時榜單中,也是第一。
據階躍官方說法,Step-1o Vision 相比於 step-1v 系列模型(上一代視覺模型),對模型架構進行了升級,視覺效能更強大,在視覺識別、感知、指令跟隨、推理等任務上都有大幅提升。
我比較懷疑,階躍在模型的文科能力上,做了一些普適性的訓練黑科技,因此在模型的行為上,能明顯感知到它在這方面的一些差異性。
眾所周知,無論國內還是國外的模型,其普遍對於網路梗圖的理解能力一般甚至 get 不到,因為這不只涉及要素理解,還要求模型要具備相當的背景知識和關聯。
但我發現,對於下面這種梗圖,Step-1o Vision 竟然都做到了準確理解——
下面這道圖形題就更有意思了——
哈?躍問說 C 選項的牛少了一隻牛角,這也太細節了,我看了三次都沒發現。
這是我第一次在視覺問題上輸給 AI。
Step-1o Audio 是 1o 家族的首個模型,也是國內首款千億引數的端到端語音模型,實現了語音理解和生成一體化,一個月前釋出的,這次我發現升級後的 Step-1o Audio,在情緒感知與理解、多語種和多方言、通話體驗上均有不錯的體驗。
先來看看情緒感知——
這個回答給足了對方情緒價值,一直在安撫對方的情緒,讓我覺得“有點舒適”。
而且我發現,這個語音模型竟然支援了多語言,配合著這個超低延遲,感覺可以當個同聲傳譯 AI 來用了,英語陪練更不用說了。
實話說,雖然階躍這波升級的視覺 + 語音模型的表現出色,但我並不意外。
因為,階躍公司從創立之初,“多模態”就是其主打特色。

Step R-mini 主打文理兼修,不偏科

這次還讓我眼前一亮的,是階躍這波連類 o1 推理模型都安排上了,名為“Step R-mini”(全稱 Step Reasoner mini
躍問網頁端就能體驗,左上角中選擇“Step R-mini”
傳送門:https://yuewen.cn/chats
關於 Step R-mini,官方非常有意思的定位是“文理兼修”。
也就是說,Step R-mini 與其他國內外類 o1 模型的定位不同,Step R-mini 模型不僅強調數學、程式設計等傳統的理科推理任務,而且還在文科推理任務上做了模型效果最佳化,率先讓模型具備了文科類的推理和創作能力。
首先來看看理科能力。
根據官方的定位,Step R-mini 在理科上直接對標的是 o1-mini,並且官方放出了學術測試集上的評測結果:
其在 AIME2024 和 MATH500 兩個數學測試集上都超越了 o1-mini 和 o1-preview。
我先簡單跑了幾個經典的理科測試 case。
比如曾經難倒一眾類 o1 模型的取水問題——
Step R-mini 成功給出了答案。
再來一道機率題!
做對 +1。
再來看看階躍首發的“文科推理”能力。
首先,我覺得“文科推理”這個切入點確實是有現實意義的,推理能力不僅適用於理科任務場景,在一些文科任務上,同樣需要推理。
比如,算卦
起名字這事兒,看似是個拍腦袋、跟推理不搭邊的文科任務,而在現實場景中,其實是根據父母的期許、生辰八字等諸多資訊來綜合推理,找到候選集。
但由於文科類任務很難定義出標準化的答案和最佳化目標,且難以構建封閉獲取 reward 訊號的“沙箱環境”,因此模型訓練的難度會比單純最佳化理科任務大得多。
這裡,我找了些文科推理能力測試題。
比如我這裡找了一道「對對聯」的題目,不僅涉及對聯仄起平收和對偶的一些語法知識,還考察資訊的提取、篩選、概括,並進一步“推理”實現“條件滿足”的思考過程。
從分析思考過程來看,確實 Step R-mini 的語法推理是線上的,最終得出了正確的答案。
再來一道中學時期不少小夥伴遇到過的語文題——
同樣,Step R-mini 經過一頓“文科推理”後,找到了正確答案。
總之,我覺得 Step R-mini 是另闢蹊徑,找到一條奇妙的藍海賽道。會玩的小夥伴,可以腦洞更多的文科推理題目為難一下 Step R-mini,歡迎評論區分享結果!
值得關注的是,在推理模型的研發上,階躍也在將自己擅長的多模態融入進去,打造視覺推理模型,將推理能力融入更多互動形態的大模型中。我找階躍的小夥伴要到了劇透資訊——
我們正針對複雜視覺場景下的 Reasoning 問題,引入了慢感知和空間推理的思想,把 Test-Time Scaling 從文字空間轉移到視覺空間,實現在視覺空間下的 Spatial-Slow-Thinking。多模態視覺推理模型預計將在今年釋出。

Step-Video V2 影片生成模型

雖然階躍的多模態能力很強不意外,但階躍的小夥伴和我說,這波全家桶竟然還有影片生成模型 Step-Video V2,這事兒意外到我了。
因為我覺得,他們今年釋出的模型已經夠多了,而且賽道跨度相當大。這裡面,影片生成又是一個非常吃算力、吃資料和吃人才的賽道,國內能玩轉的大模型公司一隻手都能數得過來。
結果,階躍也殺進來了。
直接貼官方的 showcase 感受一下——
prompt:低角度旋轉鏡頭圍繞著一個鼓手和他的架子鼓。鼓手穿著深色 T 恤和淺色褲子,戴著帽子,手臂上有紋身。
我們知道,運動控制一直是影片生成中極具挑戰的鏡頭,非常考驗模型對物理規律的理解和掌握,即使每一幀的畫面都是合理的,按照時間軸串起來也不一定合理。甚至,生成反物理規律的鏡頭一度成為了短影片流量密碼…
從上面這個 case 來看,無論是人物與物體之間的空間關係,擊鼓的落腳點還是擊鼓軌跡,都沒有出現反物理規律的情況。尤其是,這還疊加了旋轉運鏡,一不留神就容易穿幫。從這一點來看,運動控制的細節著實到位。
除此之外,我發現 Step-Video V2 似乎在人物生成方面表現更優秀,無論是面部細節還是人物表情,都非常細膩。比如生成外國小姐姐——
prompt:影片展示了一位人物在陽光下的特寫鏡頭。背景中可以看到圍欄和一些建築物,陽光柔和地灑在人物的頭髮上,增加了畫面的溫暖感。人物的表情自然,時而微笑,時而眨眼,給人一種輕鬆愉悅的感覺。整個影片運用了特寫鏡頭,突出了人物的表情和細節,具有寫實風格。
當然,我實測了一些 case 後,發現 Step-Video V2 跟其他影片模型類似,也免不了強依賴“抽卡”動作。但作為早期版本,我覺得表現已經可圈可點了。

其他模型:Step-2 mini,Step-2 文學大師版

除了多模態,階躍的語言模型同樣能打。最後兩款模型是對標 GPT-4o mini 並提供了 API 呼叫的 Step-2 mini 模型,以及擅長文學創作的 Step-2 文學大師版
這兩款模型都脫胎於 Step-2,Step-2 是國內最早的創業公司釋出的萬億大模型,國內外榜單打榜第一的常客就是它。
這裡貼下 Step-2 mini 模型的關鍵資料——
  • 極速響應&低延遲:在輸入 4000 tokens 的情況下,Step-2 mini 的平均首字時延僅 0.17 秒
  • 白菜價:輸入 1 元/百萬 token;輸出 2 元/百萬 token
直接貼 API 傳送門:

(https://platform.stepfun.com/
而 Step-2 文學大師版,則顧名思義,是為文學創作而生的。其在記憶海量世界知識的基礎上,進一步強化了寫作時對文字細節的把控能力,避免通用模型在文字創作時經常出現的“泛泛而談”的空洞感。
我嘗試用這個 Step 文學大師版給本瑤寫了一部穿越小說。
實話說,我直接看楞了——
長圖警告
好傢伙,這也太長了吧,足足 5000 字,直接給我把一部短篇小說幹完了。
而且看到躍問寫到“我,夕小瑤,大明洪武皇帝的孫女”時,還挺開心,沒想到後面就被當成悽慘的妖女了。這劇情,我真想試試釋出到小說平臺恰點稿費…
願意為這個小說付費的,請在評論區扣 1

階躍星辰:AGI 信仰派

體驗完這六個模型之後,我對階躍的認知,發生了很大的變化。
我常常根據對 AGI 的篤定程度,來把大模型創業公司分為兩類——
  1. AGI 信仰派
  2. 實用主義派
對於後者“實用主義派”,你常常能感覺到的是,對方公司不會很強調 AGI 概念,以及基礎模型能力建設,而是把大部分精力和資源放在了 AI 應用方面。
而對於前者“AGI 信仰派”,你則會感受到對方很強烈的 AGI 概念和模型能力佈局。其中,一個很突出的感知就是「實現了全模態能力覆蓋」
階躍已經是模型矩陣最全的公司之一,多模態能力更是有口皆碑,從頻繁的更新動作就能感受到它的多模態上的“卷”。
此前,我不太確信階躍是哪一個流派。
現在我很明確了,是絕對的 AGI 信仰派。
國內敢做全模態能力棧的大模型公司非常少,若沒有強大的 AGI 信仰,是不敢這麼做的。
算下來,就算加上 BAT 等老一代網際網路大廠,如今國內能做到語言、視覺、語音、影片、推理這五大模態 + 模型範式全覆蓋的公司,細數下來也僅有 3 家——阿里、智譜、階躍。
要知道,使用者對於 AI 的預期是越來越高的。
2023 年,大家談論多的還是寫作,2024 年,大家談論多的已經到 AI 的智商乃至情商問題了。而到了 2025,幾乎可以確信——只做單邊能力建設的大模型公司,與 AGI 的距離很可能會日行漸遠,進而難以支撐起使用者對 AI 能力的預期。
而階躍,不僅堅守住了 AGI 信仰,又於上個月,剛剛完成數億美元的 B 輪融資。我對其在 2025 年的大模型&產品期待值已經拉滿了。
六小虎中最晚亮相的「階躍星辰」,很可能成為 2025 年率先殺出的黑馬。

相關文章