
座標上海,WAIC 2025 現場!全中國 AI 圈的半壁江山都來了,整個會場都充滿了多巴胺的味道。
今天是 WAIC 2025 世界人工智慧大會開幕的第一天,我正穿梭在上海世博中心,腿已經快“跑廢”了!
每個展臺都擠滿了人,放眼望去,最火爆的展臺裡,階躍絕對是 C 位之一。


沒錯,我說的就是階躍星辰。就在 WAIC 開幕的前一天,我參加了他們新一代基礎大模型 Step 3 的釋出會。
會前並沒有什麼預熱,但現場人超級多。那種熱鬧不是靠佈景和流程撐起來的,而是一種“行業氣氛到了”的感覺。很難形容,但如果你一直在 AI 行業裡跑得夠多,大概會明白我說的是什麼。
當狂熱的百模大戰和引數競賽逐漸迴歸理性,一個更本質、更尖銳的問題擺在了所有從業者面前:
到底什麼樣的模型,才是最適合應用的模型?

誰都知道,AI 要落地,不能只追分數。推理效率、推理成本、晶片適配、開源生態、上下文長度、多模態理解……一個模型想進入現實世界,比重新整理榜單要多得多。
階躍星辰,用這場釋出會回答了這個問題。答案就在他們釋出的新一代基座模型——Step 3。

階躍將其核心特點高度濃縮為四個字:「多、開、好、省」。
聽起來像順口溜,但每一個字後面,都是一場難打的仗。
先說“多”,也就是多模態。
你去翻一翻現在主流模型的表現,大概就會明白“多模態”這個坑到底有多深。文字推理強的模型確實不少,比如 DeepSeek、Kimi K2、MiniMax M1,這些在純文字任務上都非常能打,但統一的問題是:只有單模態。
影像語言都能處理的,也有,比如 LLaVA 這一類,但效能又拉不動、穩定性不足,難以打進商用線;而那些你真看著強的模型,比如 Gemini、Claude,壓根就不開源。
Step 3 想補的,就是這個空檔。
我們來看幾個具體的 case。
比如說,有一張經典的色盲測試圖,上面是由密集的小圓點組成的數字圖案,大部分人一眼就能分辨出這寫的是幾,但 AI 模型往往讀不出來。
Step 3 不僅準確識別出這是一張以“STEP3”為字樣組成的視覺圖案,還把整個思考過程解釋得一清二楚。
再比如一張選單,畫質模糊、有反光,圖文混排。你問它:“無骨鴨掌多少錢?”Step 3 不僅能在眾多菜名中鎖定目標,還能從價格區中正確匹配到“58 元/份”,這可不是簡單 OCR,是圖文結構理解。
這些場景看起來碎,卻構成了真實世界的主要輸入方式。
“多”這個字,背後不是模態的堆疊,而是邏輯的融合。而融合之後,才有可能發生真正的推理。
而階躍說,我不光做了,還開源了。
這就來到了第二個關鍵詞:“開”。
Step 3 預計將在 7 月 31 日開源。(期待ing
接著看第三個詞:“好”。
在權威評測成績方面,Step 3 不止是“能跑”,而是在多個國際權威榜單上全面領先,是最強的開源多模態推理模型。
-
在 MMMU、MathVision、SimpleVQA 這類多模態推理任務中,Step 3 均跑在第一梯隊,力壓 GLM、Qwen、MIMO 等熟面孔 -
在語言能力上,和同型別模型相比,在 AIME 2025 打出斷層式領先; -
在專業問答/程式碼任務 GPQA-Diamond 和 LiveCodeBench 中,Step 3 同樣保持第一梯隊位置。

如果說前三代多模態模型還在拼“看得懂”,那 Step 3 的優勢,就在於“想得明白”,真正把多模態從感知堆疊推進到邏輯融合,往“推理智慧”邁出了一步。
但我覺得,真正能封神的,是最後這個字:“省”。
也就是推理成本低、部署效率高,尤其是對國產晶片格外友好。
在國產晶片 32K 上下文,推理效率最高可達 Deepseek R1 的 300%。

什麼意思?你可以簡單理解成:如果 DeepSeek R1 花 3 塊錢才能跑完一段任務,Step‑3 只用 1 塊錢就能跑完,而且還調動了更多引數去思考。
再專業一點,就是推理效率=單位成本能調動多少有效算力。
我給你看這幾張圖你就懂了:
這張是在國產卡環境下(32K 上下文)測的推理理論成本 vs 啟用引數量。

首先,Step 3 是一款原生多模態大模型、MoE(專家混合)架構,總引數量 321B,啟用引數量 38B。K2、M1、DS、Qwen 這些都是 MoE 架構。
Step 3 啟用約 38B 引數,理論成本約 1 塊錢;DeepSeek(DSv3/R1):啟用約 34B 引數,理論成本約 3 塊多錢。雖然 Step 3 啟用引數更多,但成本只有對方的三分之一左右。
而啟用引數越多代表模型實際參與計算的能力越強,Step 3 那顆紅星的位置,意味著,幾乎是所有模型中“花最少的錢,啟用最多引數”的。
那 Step 3 是怎麼做到的?這張圖是答案:

橫軸是視訊記憶體頻寬(memory access),縱軸是算力需求(compute),斜線代表不同硬體的算力。比如 A800、H20、910B 的 roofline(效能天花板)。
我們能看到兩個典型:
-
DeepSeek V3:點很高、記憶體訪問不算大, 但計算強度高,代表是“重計算、輕記憶體”。它的斜率接近 H800 那條高斜率線,說明放在算力很強的 H800 上能把計算單元利用起來,直白點講:ds 適合跑在 h800 上。 -
Qwen3-MoE:點在右側,記憶體訪問特別多但計算量低,屬於“重記憶體、輕計算”,在頻寬充足的 H20 上更容易發揮;放在純算力強但頻寬一般的卡上會被記憶體拖慢。
而 Step 3,那顆紅星,點居中,卡在所有晶片都能接受的黃金區域。計算與記憶體訪問比例適中,落在國產晶片(算力相對有限、頻寬也有限)的那條較低斜率線附近。所以非常適配國產晶片,價效比最好,跑起來最高效。
特別是在低 compute / low bandwidth 卡上,也能保持線性穩定的吞吐。
最後一張圖,是整個通用部署場景下的驗證:

換個角度,不看國產卡,只看推理 8K 長度下,所有模型在國際市場(GPU/HPC 雲平臺)上的“美元推理單價”。
Step-3 依然穩居左上角。
無論你是跑在 NVIDIA 雲、AWS、青雲、還是浪潮本地叢集——Step-3 都是成本壓得最狠、啟用效率最強的那一個。
在我看來,這是 Step 3 真正厲害的地方,把效能、推理、成本、相容性這些極難統一的維度,拉到了一個極少數模型才能企及的平衡點上。
這才是基座模型該有的樣子。
所以你會看到,這次釋出會不僅在講模型本身,還請來了幾乎整個國產晶片圈的代表,一起官宣成立「模芯生態創新聯盟」。

模型廠商和晶片廠商,開始坐到一張桌子上,聯手打通從底層硬體到上層推理的完整鏈路。
因為大模型要真正跑進現實世界,從來就不是某一家公司、某一個模型能單幹的事。
而階躍星辰這次的動作,正在釋放一個明確的訊號:一個真正聰明的模型,不止要理解世界,還得適應世界,適配它的每一塊晶片、每一種算力現實。
現在的大模型,也不再只是卷誰更大、誰跑分更高,而是卷誰更能跑進真實場景,更能被裝置用起來,被生態接住。
而 Step 3,顯然已經先走了一步。


