
最近在看 Agent 方向的論文和產品,已經被各種進展看花了眼。但我發現,真正能超越 demo,能在 B 端場景紮實落地的卻寥寥無幾。
前兩天跟階躍的朋友聊起來,朋友說階躍的多模態模型,已經在諸多智慧終端 Agent 上落地了,涵蓋了車端、手機端、具身智慧和 IoT 四大場景。這個後面再講,因為,我發現光階躍近期悄悄釋出的 3 款多模態模型,就夠寫一篇文章的了。
而這 3 個模型,也是促進多模態 Agent 應用落地的重要模型。
這 3 個模型涵蓋了三個方向:
-
影像編輯模型 Step1X-Edit(開源) -
多模態推理模型 Step-R1-V-Mini -
圖生影片模型 Step-Video-TI2V(開源)
先來重點講下昨天階躍剛剛開源的改圖模型——

真正開發上線過影像類應用的小夥伴都知道,在影像的應用落地方面,比起從頭開始“文生圖”,大眾對手裡現有的圖片/照片的編輯需求其實更為廣泛。
但,開源好用的影像編輯模型實在太少了。
可能階躍也洞察到了這個需求,索性昨天釋出了 Step1X-Edit 這個影像編輯模型,而且——
釋出即開源,開源即 SOTA。
Step1X-Edit:影像編輯領域的開源 SOTA
影像編輯,聽起來好像比文生圖更簡單。但實際上,如果讓 AI 來做,特別是透過自然語言指令來編輯,會變得很難。
大模型不僅要精準理解使用者上傳影像的語義與細節,還要保證影像中人物、物體、背景的高度一致性,還要充分遵循自然語言指令,在保證改圖真實感的同時實現可控生成,以及文字-影像模態的深度融合,缺一不可。
階躍這次的 Step1X-Edit,官方總結了三個關鍵能力,恰好就對應了上面說的三個方面。
-
語義精準解析:能理解比較複雜的、組合式的自然語言指令,能夠靈活應對多輪、多工編輯需求。 -
身份一致性保持:編輯後能穩定保留人臉、姿態與身份特徵,在虛擬人、電商模特,這些高一致性場景裡特別重要。 -
高精度區域級控制:支援對圖片裡的特定區域進行定向編輯,比如換材質(把木桌子換成大理石)、改顏色、調整光照等,同時保持整體風格統一。
用一句話總結就是:
Step1X-Edit,不只能“改圖”,更能“聽得懂、改得準、保得住”。
先貼一下傳送門,感興趣的小夥伴可以一起測試:
階躍 AI網頁端:stepfun.comAPP 端:直接搜尋「階躍 AI」APP 即可。
比如,我們嘗試把夕小瑤全身照換成畫素風格。
提示詞:換成畫素風格

突然有一種想把畫素風版夕小瑤做成小霸王遊戲的衝動…
再來一個複雜換背景色的中文指令——
建立一張色彩鮮豔的手工簇絨地毯圖片,放置在簡單的地板背景上。地毯設計大膽、有趣,具有柔軟蓬鬆的質地和粗紗線細節。從上方拍攝,在自然日光下,帶有略微古怪的 DIY 美學風格。色彩鮮豔、卡通輪廓、觸感舒適的材料——類似於手工簇絨藝術地毯。

材質、顏色、風格都遵循地挺到位的。這個模型尤其擅長中文,用中文指令調整圖片元素,可能會更順手。
我進一步研究了下,發現這個模型支援 11 個高頻的影像編輯任務型別——
包括但不限於文字替換、風格遷移、材質變換、人物修圖等。

階躍也放出了這個模型的技術報告:
https://arxiv.org/pdf/2504.17761
我覺得有幾個點值得關注——
技術實現上,Step1X-Edit 用了 MLLM(多模態大語言模型)+ Diffusion 的架構。
MLLM 負責理解你的指令和影像內容(相當於大腦),Diffusion 模型則完成影像的修改和生成(相當於畫手)。這種分工讓模型在理解複雜指令和控制生成細節上更有優勢。

官方還特別構建了一個規模超大的影像編輯訓練資料集(篩選後百萬量級),包含 11 類常見編輯任務,比如文字替換、風格遷移、背景調整等。
模型總引數量只有 19B (7B MLLM + 12B DiT),但在效能上,拿到了開源 SOTA,表現很接近 GPT-4o 和 Gemini 2.0 Flash。

個人覺得,Step1X-Edit 的開源,對於整個 AI 影像編輯領域是個不錯的貢獻。不僅提供了技術上的思考(比如那個解耦架構),也真實地解決使用者痛點。
貼下開源傳動門:
Github:https://github.com/stepfun-ai/Step1X-EditHuggingFace:https://huggingface.co/stepfun-ai/Step1X-EditModelScope:https://www.modelscope.cn/models/stepfun-ai/Step1X-Edit/summary
再來講下多模態推理模型Step-R1-V-Mini。
Step-R1-V-Mini:讓 AI 不止“看圖說話”,還能“看圖思考”
看懂圖片是多模態模型的“視力”,對圖片進行思考和推理,則是多模態模型的“智力”。
4 月初,階躍新出的 Step-R1-V-Mini,就是專門衝著這個“多模態推理”來的,集成了多模態理解 + 深度推理兩種能力。
我們前些陣子的文章提過,o3 和 o4-mini,憑藉“福爾摩斯”般的圖片推理能力,可以快速定點陣圖片裡的地點。
我們用類似的題目,測一下 Step-R1-V-Mini是否具備類似的能力。
這是網友溫布利球場的實拍圖片,看它能不能猜對這是哪兒——

推理正確!
再比如,根據照片推理宇航員離地高度——

地球佔據視野約一半,有明顯地球曲率,符合低地球軌道特徵,估算合理。
這個模型也已經可以在階躍的官網和開放平臺上體驗了,感興趣的小夥伴可以去測測。
階躍 AI 網頁端:https://yuewen.cn/chats/new階躍星辰開放平臺:https://platform.stepfun.com/docs/llm/reasoning
沒想到這麼快的速度,又開源了圖生影片模型Step-Video-TI2V。

這次主打“運動幅度可控”和“鏡頭運動可控”兩大特點。
生成的影片解析度是 540P,時長大約 5 秒(102 幀)。不算特別高畫質和長,勝在開源和可控性。對於快速製作一些動態效果、社交媒體素材或者創意原型來說,夠用了。
附開源傳送門:
https://github.com/stepfun-ai/Step-Video-TI2V
真·多模態卷王
階躍這次密集“上新”,其實並不讓我意外。
回顧他們過去一年的動作,你會發現這完全符合他們一貫的打法——在多模態領域持續深耕、快速迭代。
“多模態卷王”,這個稱號某種程度上是他們自己“卷”出來的。我列了一個表:
粗略算了下,公司成立 2 年,截至目前一共釋出了 21個模型,15個是多模態模型,比例超過七成!
這投入程度,說他們是“多模態卷王”都不過分。而且在多模態的各個主要技術方向上,階躍基本都有佈局。
我查了下,Step-1V、Step-1o Vision 等模型,之前在國內外知名的多模態評測榜單(比如 OpenCompass、LMSYS Chatbot Arena 視覺榜)上拿到過比較靠前的位置,甚至是中國大模型裡的第一名。
更有說服力的是,是來自商業客戶的反饋。
比如茶百道門店已經用上了他們的 Step-1V 模型做智慧巡檢。

網紅 AI 應用“胃之書”的開發者公開表示,"測試了一圈國內模型,發現階躍的付費率最高。"

所以,階躍在多模態領域的“卷”,是建立在全面佈局、快速迭代、效能實力和商業落地上的。
不止於模型:階躍的 Agent“觸手”伸得有多快?
當然,模型本身只是“彈藥”,最終還是要看打向哪個“戰場”。階躍的多模態能力,顯然不僅僅是論文或榜單。
今年 2 月,階躍明確提出了要發力智慧終端 Agent,瞄準了車、手機、具身智慧、IoT 這四大關鍵場景。
這個戰略,就是要把強大的多模態理解、推理和生成能力,賦能到我們日常接觸的各種智慧裝置上,讓它們變得更“聰明”、更“有用”。
更值得注意的是他們的落地速度。
官宣戰略才幾個月,就已經看到了一系列實實在在的進展:
-
智慧汽車: 和吉利汽車集團、以及千里科技深化技術合作。在 4 月的上海車展上,吉利展示了一顆充滿科技感的蛋形智慧座艙,由階躍星辰多模態大模型提供底座技術支援。

-
手機終端: 和 OPPO 合作,多模態模型已經落地到了 OPPO 的多款旗艦機型上,實現了像“一鍵問屏”(拍照或截圖提問)、“一鍵全能搜”(語音指令跨 App 操作)這樣的創新功能。 -
具身智慧: 這個領域現在非常熱。階躍動作也很快,先後和機器人領域的“當紅炸子雞”智元機器人、以及專注於物理世界推理的原力靈機簽署了戰略合作。目標很明確,就是要探索“大模型 + 機器人”的融合,打造能在物理世界理解和行動的 RoboAgent。 -
IoT 終端: 和 TCL 這樣的家電和 IoT 平臺大廠合作,推動裝置智慧化和互聯互通體驗升級。
大家可以留意一下這些合作伙伴,都是各自行業裡的重量級玩家或領先者。這就說明了階躍的技術實力和商業拓展能力得到了市場的認可。
寫在最後
說實話,作為天天泡在這個圈子裡的人,看到這種“爆肝”式的迭代速度,既覺得興奮,又有點‘卷不動’的感覺。
興奮的是,技術邊界又被往前推了一大步,我們能玩的東西更多了;“卷不動”是感嘆這進步速度,真是稍不留神就可能被拉下。
扒完階躍這波密集的上新,感覺非常地過癮。從影像編輯、多模態推理,圖生影片,到智慧終端 Agent 的初見成效,真的是火力全開。
多模態這塊,他們一直在穩定輸出,沒掉過鏈子,而且路徑清晰且有競爭力。
繼續期待蹲下一個驚喜吧。


