階躍同時開源影片生成+即時語音模型,我願稱之「多模態界的Deepseek」

說真的,DeepSeek 讓中國的開源大模型在全世界殺瘋了。
就在剛剛,階躍也宣佈聯合吉利汽車集團開源兩個最新的模型——
一個是影片生成模型 Step-Video-T2V,一個是支援即時語音對話的語音模型 Step-Audio
一發布就迅速在推特上火了,來自 HuggingFace 的工程師稱這是下一個 DeepSeek,HuggingFace 官號和 CEO 也都轉發了這個 post。
從官方自測效果來看,非常驚豔。重點是,這倆模型全都開源了。
而且,在「躍問」APP 上,都能免費不限次的用。
好傢伙,一個影片,一個語音,妥妥的多模態最具挑戰的兩大賽道。
不過,看到是「多模態卷王」階躍星辰釋出的,我也就不意外了。
先來看下 Step-Video-T2V 這個影片生成引數量怪獸。
Ps:躍問 App躍問網頁端都能免費不限次生成。
傳送門:
https://yuewen.cn/videos
我如果沒記錯的話,上一屆開源最大的還是騰訊混元 130 億引數,階躍這次幹到 300 億引數,直接成了開源屆老大。
從階躍官方釋出的技術報告裡看,階躍對這個新發布的 Step-Video-T2V 影片模型做了非常全面的評測,分成運動、風景、動物、組合概念、超現實、人物、3D 動畫、電影攝影等 11 個類別。
簡單解釋下這個表格是怎麼評估的——
每一行是一個類別,比如食物、風景、人物、運動等,四列對應 4 個評估維度:指令遵循度、動作流暢度、物理合理性、美學吸引力。
每組數字是兩個模型的打分,比如 1273-1221,說明 Step-Video-T2V 得分更高。
綠色表示 Step-Video-T2V 在該項指標上表現優於 Hunyuan。黃色反過來,無高亮代表沒有明顯勝出。
在大多數類別和評估維度上,Step-Video-T2V 的得分都是超越了上一屆最好的開源模型(騰訊混元)。
先帶你們看幾個 show case。
提示詞:低角度旋轉鏡頭圍繞著一個鼓手和他的架子鼓。鼓手穿著深色 T 恤和淺色褲子,戴著帽子,手臂上有紋身。
我看完第一遍,直呼 360 度旋轉無死角啊,第二遍再看下細節,鼓手、架子鼓、T 恤、褲子、帽子甚至紋身都生成齊了,旋轉速度非常快的同時,也沒有出現變形和錯位,運鏡非常流暢,我願稱它是運鏡大師!
再來看一個關於人的超複雜 case——
提示詞:影片中,一名男子身穿單薄的衣物,在甲板上冒著大雨翻找漁網。他皮膚黝黑,頭髮凌亂地貼在額頭上,雨水順著他的臉頰流下,模糊了他的視線。他的雙手被雨水淋溼,顯得冰冷而無助。但他仍然堅持不懈地摸索著漁網,希望能夠有所收穫。然而,每次他都只能失望地搖頭。他的表情無法看清,但從他的動作中可以感受到一絲焦慮和疲憊。整個場景被大雨籠罩,雨滴砸在甲板上發出清脆的聲音。這個影片採用紀實黑白照片的拍攝方式,具有復古照片質量,展現了二戰期間的艱辛生活。
畫面一齣現,就會有種在看電影鏡頭的錯覺,淋溼的頭髮、順著往下滴的水滴、黝黑的皮膚被雨水淋溼後的就會有光澤感,還有遠處水濛濛的山景,真的太真了!
我在躍問 APP 裡跑了一個——
提示詞:一隻豬飛向一個人
直接看影片吧——
跑著跑著回過頭看向螢幕,我去它都知道螢幕外是人??
最後一個,複雜運動生成——
讓國寶玩一個高難度的旋轉跳躍,模型對熊貓、地面坡度、滑板的空間關係理解非常到位了。
理解物理規律&生成複雜運動是現在所有 AI 影片的難點,一個鏡頭做不好就會穿幫。實測 Step-Video-T2V 在這方面相比上一代模型有明顯體感上的提升。
而且,人物的五官細節、大幅度的運鏡、複雜運動的把控這些都處理的不錯。
這裡要再強調一嘴,這個模型是開源的。
GitHub:
https://github.com/stepfun-ai/Step-Video-T2V
Hugging Face
https://huggingface.co/stepfun-ai/stepvideo-t2v
Model Scope:
https://modelscope.cn/models/stepfun-ai/stepvideo-t2v
技術報告:
https://arxiv.org/abs/2502.10248
再來看下這次同時釋出的另一個開源模型——Step-Audio,支援即時語音通話的語音模型。
同樣的,在躍問 APP 上能直接體驗。
搬出我難度十級的 case——
它竟然聽懂繞口令了。
這個情緒也到位,像跟閨蜜聊悄悄話一樣。
關於模型,直接劃重點——
  • 情緒、方言、多語種、唱歌,支援復刻不同角色的音色
  • 開源整套即時語音通話方案,簡單部署就能端到端體驗,上手成本極低
我這裡必須要再提一嘴,今年伴隨著多模態 AI 的繁榮,能提供情緒價值的 AI 玩具、硬體產品類賽道,是很有可能迎來大爆發的。
這些 AI 玩具,一個非常重要的功能,就是語音能力。而市面上可用的支援即時語音通話的開源模型非常有限。
階躍這一波語音模型開源,我覺得是踩到點上了的,無論是直接部署還是微調,這類產品的玩法上限都被極大的拉高了。
貼一下這個語音模型的體驗地址和技術報告連結:
GitHub 地址:
https://github.com/stepfun-ai/Step-Audio
Hugging Face:
https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Model Scope:
https://modelscope.cn/collections/Step-Audio-a47b227413534a
技術報告:
https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf
我更深入了研究了下,我發現這個 Step-audio-chat 模型,可以在語音對話的同時,去完成工具呼叫(比如調用搜索引擎、知識庫等),這個能力對於落地 AI 產品來說是不可缺少的。從這一點出發,Step-audio-chat 可能是業內首個做到產品級的開源語音互動模型。
此外,來看下 Step-Audio-chat 在學術測試基準上的表現。
其在 Llama Question、Web Question 等一系列語音問答測試集上,全面超越了 Qwen2-Audio 等此前的開源模型,成為了新的開源語音 SOTA。
另外我還發現一個比較有意思的點,做研究的都知道,語音的學術測試基準,其實是有點跟不上現在大眾對於 AI 語音能力的預期了的,如何更接地氣的評測一個語音大模型在實際需求上的表現,其實是一個很重要的研究問題。
為此,階躍乾脆“順手”自建了一個全新、開源的語音評估體系—— StepEval-Audio-360 基準測試,包括角色扮演、邏輯推理、生成控制、文字遊戲、創作能力、指令控制等 9 個維度。
從這個基準,更能看出 Step-Audio 這個模型的驚豔表現。
此外,我無意間發現 Step-Video-T2V 這款模型採用的都是最寬鬆的 MIT 開源協議,可以商用和任意編輯。
MIT 許可證——沒有對修改檔案的具體要求,不涉及商標專利使用的條款,只需保留原始版權宣告和許可宣告,更簡單靈活。

最後

你可能還不清楚,階躍星辰這家創業公司成立還不到 2 年,這已經是他們釋出的是第 11 款多模態模型。
這 11 個模型涵蓋了圖片理解、影片理解、影像生成、影片生成、語音識別、語音復刻和生成所有的模態和類別。
掐指一算,平均 2 個月就有一次模型上新,從數量上看,只能用多模態卷王來形容它,從成績上看,就是一名學霸,準確點兒是“模霸”。大家看我之前的文章,你就知道了。
這也是為什麼階躍能躺在我關注的大模型廠商列表裡的原因。
前兩天麻省理工科技評論發了一篇文章,講了中國除了 DeepSeek 之外的四家 AI 初創企業同樣值得關注,分別是階躍星辰、智譜 AI、面壁智慧、無問蒼穹。
中國大模型的星辰,從不在單點閃耀。
我還是那句話——
有人逐日,有人摘星。
DeepSeek 憑實力讓世界看到中國 AI,同樣是極致鮮明的技術理想主義,同樣堅持 AGI,一個是推理模型,一個是多模態模型。
我覺得,他們在回答同一個命題——
如何讓頂尖技術真正創造價值。
只有群星閃耀,才是星辰大海。
參考文獻
https://www.technologyreview.com/2025/02/04/1110942/four-chinese-ai-startups-deepseek/

相關文章