階躍星辰開源SOTA影片生成、語音互動雙模型,HuggingFace:或許是下一個DeepSeek

2 月 17 日,階躍星辰聯合吉利汽車集團宣佈開源兩款多模態大模型:全球引數量最大的開源影片生成模型 Step-Video-T2V,以及首款產品級開源語音互動大模型 Step-Audio。這是階躍星辰首次開源其多模態模型,同時也為全球 AI 開源社群帶來了重要貢獻。
Step-Video-T2V
和 DeepSeek-R1 一樣,Step-Video-T2V 也選用了最為開放的 MIT 協議,允許任意編輯和商業應用。作為一款擁有 300 億引數的大規模影片生成模型,模型使用了專門設計的 Video-VAE(變分自編碼器)來處理影片資料。這個 VAE 實現了前所未有的高壓縮比:在空間維度實現 16×16 倍壓縮,時間維度實現 8 倍壓縮,大幅提升了訓練和生成效率。相比目前主流開源模型如混元的 8×8 空間壓縮和 4 倍時間壓縮,Step-Video-T2V 在保持出色重建質量的同時,將影片生成的最大幀數提升至 204 幀。
在模型核心架構上,Step-Video-T2V 基於 DiT(Diffusion Transformer)框架,包含 48 層結構,每層配備 48 個注意力頭,每個頭的維度為 128。為了提升訓練穩定性和生成質量,團隊在多個關鍵環節進行了最佳化:使用 AdaLN-Single 來引入時間步資訊,在自注意力機制中引入 QK-Norm 來確保訓練穩定性,並採用 3D RoPE 技術來更好地處理不同長度和解析度的影片序列。
圖丨 Step-Video-T2V 的架構(來源:arXiv
特別值得一提的是,團隊在訓練的最後階段創新性地引入了 Video-DPO(影片偏好最佳化)技術。這是一種針對影片生成的強化學習最佳化演算法,透過整合人類反饋來微調模型,使生成的影片更符合人類審美和質量預期。實驗資料顯示,經過 DPO 最佳化的模型在人類偏好評估中獲得了 55% 的支援率,明顯優於基線模型的 45%。
為了評估模型效能,階躍還發布了 Step-Video-T2V-Eval 基準資料集。這個資料集包含 128 條來自真實使用者的中文評測問題,覆蓋了運動、風景、動物、組合概念、超現實等 11 個內容類別。評測採用了兩套人工評估指標:一是直接對比不同模型生成的影片質量,二是從指令遵循、運動平滑性、物理合理性、美感度四個維度進行打分。在與開源模型的對比中,Step-Video-T2V 在各個維度上都有所超越;在與商業模型的對比中,在運動建模和生成能力方面也已經達到了不錯的水平,但在某些視覺效果(如解析度)上還有差距。
圖丨 Step-Video-T2V 與混元模型的評測結果比較(來源:arXiv
具體效果,讓我們來看看筆者本人和眾多使用者的實測。
影片|Prompt:“採用 3D 動畫風格,影片中,慢慢顯現出了“Year of Snake, 2025”的字樣,天空中綻放出絢爛的煙花。2025 字樣晶瑩剔透泛著金光,地板上反射著它的倒影,背景是黑色的地板。一條卡通蛇戴著一副酷炫的黑色墨鏡不斷扭動身體,鏡片上反射著舞臺的燈光。畫面採用固定機頭,動畫風格,展現了蛇年過年喜慶熱鬧的氛圍。”(來源:Step-Video-T2V 生成)
影片|Prompt:“影片展示了一輛黃色賽車在漂浮於雲端的高速賽道上疾馳。賽道蜿蜒延伸於無垠的白色雲海之上,邊緣用紅白相間的警示帶清晰標識,增添了視覺的張力。賽車的流線型車身在陽光下反射出金屬光澤,輪胎激起雲霧般的漣漪,伴隨著每一次轉彎,軌跡彷彿在空中留下淡淡的光痕。鏡頭採用跟拍方式,從多個角度緊隨賽車移動,精準捕捉其快速轉向與直線加速的細節,整體畫面兼具動態感與超現實的夢幻效果。”(來源:Step-Video-T2V 生成)
影片|Prompt:“一個紅色氣球慢慢上升到空中,經過一棵高大的橡樹,然後被一隻飛來的鳥用爪子抓住,氣球破裂,碎片掉落在地面。”(來源:Step-Video-T2V 生成)
總體來看,模型生成的影片效果不錯,特別是指令跟隨和鏡頭語言的運用上表現突出,能夠比較精確地執行各類攝影機運動指令,如推拉搖移、旋轉和跟隨等,這些複雜的鏡頭運動在生成結果中都表現得十分流暢自然。文字生成能力也可圈可點。不過在部分的物理邏輯理解和生成效果上,還有進步空間。
Step-Audio
另一款產品 Step-Audio 則是業內首個產品級的開源語音互動模型。從階躍官方評測的結果來看,在其自建的多維度評估體系 StepEval-Audio-360 基準測試中,Step-Audio 在邏輯推理、創作能力、指令控制、語言能力、角色扮演等多個維度均表現突出。
從技術架構來看,Step-Audio 採用了創新的雙編碼本框架來處理音訊流。該框架將語義和聲學特徵分別編碼:語義編碼器使用 1024 項的碼本,取樣率為 16.7Hz;聲學編碼器則採用 4096 項的碼本,取樣率為 25Hz。為了實現這兩種不同取樣率的資訊整合,模型採用了 2:3 的時序交錯比例,即每兩個語義標記對應三個聲學標記,確保了資訊的精確對齊。
圖丨 Step-Audio 模型架構(來源:GitHub)
在語言模型方面,Step-Audio 基於引數量達 130B 的 Step-1 基礎模型進行了持續預訓練。透過音訊相關的上下文學習,模型強化了對語音資訊的處理能力,實現了更準確的語音-文字對齊。在語音解碼器設計上,團隊結合了流匹配(flow matching)和神經聲碼器(neural vocoding)的優勢,優化了即時波形生成的效果。
為了支援即時互動,Step-Audio 還實現了一套最佳化的推理流水線。其核心是控制器模組,負責管理狀態轉換、協調推測性響應生成,並確保各個子系統的無縫配合。這些子系統包括語音活動檢測、流式音訊分詞器、語言模型、語音解碼器等。特別值得一提的是,模型實現了 40% 的提交率和 14:1 的壓縮比,大大提升了跨模態對齊的效率。
Step-Audio 支援中英日等多語言對話,還能根據指令生成不同的情感語氣(如喜悅、悲傷)、方言(如粵語、四川話)以及獨特的聲音風格(如說唱)。在標準測試集上,Step-Audio 的表現同樣出色。它在 HSK-6(漢語水平考試六級)評測中的得分達到 86 分,在同類開源模型中表現突出。
圖丨測評結果(來源:GitHub)
開源的浪潮越掀越高
在 DeepSeek 引起全球 AI 界的震動之後,開源的浪潮似乎還在繼續。行業巨頭們的態度已經開始轉變。
不久前,OpenAI 的 CEO Sam Altman 就公開承認,在開源權重 AI 模型這個問題上,他們可能“站在了歷史錯誤的一邊”,並開始徵集廣大使用者關於開源方案的意見。百度也一轉此前的態度,官宣之後將轉向開源。而階躍此次開源兩個模型,無疑又在多模態領域增強了開源力量。Hugging Face 中國區負責人王鐵震就評價稱階躍將成為下一個“DeepSeek”,Hugging Face 官方也轉發了這條推文表示贊同。
圖丨相關推文(來源:X
開源社群一磚一瓦的貢獻,正在讓全球 AI 格局發生微妙的改變,或許正如 Meta 首席 AI 科學家 Yann LeCun 所說:“人們看到 DeepSeek 的表現就認為'中國在 AI 領域超越了美國',這種解讀並不準確。正確的解讀是:開源模型正在超越專有模型。”隨著開源力量的不斷壯大,我們將迎來更多的機遇和可能性。
參考資料:
1.https://github.com/stepfun-ai/Step-Video-T2V
2.https://github.com/stepfun-ai/Step-Audio
運營/排版:何晨龍


相關文章