位元組最強多模態模型登陸火山引擎!Seed1.5-VL靠20B啟用引數狂攬38項SOTA

機器之心報道
編輯:楊文
位元組拿出了國際頂尖水平的視覺–語言多模態大模型。
5 月 13 日,火山引擎在上海搞了場 FORCE LINK AI 創新巡展,一股腦釋出了 5 款模型和產品,包括豆包・影片生成模型 Seedance 1.0 lite、升級後的豆包 1.5・視覺深度思考模型,以及新版豆包・音樂模型。同時,Data Agent 和 Trae 等產品也有了新進展。
其中,全場最吸睛的就是豆包 1.5・視覺深度思考模型(以下稱 Seed 1.5-VL)。
相比於之前版本,Seed1.5-VL 具備更強的通用多模態理解和推理能力,不僅視覺定位和推理更快更準,還新增了影片理解、多模態智慧體能力。
舉個例子。僅需一張圖,再來個提示詞,Seed1.5-VL 就能精準識別觀眾、棒球、座椅、圍欄等多種元素,還能正確分類並給出座標。
再比如,餵它一段監控,問一句:「今天小貓幹了哪些壞事?」幾秒鐘後,它就丟過來幾段影片,「抓包」了小貓遛彎、玩球、巡視、搞破壞等各種「作案」現場。
儘管 Seed1.5-VL 的啟用引數僅有 20B,但其效能可達到與 Gemini2.5 Pro 相當的水平,在 60 個公開評測基準中,有 38 個取得 SOTA 表現,在影片理解、視覺推理、多模態智慧體能力等方面均處於第一梯隊。
Seed1.5-VL 推理效能拉滿,但推理成本極具優勢。據其官網顯示,Seed1.5-VL 推理輸入價格僅為每千 tokens 0.003 元,推理輸出價格為每千 tokens 0.009 元。
目前,Seed1.5-VL 已在火山引擎全面開放 API,開發者登入後選擇 Doubao-1.5-thinking-vision-pro 即可快速調用其能力,構建自己的 AI 視覺助手、巡檢系統、互動 Agent 或下一代智慧攝像頭。
  • 官網:
https://seed.bytedance.com/tech/seed1_5_vl
  • API:
https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428
一手實測:視覺定位、推理又快又準
說一千道一萬,模型好不好使,還得親自上手試。接下來,我們就奉上一手實測,檢驗一下 Seed1.5-VL 真實能力。
先來看看它的視覺定位和推理能力。
我們上傳一張擺滿各式各樣牛奶的貨架圖片,讓它找出圖中有幾盒黃桃味果粒酸奶優酸乳,並計算它們的價格。
這類任務看似簡單,實則非常考驗模型的多模態協同能力,需要它同時具備影像理解(識別包裝)、文字 OCR(識別價格標籤)、語義匹配(產品名稱匹配)、數學推理(乘法計算)等能力。
而 Seed1.5-VL 僅用不到 10 秒,就精準識別出貨架角落裡的黃桃味酸奶優酸乳,還準確數清瓶數、識別單價,並進行正確的價格計算。
除了門店貨架巡檢的工作,我們還讓它找出下圖中有幾隻小貓在生氣。
從影像畫素級別的變化中提取情緒線索,這對大模型的影像理解精度、注意力機制、細粒度識別能力都是極大的挑戰。Seed1.5-VL 面對一整屏表情相似的小貓臉,準確識別出 5 只在「生氣」,並給出了相應座標。
還有下面這個「找不同」測試,Seed1.5-VL 既能精確分析兩張相似圖片的細微差別,又能清晰描述所有不同點,比如太陽左側飛鳥數量、沙灘球顏色等,這展示了它在視覺理解、空間關係處理和結構化輸出方面的綜合能力。
此外,它還可以推理複雜視覺謎題。
比如這道公務員圖形推理題目,大部分人看到這些黑白方塊一頭霧水,但 Seed1.5-VL 僅用 10 秒就捕捉到其中的規律,透過精準識別前兩行圖形疊加後「去同存異」的變換邏輯,準確推匯出第三行的缺失圖形。
對於開發者來說,Seed1.5-VL 新增的多模態智慧體能力是一大利器。它基於強大的 GUI 定位效能,可在 PC 端、手機端等不同環境中完成複雜互動任務。
比如在測試環境中,Agent 可以識別並點選「點贊」按鈕,用於模擬使用者行為,驗證功能流程是否正常。
技術解讀:重構視覺理解邊界
作為 Seed 系列最新一代多模態模型,Seed1.5-VL 在超過 3T token 的多模態資料上完成預訓練,在影像問答、圖表理解、視覺推理、影片分析、GUI 智慧體等多個任務上表現突出,成為推動多模態互動應用落地的重要引擎。
那麼,該模型背後有哪些獨門絕技?
  • 論文連結:https://arxiv.org/abs/2505.07062
  • 技術報告:https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf
  • GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL
從模型架構上來說,Seed1.5-VL 由三個核心元件構成:首先是視覺編碼模組 SeedViT,模型引數為 532M,用於對影像和影片進行編碼,能夠處理任意長寬比的影像輸入;其次是一個多層感知機(MLP)介面卡,負責將視覺特徵投影到多模態表徵空間;最後是基於 MoE 架構的大語言模型 Seed1.5-LLM,啟用引數為 20B,專注於處理融合後的多模態輸入。
儘管啟用引數規模遠小於傳統大型模型,但其表現卻足以媲美甚至超越當前多項主流方法,在保證效能的同時顯著降低了推理成本。
在訓練方法上,Seed1.5-VL 並未從一開始就進行聯合多模態學習,而是選擇了在語言模型基座上進行多模態預訓練,以實現靈活的消融實驗和快速迭代開發。
整個預訓練過程分為三個階段:初期僅訓練 MLP 介面卡以初步對齊視覺和語言表徵;中期解凍所有引數,在大規模圖文資料中強化知識積累、視覺 grounding 和 OCR 能力;後期在更均衡的資料混合中加入影片、程式設計、三維理解等新領域資料,並將序列長度顯著增加,以處理複雜場景和長序列依賴。
到了後訓練階段,Seed1.5-VL 引入了監督微調(SFT)與強化學習(RL)的組合策略。
SFT 訓練資料集包含通用指令資料和長鏈式思考資料,前者用於簡潔準確響應,後者用於詳細分步推理。其中長鏈式思考資料是基於強化學習後的模型,透過拒絕取樣的方式得到。
強化學習則整合了基於人類和驗證器反饋的強化學習(RLHF/RLVR)及多項先進技術。採用混合獎勵,區分通用與可驗證提示,通用提示僅獎勵最終解以激勵思考探索;針對不同型別的任務採用差異化 KL 散度係數,平衡獎勵利用與探索。
考慮到多模態模型在訓練中的異構性挑戰,Seed1.5-VL 在 Training Infrastructure 設計上也進行了大量工程創新。
模型採用多模態並行框架,針對視覺編碼 / MLP 介面卡和語言模型分別使用 ZeRO 資料並行與標準 4D 並行策略,充分發揮各自優勢;視覺 token 的重分配採用區域性貪心負載均衡演算法,將計算負載合理分佈在 GPU 叢集中,提升吞吐效率;此外,還定製了資料載入器,優化了資料讀取和分發過程。
Seed1.5-VL 以其強大的多模態理解與推理能力,正在重塑我們與視覺世界互動的方式。無論是影像定位、視覺推理還是長影片解析,Seed1.5-VL 都展示了行業領先的技術實力,也為通用視覺系統的實際應用拓寬了路徑。
結語
在此次上海巡展中,火山引擎展示了其在 AI 領域的多項創新成果。從輕量級影片生成到深度視覺理解,再到音樂創作與全流程資料智慧體,火山引擎正逐步構建一個完整的技術生態,不僅為企業提供了更強的技術支撐,也推動了從業務流程到智慧體應用的全面落地。
這也意味著,真正的多模態智慧時代,正加速走進現實。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章