位元組最強多模態模型登陸火山引擎！Seed1.5-VL靠20B啟用引數狂攬38項SOTA

機器之心報道

編輯：楊文

位元組拿出了國際頂尖水平的視覺–語言多模態大模型。

5 月 13 日，火山引擎在上海搞了場 FORCE LINK AI 創新巡展，一股腦釋出了 5 款模型和產品，包括豆包・影片生成模型 Seedance 1.0 lite、升級後的豆包 1.5・視覺深度思考模型，以及新版豆包・音樂模型。同時，Data Agent 和 Trae 等產品也有了新進展。

其中，全場最吸睛的就是豆包 1.5・視覺深度思考模型（以下稱 Seed 1.5-VL）。

相比於之前版本，Seed1.5-VL 具備更強的通用多模態理解和推理能力，不僅視覺定位和推理更快更準，還新增了影片理解、多模態智慧體能力。

舉個例子。僅需一張圖，再來個提示詞，Seed1.5-VL 就能精準識別觀眾、棒球、座椅、圍欄等多種元素，還能正確分類並給出座標。

再比如，餵它一段監控，問一句：「今天小貓幹了哪些壞事？」幾秒鐘後，它就丟過來幾段影片，「抓包」了小貓遛彎、玩球、巡視、搞破壞等各種「作案」現場。

儘管 Seed1.5-VL 的啟用引數僅有 20B，但其效能可達到與 Gemini2.5 Pro 相當的水平，在 60 個公開評測基準中，有 38 個取得 SOTA 表現，在影片理解、視覺推理、多模態智慧體能力等方面均處於第一梯隊。

Seed1.5-VL 推理效能拉滿，但推理成本極具優勢。據其官網顯示，Seed1.5-VL 推理輸入價格僅為每千 tokens 0.003 元，推理輸出價格為每千 tokens 0.009 元。

目前，Seed1.5-VL 已在火山引擎全面開放 API，開發者登入後選擇 Doubao-1.5-thinking-vision-pro 即可快速調用其能力，構建自己的 AI 視覺助手、巡檢系統、互動 Agent 或下一代智慧攝像頭。

官網：

https://seed.bytedance.com/tech/seed1_5_vl

API：

https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428

一手實測：視覺定位、推理又快又準

說一千道一萬，模型好不好使，還得親自上手試。接下來，我們就奉上一手實測，檢驗一下 Seed1.5-VL 真實能力。

先來看看它的視覺定位和推理能力。

我們上傳一張擺滿各式各樣牛奶的貨架圖片，讓它找出圖中有幾盒黃桃味果粒酸奶優酸乳，並計算它們的價格。

這類任務看似簡單，實則非常考驗模型的多模態協同能力，需要它同時具備影像理解（識別包裝）、文字 OCR（識別價格標籤）、語義匹配（產品名稱匹配）、數學推理（乘法計算）等能力。

而 Seed1.5-VL 僅用不到 10 秒，就精準識別出貨架角落裡的黃桃味酸奶優酸乳，還準確數清瓶數、識別單價，並進行正確的價格計算。

除了門店貨架巡檢的工作，我們還讓它找出下圖中有幾隻小貓在生氣。

從影像畫素級別的變化中提取情緒線索，這對大模型的影像理解精度、注意力機制、細粒度識別能力都是極大的挑戰。Seed1.5-VL 面對一整屏表情相似的小貓臉，準確識別出 5 只在「生氣」，並給出了相應座標。

還有下面這個「找不同」測試，Seed1.5-VL 既能精確分析兩張相似圖片的細微差別，又能清晰描述所有不同點，比如太陽左側飛鳥數量、沙灘球顏色等，這展示了它在視覺理解、空間關係處理和結構化輸出方面的綜合能力。

此外，它還可以推理複雜視覺謎題。

比如這道公務員圖形推理題目，大部分人看到這些黑白方塊一頭霧水，但 Seed1.5-VL 僅用 10 秒就捕捉到其中的規律，透過精準識別前兩行圖形疊加後「去同存異」的變換邏輯，準確推匯出第三行的缺失圖形。

對於開發者來說，Seed1.5-VL 新增的多模態智慧體能力是一大利器。它基於強大的 GUI 定位效能，可在 PC 端、手機端等不同環境中完成複雜互動任務。

比如在測試環境中，Agent 可以識別並點選「點贊」按鈕，用於模擬使用者行為，驗證功能流程是否正常。

技術解讀：重構視覺理解邊界

作為 Seed 系列最新一代多模態模型，Seed1.5-VL 在超過 3T token 的多模態資料上完成預訓練，在影像問答、圖表理解、視覺推理、影片分析、GUI 智慧體等多個任務上表現突出，成為推動多模態互動應用落地的重要引擎。

那麼，該模型背後有哪些獨門絕技？

論文連結：https://arxiv.org/abs/2505.07062
技術報告：https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf
GitHub：https://github.com/ByteDance-Seed/Seed1.5-VL

從模型架構上來說，Seed1.5-VL 由三個核心元件構成：首先是視覺編碼模組 SeedViT，模型引數為 532M，用於對影像和影片進行編碼，能夠處理任意長寬比的影像輸入；其次是一個多層感知機（MLP）介面卡，負責將視覺特徵投影到多模態表徵空間；最後是基於 MoE 架構的大語言模型 Seed1.5-LLM，啟用引數為 20B，專注於處理融合後的多模態輸入。