作者:蛋醬
這幾天的大模型圈子,特別熱鬧。凌晨是 OpenAI 的 o3 和 o4-mini,一覺醒來,國內這邊的豆包大模型又上新了一波。
巧合的是,都是能看懂影像、能呼叫工具的新一代推理模型。
就在今天上午,2025 火山引擎 Force Link AI 創新巡展首站來到杭州。火山引擎總裁譚待宣佈,「豆包 1.5・深度思考模型」加入豆包大模型全家桶。即日起,使用者可在火山方舟官網直接呼叫「豆包 1.5・深度思考模型」API。

豆包 1.5・深度思考模型包含兩個版本,第一個主線版本是大語言模型 Doubao-1.5-thinking-pro,第二個是具備多模態能力的視覺版 Doubao-1.5-thinking-pro-vision。前者推理能力更強,後者支援視覺推理,開發者可以按需使用。
經多項主流基準測試評估,Doubao-1.5-thinking-pro 在數學推理、程式設計競賽、科學推理等專業領域任務以及創意寫作等通用任務中均表現突出:

進一步想,讓大模型的深度思考疊加視覺理解能力,必然能解鎖更廣泛更好玩的應用方式。Doubao-1.5-thinking-pro-vision 具備強大的視覺理解能力,就像人類一樣,不光基於文字思考,更能基於所見畫面思考,且思考得更立體、更深度。
就如下方影片所示,你可以文字提問、語音提問、拍照提問,不管是多複雜的問題,都能得到滿意的回答:
與此同時,豆包家族的幾位成員也迎來了重磅升級:豆包・視覺理解模型增強了視覺定位能力和影片搜尋能力;豆包文生圖模型 3.0 版本釋出,憑藉「更好的文字排版表現、實拍級的影像生成效果、2K 的高畫質圖片生成」三大優勢,重新樹立了生成式視覺技術的工業級應用標杆。
近一年來,不斷增加的呼叫量和多場景覆蓋,讓豆包大模型家族持續壯大、越來越全面。去年 12 月,豆包大模型的日均 tokens 呼叫量達成 4 萬億里程碑。截至 2025 年 3 月底,這個數字已經超過了 12.7 萬億,相比剛釋出時實現了超過 106 倍的超高速增長。

本次活動中,火山引擎面向 Agent 服務,釋出了 OS Agent 解決方案、GUI Agent 大模型 —— 豆包 1.5・UI-TARS 模型;面向大規模推理,釋出了 AI 雲原生・ServingKit 推理套件。
不斷提升模型面向企業複雜場景分析能力,為智慧決策與行動提供支援,這也是火山引擎穩居國產 AI 雲服務平臺第一梯隊的根本原因。據 IDC 報告,2024 年中國公有云大模型呼叫量激增,火山引擎以 46.4% 的市場份額位居中國市場第一。
能看能思考
「原生多模態」成為推理模型標配
對於大部分豆包 APP 的使用者來說,3 月初上線的「深度思考」是一項非常實用、好用的功能,但關於背後的推理模型的細節,我們卻知之甚少。
從今天的現場釋出資訊來看,Doubao-1.5-thinking-pro 模型採用 MoE 架構,總引數為 200B,啟用引數僅 20B,具備顯著的訓練和推理成本優勢。
專業級推理上,在數學、程式碼、科學等專業領域推理任務中表現出色,均已達到或接近全球第一梯隊水平。
-
數學推理方面,該模型的 AIME 2024 得分為 86.7,追平 OpenAI o3-mini-high。
-
程式碼能力方面,該模型的 Codeforces pass@8 達到了 55.0%,接近 Gemini 2.5 Pro。
-
科學推理方面,該模型的 GPQA 得分為 77.3%,接近 o3-mini-high。
在創意寫作等非推理任務中,Doubao-1.5-thinking-pro 也展示出優秀的泛化能力,能夠勝任更廣泛和複雜的使用場景。
為了提升模型的通用能力,團隊優化了資料處理策略,把可驗證資料與創意性資料進行融合處理,滿足各類任務的需求。此外,大規模強化學習是訓練推理模型的關鍵技術,團隊透過採用創新的雙軌獎勵機制,兼顧「對錯分明」和「見仁見智」的任務,有效實現了演算法的可靠最佳化。
低延遲對於模型深度思考能力的應用來說是一項關鍵指標。基於高效演算法,豆包 1.5・深度思考模型在提供行業極高併發承載能力的同時,實現了 20 毫秒極低延遲。
對於當下的大模型應用來說,深度思考能力已經成為標配。我們都習慣了給 AI 多一點時間「深度思考」再回答問題。但很多生活中的實際問題,解決的過程中也是需要隨時查詢即時資訊的。
值得一提的是,目前的豆包 APP 基於豆包 1.5・深度思考模型進行了定向訓練,將聯網能力和深度思考進行了深度繫結。這就很像人類的思維方式 ——「邊想邊搜」。無需人為設定工作流,模型會自動透過強化學習探索中間用什麼樣的步驟和過程能達到好的結果,幫助使用者獲得更加全面、準確、契合需求的結果。
我們看一個很常見的用法。在購物推薦這個典型場景中,給到一個條件很苛刻的問題:「一對夫妻帶兩個孩子去露營,溫度低,有雨,希望把裝備買齊,要考慮預算限制,還要兼顧便攜性和安全性。」
豆包首先是拆解每個具體需求需要的注意事項,比如裝備、預算、安全等方面的注意事項,規劃出需要的資訊,然後經過了 3 輪搜尋,終於給出了符合預算範圍、非常細緻、深思熟慮的答案。
話又說回來,總有那麼一些問題,你沒辦法純粹用語言向大模型描述。
所以,讓擅長深度思考的模型具備原生的多模態深度理解能力就變得更為重要,也是讓使用者互動方式更自然順暢的關鍵。
僅文字輸入的推理模型做不到處理需要空間、形態或動態變化的任務,而此次推出的視覺版 Doubao-1.5-thinking-pro-vision,可以結合文字、影像等多源資訊,解決需要綜合感知的任務。同時,視覺資訊的輸入也能補充文字描述中的模糊性。
比如,面對一張航拍地貌的圖片,豆包 1.5・深度思考模型不僅能注意到不同顏色的湖泊,還觀察到了湖泊的邊緣有白色的鹽結晶和旅遊設施情況。然後根據地貌、開發情況、地理位置等進行深度思考和判斷,並對類似景點進行了逐一排除。最終得出準確答案:是「青海大柴旦翡翠湖」!
一手實測
「視覺理解」+「深度思考」有多好用?
「視覺理解」和「深度思考」複合能力的加持,讓豆包 1.5・深度思考模型視覺版提供了非常獨特的使用者體驗。
還有哪些實用的開啟方式?這裡可以看看機器之心的測試結果:
先來一道幾何證明題。採用「瞪眼法」,我們感覺到答案應該是「30 度」,但我們更想知道解題時的「腦回路」是怎樣的,畢竟不寫證明過程也是不得分的。那就問問豆包 1.5・深度思考模型視覺版:

我們可以看到,模型用了 15 秒,深度思考了滿滿一屏:


然後它用 5 秒寫出了所有解題步驟和最終答案。如果使用者看完答案還不明白,就回去翻看思維鏈過程對比著學即可。


再來一個:在這個沒有紅綠燈的十字路口發生的交通事故,責任如何認定?左轉私家車應該讓直行計程車嗎?

這張照片拍攝的是一個繁忙的十字路口,包含眾多車輛,就算是行人路過想看個熱鬧,也得反應好幾秒。而豆包 1.5・深度思考模型視覺版迅速鎖定了事故車輛雙方的行駛軌跡和碰撞情況,首先列出清晰的法律依據,然後從「原則上」和「例外」兩種情況推理出責任如何判定,考慮的相當全面:


上面這幾個例子都是生活中常見或有趣的用法,接下來,我們再給豆包上點新的難度。
往專業了說,在醫療診斷場景中,豆包 1.5・深度思考模型視覺版還可以協助人類分析醫學影像(X 光、MRI)並生成診斷報告。
患者自述「反覆發燒,吃藥不見好」,CT 結果如圖,怎麼治?

看看「豆包大夫」怎麼分析的。因為我們是以「醫生」的口吻提問,所以豆包 1.5・深度思考模型視覺版給出了多種可能性:「如果能看到雙肺多發斑片狀磨玻璃影或實變,伴有支氣管充氣徵,可能提示肺炎,但如果是慢性過程,需要排除結核或真菌感染。如果有鈣化灶,可能提示陳舊性病變」。




需要注意的是,普通人最好只參考它的回覆進行初步自查,最終如何治療還是要遵醫囑。
我們測評的最後一個任務涉及專業領域的內容創作,豆包 1.5・深度思考模型視覺版能夠以相當專業的眼光去審視作品,輔助設計或改進創作內容。
這裡我們給到了一張建築草圖,而模型不僅推理了結構力學合理性,還會給出非常專業細緻的最佳化建議:




整體測下來,感覺很厲害。具備視覺推理能力的豆包 1.5・深度思考模型,就像是一個天生長有「聰明大腦」和「眼睛」的超級 AI,解決問題的能力大大提升。
從今天起,人工智慧確實進入了一個新的時代,推理模型不再「單打獨鬥」,一舉突破純文字或單模態的侷限,得以進入到更多複雜、核心、高價值的場景。我們完全可以說,AI 的能力邊界正在無限趨近於人類專家。
視覺理解模型、文生圖模型再升級
在充分認識「豆包 1.5・深度思考模型」的新成員之後,還有兩位豆包大模型家族的成員也迎來了重磅升級。
一位是家族已有成員「豆包・文生圖模型」,此次正式升級為 3.0 版本。
近半年來,文生圖賽道經歷了一場由 GPT-4o 帶來的狂飆突進。而豆包・文生圖模型 3.0 重新樹立了生成式視覺技術的工業級應用標杆。具體來說,它實現了三大突破性升級:更好的文字排版表現、實拍級的影像生成效果、2K 的高畫質圖片生成。
首先是中文小字和長文字的生成。新模型不僅較好地解決了小字和長文字的生成難題,更大幅提升了海報排版的美感。比如下方的藝術展海報,裡面有中英文混合的 7 種大小字以及長文字,模型在精準生成的基礎上還做到了完美的融合排版:

其次,AI 生成人物影像的真實感和美感終於「到位」了。大家可以看一下,這兩張都是豆包文生圖 3.0 模型的作品,皮膚質感、表情走向、衣服的紋理等細節的真實度都很贊:

此外,豆包・文生圖 3.0 模型實現了不需要經過二次處理的 2K 高畫質直出:

豆包・文生圖 3.0 模型也扛住了領域內基準測試的考驗,在最新的文生圖領域權威榜單 Artificial Analysis 競技場中,已超越業界諸多主流模型,躋身全球第一梯隊。

另一位重磅升級的成員是「豆包・視覺理解模型」。
自去年 12 月 Force 大會上釋出後,豆包・視覺理解模型已大量應用商業化場景中,且模型能力也在不斷升級。這一次的版本更新帶來了更強視覺定位能力和影片搜尋能力。
首先,最新版本的視覺理解模型支援對單目標、多目標、小目標等進行邊界框或點提示進行定位,並支援基於定位進行計數或描述所定位內容,此外還支援 3D 定位。視覺定位能力的提升,可以讓模型進一步擴充套件應用場景,例如各行業的巡檢場景、圖形介面操作智慧體、機器人訓練、自動駕駛訓練等。
此外,最新版本的視覺理解模型在影片能力上也有大幅提升,如對話互動、記憶能力、對話互動、總結理解、方向 / 速度 / 順序的感知能力、長影片能力等。
我們能夠基於影片理解打造非常有趣的商業化應用。比如,人類白天出門辦公,但家中有寵物需要看管,我們就可以基於影片理解能力,加上知識庫、向量搜尋等能力,對家中的監控影片進行搜尋。
你可能好奇「小貓今天在家都做了什麼」,模型能夠毫秒級返回語義相關的影片片段供檢視:
技術超越之後
生態協同效應的釋放
從一年前官宣誕生至今,豆包大模型家族已經「枝繁葉茂」,發展到了 15 位成員的規模。

大模型在業務場景落地的關鍵挑戰:效果不好、成本太貴、落地太難,而豆包大模型始終以更強模型、更低價格、更易落地,幫助企業解決上述問題。
與此同時,火山引擎打造了覆蓋完整鏈路的相關產品,支援 AI 應用落地。在這次活動上,更是有一系列工具和解決方案發布。
作為專為人工智慧開發設計的工具,AI IDE 對大模型技術的落地,特別是在簡化模型訓練與除錯、資料管理增強、加速模型部署等方面具備關鍵作用。
字節跳動此前釋出了國內首個 AI IDE——Trae(The Real AI Engineer)。相比於傳統的 AI 外掛產品來說,Trae 將 AI 與 IDE 深度融合,提供更智慧的開發體驗,具備交付化、智慧化、協作化三個核心特質,使開發者更聚焦解決複雜業務問題而非工程細節。
Agent 賽道從去年火到了今年,也確實是一個極具前景的大模型落地方向。OS Agent 是目前業界公認的真正能從底層發揮 AI Agent 潛力的通用形態,但企業和個人如何打造專屬的通用 Agent,是個挑戰重重的問題。
火山引擎不直接「銷售」Agent 能力,而是希望將構建 OS Agent 的解決方案開放給客戶。
在賦能 AI 應用程式碼智慧和瀏覽器智慧方面,火山引擎解決方案的核心元件是豆包大模型和 veFaaS(函式即服務)、雲伺服器、雲手機等產品。豆包大模型實現程式碼的生成和 agent 的流程,veFaaS 則實現程式碼沙箱和瀏覽器沙箱的託管,讓企業和開發者可以輕鬆構建自己的 Code use 和 Browser use。

到了互動和任務相對複雜的 Computer Use 和 Mobile Use 場景,Agent 需要操作電腦或者手機完成任務。火山引擎的解決方案是透過自研 Doubao 1.5 UI TARS 模型以及 Agent,驅動圖形使用者介面進行互動(GUI),而無需依賴特定的應用程式程式設計介面(API),並且能夠精準識別使用者的任務需求,進行智慧感知、自主推理並準確行動。

其中,UI-TARS 是一款助力客戶打造通用智慧體的大模型。它將螢幕視覺理解、邏輯推理、介面元素定位和操作整合在單一模型中,突破傳統自動化工具依賴預設規則的侷限性,為智慧體的介面互動提供了智慧體更類似人類、接近人類的模型基礎。
豆包 1.5・UI-TARS 模型在 OS World(https://os-world.github.io/)等 OS 類測試集中取得比較高的分數(目前測下來是 28 分),僅次於 OpenAI CUA 和 Claude sonnet 模型,在國內各類模型中效果最優。目前,豆包・UI-Tars 模型已經上線火山方舟平臺,面向全體使用者提供穩定、高效的服務。
本次新發布的 AI 雲原生・ServingKit 推理套件是經過火山方舟 AI 業務、豆包大模型和網際網路、汽車、金融各行業客戶驗證的推理模型部署的一套解決方案,用於幫助客戶更快、更省地完成大模型推理服務。透過 AI 容器編排、AI 閘道器、推理全鏈路觀測和 AI 加速套件,ServingKit 支援在大規模 GPU 叢集上執行推理工作負載,並保障推理服務的高效能、高可用性和資源成本優勢。企業可快速構建高效能、低成本的生產可用的推理服務,聚焦業務創新而非底層運維。
如果說技術解決了「能不能做」的問題,而生態決定的是「如何做得好且可持續」,進而釋放 AI 技術落地的全域性價值。火山引擎打造的一系列工具,無一不在大模型落地層面起到了標準化流程、提升效率和促進協作的作用。
從中,我們不僅看到了國產 AI 技術的超越,更看到了生態協同效應的釋放。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]