豆包釋出大模型1.5Pro,實測後我發現這個國產AI用最「笨」的方法幹翻了GPT-4o

這幾天海外科技圈最受關注的有兩件事,一個是一眾科技大佬齊聚特朗普就職典禮,川普還拉上 OpenAI、軟銀等公司成立一家叫「星際之門」(Stargate Project)的 AI 公司,未來 4 年要投資 5000 億美元,掀起了新一輪 AI 軍備競賽。
另外就是以 DeepSeek R1 為代表的國產推理模型給矽谷 AI 圈帶來的震撼,趕超 OpenAI 是所有 AI 公司的課題,但 DeepSeek 只用 2048 塊GPU、近 600 萬美元在 2 個月時間做到。
一些外媒將這波國產 AI 的釋出視為中國 AI 逼近甚至趕上美國的標誌也並不奇怪,而且這股浪潮還在繼續。
今天,字節跳動旗下的豆包大模型 1.5 Pro 正式亮相,不僅全面升級了模型的核心能力,也融合並進一步提升了多模態能力,在多項公開評測基準中也是全球領先水平。
豆包團隊還強調,模型訓練過程中並未使用任何其他模型生成的資料。
這次釋出的豆包大模型 1.5 系列產品線包括:
Doubao-1.5-pro:多項基準測試綜合得分優於 GPT-4o、Claude 3.5 Sonnet 等業界一流模型,創歷史最佳成績
Doubao-1.5-lite:用輕量級成本實現旗艦級效能,綜合性能持平或超越 GPT-4omini,Cluade 3.5 Haiku。
Doubao-1.5-vision-pro:定位專業視覺理解模型,在保持強大效能的同時,回覆更簡潔友好,多模態能力超越了 GPT-4o-0806
Doubao-1.5-realtime-voice-pro:真正實現端到端語音對話,具備低時延、對話中可隨時打斷、自然的情緒表達等特性,即將開放 API 服務
位元組團隊告訴 APPSO,Doubao-1.5-pro 目前已經在豆包 APP 灰度上線,由於對話是先接意圖識別,所以使用者大機率沒法確定在使用時是否分流到 1.5 Pro,不過開發者也可在火山引擎直接呼叫 API。
附上體驗連結:https://www.volcengine.com/
漂亮的引數背後是否有真材實料?我們也第一時間在火山引擎體驗了豆包大模型 1.5 系列。
先來看看 Doubao-1.5-pro-32k 模型。儘管「9.11 和 9.8 哪個大」以及「Strawberry 裡有幾個 r」已經是常規測試環節了,但我們還是要走一遍流程,而模型都順利通過了考驗。
接下來,我們向模型提出了一個較有挑戰性的問題——尋找古代名人中姓名末字與「峰」字發音接近的例子。
前半部分答案稱得上出色,起碼「翁」精確識別了與「峰」字發音相近的韻母(eng、ong),但後半段的關聯性則較為牽強。
繼續上一道電車難題,這個涉及道德倫理的經典思考題,考驗的不僅是模型的邏輯分析能力,更是其對複雜道德議題的理解深度。
而 Doubao-1.5-pro-32k 並沒有簡單給出答案,分析深入透徹,指出這類問題並無標準答案,不同的道德觀念和個人價值觀會導致不同的決策。
在完成上述測試後,我們將目光轉向了更強大的 Doubao-1.5-pro-256k 模型。
這是一款基於 Doubao-1.5-Pro 全面升級版的模型,整體效果大幅提升 10%,支援 256k 上下文視窗的推理,輸出長度支援最大 12k tokens。
為測試其解題能力,我們提出了一個古早的經典邏輯推理題,它的回答再次展現出了清晰的思維邏輯。
「據說有人給酒肆的老闆娘出了一個難題:此人明明知道店裡只有兩個舀酒的勺子,分別能舀 7 兩和 11 兩酒,卻硬要老闆娘賣給他 2 兩酒。聰明的老闆娘毫不含糊,用這兩個勺子在酒缸裡舀酒,並倒來倒去,居然量出了 2 兩酒,請問是怎麼做到的?」
那文字功底如何呢?我們也讓它創作一齣劇本。題材是 2015 年 44 歲的埃隆·馬斯克與前 Google CEO 拉里·佩奇關於「AI 是否最終會取代人類」的對話。
與 GPT-4o 的回答相比,Doubao-1.5-pro-256k 的劇本創作更加細膩生動,不僅有具體的景別設計、畫面描述,還包含了細緻的臺詞和時長安排。
如果你是一位經常需要編寫劇本的創作者,那選誰作為你的劇本創作搭子應該不用多說了吧。
而這種出色的創作能力,僅僅是豆包實力的一個縮影。實際上,此次更新中,Doubao-1.5-pro 基礎模型能力獲得全面提升,這一點從其在各大公開評測基準上的表現就可見一斑。
Doubao-1.5-pro 採用稀疏 MoE 架構實現了多項技術突破:透過深入研究稀疏度 Scaling Law,將效能槓桿從業界普遍的 3 倍提升至 7 倍,用僅佔稠密模型七分之一的引數量就超越了 Llama-3.1-405B 等大模型的效能。
在訓練流程上,團隊堅持完全自主的資料標註路線,透過演算法驅動的資料最佳化系統和 Verifier 與 Reward Model 的深度融合,建立了統一的評價框架。
豆包選擇了一條最艱難但最踏實的那條路,這也是這次技術突破值得誇讚的地方。
據悉,位元組研究團隊透過高效標註團隊與模型自提升相結合的方式持續最佳化資料質量,嚴格遵循內部標準,不使用任何其他模型的資料,確保資料來源的獨立性和可靠性。
並且,在 RL 階段突破了價值函式訓練難點,高難度任務效能提升超過 10 個百分點,並透過使用者反饋閉環持續最佳化模型表現。這些創新使模型在保持高效能的同時大幅提升了效率。
Doubao-1.5-pro 在多模態能力上實現了全面升級,透過原生動態解析度架構支援百萬級解析度和任意長寬比影像處理,實現了精準的特徵提取。
豆包團隊自研的支援動態解析度的 Doubao ViT 在多種視覺分類任務中表現優異,僅憑 2.4B 規模便在綜合評分上取得 SOTA 表現,效果超越 7 倍於自身規模的模型。
在資料訓練方面,模型採用了多樣化的合成管線,結合搜尋引擎的圖文資料、渲染引擎和傳統 CV 模型等多種方式生成高質量預訓練資料。
透過在 VLM 訓練階段混入純文字資料並動態調整學習率,模型實現了視覺和語言能力的平衡。
在語音領域,團隊創新性地提出了 Speech2Speech 端到端框架,突破了傳統 ASR+LLM+TTS 的級聯模式,將語音和文字模態進行深度融合,顯著提升了對話效果。
Doubao-1.5-pro 在語音和推理能力上取得重大突破:模型創新性地將語音和文字 Token 直接融合,摒棄了傳統的語音文字對齊方法,為語音多模態資料的 Scaling 奠定基礎。
在推理領域,透過大規模 RL 方法和 Test Time Scaling 的算力最佳化,團隊研發出 Doubao 深度思考模式。
最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基準測試中已超越 o1-preview、o1 等主流推理模型,透過持續的 RL 最佳化,模型的推理能力在多個領域展現出強大的泛化性。
從這一系列突破性進展來看,豆包無疑交出了一份令人滿意的答卷。更何況,在當前「模型喂模型」盛行的環境下,堅持原創的定力和勇氣本身就值得讚賞。
透過始終如一的自主研發、原創資料和持續最佳化,豆包用實際成果證明了「慢工出細活」的價值。或許我們都應該牢記,AI 賽道最大的彎道超車,應該是堅持不走捷徑。

相關文章