點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

一水 發自 凹非寺轉載自:量子位(QbitAI)
位元組最近真的猛猛開源啊……
這一次,他們直接開源了GPT-4o級別的影像生成能力。
(輕鬆拿捏“萬物皆可吉卜力”玩法~)

不止於此,其最新融合的多模態模型BAGEL主打一個“大一統”, 將帶圖推理、影像編輯、3D生成等功能全都集中到了一個模型。
各種花式玩法be like:
雖然活躍引數只有7B(總計14B),但它已經實現了影像理解、生成、編輯等多冠王,實力超越或媲美一眾頂尖開源(如Stable Diffusion 3、FLUX.1)和閉源(如GPT-4o、Gemini 2.0)模型。
模型一經發布,不僅迅速登上Hugging Face趨勢榜,還立即在𝕏引發熱議。
有網友見此連連感慨,“位元組像領先了整整一代人”。

OpenAI研究員也公開讚賞, 位元組Seed團隊在他心目中已經穩居頂級實驗室之列。

Okk,我們直接來看BAGEL模型有哪些玩法。
一個模型實現所有多模態功能
作為多模態模型,掌握帶圖推理算是如今的一個入門級挑戰。
扔給它疊放整齊的一塊布料,讓它想象出布料展開後的樣子。

可以看到,生成之前BAGEL模型會自動進行推理,並規劃出可行方案:

最終生成的圖片如下,一眼看去布料的拼圖和花紋沒有明顯錯誤:

換成其他例子,還能看到BAGEL模型支援無縫多輪對話。
先是按照文字提示生成符合要求的圖片:

然後緊接著生成人物的公仔形象,並推出銷售口號。

當然,除了上面這些,懂推理的BAGEL模型還支援複雜影像編輯。
最方便的,當屬一鍵試妝了:

展開其思考過程,不難發現它是真懂(doge)。

其他我們相對熟悉的技能,如人物表情轉換、憑空造物等更是不在話下。

最後,BAGEL模型超越傳統影像編輯,還具備多視角合成和導航等“世界建模”能力。
360°全自動觀賞裝在盒子裡的手辦:

又或者開局一張圖,視角一步步推進,沉浸式走進小巷:

總之,正如位元組團隊所強調的,BAGEL模型已經展現出統一多模態能力。
那麼接下來的問題是——
它怎麼做到的?
重新定義“湧現能力”
據論文介紹,BAGEL模型採用了MoT(Mixture-of-Transformer-Experts)架構。
它由兩個Transformer專家組成,一個專注於多模態理解,另一個專注於多模態生成。作為對應,模型也使用了兩個獨立的視覺編碼器,分別用於捕捉影像的畫素級和語義級特徵。
簡單來說,畫素級編碼器專注於影像的底層細節,如顏色、紋理等;語義級編碼器則關注影像的高層語義,如物體的類別、場景的含義等。
整體框架遵循“下一個token組預測正規化”,即模型根據已有的多模態輸入,學習預測後續的token,從而不斷最佳化自身對多模態資料的理解和生成能力。

順便一提,BAGEL基礎模型是基於Qwen2.5-7B-Instruct和siglip-so400m-14-384-flash-attn2模型進行微調,並使用了FLUX.1-schnell VAE模型。
基於上述架構,團隊在模型訓練中得出了一項重要發現。
隨著規模化資料與模型引數的雙重擴充套件,BAGEL模型表現出了一種“湧現能力(Emerging Properties)”——多模態理解和生成能力較早出現,隨後是基礎編輯能力,而複雜的智慧編輯能力則在後期顯現。
所謂的湧現能力,其實早已在大型視覺或語言模型中被廣泛探討。不過在論文中,聚焦於統一多模態基礎模型的背景下,團隊重新定義了湧現能力:
當某種能力在早期訓練階段尚未出現,而在後續預訓練中出現時,稱其為湧現能力。
結合BAGEL模型的表現,團隊認為其揭示了一種新興模式,即高階多模態推理是在完善的基礎技能之上逐步形成的,而非某種“突變”。
另外論文中提醒,將VAE(變分自編碼器)與ViT(視覺Transformer)特徵相結合,可以顯著提升智慧編輯能力。

最後,更多基準測試結果也展現了BAGEL模型領先的影像理解、生成、編輯能力。
例如在影像理解任務中,在啟用引數規模相當(7B)的情況下,BAGEL模型優於現有的統一模型Janus-Pro。
同時與專用理解模型(如Qwen2.5-VL和InternVL2.5)相比,BAGEL在大多數基準測試上表現更優。

在GenEval和WISE這兩個評估影像生成能力的測試中,BAGEL實現了88%的整體得分,優於專用生成模型(FLUX.1-dev:82%、SD3-Medium:74%)和統一模型(Janus-Pro:80%、MetaQuery-XL:80%)。

在圖片編輯能力測試中,BAGEL的表現可與Step1X-Edit(當前領先的專用影像編輯模型)相媲美,並且優於Gemini 2.0。

當然,也有更直觀的對比:

目前模型已在Hugging Face上架,採用相對寬鬆的Apache 2.0許可證。
專案主頁:https://bagel-ai.org/論文:https://arxiv.org/abs/2505.14683開源地址:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
參考連結:[1]https://x.com/_akhaliq/status/1925021633657401517[2]https://x.com/giffmana/status/1925194650266354108
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
