昨夜，阿里版GPT-4o登場，一句話精準P圖，免費可用

2025-06-29 13:07 智東西

阿里多模態模型Qwen VLo上線：理解生成一體，自由編輯指令修圖。

作者 | 李水青

編輯 | 心緣

智東西6月28日報道，昨日深夜，阿里推出多模態統一理解與生成模型Qwen VLo。該模型不僅能夠“看懂”世界，更能基於理解進行高質量的再創造，具有三大亮點：理解和生成更準確，支援開放指令編輯修改圖片，多語言指令支援。

使用者即日起可以透過Qwen Chat訪問該模型（預覽版），比如直接傳送類似“生成一張可愛貓咪的圖片”的提示來生成影像，或者上傳一張貓咪的圖片並要求“給貓咪頭上加頂帽子”來修改影像。

Qwen VLo以一種漸進式生成方式生成圖片。在生成過程中，模型會對預測的內容不斷調整和最佳化，從而確保最終結果更加和諧一致，在提升視覺效果同時帶來更靈活和可控的創作體驗。

體驗地址：

https://chat.qwenlm.ai/

01.

理解和生成更準確

支援開放指令修改圖片

從最初的QwenVL到Qwen2.5 VL ，阿里本次推出的Qwen VLo在原始多模態理解與生成能力上進行了全面升級。

以下是Qwen VLo的核心亮點：

1、更精準的內容理解與再創造

以往的多模態模型在生成過程中容易出現語義不一致的問題，例如將汽車誤生成其他型別的物體，或者無法保留原圖的關鍵結構特徵。而Qwen VLo透過更強大的細節捕捉能力，能夠在生成過程中保持高度的語義一致性。

2、支援開放指令編輯修改生成

使用者可以透過自然語言提出各種創意性指令，如“將這張畫風改為梵高風格”、“讓這張照片看起來像19世紀的老照片”或“給這張圖片新增一個晴朗的天空”。Qwen VLo能夠靈活響應這些開放性指令，並生成符合使用者預期的結果。

無論是藝術風格遷移、場景重構還是細節修飾，模型都能應對。甚至一些傳統的視覺感知人物如預測深度圖、分割圖、檢測圖以及邊緣資訊等也可以透過編輯指令輕鬆完成。

更進一步，像很多更復雜的指令，比如一條指令中同時包含修改物體、修改文字、更換背景，模型也能完成。

3、多語言指令支援

Qwen VLo支援包括中文、英文在內的多種語言指令，打破了語言壁壘，為全球使用者提供了統一且便捷的互動體驗。

02.

像人類畫師一樣精細創作

一句話“指哪改哪”

Qwen VLo更像一個人類畫師, 根據自己的理解再進行創作，下面是一些具體的例子。

1、該模型能夠直接生成影像，並對其進行修改，例如替換背景、新增主體、進行風格遷移，甚至可以完成基於開放指令的大幅修改，包括檢測和分割等視覺感知任務。

使用者：生成一個可愛的柴犬

Qwen VLo：

使用者：背景改成草原

Qwen VLo：

使用者：給它帶上紅色帽子和黑色透明墨鏡,帽子上寫著“QwenVLo”

Qwen VLo：

使用者：變成吉卜力風格

Qwen VLo：

使用者：變成3d Q版風格

Qwen VLo：

使用者：把它放到水晶球裡

Qwen VLo：

使用者：桌面上擺著這個水晶球，生成以一個人的第一視角在公園的圓形咖啡桌上在筆記本上畫畫

Qwen VLo：

使用者：用藍色的蒙版檢測框框出圖中的筆

Qwen VLo：

使用者：用粉色的mask分割出圖中的狗狗邊緣

Qwen VLo：

2、Qwen VLo會根據自己的理解進行重新創作，這意味著在風格轉換和遷移方面擁有更大的發揮空間，比如將卡通變為寫實、將形象變成氣球等有趣的生成效果。

使用者：變成真實照片

Qwen VLo：

使用者：背景換成埃菲爾鐵塔

Qwen VLo：

使用者：變成氣球飄到空中

Qwen VLo：

使用者：把西瓜換成榴蓮

Qwen VLo：

3、Qwen VLo在影像與指令理解上的優勢使其能夠更好地解析複雜指令，一條指令中可以包含多個操作和修改，從而一次性完成多重任務，例如生成海報、組合物體等。

Qwen VLo：

4、Qwen VLo除了能對影像的編輯和再創作，還可以完成一些對已有資訊的標註，比如檢測、分割、邊緣檢測等。

使用者：生成擺滿水果的桌面

Qwen VLo：

使用者：預測邊緣檢測圖

Qwen VLo：

使用者：用紅色mask分割圖中香蕉的邊緣

Qwen VLo：

5、Qwen VLo可以支援多張影像的輸入理解和生成。（多圖輸入的功能還沒有正式上線）

使用者：把這些洗浴用品，放到這個紅色的籃子裡面

Qwen VLo：

6、除了圖文同時輸入的情況，Qwen VLo也支援文字到影像的直接生成，包括通用影像和中英文海報等。

使用者：Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Qwen VLo!” made out of colorful energy

（一幅史詩級的動漫藝術作品：夜晚，一位巫師立於山頂，向黑暗的天空施展宇宙咒語，由彩色能量構成的“Qwen VLo!”字樣在夜空中顯現。）

Qwen VLo：

7、Qwen VLo支援動態長寬比的影像生成，對於長寬比高達4:1，1:3等細長型別影像也能輕鬆掌握。（極端長寬比影像生成功能還沒有正式上線。）

使用者：動漫插畫；水彩手繪；前景是草坡，草坡上有個人在奔跑，動態感，然後是厚重的白雲；藍色背景；顏色層次多漸變；過渡自然和諧

Qwen VLo：

8、作為統一的理解與生成模型，Qwen VLo還可以對生成的內容進行再分析和理解，例如識別生成圖片中的狗和貓的品種。

使用者：Generate a puppy and a kitten.

Qwen VLo：

使用者：What breed of cat and dog is this?

Qwen VLo：

03.

結語：統一理解與生成

看圖說話再升級

Qwen VLo還創新性地引入了一種全新的漸進式生成機制，這一機制不僅提升了生成效率，還適用於需要精細控制的長段落文字生成任務。

同時，Qwen VLo還屬於預覽階段，在生成的過程可能存在不符合事實、不完全和原圖一致、指令不遵循、在識別生圖和理解的意圖不夠穩定的問題。

未來，模型不僅可以用文本回答問題，還可以用影像來傳遞想法和含義。例如，生成示意圖、新增輔助線、標註關鍵區域等功能，都將為使用者提供更多元化的交流手段。

與此同時，具備輸出能力的多模態模型也為研發者提供了新的監督方式。透過生成任務，他們們可以更好地幫助模型理解世界。

（本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容，未經賬號授權，禁止隨意轉載。）

相關文章

全網首測！ Qwen3 vs Deepseek-R1 資料分析哪家強？

全網首測！ Qwen3 vs Deepseek-R1 資料分析哪家強？

阿里開源超強多模態模型！70億引數幹翻谷歌，看一眼秒出食譜，嘮嗑更像人，還能影片聊天

阿里開源超強多模態模型！70億引數幹翻谷歌，看一眼秒出食譜，嘮嗑更像人，還能影片聊天

蘋果AI入華合作伙伴揭曉，為何最終牽手阿里？

蘋果AI入華合作伙伴揭曉，為何最終牽手阿里？

攤牌了，程式碼不是我自己寫的

攤牌了，程式碼不是我自己寫的

作為開發者，我如何提高任務型大模型應用的響應效能

作為開發者，我如何提高任務型大模型應用的響應效能

7B模型搞定AI視訊通話，阿里最新開源炸場，看聽說寫全模態打通，開發者企業免費商用

7B模型搞定AI視訊通話，阿里最新開源炸場，看聽說寫全模態打通，開發者企業免費商用

AI早知道｜Runway釋出Gen-4Turbo；阿里新模型Qwen3即將釋出

AI早知道｜Runway釋出Gen-4Turbo；阿里新模型Qwen3即將釋出

阿里最新開源模型Qwen3到底能不能打？不妨上「通義App」親自試試

阿里最新開源模型Qwen3到底能不能打？不妨上「通義App」親自試試

大模型角逐：DeepSeek、通義千問、Google、OpenAI迎來模型更新

大模型角逐：DeepSeek、通義千問、Google、OpenAI迎來模型更新

Qwen3釋出！超DeepSeekR1登頂開源榜，還帶來了跟R1不同配方

Qwen3釋出！超DeepSeekR1登頂開源榜，還帶來了跟R1不同配方

Copyright © 2025 | WordPress Theme by MH Themes