一水 衡宇 發自 凹非寺量子位 | 公眾號 QbitAI
一上手就令網友直呼「生圖能力」比GPT-4o更強?!

就在昨夜,阿里帶著全新多模態模型Qwen-VLo開啟炸場模式。
據介紹,Qwen-VLo在阿里原有的多模態理解和生成能力上進行了全面升級,具備三大亮點:
-
具有增強的細節捕捉能力,能在整個生成過程中保持高度語義一致性; -
一個指令即可實現影像編輯,包括風格替換、素材增刪、新增文字等等; -
支援中英等多語言,全球使用者使用更方便。
而且無論是輸入端還是輸出端,Qwen-VLo都支援任意解析度和長寬比,不受固定格式的限制。
同時在官方釋出的demo中,除了那些GPT-4o已經有的玩法(如連續生成、吉卜力風格、新增文字),它還支援一些腦洞大開的idea。
前者無需多言,它現在也能像“連續劇”一樣生成各種精準符合指令的圖片:

至於後者,比如我們像在超市選購日用品一樣,讓Qwen-VLo生成一張“洗浴用品都在購物籃裡”的圖片。
結果啪的一下,還真立馬完成裝貨了(⊙ˍ⊙):

不是沒有一些小瑕疵,但有一說一,其“理解”能力確實比之前更強。
官方介紹,這種理解能力不止體現在影像生成上,還包括對影像的識別解釋。
比如完成生圖任務後,再讓它介紹一下圖中小貓小狗的品種(正確識別為虎斑貓和比格):

而且和以往模型稍顯不同的是,Qwen-VLo還可以對現有資訊進行註釋(如檢測、分割等)。
下圖中,它成功用紅色Mask分割出了香蕉的邊緣。

……
目前模型人人免費可玩(當前為預覽版),具體請認準Qwen3-235B-A22B,直接在首頁輸入框提需求就行。

話不多說,我們先一起來上手實測一波走起。
Qwen-VLo,你到底有多能編輯?
根據Qwen介紹的亮點,即“強細節捕捉”和“一句話編輯影像”,我們著重在測試中考查了Qwen-VLo的各種編輯能力。
畢竟這點真的很吸引人啊!
一方面幾乎所有的模型生圖都需要抽卡,但前一次的生成效果並非讓人完全不滿意,所以二次/多次編輯能力非常重要。
另一方面,強編輯能力,真的給P圖廢材省不少事兒……

開胃小菜先走起!
第一測,讓它先生成一張北極熊喝可樂的照片。
這一回合主打的是非現實風格。

在此基礎上,繼續透過對話將可樂換成牛奶。

一次成功,Qwen-VLo確實完成了替換。
且背景、北極熊本熊都幾乎沒被亂改。
但非要挑挑毛病的話,還是能觀察出來,前後兩張圖中北極熊的眉眼部分和毛髮質感稍微有那麼一丁點不一樣。
第二測,先讓它幫忙生成一張小鳥的照片。
這一回合主打的是現實攝影風格。

然後不用讀霍格沃茨,只需一句“把圖中的這隻鳥換成鴿子”,你就能施展魔法:

但我們嘗試玩兒個“蒜鳥”的梗,Qwen-VLo就沒get到。
(注:“蒜鳥”一詞是近期爆梗。短影片畫外音中的武漢方言“算了算了,都不容易”,被網友諧音稱“算鳥”,後來演變成“蒜鳥”)
不過,雖然沒get到梗,Qwen-VLo還是努力想完成編輯任務。
看下圖成果,在不改變其它元素的基礎上,Qwen-VLo給咱們把圖中的鴿子換成了別的鳥。

也算是一種換鳥了?

第三測,來個多步驟任務,全方位測試Qwen-VLo“描繪”世界的同時,重點考察下它在影像上的文字編輯能力。
過程是「讓Qwen-VLo生成草圖——上色——加字——編輯漢字」。
來,怕動圖滑太快,咱們連看過程中順次擷取的四張圖,感受它每一步帶來的改變:




雖然圖裡小帥同學的五官在變,但人物主體穩定,背景沒變,一整套下來,編輯漢字的任務算是搞得不錯,
最後來個附加題,編輯英文——

字編輯對了,多人物主體位置沒變,背景依舊,總體沒錯。
但如你所見,小帥同學也長得比較美漫風了(手動笑死)。
同樣是逐步展示,但Qwen-VLo這背後真有活
這裡我們展開補充一點,大家上手玩兒的時候應該都能注意到。
那就是Qwen-VLo生成影像的過程,是醬嬸兒的——

是不是有點熟悉的味道?
沒錯,GPT-4o也是從上到下逐塊生成影像的:先顯示模糊輪廓,再逐步填充細節。
不過當時港中文研究逆向工程研究發現,使用者看到的逐行渲染效果只是OpenAI的障眼法,不是真的由上至下逐畫素生成。
這樣做的目的,既滿足使用者對“即時生成”的心理預期,又避免了真正逐行渲染的技術負擔。
但Qwen這麼做就不是上演OpenAI的戲碼了。
敲敲黑板——
首先,Qwen官方表示Qwen-VLo的這種漸進式生成方式,不僅是從上到下,還是從左至右逐步清晰地構建整幅圖片。
我們多次實測,暫時沒有肉眼觀察到“從左至右”的前端效果。
但從上到下逐漸構成照片的前端效果是保準會有的:

其次,Qwen引入這個形式,它是真·有用啊:
在生成過程中,模型會對預測的內容不斷調整和最佳化,從而確保最終結果更加和諧一致。這種生成機制不僅提升了視覺效果,生成效率,還特別適用於需要精細控制的長段落文字生成任務。
例如,在生成帶有大量文字的廣告設計或漫畫分鏡時,Qwen-VLo會逐步生成,慢慢修改。
這個生成過程,其實有點思維鏈“一步一步慢慢想”具像化的意思了!
網友實測腦洞開很大,來吧展示
除了以上量子位實測,諸多網友也火速貢獻了一波有趣玩法…
隨手一張動漫角色草圖, Qwen-VLo便能幫忙一鍵上色。

讓小貓擔任宣傳員,還能直接生成帶有“Qwen Chat”字樣的看板。

或者也可以借鑑下面網友的做法,以後用來製作一些梗圖(doge)。

順便一提,連Qwen團隊成員之一Binyuan Hui也出來給大家打樣,分享了吉卜力風格的某近日頂流。

好了,更多例子就不一一展示了,只說一句:
目前模型免費開放,評論區可帶圖,記得回來分享一波~
線上體驗:https://chat.qwen.ai/部落格:https://qwenlm.github.io/blog/Qwen-VLoo/
參考連結:[1]https://x.com/Alibaba_Qwen/status/1938604105909600466[2]https://x.com/szkane/status/1938614382369575048[3]https://x.com/huybery/status/1938639781988286957
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
📪 量子位AI主題策劃正在徵集中!歡迎參與專題365行AI落地方案,一千零一個AI應用,或與我們分享你在尋找的AI產品,或發現的AI新動向。
💬 也歡迎你加入量子位每日AI交流群,一起來暢聊AI吧~

一鍵關注 👇 點亮星標