阿里震撼釋出!深夜開源Qwen2.5-VL新版本,視覺推理通殺,網友:美國模型完了

轉自:馬哥Linux運維
阿里發了Qwen2.5-VL的32B版本,達到同等規模的SOTA模型,堪稱開發者福音!
千問接連兩三次的模型釋出時間都不太湊巧。與DeepSeek V3的更新撞車,而上次發的QwQ-32B以輕量推理模型擊敗了DeepSeek R1,但風頭完全被Manus搶走了!
連網友都直呼阿里是AI屆汪峰。
不過話說回來,Qwen2.5-VL-32B這個模型還是很值得關注,作為阿里放出的第二大視覺模型,效能甚至超過了更大規模的 Qwen2-VL-72B-Instruct!主要有以下三方面優勢:
  • 回覆更符合人類主觀偏好:調整了輸出風格,使回答更加詳細、格式更規範,並更符合人類偏好。
  • 數學推理能力:複雜數學問題求解的準確性顯著提升。
  • 影像細粒度理解與推理:在影像解析、內容識別以及視覺邏輯推導等任務中表現出更強的準確性和細粒度分析能力。
從效能上看,Qwen2.5-VL-32B不僅在專長的視覺能力上一騎絕塵:
連純文字能力,都達到了同規模模型的SOTA級別:
無論是從開發者的本地部署需求出發,還是32B所做的架構更新,都有可圈可點之處。
阿里大佬Binyuan Hui表示這個模型尺寸就是為開發人員準備的。
在X上找資料的時候,我們甚至發現網友曾向千問團隊大佬隔空喊話。千問的反饋速度可以啊,網友這波許願成功!
海外網友也是對該模型讚美有加,經過實測,該模型在識別物體、分析視覺效果、掃描等方面令人印象深刻!甚至能理解一小時的影片!
現在,Qwen2.5-VL-32B已經開源,大家可以在Qwen網頁版快速試用:
網頁版:https://chat.qwen.ai/
HF:https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct
加上DeepSeek的更新,可以說是中國開源模型的Big Day。
一位網友在Hacker News上留言說:
很快我就不會再使用任何美國模型了,而是 100% 採用中國的開源模型。(美)基礎模型公司完了,只有賣鏟子的(如 Nvidia、基礎設施公司)和產品公司會贏。

案例實測:Qwen2.5-VL-32B可以做什麼

雖然Qwen2.5-VL-32B並沒有類似R1的長推理能力,但是其視覺推理仍然表現出色!
先來看一個阿里blog裡的demo案例:
使用者將高速的限速牌拍給了AI,並問到:我駕駛一輛大卡車行駛在這條路上,現在是 12 點鐘。我能在 13 點之前到達 110 公里多遠的地方嗎?
這個案例很有生活感了。就是咱們平時需要用的AI能力。
然後AI就開始提取圖片的資訊,開始幫人吭哧吭哧地計算了。
最後表示:目標是 13:00 之前到達。然而,根據計算,你將在 13:06 抵達,已經超過了 13:00。
知乎網友@北方的郎,以超市的智慧預警系統為例,對Qwen2.5-VL-32B進行了一把實測。感覺攝像頭配個模型就可以出去打工了。先是測試了一個形跡可疑的男人:
模型給出了通知安保的建議。然後又用了一張正常的超市圖進行測試,還是做出了正確識別!
再來看一下Qwen2.5-VL-32B理解影片的能力,據網友實測,本地部署後能做長達一小時的影片理解。不過在網頁端,則支援10分鐘以內的短影片。
小編使用之前看華為Pura的釋出會錄屏片段,詢問下智慧助手小藝是如何在使用者的語音指令下,為觀看的B站影片一鍵三連的:
Qwen2.5-VL-32B的響應非常絲滑,而且主要的內容都get到了。不過很可惜的是,我希望AI識別出來這是目前AI大熱的智慧體方向,並基於此出發談談技術實現,這一點AI稍弱一些。

既要又要:更聰明、更輕量的模型是怎樣煉成的?

那麼阿里是怎麼做到讓32B模型如此優秀的呢?
HF中給出了一些Qwen2.5-VL的技術細節,可以猜測這仍然是32B模型進化的方面。

讓 AI 更懂影片:動態解析度與幀率訓練

為了讓 AI 更好地理解影片,Qwen2.5-VL 不僅能調整解析度,還在時間維度上引入了動態幀率(FPS)取樣。這樣一來,模型可以在不同的取樣速率下分析影片,適應各種播放速度和場景。與此同時,mRoPE 也在時間維度上進行了升級——透過IDs(識別符號)和絕對時間對齊,模型學會了理解時間序列和速度變化,甚至能精準定位關鍵時刻,讓影片分析更智慧。

高效精簡的視覺編碼器,讓推理更快

在視覺處理方面,這一版本的 Qwen2.5-VL 也進行了最佳化。它在 ViT(視覺變換器) 中巧妙地加入了視窗注意力機制,顯著提升了訓練和推理的效率。

One More Thing:千問即將支援MCP

開啟Qwen的網頁版,還發現千問已經計劃支援MCP!
給不太熟悉MCP的朋友科普一句,這個開源協議由Anthropic去年年底提出,旨在統一大型語言模型(LLM)與外部資料來源和工具之間的通訊方式。簡單來說,MCP就像AI界的USB-C介面,讓AI系統能更方便地連線各種資料來源和功能模組,實現即插即用。
對於千問來說,接入MCP意味著它們可以更高效地獲取和處理外部資訊,提升理解和決策能力。看來,阿里在智慧體方向有了清晰的藍圖!
希望阿里下次發重磅更新的時候,能有運氣選到一個好時機,有實力的同時,也能獲得值得的口碑和聲量,大家覺得呢?
END
官方站點:www.linuxprobe.com
 Linux命令大全:www.linuxcool.com

劉遄老師QQ:5604215
Linux技術交流群:2636170
(新群,火熱加群中……)
想要學習Linux系統的讀者可以點選"閱讀原文"按鈕來了解書籍《Linux就該這麼學》,同時也非常適合專業的運維人員閱讀,成為輔助您工作的高價值工具書!


相關文章