32B本地部署!阿里開源最新多模態模型:主打視覺語言,數學推理也很強

西風 發自 凹非寺

量子位 | 公眾號 QbitAI
就在DeepSeek-V3更新的同一夜,阿里通義千問Qwen又雙叒叕一次夢幻聯動了——
釋出Qwen2.5-VL-32B-Instruct
此前開源家族視覺語言模型Qwen2.5-VL包括3B、7B和72B三種尺寸。
這一次的32B版本進一步兼顧尺寸和效能,可在本地執行。
同時經過強化學習最佳化,在三個方面改進顯著:
  • 回答更符合人類偏好;
  • 擁有更強的數學推理能力;
  • 在影像解析、內容識別以及視覺邏輯推導等任務中,表現出更強的準確性和細粒度分析能力。
對比近期開源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在純文字能力上也達到了同規模的SOTA表現。在多個基準上,Qwen2.5-VL-32B甚至超過了72B。
舉個栗子,比如根據一張交通指示牌照片,Qwen2.5-VL-32B就能做如下精細的影像理解和推理:
我正在這條路上駕駛一輛大卡車,現在12點了。我能在13點之前到達110公里遠的地方嗎?
Qwen2.5-VL-32B首先對時間、距離、卡車限速進行分析,然後分步驟條理清晰推算出正確答案:
模型已經開源,儘管自己前往實測~

Qwen2.5-VL-32B更多表現示例

官方剛剛釋出的技術部落格中也放出了更多展示示例。
數學推理能力上,幾何體分析也不在話下:
同樣是先有問題分析環節,然後再分四個小步驟推理正確答案:
下面這種複雜難題也能解:
能夠依次類推,歸納出構造規律:

像下面這種圖片理解就更不在話下了:

多輪深度提問也可以:

模型開源,已能實測

現在,阿里已將Qwen2.5-VL-32B-Instruct放在了Hugging Face上。
在Qwen Chat上就能直接體驗Qwen2.5-VL-32B,感興趣的童鞋可以試試。
動作快的網友已經開始在MLX Community運行了:
在Hacker News上,網友也就DeepSeek和Qwen的舉動進行了新一輪熱烈討論。網友紛紛表示:
開源贏了,奧特曼錯了。
值得一提的是,春節期間,DeepSeek曾與阿里通義千問Qwen多次幾乎同時釋出新模型,這一次又雙叒叕趕一塊去了。
杭州,原來真的是商量著一起發???
參考連結:
[1]https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

[2]https://x.com/Alibaba_Qwen/status/1904227859616641534
[3]https://news.ycombinator.com/item?id=43464068
量子位年度AI主題策劃正在徵集中!
歡迎投稿專題 一千零一個AI應365行AI落地方案
或與我們分享你在尋找的AI產品,或發現的AI新動向
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章