直接爆了，阿里再次拿下第一…

2025-07-22 13:23 郭震AI

你好，我是郭震

到年底了，AI大模型迭代繼續突飛猛進。

近日阿里雲釋出視覺推理模型QVQ，並且全部開源，業界首次開源此類模型，阿里雲再次第一。

多項評測結果顯示，QVQ的整體效能超越了此前備受讚譽的視覺理解開源模型「Qwen2-VL」，並在綜合能力上與頂級推理模型如 OpenAI o1 和 Claude3.5 Sonnet 的「滿血版」相媲美：

下圖中的測試題目難度較大，特別是下面這道題，公式複雜繁瑣。這類問題正是QVQ擅長解答的。它在MATH-500測試中表現優異，成功超越了目前主流的多個模型。：

作為視覺推理模型，

QVQ的第一大特性就是具備很強的視覺理解能力

，比如下面這個圖片內文字，由於字型原因難以識別出來：

交給QVQ模型，識別漢字準確率達到100%：

這種事情交給GPT4o，就比較難為它，它讓我安裝中文OCR語言包去識別，不然就無法識別圖片內的文字出來：

O1就有些離譜了，竟然輸出了大江東去：

事實上，人類是透過語言和視覺相結合，來感知和理解世界的。同理如果要AI更像人，可以教它同時學會感知文字、圖片、公式、影片等多種輸入知識，這就是多模態能力，如下圖所示，除了輸入常見的文字外，圖片1,2,3，再加1個影片，全部輸入給AI，讓它統一編碼學習。

驗證了QVQ的視覺能力後，它還有第二大特性，就是科學問題的複雜推理能力，具體表現為足夠詳細的思考過程、中間還有自我質疑和反思。

透過QwQ32B開源模型驗證。下面是我提問它的一道程式設計題，邏輯難度比較大，不會深入思考，肯定是無法求解出來的。

下面是它的回覆，從中我們可以看到模型輸出了足夠詳細的思考過程、中間還有自我質疑和反思，經過幾輪後，歷時2分50秒思考，最終輸出求解程式碼。下面是它完整的思考影片，我把它錄製出來一起看下，感興趣的可以觀看下：

中間它一共有4次這樣的自我質疑和反思，這是第一次自我調整：

這是第二次意識到有問題後，再進行自我調整：

這是第三次自我驗證和調整：

第四次是最後一次驗證和調整：

最終得到求解演算法：

以及最終求解程式碼（部分截圖，詳細求解程式碼參考上面的影片）：

總結一下

QVQ是阿里全新的多模態推理模型，透過驗證看到，QVQ結合視覺+推理後，進一步變強了！O1無法識別的問題，高難度的程式設計題，QVQ載入視覺推理後，都能正確求解了。

QVQ關鍵是它還是開源、免費的，人人都能下載和體驗，省錢，也為AI技術的前沿研究提供了強大的技術支援。

以上全文1593字，14圖和影片。如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個⭐️，謝謝你看我的文章，我們下篇再見！

相關文章

DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT

DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT

DeepSeek、OpenAI、Kimi視覺推理哪家強？港中文釋出全新推理基準MME-COT

DeepSeek、OpenAI、Kimi視覺推理哪家強？港中文釋出全新推理基準MME-COT

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

我讓最強AI推理模型陪我打《王者榮耀》，我這個青銅直接起飛

我讓最強AI推理模型陪我打《王者榮耀》，我這個青銅直接起飛

騰訊混元團隊提出MM-IQ：多模態大模型推理評估新基準

騰訊混元團隊提出MM-IQ：多模態大模型推理評估新基準

阿里將設立韓國電商公司，持股50％；李想罕見露面，主要聊AI和智駕；韓國、日本計劃有條件放寬對華簽證丨百億美元公司動向

阿里將設立韓國電商公司，持股50％；李想罕見露面，主要聊AI和智駕；韓國、日本計劃有條件放寬對華簽證丨百億美元公司動向

大模型全軍覆沒，中科院自動化所推出數學推理新基準|CVPR2025

大模型全軍覆沒，中科院自動化所推出數學推理新基準|CVPR2025

CVPR2025|大模型全軍覆沒！中科院提出MV-MATH：數學推理新基準

CVPR2025|大模型全軍覆沒！中科院提出MV-MATH：數學推理新基準

我用8道變態燒腦題，測出了o1的國內最強平替

我用8道變態燒腦題，測出了o1的國內最強平替

Qwen2.5-VL系列模型正式開源，千問永遠不會讓你失望|附實測結果

Qwen2.5-VL系列模型正式開源，千問永遠不會讓你失望|附實測結果

Copyright © 2025 | WordPress Theme by MH Themes