直接爆了,阿里再次拿下第一…

你好,我是郭震
到年底了,AI大模型迭代繼續突飛猛進。
近日阿里雲釋出視覺推理模型QVQ,並且全部開源,業界首次開源此類模型,阿里雲再次第一。
多項評測結果顯示,QVQ的整體效能超越了此前備受讚譽的視覺理解開源模型「Qwen2-VL」,並在綜合能力上與頂級推理模型如 OpenAI o1 和 Claude3.5 Sonnet 的「滿血版」相媲美:

下圖中的測試題目難度較大,特別是下面這道題,公式複雜繁瑣。這類問題正是QVQ擅長解答的。它在MATH-500測試中表現優異,成功超越了目前主流的多個模型。

作為視覺推理模型,

QVQ的第一大特性就是具備很強的視覺理解能力

,比如下面這個圖片內文字,由於字型原因難以識別出來:

交給QVQ模型,識別漢字準確率達到100%:
這種事情交給GPT4o,就比較難為它,它讓我安裝中文OCR語言包去識別,不然就無法識別圖片內的文字出來:
O1就有些離譜了,竟然輸出了大江東去:
事實上,人類是透過語言和視覺相結合,來感知和理解世界的。同理如果要AI更像人,可以教它同時學會感知文字、圖片、公式、影片等多種輸入知識,這就是多模態能力,如下圖所示,除了輸入常見的文字外,圖片1,2,3,再加1個影片,全部輸入給AI,讓它統一編碼學習。
驗證了QVQ的視覺能力後,它還有第二大特性,就是科學問題的複雜推理能力,具體表現為足夠詳細的思考過程、中間還有自我質疑和反思。
透過QwQ32B開源模型驗證。下面是我提問它的一道程式設計題,邏輯難度比較大,不會深入思考,肯定是無法求解出來的。
下面是它的回覆,從中我們可以看到模型輸出了足夠詳細的思考過程、中間還有自我質疑和反思,經過幾輪後,歷時2分50秒思考,最終輸出求解程式碼。下面是它完整的思考影片,我把它錄製出來一起看下,感興趣的可以觀看下:

中間它一共有4次這樣的自我質疑和反思,這是第一次自我調整:

這是第二次意識到有問題後,再進行自我調整:
這是第三次自我驗證和調整:
第四次是最後一次驗證和調整:
最終得到求解演算法:

以及最終求解程式碼(部分截圖,詳細求解程式碼參考上面的影片):

總結一下
QVQ是阿里全新的多模態推理模型,透過驗證看到,QVQ結合視覺+推理後,進一步變強了!O1無法識別的問題,高難度的程式設計題,QVQ載入視覺推理後,都能正確求解了。
QVQ關鍵是它還是開源、免費的,人人都能下載和體驗,省錢,也為AI技術的前沿研究提供了強大的技術支援。
以上全文1593字,14圖和影片。如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個⭐️,謝謝你看我的文章,我們下篇再見!


相關文章