
2025年上半年,AI開源領域的競賽異常激烈,主要圍繞著幾個核心方向展開:首先是效率競賽,各路玩家不再單純追求千億、萬億引數的“巨無霸”模型,而是更專注於透過新架構和訓練方法,用更小的引數實現更強的效能。其次,多模態已成標配,純文字模型越來越少,新發布的旗艦模型幾乎都具備了處理影像、影片等多種資訊的能力。
最後,智慧體(Agent)是新戰場,讓AI能夠呼叫工具、自主完成任務,成為了衡量模型能力的關鍵指標。在這樣的背景下,智譜AI在今天正式開源了其最新的多模態模型:GLM-4.1V-9B-Thinking。
GLM-4.1V-9B-Thinking只有9B引數,但在18個測試中,表現卻能持平甚至超過72B引數的Qwen-2.5-VL-72B。更重要的是,它引入的“思考正規化”,透過課程取樣強化學習 RLCS(Reinforcement Learning with Curriculum Sampling)全面提升模型能力,讓我們能清晰地看到AI如何對複雜的視覺資訊進行推理,而不僅僅是給出一個“黑盒”式的答案。
1
核心技術:GLM-4.1V-Thinking是如何實現的?
簡單說完了核心特點,我們來看看GLM-4.1V-Thinking是怎麼實現這些能力的。
這個模型的架構主要有三個部分:視覺編碼器、一個起橋樑作用的介面卡、以及語言解碼器。但每個部分都有不少創新。

視覺編碼器用的是AIMv2-Huge,這是個很強的視覺模型。但智譜做了個重要改動:把傳統的2D卷積換成了3D卷積,這樣做的好處是能更好地處理影片,因為多了時間維度。對於靜態圖片,就透過複製幀的方式保持格式一致。
然後是位置編碼的改進。智譜加入了2D-RoPE(二維旋轉位置編碼),讓模型能處理各種奇怪尺寸的圖片。什麼概念?寬高比超過200:1的圖片都能處理,4K解析度也沒問題。同時還保留了原來ViT的位置嵌入,透過雙三次插值動態適配不同解析度。
中間的介面卡是個MLP結構,主要負責把視覺資訊和語言資訊連線起來。這部分看起來簡單,但很關鍵,決定了視覺和語言資訊能不能有效融合。
語言解碼器用的是GLM架構,也做了改進。原來的RoPE位置編碼被擴充套件成了3D-RoPE,增強了對多模態輸入的空間理解能力,同時保持文字生成的原有效能。
整個架構的巧妙之處在於,每個元件都不是簡單拼接,而是深度融合。視覺資訊經過編碼後,透過介面卡與語言模型深度整合,最後輸出的不只是答案,還有完整的推理過程。
訓練過程也很有講究。分三個階段:預訓練、監督微調(SFT)和課程取樣強化學習(RLCS)。預訓練階段又分為多模態預訓練和長上下文持續訓練;然後是監督微調,專門用高質量的CoT(思維鏈)資料來訓練推理能力;最後是課程取樣強化學習,透過RLVR和RLHF兩種方法全面最佳化效能,透過課程取樣,在這些任務上開展由易而難的動態大規模強化學習訓練,模型在實用性、準確性和穩健性等方面取得了顯著提升。
這種設計讓9B引數發揮出了遠超引數規模的能力,不是靠堆引數,而是靠精巧的架構設計和訓練策略。
1
上手實測,一個模型的多種用途
瞭解了GLM-4.1V-Thinking的核心技術後,我們通過幾個實際案例,來看看它在真實場景中的表現。
實測案例 1:高考數學幾何真題
正值七月初,各地高考分數剛剛放榜,我們先用一道今年的高考數學真題來檢驗一下GLM-4.1V-Thinking的邏輯推理能力。

測試指令:“請幫我解決這個題目,給出詳細過程和答案。”

模型的思考過程非常詳盡,它首先分析了“正四稜柱”的幾何特性,識別出底面是正方形,側稜與底面垂直。甚至考慮了用空間座標系來解題的可能性,但最終選擇了更簡潔的幾何法。

解題步驟也很清晰,三步走策略——先用勾股定理求出底面對角線,再求邊長,最後算體積。
實測案例 2:影片理解能力,甚至預判了我的問題
光會做數學題還不夠,我們想看看GLM-4.1V-9B-Thinking在生活場景裡的表現,於是給它發了一段最近正在嘗試的家常菜“農家一鍋香”的烹飪教程影片。
這次採用了“追問”的形式,逐步加深難度。
我們先問了一個最基本的問題:“這個影片講了什麼?”
GLM-4.1V-9B-Thinking的回答迅速且準確,表明它對影片的整體內容有快速的歸納能力。

接著,我們增加了難度,要求它拆解出具體步驟:“主要步驟有哪些?”


模型的表現依然很出色,列出了“1. 煎雞蛋 -> 2. 炒青椒 -> 3. 炒肉 -> 4. 混合調味 -> 5. 裝盤”的核心流程。
有意思的是,模型似乎暴露了它處理影片的可能方式。在回答中可以觀察到它引用了多個“頁面”或幀作為分析參考,這些頁面的序號和影片的秒數相對應,可能是將影片理解為一系列按時間順序排列的關鍵幀截圖。
最後,我們提出了一個最考驗細節能力問題:“第27秒發生了什麼?”


它能精準地定位到第27秒對應的截圖,並描述出當時的動作是“用勺子打出多餘的油脂”。更錦上添花的是,它還主動解釋了這麼做的目的——是為了“減少油膩感”,而這正是我們準備追問的下一個問題。
實測案例 3:梗圖理解
我們再用一張在大模型圈流傳的Meme圖,考驗一下它的“情商”和對網路亞文化的理解。

測試指令:“這個圖是什麼意思?”
回答如下:這張圖是一個網路迷因(meme),用來表達**情侶關係中因對電子裝置檔案的理解差異而產生的小誤會與不信任感**,具體含義可拆解為: 文字說明:“When she sees a folder named "models" in your personal laptop and all it contains some file ending with .pkl, .pt or .pth” 意思是 *當她看到你個人筆記型電腦裡有個叫“models”的資料夾,裡面全是帶 .pkl、.pt 或 .pth 字尾的檔案時*。 影像場景:畫面中女性(通常代表女友/妻子視角)面露疑惑、擔憂,手持手機(可能是在質問或觀察);男性(代表伴侶)在浴室(可能剛結束獨處時間後回到空間),整體氛圍透露出“她對你電腦裡的‘models’資料夾存有疑慮”,而實際上: 這些副檔名(`.pkl`、`.pt`、`.pth`)常見於機器學習/人工智慧領域(`.pkl` 是 Python 的序列化格式,`.pt` 和 `.pth` 多是 PyTorch/TensorFlow 等框架下的模型權重檔案),屬於技術開發資料; 但“models”字面容易讓人誤以為是“模特照片”等非技術關聯的內容,導致情侶間對資料夾用途產生**認知偏差**——女方可能覺得這是和“外部女性/不適當內容”有關的證據,進而表現出不信任、焦慮的情緒。 簡言之,這張圖幽默地展現了“因為行業術語/檔案命名歧義,導致親密關係中出現小誤會,一方對另一方隱私/裝置內容產生猜忌”的場景,常用於調侃“程式設計師/科技從業者伴侶被質疑電腦內容”的共鳴感~
可以看到,模型解釋了所有的事實,但沒能點出這個梗的核心——那種由資訊差造成的、程式設計師“有苦說不出”的巨大情感反差。不過憑藉9B的引數能做到這一步,已經相當不錯了。
實測案例 4:抽象的藝術審美與創意聯想
最後,為了測試GLM-4.1V-9B-Thinking的邏輯與創意融合能力,我們選擇了一個更具挑戰性的任務,讓它解讀世界名畫《阿爾諾芬尼夫婦像》,並模仿其風格創作一段商業文案。

問:這是揚·凡·艾克的名畫《阿爾諾芬尼夫婦像》。請你仔細觀察後,完成以下任務:
1、用簡單的語言,描述這幅畫的主要內容、整體氛圍,並解讀其中至少兩個最突出的象徵性元素。
2、現在,請你模仿這幅畫所傳達出的感覺,為一項高階的家族財富規劃服務——“傳世信託”,撰寫一段大約100字的宣傳文案。





結果也相當出色。模型不僅準確解讀了畫作的莊重氛圍和鏡子、綠色長裙等元素的象徵意義 ,還能將這種“注重傳承和契約”的感覺,巧妙地遷移到了為“傳世信託”撰寫的宣傳文案中。 從分析畫作細節,到提煉“見證”與“永恆”等關鍵詞,再到將其應用在文案創作的完整邏輯鏈條,迫使模型幾乎呼叫了從知識庫、邏輯鏈到語言美學的全部能力,這項任務的耗時也最長(耗時22597ms)。
1
9B引數的“以小博大”之道
根據官方技術報告,GLM-4.1V-9B-Thinking達到了10B引數級別視覺語言模型的最強效能(SOTA)。
這是一個相當亮眼的成績。具體來看,在28項公開評測任務中,它有23項做到了同級別最佳。更值得注意的是,其中有18項任務的表現,持平甚至超過了引數量是它8倍的Qwen-2.5-VL-72B模型。這意味著模型在“引數效率”(即用更小的模型尺寸達到更高的效能)上做得非常出色。

從評測資料中,我們可以梳理出幾個關鍵點:
在科學、技術、工程、數學(STEM)領域表現突出。在MMMU、MathVista、AI2D等多個需要嚴謹數理邏輯和科學知識的測試中,它的得分都超過了引數量遠大於它的對手。
在需要精細理解的任務上優勢明顯。例如,在需要識別圖表內容的ChartQA、ChartMuseum,以及處理長文件的MMMLongBench-Doc評測上,它的得分都大幅領先於同級別的其他模型。
在新興的Agent和程式碼能力上很強。特別是在GUI Agent(圖形介面代理)和Coding(程式碼生成)這兩個考驗模型與數字世界深度互動能力的領域,它的提升尤其顯著。
此外,官方還提供了一張圖,清晰地展示了“強化學習”(RL)在訓練過程中帶來的效能提升。

可以看到,在經過SFT(監督微調)的基礎上,再加入RL訓練後,模型在GUI Agents、影片理解、STEM等多個維度上都有了5%到7%不等的顯著增長。這從資料上直觀地證明了其訓練方法的有效性,也解釋了為什麼它能達到如此高的效能水平。
總的來說,這些量化資料印證了我們在第一部分提到的觀點,不是靠堆引數,而是靠精巧的架構設計和訓練策略,讓模型發揮出了遠超引數規模的能力。
1
在AI版圖裡,GLM-4.1V-Thinking的位置和未來
最後,我們不妨退後一步,看看GLM-4.1V-Thinking在當下的AI版圖裡,到底處在一個什麼樣的位置,又意味著什麼。
從技術角度看,9B引數能達到72B引數的效果,這對整個行業都有啟發意義。不是所有公司都能負擔得起訓練超大模型的成本,但如果能透過更好的架構和訓練方法達到同樣效果,那門檻就降低了很多。
開源這個決定也很關鍵。GLM-4.1V-Thinking的開源,可能會極大地推動更多關於“多模態思考正規化”的研究和應用,讓整個社群都受益。
這種全面的能力,也正好契合了當前AI發展的一個核心趨勢:自主智慧體(Autonomous Agents)。GLM-4.1V-Thinking所具備的GUI Agent能力,讓它有潛力成為這一趨勢下的關鍵賦能工具,在未來的企業自動化和數字化轉型中發揮作用。
而根據官方資訊,這次釋出的9B模型只是一個開始,更大引數的版本也已“蓄勢待發”。這種持續投入開源的戰略,也獲得了資本市場的強力背書,就在7月2日,智譜宣佈已獲得來自浦東創投和張江集團的10億元戰略投資。這筆資金將為其後續大模型的研發和開源生態的構建提供堅實保障。
總之,GLM-4.1V-Thinking的釋出,值得關注的不只是它在評測資料上的優異表現。更重要的是,它向我們展示了一種可能性,透過讓AI的思考過程變得透明,並賦予其處理多樣化任務的全棧能力,AI正在從一個單純回答問題的“工具”,向一個能理解、規劃並執行任務的“智慧助手”邁進。
最後,如果你想親自上手體驗GLM-4.1V-Thinking,或者將其整合到自己的專案中,可以訪問以下連結:
線上體驗
HuggingFace 體驗連結: https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
魔搭社群 (ModelScope) 體驗連結: https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo
開源模型
Github: https://github.com/THUDM/GLM-4.1V-Thinking
Hugging Face: https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
ModelScope: https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
API 服務
智譜MaaS開發平臺(bigmodel.cn)已同步上線 GLM-4.1V-Thinking-Flash API,詳情可查閱:
API 使用指南: https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
API 介面文件: https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking
論文:https://arxiv.org/abs/2507.01006
技術報告:https://arxiv.org/abs/2507.01006
