
OpenAI 連續 12 天的深夜直播,直接給 AI 圈幹懵了。每天一邊瘋狂,一邊感覺身體在被掏空……
12 天的炮彈攻擊,搞得其他廠商都不敢有動靜了。但是,我今天發現國產「AI 卷王」智譜悄悄地在公眾號裡發了篇推文——
納尼?!我還以為是我這兩天熬夜肝出幻覺來了。
視覺對話的 API 也能搞免費?
玩過 ChatBot API 的都知道,多模態/視覺類的 API 都非常的貴。
就算號稱白菜價的 GPT-4o mini,呼叫視覺理解能力的時候,一張圖片都會消耗 5 分錢。錢包根本扛不住大規模部署/呼叫。

視覺能力對標 GPT-4o mini 模型的 GLM-4V-Flash,智譜竟然上線即免費?
智譜,我斑願稱你為最卷。
我先把測試傳送門貼出來,等不及的小夥伴直接傳送:
傳送門:https://bigmodel.cn?utm_source=xixiaoyao&utm_campaign=4vflash&_channel_track_key=iOwaTIbN
說明文件:bigmodel.cn/dev/api/normal-model/glm-4v
雖然從價格上來說,GLM-4V-Flash 絕對可以稱得上最卷,但還是得先看效果,所以,我認為此事必須要讓 GLM-4V-Flash 跟 GPT-4o mini 真刀真槍的幹一架!
為了儘可能測試出 GLM-4V-Flash 的真實價值,我設計了十大有趣和有用的專項測試題:
-
看圖猜成語(圖片理解 + 知識推理) -
世界知識儲備(知識問答) -
物體計數 (物品識別) -
表情包理解 (簡單語義理解) -
拍照解題 (複雜圖片理解 + 數學) -
字型識別 (簡單知識問答) -
情緒理解 (人物表情分析) -
複雜物體理解(圖片識別 + 分類) -
自動駕駛場景(特定領域) -
物流單據 OCR 資訊抽取(資訊抽取)
來吧,跟 GPT-4o mini 一決雌雄!
看圖猜成語
-
GLM-4V-Flash

-
GPT-4o mini

可以!第一輪 PK 全做對了。
感覺搞得太簡單了,來提升一下難度!

-
GLM-4V-Flash

-
GPT-4o mini

都不行啊。
但實話說,這個成語確實挺難。我問了身邊一圈朋友,只有一個智商高達 250 的小哥哥猜出來了。
世界知識儲備
這一輪比拼世界知識。下面這張圖片,我相信 99% 的理科生都能一眼知道含金量。

-
GLM-4V-Flash

-
GPT-4o mini

wok,這一局 GLM-4V-Flash 的回答驚到我了,完勝。
物體計數
還是上一道題的圖,但這次讓智譜和 4o mini 去計數一下圖片裡有多少人。
-
GLM-4V-Flash

-
GPT-4o mini

智譜額外發現了一個隱形人,而 4o mini 則認為圖片裡有 9 個不是人。
降低一下難度!
數一數這張圖裡面的泰迪狗吧(這道題堪稱近視眼殺手)。

-
GLM-4V-Flash

-
GPT-4o mini

難以置信,竟然都做對了,這把打平。
表情包理解
這次對雙方都加大難度,搞一個“英文梗的中文網際網路流行的表情包”——

-
GLM-4V-Flash

-
GPT-4o mini

果然還是智譜更懂中文世界的梗。智譜完勝!
拍照解題
這一輪,我安排了 8 道 9 年級數學題。

-
GLM-4V-Flash

-
GPT-4o mini

沒想到,4o mini 竟然直接拒絕回答了。而智譜則給出了前 4 道題的答案,我特意去讓 200 美金/月的 o1 pro 幫我算出了前四道題的答案——ADBA。智譜做對了一半。從得分上來說,GLM-4V-Flash 是打過 4o mini 的。
但從場景上來說,類似 4o mini、GLM-4V-Flash 的輕量級模型,如果一下子面對大量的有難度的推理題目,確實很難消化掉。從這個角度來說,本場景裡更適合將輕量級模型拿來做前置的 OCR 任務,再用推理能力強大的模型例如 GLM-4-Plus 去進一步解題。
字型識別
先來個中文字型的(智譜你可要爭氣啊)

-
GLM-4V-Flash

-
GPT-4o mini

不錯不錯,智譜抗住了壓力,本題智譜勝!
再來測試個英文的字型!

實話說,這個字型我都分不出來,看看 AI 的表現。
-
GLM-4V-Flash

-
GPT-4o mini

英文字型這題,4o mini 離答案更近!
其實也可以理解,國產模型更懂中文字型,視覺訓練語料裡一定少不了各種中文字型的圖片;而海外模型則恰好相反,對英文字型的訓練更到位。
情緒理解
來吧,這把給 4o mini 一道送分題。

-
GLM-4V-Flash

-
GPT-4o mini

從微表情分析上來說,4o mini 你確實做的更細緻,但是,你沒有發現這是你老闆嗎,隔壁 GLM 都認出來了。
複合物體理解
單個物體、簡單物品的分類已經沒啥難度了,複合物體對 AI 的迷惑性很強,比如下面這張圖,正適合拿來作為考題。

-
GLM-4V-Flash

-
GPT-4o mini

竟然都做對了!我直呼 nb,這兩年 AI 領域的進展實在太快了。
自動駕駛場景
雖然這倆模型,我覺得肯定還沒到直接在自動駕駛場景部署的程度,但我還是忍不住想看看他們有沒有學習過一些道路知識。
就做一道簡單的交通訊號識別吧。

-
GLM-4V-Flash

-
GPT-4o mini

都過關了,看來都有望拿去解決一些自動駕駛場景的資料預標註問題。
OCR 結構化資訊抽取
生活場景裡各種各樣的表單太多了,準確識別表單資訊是一個非常常見的需求,比如這個快遞單

-
GLM-4V-Flash

-
GPT-4o mini

兩個模型都準確識別出來了。
從以上十大場景的若干道題目的測試來看,GLM-4V-Flash 在效果上與 GPT-4o mini 完全不分伯仲,甚至在一些中文特色的場景會明顯表現更好。
而且在測評的時候,我還明顯能感知到 GLM-4V-Flash 的響應速度比 GPT-4o mini 更快,低延遲對於 API 在真實業務中的落地是非常重要的,甚至常常會比一點點的效果提升重要的多。
可以說,綜合考慮:
-
成本 -
時延 -
效果
顯然,我想在視覺對話問題上,我沒有選擇 GPT-4o mini 的理由了。還有什麼比免費好用又穩定更香呢?
說到這裡就不得不再提一嘴。今年 8 月份,智譜免費開放了 GLM-4-Flash(一款輕量化語言模型,文字模態,128K 上下文) ,開啟了零成本呼叫大模型。時隔 4 個月,又免費開放了第一個視覺對話模型 GLM-4V-Flash,湊齊免費模型全家桶。我覺得其他大模型廠商這幾天已經感到壓力了。
更要命的是,經本文實測後,這個 GLM-4V-Flash 還不是個大玩具,而是在影像描述、影像分類、視覺推理、視覺問答(VQA)、影像情感分析等一系列高階影像處理任務上都非常能打的生產力模型,並且支援 26 種語言,包括中文、英語、日語、韓語、德語等等。
這也是為什麼我說,AI 領域又要起風了。
這事兒也是智譜的一貫作風,察覺到了視覺類模型定價居高不下的市場痛點,依仗自己的技術優勢打下來成本,讓重要技術無負擔落地,造福使用者和應用開發者。
就像官方的海報圖裡提到的——

領先 + 普惠。
前沿的技術或模型不僅要效果好,還能讓下游產業用起來,普惠大眾。
從這一點出發,得給智譜加個雞腿。
實話說,最近兩場 OpenAI 釋出會真讓我覺得有些一言難盡。與其被 OpenAI 薅羊毛,去薅智譜的羊毛不香嗎。
點選文末閱讀原文可直接體驗哦~

