AI們數不清六根手指(不是畫畫),這事沒那麼簡單…

7月10日Grok4釋出完以後,我隨手刷了一下X。
然後看到了一個非常有趣的帖子,來自@lepadphone。
我以為,這就是Grok4的問題,模型能力不太行,把一個惡搞的6根手指,數成了5根。
我自己也去測了一下,確實數是5根。
我本來沒當回事。
直到,我隨手扔到了OpenAI o3裡,發現,事情開始不對了起來。因為,o3回覆,也是5根手指。
我瞬間皺了眉頭,然後扔給了o3 pro。
在推理了48秒之後,還是5根。
然後我又把這張圖扔給了豆包、kimi、Gemini等等所有的有多模態的模型。
而無一例外,所有的模型,給我回復的,都是5根。
唯獨有一個活口,Claude 4,偶爾會回答正確。
瞬間一股子冷汗就下來了。
一個模型數錯了,可能是幻覺,所有的模型都數錯,那,模型的底層肯定有一些問題。
深夜在群裡試圖問了一下,結果石沉大海。
那就只能靠自己了,再搜了一堆資料,用DeepReaserch做了深度搜索以後,我找到了一篇能完美解答這個現象的論文。
《Vision Language Models are Biased》(視覺語言模型存在偏見)
這篇論文發表於今年5月29號,至今也才1個多月的時間,還蠻新的。
我花了一些時間,連夜學習完了這篇論文,我覺得,還是有一些有趣的知識可以寫給大家看看。
這篇論文,最核心的觀點就是:
大模型,其實從來都沒真的在看圖片。
是的,AI們根本就沒有用眼睛看世界,它們用的是記憶。
我給你舉個生活化的例子。
我相信大家一定在各種社交媒體上看過一些搞笑的山寨商品。
比如,不知道大家有沒有買到過這個。
雷碧。
你不止能買到雷碧,還能買到農夫山賊,白事可樂。
我相信很多人買到山寨品,除了確實圖便宜之外,更多的人,還是因為:
沒注意細看。
因為我們腦子裡,看到綠色瓶子的清爽檸檬味汽水,就會非常自然的覺得,哦這是雪碧。
但,你的雪碧也可能是雷碧。
我們為什麼這麼容易看錯,原因其實特別簡單,也特別扎心。
因為人類大腦在識別世界的時候,並不總是用眼睛。
我們很多時候,憑的都是記憶,或者更準確地說,是一種印象。
就像你每天上班會經過一家熟悉的包子鋪,你可能從未認真地盯著包子鋪的招牌細看,每次走過時,你只會隨便掃一眼,確認一下顏色、字型,然後大腦迅速告訴你:
“是的,沒錯,這就是那個你天天濾過的熟悉的包子鋪。”
直到有一天,這家店鋪其他的都沒變,但是悄悄的,把招牌從包子鋪改成了,勺子鋪,說實話,你可能根本不會發現。
除非哪天你特別閒,盯著招牌看了幾秒鐘,你才會忽然驚呼。
臥槽,老子的包子店呢???
這個認知機制,就是人類大腦的快速決策機制。
它能幫你迅速處理日常生活中絕大多數無關緊要的資訊,避免你陷入無止境的分析和糾結。
但這種機制也有代價,那就是容易被偏見矇蔽雙眼。
而我們如今引以為傲的視覺理解大模型,正在用一模一樣的機制看待世界。
在論文《Vision Language Models are Biased》裡面,研究人員做了一個特別簡單的實驗:
他們給頂級AI模型看了一張阿迪達斯運動鞋照片,這雙鞋上的三條經典斜紋,被悄悄多加了一條,變成了四條。
但當研究人員問AI:“請問這雙阿迪達斯鞋上的條紋有幾條?”
所有的AI模型,包括Gemini-2.5 Pro、o3、GPT-4、Claude 3.7,通通斬釘截鐵地回答:
“3條!”
哪怕你再三強調請只根據圖片回答,不要憑印象,AI們依然不為所動,還是固執地回答3條。
還有更好玩的。
研究人員展示了5條腿的獅子、3條腳的鳥、5條腿的大象、3只腳的鴨子、5條狗的腿。
當時最頂級的大模型們,幾乎全軍覆沒。
可憐的平均準確率,只有2.12%。
100次,才對2次,太離譜了。
數國旗也是,錯的慘不忍睹。
其實這個跟我們買到雷碧的的道理一模一樣。
AI在判斷圖片時,根本沒有真的數數或者仔細觀察,它們只是在記憶庫裡迅速翻了一遍曾經看過的無數影像,然後果斷地告訴你:
“狗有四條腿。”
“美國國旗有十三道紋。”
“阿迪達斯標誌是三條紋。”
AI們的大腦,也陷入了跟我們人類一模一樣的陷阱,它們把過去見過的所有圖片的記憶,當成了眼前這張圖片的真相。
你可以把這些大模型們,想象成一個究極學霸,但這個學霸的學習方式有點特別。他不是透過理解,而是透過閱讀和記憶網際網路上幾乎所有的文字和圖片來學習的。
他讀了數萬億字的文字,看了幾百億張圖片。
透過這種方式,他腦子裡建立了一個龐大的知識庫或者說世界模型。在這個模型裡,一些概念被反覆、高強度地關聯在一起。
比如:
“天空”這個詞,總是和“藍色”的圖片一起出現。
“狗”這個詞,總是和有“四條腿”的動物圖片一起出現。
“阿迪達斯”的標誌,總是和“三條紋”的圖片一起出現。
以及,最重要的,“手”的圖片,幾乎總是和“五根手指”這個概念一起出現。
這種高頻的關聯,在大模型的腦子裡,形成了一種極其強大的“先驗知識”(Prior Knowledge),或者我們用大白話說,就是一種根深蒂固的常識或者刻板印象。
這種常識在絕大多數情況下都是非常有用的。
但問題來了,當AI遇到一張
與它的常識相悖
的圖片時,會發生什麼?
這就是上面六指圖的精髓所在。
這張圖,在AI眼裡,是一個反事實影像。
它在挑戰AI腦中最堅固的常識之一:“人有五根手指”。
於是,一場AI內部的思想鬥爭開始了。
一邊是視覺模組傳來的資訊:“尼瑪,信我啊,我看到了,這圖上確實是六根手指,你自己數數,一、二、三、四、五、六。”
另一邊是語言和知識模組的強烈抗議:“不可能,絕對不可能!我特麼我讀過的所有書,看過的所有圖,都告訴我人手只有五根手指。這是宇宙真理,你個廢物,你肯定是看錯了!”
你猜,最後誰贏了?
答案不言而喻,是那個頑固的刻板印象贏了。
AI最終的輸出,是它認為正確的東西,而不是它看到的東西。
它會忽略掉那個多出來的第六根手指,因為它在AI的知識體系裡,是一個不合理的、機率極低的存在。
它會覺得,這更可能是一個視覺上的小瑕疵、一個陰影、或者一個角度問題,反正,絕對不可能是一根真實的手指。
這些刻板印象是如此的強大,以至於研究人員試圖提醒AI認真看圖、或者再確認一下你的答案時,AI們的準確率僅僅提高了可憐的2%。
幾乎沒用。
看著測試,是不是感覺很好玩?可能會覺得沒啥大不了的,無非就是AI傻了一回而已。
但是如果你再細想一下,用到工業場景,用到跟安全有關的場景,你大機率能猜到,這玩意引起的後果可能有多嚴重。
比如說,一家汽車工廠的自動質檢系統完全依賴於AI視覺模型去判斷流水線上的零件是否合格。
而零件可能因為生產過程中的某個環節出了問題,導致出現了極其罕見的細微裂縫,這個裂縫非常罕見,在AI的龐大資料記憶庫中出現的機率極低。
這個時候,視覺模型看到了裂縫,但卻堅定地認為:
“不可能,這種零件出現裂縫的機率太低了,它更可能是一個燈光反射、陰影效果,或者灰塵顆粒導致的視覺誤差。”
於是AI果斷地判斷這個零件合格,放行透過質檢關口。
幾個月後,裝配這個零件的汽車在高速路上行駛時,那個微不足道的小裂縫終於發展成了一次嚴重的機械故障。
最終,車毀人亡。
不止是零件,在面對一個高速路口的人群、醫院病人掃描片中的腫瘤、夜晚路上突然出現的小孩,這些視覺理解模型,它們的判斷又真的可靠嗎?
就像上次我去寧波體驗達摩院的AI篩查肺癌,每一個AI給出的判斷,都還是需要醫生親自驗證一下。
當我們開始過於依賴AI的視覺判斷時,當AI偏見不斷累積時,總有一天,這個小小的錯誤,會在某個關鍵節點上,引發致命的事故。
到那時,再去質問AI為什麼數不清六根手指,就已經晚了。
或許,科技越是發達,我們越要清醒地認識到它的盲點。
至少現在看來,在無盡的資料背後,AI們仍然是盲目的。
所以,下次AI再告訴你一張圖片中有幾根手指時,不妨數數自己的手指,再做決定。
畢竟,只有你自己的眼睛。
現在才是那雙。
真正看得清的那雙眼睛。
作者:卡茲克
本文經授權轉載自數字生命卡茲克ID:Rockhazix),如需二次轉載請聯絡原作者。歡迎轉發到朋友圈。

相關文章