得分僅1%!所有AI模型都輸了!但我們真要解決的問題是……

點選圖片報名,抓住風口(iOS使用者請用電腦端開啟小程式)
本期要點:AI也要應試?但真正該做的是換條路!

你好,我是王煜全,這裡是王煜全要聞評論。
面對這場AI浪潮,大家常常感到恐慌。特別是在馬斯克的不斷宣傳下,很多人都擔心AI很快會取代人類,甚至導致人類毀滅。
但是,就像昨天我們介紹楊立昆對人形機器人的看法時提到的,人類距離實現AGI(通用人工智慧)還很遙遠,所以大家大可不必被“AI末日說”搞得一驚一乍。
而且,最近我們又看到了一個有趣的新聞,證明了AI至少在短期內無法替代人類。
上週,“弧光獎基金會”(Arc Prize Foundation)釋出了一項名為ARC-AGI-2的測試。根據他們的資料,這個測試已經難倒了幾乎所有現有的AI模型。
如OpenAI的o1-pro和DeepSeek的R1等推理AI大模型,在ARC-AGI-2測試中的得分僅為1%~1.3%。而各類非推理模型,如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等,得分則更低。
更關鍵的是,研究人員邀請了400多個普通人參與ARC-AGI-2測試。結果顯示,平均而言,大家答對了測試中60%的問題,遠遠超過了所有模型的得分。
也就是說,“弧光獎基金會”找到了一類人類比較擅長、但AI幾乎無法完成的任務,而且鑑於AI得分如此之低,它們在短期內想要超過人類,難度很大。

我認為,當前大模型在ARC-AGI-2測試中的潰敗,確實暴露了AI方法論上的問題,表明單純堆砌算力和資料量並不能碾壓一切。如果要進一步發展,必須轉換思路。同時,這也觸及了人工智慧領域的一個核心問題:如何判斷一個模型是否真正具備了通用智慧。
首先,你也許會好奇,是什麼事情把AI難住了?
其實在科技界,ARC-AGI測試已小有名氣。這些問題類似於謎題,比如要求AI從一組顏色各異的方塊中識別出視覺模式,並生成正確的“答案”網格。說白了,就是給AI一些從未見過的新問題,考驗其發現規律、解決問題的能力。
簡而言之,這就是為了測試AI的“小樣本泛化”能力,也就是我們常說的“舉一反三”、“觸類旁通”—-從對少量案例的觀察中發現規律、並運用到後續實踐中的能力。通過不了ARC-AGI-2測試,至少說明當前的AI方法論存在上限,未來也很難實現AGI。
ARC-AGI-2測試題目
人類智慧的獨特性,正體現在能從有限的經驗中抽象出通用規則。例如,我們能從數字變化中總結出乘法規則,然後還能用這些規則進行計算,既不會算錯,也不會因為問題的表述形式(比如是應用題、而不是算術式)而不會解題。
但當前的AI大模型經常出現幻覺,在99%的情況下非常可靠,在1%的狀況下卻會發生荒誕失誤。正如Meta首席AI科學家楊立昆(Yann LeCun)所指出的,當前AI大模型都是基於自迴歸預測機制,也就是“猜下一個詞”,這還是機率,而不是真的理解了規律,自然永遠無法超越人類智慧。
因為現有的AI,不光不能“觸類旁通”,還得“舉一萬才能返三”,所以,對那些沒見過的事情,AI就是答不出來;對那些小機率事件,AI就是應對不好,這是刻在骨子裡的缺陷。

但是,話說回來,我想強調的是,單純追求小樣本泛化的能力的測試結果,可能會陷入測試導向的發展誤區。
如果未來有AI大模型通過了ARC-AGI-2測試,是否就意味著實現了AGI呢?這顯然是站不住腳的,因為這樣的測試並沒有排除用別的方法找到結果的可能性,也就是說,做對了題的AI,也不保證用的就是“小樣本泛化”能力。
實際上,在ARC-AGI的第一代測試中,就有模型透過暴力破解的方式獲得了高分。
例如,OpenAI的o3,就是首個在ARC-AGI-1上取得了75.7%高分的模型。但很明顯,這並不能真正證明o3有小樣本泛化能力,更不能證明它達到了AGI的水平,大機率是模型為了刷分而專門進行了最佳化。
為了解決這一問題,ARC-AGI-2測試就要求模型在解答問題時,每項任務花費不能超過0.42美元。不僅要能獲得高分,還要考慮效率和成本。由於o3模型每解答一個問題就需要消耗約200美元的計算成本,所以無法透過新的測試。
可是這並沒有高枕無憂,只要是設計的測試題,就有可能存在漏洞。很難說以後不會有模型在訓練中,找到新的暴力破解或者偶然撞對答案的方法,那樣,測試題的效力就會大打折扣。
那麼,究竟該怎麼辦呢?我認為,自然是要嘗試新的具有真正理解能力的模型設計,而不是仍然試圖透過現有模型機率預測的舊方法來取得高分。
楊立昆倡導“世界模型”,透過嵌入物理定律和因果推理模組來構建基礎認知架構,以求從正規化上超越現有AI大模型。他們的團隊也開始了初步探索,未來可以關注其後續進展。
但我覺得,“世界模型”也是不夠的。AI的競爭不僅靠技術革命,更要靠認知革命。
首先,我們或許應該要理解人類“舉一反三”的能力從何而來。所謂泛化,其實是記憶、感知和抽象動態互動的結果。遇到新事物時,我們會以很低的功耗從現象中抽象出規則,並在可控範圍內將其與已有的規則和經驗進行比較。
就像古人第一次見到大象時,雖然叫不出其名字,但也會與既往的認知進行關聯,將其放入大型野生動物的認知框架之中,知道不能切成一塊塊的來稱重量。
其次,我們的認知其實是個貝葉斯式漸進最佳化的過程,體現為以目標為導向、且能持續進行自我修正。即便碰到沒見過的問題,在大部分情況下,我們透過學習知識、原理分析和實踐嘗試,就能在有限次的迴圈中朝正確方向收斂。而AI只有實現了這一點,才能避免陷入重複試錯的低效運轉之中。
最後,我還想強調的是,社會化AI可能才是通往下一階段的重要路徑,因為人類的智慧不僅來自個體,更來自於群體。具體可以回看以往的思想薈文章,我有更詳細的論述。
當然,對於廣大的開發者和創業者而言,我們不用管AGI何時到來,專家型AI確實可以遠超人類專家,專家級的、個性化的、連續的、普惠的智慧服務已經可以實現,真正的黃金時代其實就已經到來了。如果你也想抓住時代紅利,歡迎掃碼加入特訓營直播課,與我一起,先人一步,看清未來!

此外,前哨AI小課第四季已經進展到第五講了,想用AI提升自己職業能力的朋友,千萬不要錯過!最後,您的寶貴意見是我們不斷最佳化課程內容的關鍵,在此誠摯地邀請您抽出幾分鐘,掃碼參與AI小課的問卷調查,一起幫助我們提升課程質量。非常感謝!
以上就是今天的內容,王煜全要聞評論,我們明天見。

推薦閱讀:
【科技特訓營】看懂科技產業,離不開長期觀察。線上書院模式,與王老師深度連結!為未來五年做好準備,先人一步,領先一路!
↓長按圖片掃碼報名先人一步,領先一路
↓¥399,掌握王煜全AI產業預測精華(iOS使用者請在電腦端開啟)
此外,我們還為您準備了一份清單
“全球AI獨角獸公司TOP10”

相關文章