
當 GPT-4o 在高考考場遊刃有餘,當 DeepSeek 對千年歷史人物如數家珍,一個震撼人心的猜想正衝擊著整個 AI 界:這些大語言模型是否已悄然孕育出超越人類的“超級智慧”?
在認知科學的定義裡,智慧系統可分為兩個層級:晶體智慧(crystallized intelligence)與流體智慧(fluid intelligence)。最新研究證實,大型語言模型在晶體智慧維度已展現出碾壓級表現:只要任務 T 的特定知識(無論是標註資料還是海量語料)曾映入它們的'數字視網膜',解題就如同探囊取物。
但是,當面對完全陌生的任務時,這些大模型能否像人類一樣舉一反三?在毫無先驗知識的'認知真空'中,它們能否迸發真正的思維火花?
最新流體智慧評估研究揭示,主流 LLM 在此維度存在顯著能力缺陷。本研究選取 Keras 之父提出的的 ARC(The Abstraction and Reasoning Challenge)任務作為實驗基準,系統揭示了當前 LLM 在流體智慧場景下的三大核心瓶頸:
1. 組合泛化侷限:模型難以將已習得的基礎概念進行新穎組合遷移
2. 抽象表徵障礙:對非具象化輸入模式的語義理解存在顯著偏差
3. 架構性約束:其自左向右的解碼機制導致了內在缺陷。

論文題目:
Understanding LLM s’ Fluid Intelligence Deficiency: An Analysis of the ARC Task
論文連結:
https://arxiv.org/abs/2502.07190
程式碼連結:
https://github.com/wujunjie1998/ LLM -Fluid-Intelligence
論文錄用:
NAACL 2025 main conference

動機
LLM 在諸多工上展現出了卓越的能力,因此,一個自然的問題是:LLM 是否已具備與人類相當的智慧水平?在認知科學中,智慧通常被劃分為晶體智慧和流體智慧。其中,流體智慧被認為更為關鍵,因為它代表了一種自主推理和解決問題的能力。

任務設計
2.1 資料集選擇
現有研究通常使用歸納推理資料集來評估模型的流體智慧。然而,這些資料集大多存在於 LLM 的訓練語料中,使得模型能夠藉助晶體智慧在這些任務上取得接近人類水平的表現。
然而,如表 1 所示,即便是強大的 GPT-4o 模型 在 ARC 這一歸納推理任務上的表現仍遠低於人類水平,這表明 ARC 適合作為衡量 LLM 流體智慧的評測基準。

2.2 任務及資料格式
如表 1 所示,一個 ARC 任務由三個樣例輸入-輸出的二維網格組成。模型需要從這三個樣例中找到規律,並基於該規律推導測試樣例的輸入網格對應的輸出網格。顯然,這個任務可以透過以下兩種方式解決:
1. 直接使用視覺大模型處理。
2. 沿用現有工作的設定,將每個二維網格編碼為 NumPy 陣列(用不同的數字代表不同的顏色),然後讓 LLM 處理編碼後的矩陣。

如表 2 所示,直接使用 LLM 處理矩陣輸入在 ARC 任務上取得了最佳表現。因此,在後續實驗中,我們均採用這一形式。
2.3 結果
我們首先在 100 個 ARC 任務上評估了多個 LLM ,結果如表 3 所示:

可以看到,所有 LLM 在 ARC 上的表現都不理想。我們懷疑這可能是因為大模型不熟悉 ARC 任務而導致的。於是,我們在 400 個跟評測使用的 ARC 任務不重疊的任務上微調了 Mistral 和 Llama-3 這兩個模型,發現即使經過了微調,LLM 的表現仍不盡人意。

ARAOC 資料集
3.1 資料集構建
由於 ARC 任務中的每個規律都可以拆解為多個原子操作,我們決定將複雜的 ARC 任務降級為由原子操作組成的更簡單任務,以進一步研究大模型在流體智慧方面的缺陷。
在本文中,我們提出了六種基本的原子操作,這些操作能夠構成大部分 ARC 任務,如表 4 所示:

3.2 結果
隨後,我們參考 ARC 任務的格式,為每種原子操作構建了 100 個任務,形成了一個新的 ARAOC(Abstraction and Reasoning on Atom Operation Corpus)資料集,並在此資料集上評估大模型的流體智慧,實驗結果如表 5 所示:

可以看出,即便是面對簡單的原子操作(例如 Move和Copy),大語言模型依然難以依靠流體智慧完成這些任務。
3.3 分析
為了探究 LLM 為何在某些原子操作上表現不好,我們進一步做了兩個分析實驗來分別探究原子操作本身的複雜程度和輸入輸出網格的大小對 LLM 流體智慧的影響如表 6 表 7 所示:


實驗結果表明,當原子操作變簡單以及網格大小變小後, LLM 的表現顯著變好。這表明 LLM 在解決 ARAOC 任務時偏向於關注與記憶任務中淺顯的表徵(類似於運用晶體智慧),而並非直接運用推理和邏輯能力來解決問題(流體智慧)。
因此,我們在接下來的章節中從三個角度進一步研究了為什麼 LLM 在解決任務時缺乏流體智慧。

核心瓶頸
4.1 組合泛化能力
我們首先從組合泛化能力的角度研究 LLM 缺乏流體智慧的原因。為此,我們設計了兩個實驗:
1. 組合 Move 和 Copy 這兩個原子操作來構建新的任務,以評測 LLM 在簡單組合泛化上的表現。
2. 將 ARC 任務視為多個原子操作的複雜組合泛化,以進一步評測 LLM 的能力。


實驗結果表明,LLM 在原子操作組合泛化後的任務上表現大幅下降,即便經過微調,其在組合泛化任務上的表現仍然不盡人意。這進一步揭示了 LLM 缺乏內在的抽象推理機制–流體智慧的核心特徵。
4.2 表徵抽象能力
其次,我們從表徵抽象能力的角度探討 LLM 缺乏流體智慧的原因。由於我們的任務輸入採用矩陣形式,我們推測 LLM 對這種輸入形式的熟悉程度可能會影響其流體智慧的表現。為此,我們首先研究 LLM 是否能夠理解這些矩陣輸入:

如表 10 所示,除了 GPT-4o 之外,其他 LLM 在理解矩陣輸入方面均存在明顯問題。然而,即便 GPT-4o 能夠正確理解輸入矩陣,它在 ARC 和 ARAOC 任務上展現出的流體智慧水平仍然不盡如人意。
為了進一步驗證這一問題,我們設計了另一項實驗,將矩陣輸入轉換為自然語言形式,並讓 LLM 進行處理:

實驗結果表明,使用自然語言輸入後,LLM 在原先表現不佳的原子操作任務上的表現得到了顯著提升。
然而,即便經過這一轉換,其整體表現仍然未達到理想水平。因此,我們得出結論:LLM 在 ARC 和 ARAOC 任務上的流體智慧缺失並非由於矩陣輸入的影響,而是源於其無法有效理解抽象的輸入表徵。
4.3 模型架構
最後,我們探討 LLM 的模型架構是否會影響其流體智慧。首先,我們希望驗證 LLM 採用自左向右的自迴歸解碼方式是否會影響其流體智慧表現。為此,我們使用 Mirror 子操作,分別構建了向左和向右 Mirror 的 100 個任務來評測 LLM,實驗結果如下:

實驗結果表明,LLM 在 Mirror 方向向右時的表現明顯優於向左時,這與我們的假設一致:當 Mirror 方向向左時,由於自迴歸生成的特性,LLM 在生成新網格時尚未觸及原有網格的資訊,從而導致結果下降。
此外,由於 ARC/ARAOC 任務實際上遵循了 in-context learning 的設定——即從三個給定的輸入輸出對中即時學習規律並應用到測試對上,我們希望進一步研究 LLM 在這個 in-context learning 過程中是否能夠正確識別出哪些資訊對於解決任務是關鍵的。
因此,我們繪製了一個 LLM 正確作答的示例 saliency 圖,如圖 1 所示:

總的來說,LLM 的內部架構限制了其訪問全域性資訊的能力,而這一能力對於展現流體智慧至關重要,因此,這種限制進一步阻礙了 LLM 在流體智慧方面的表現。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
