大模型在簡單物理現象理解任務上的認知困境:聯想能力將是AGI之路上的下一個關鍵?

當 GPT-4o 流暢解析量子力學、Gemini 2.0 精準推導熱力學公式、o3 以接近人類的準確率攻克 ARC-AGI 挑戰、DeepSeek 在數學推理中展現驚人效率時,一個根本問題始終懸而未決:這些大模型究竟是真正能夠“理解”自己所產生的內容的意義(meanings),還是在“拼貼詞語機率”?
這正是學界爭議多年的「隨機鸚鵡」(Stochastic Parrot)命題——大語言模型是否只是統計學意義上的「復讀機」?
隨著大模型能力的迭代演進,過往評測基準的侷限性逐漸顯現。以 O3 系列模型為例,其在 ARC-AGI 基準的準確率已突破 80% 閾值,這種演化將 AGI 評測推向新的維度。
新一代評估框架需滿足雙重挑戰:既要阻斷大模型透過記憶庫檢索或策略性搜尋獲取解題捷徑,更需構建具備認知複雜度的任務體系——抽象概念具象化的複雜性、輸入輸出對的不唯一性等。
為此,騰訊、香港科技大學及約翰霍普金斯大學組成聯合團隊,設計了一套基於物理概念理解的評測框架 PhysiCo。該框架採用了一種總結性評估策略來評估智慧體對物理概念(如拋物線運動、能量守恆)的理解程度。
具體地,它設計了兩種概念理解的子任務:
第一種是基於自然格式的概念理解子任務,主要用來評估智慧體的記憶能力(低層次理解);
第二種是基於網格化抽象表示的概念理解子任務,由於網格化的表示可以有效剝離語言模型的記憶優勢,因此它可以用來評估智慧體對概念的高層次理解能力比如抽象和聯想能力(高層次理解)。
關鍵研究發現包括:
  • SoTA 大模型(包括 o3-mini-high、DeepSeek-R1、GPT-4o、o1、Gemini 2.0)在高層次的物理概念理解任務中落後人類約 40%;
  • 大模型在基於自然語言的低層次理解子任務中表現完美,但在同一概念的抽象網格子任務中完全失敗,印證“隨機鸚鵡”假說;
  • 大模型的短板源於深層理解缺失,而非對網格格式的陌生,傳統最佳化方法(如微調)收效甚微。
論文題目:
The Stochastic Parrot on LLM’s Shoulder: A Summative Assessment of Physical Concept Understanding
收錄會議:
NAACL 2025
論文連結:
https://arxiv.org/pdf/2502.08946
專案主頁:
https://physico-benchmark.github.io
透過總結性評估衡量概念理解程度
衡量大語言模型(LLM)對句子或概念的理解程度本身具有內在挑戰性。儘管 Bender 和 Koller(2020)從語言學視角對“理解”給出了定義,但這一定義依賴於另一個抽象且不可量化的術語——“意義”。因此,即使有此定義,精確測量“理解”仍難以實現。
研究者借鑑教育學和認知科學的視角,採用總結性評估來探究 LLM 是否理解特定概念。在教育與認知心理學中,總結性評估被教育工作者廣泛用於評估學生的概念掌握與知識習得。
研究者將這一評估思路擴充套件至大模型對概念的理解評估。具體而言,假設存在一個智慧系統 S 與特定概念 C,為評估 S 對 C 的理解程度,總結性評估包含以下步驟:
  • 針對 C 的任務設計:設計若干概念理解任務,每個任務包含若干圍繞概念 C 人工構建的問題。
  • 評估 S 的表現:要求 S 解答任務中的問題,並計算其回答準確率。
任務設計
PhysiCo 的設計考慮了以下兩個層次的理解:
  • 低階理解:涵蓋布魯姆分類法中兩個最基礎的技能層級:從長期記憶中檢索相關知識以及用自己的語言進行轉述表達。
  • 高階理解:涵蓋單純記憶以外對知識的理解程度。任務的設計對應布魯姆分類法中從“應用”到'分析'的理解層次,例如應用知識解釋物理現象及以概括化和抽象化的方式分析概念的具體屬性。
2.1 低階任務
對應低階理解任務,研究者設計了兩類模態物理概念選擇任務及一個物理概念生成任務。
2.1.1 物理概念選擇(文字)
為了評估大模型是否掌握目標物理概念的知識,研究者設計了一項任務:要求模型根據維基百科的定義識別對應概念。
首先人工將概念的同義詞替換為佔位符 [PHENOMENON],同時將與概念高度相關的實體替換為 [MASK] 以避免模型透過捷徑推理。隨後,模型需從四個可能的物理概念中選出正確答案,這些選項與後續高階任務的設計保持一致。
2.1.2 物理概念選擇(影像)
為了評估大模型能否透過現實圖片識別物理概念,研究者在谷歌圖片搜尋中選取反映目標概念核心屬性及示例的圖片(共 100 張),並構建與文字任務相同的四選一選擇題。
2.1.3 物理概念生成
為評估大型語言模型在自然語言知識掌握方面的充分性重,研究者要求大模型生成物理概念的描述,包括其核心屬性和示例。最後讓標註員對生成的描述質量進行人工評估。評估採用二元評分制:若描述存在對概念本身的事實性錯誤或示例不真實的情況,則得分為 0;否則得分為 1。
2.2 高階任務
而在高階高階理解任務上,研究團隊構分別透過原創圖對構建核心屬性測試集(Core),同時基於 ARC 資料集的原資料圖片進行關聯物理概念延伸(Associative)。
2.2.1 PhysiCo-Core
該子任務聚焦物理概念的核心屬性或最具代表性的示例/應用。為確保任務符合人類認知水平,研究者選取了 52 個高中課程範圍內的常見物理概念,並由五名標註者標註每個概念的多維核心屬性。每個屬性對應若干抽象網格圖對(共 1200 對),透過輸入-輸出的圖形變換直觀展示概念內涵。
2.2.2 PhysiCo-Associative
原始 ARC 資料集中許多例項可透過關聯物理概念解決。因此,研究者要求標註者從 ARC 中手動篩選能引發特定物理概念聯想的輸入-輸出網格圖,並將對應概念作為真實標籤。與 Core 不同,該任務採用開放式註解,允許標註過程中納入新概念。
該基準測試涵蓋了 50 多個物理概念。每個概念包含多種物理現象(例如,引力相關現象包括物體下落、拋物線運動及行星軌道等),總計覆蓋 600 個具體案例。
2.3 任務挑戰性
OpenAI 的 o3 系列模型之所以能夠攻克 ARC-AGI 任務,主要基於兩大重點:1)大模型在程式碼生成方面具有卓越能力;2)其獎勵機制(如準確率指標)易於設計和量化。
相比之下,PhysiCo 則面臨顯著下列挑戰:
1. 相較於常規程式碼生成,建立符合物理規律的彷真引擎複雜度更高
2. 採用網格化資料格式,有效規避了視覺語言模型(VLMs)透過模式記憶解決問題的方式
3. 輸入輸出對不具唯一性,難以靠搜尋方法找到 shortcut、繞過理解問題
4. 抽象概念(例如核聚變、光電效應等)增加了任務複雜性
實驗結果及發現
透過系統性設計的 6 個研究問題(RQ),實驗揭示了人機認知的深層差異:
RQ1:模型是否具備自然語言層面的知識儲備以解決低階任務?
結果:大語言模型能流暢描述物理概念並回憶屬性,但僅展現自然語言層面的表面理解能力。
▲ 表1.(a)基於文字和(b)基於影像的物理概念選擇任務準確
▲ 表2. 物理概念生成的人類評估結果
RQ2:人類在高階任務中的表現如何?
結果:人類平均準確率達 90%。
RQ3:大模型能否處理網格表徵的高階任務?
結果:SoTA 大模型僅在準確率上達到約 40%。
RQ4:視覺化輸入能否提升高階任務表現?
結果:視覺輸入僅將 dev 準確率提升至 50%,仍然與人類有 40% 的差距。
▲ 表3. 高階任務實驗結果
RQ5:大模型在 PhysiCo 上表現的不理想是否基於大模型對網格格式的陌生?
結果:實驗選取 60 對網格資料,要求模型識別物體形狀、顏色、位置及其變化。結果顯示,GPT-4o在物體屬性全對(形狀、顏色、位置)條件下的準確率為 86.7%,證明 GPT-4o 熟悉網格格式。而進一步在網格格式資料上訓練無法改善大模型在 PhysiCo 的表現。
▲ 表4.在網格格式資料上的上下文及微調結果
RQ6:監督訓練能否突破效能瓶頸?
結果:微調僅帶來邊際改善,顯示模型存在「本質性理解缺陷」。
▲ 表5.在與和 Core 有重迭的概念的 Associative 子集上的實驗結果
基於上述實驗結果,研究團隊提出三個理論:
  • 40% 以上的準確率差距揭示當前模型與人類理解機制存很大的差異(RQ2, RQ4)
  • SoTA 大模型表現出「隨機鸚鵡」現象(RQ1, RQ3, RQ4)
  • PhysiCo 的主要挑戰在於大模型深度理解的內在困難,而非形式上的陌生。(RQ5, RQ6)
當前最先進的大語言模型對物理概念的定義具備精準掌握能力,對網格輸入的理解也達到了較高水平。然而,約 40% 的認知差距揭示了人類與大語言模型在抽象模式理解層面存在本質性差異。此項研究為理解大語言模型的深度理解定義提供了新正規化,被 NAACL 2025 接收。完整實驗資料已在 HuggingFace(https://huggingface.co/datasets/ShunchiZhang/PhysiCo)平臺開源,更多討論可參閱該平臺 Daily Paper(https://huggingface.co/papers/2502.08946)專欄。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章