挑戰主流觀點!卡耐基梅隆大學最新研究表明:僅靠壓縮即可實現AI解謎能力

整理 | 華衛、核子可樂
卡耐基梅隆大學的兩位研究人員最近發現,壓縮資訊的過程有望解決複雜的推理任務,且無需在大量示例之上進行預訓練。他們的系統僅依靠謎題本身就可以解決某些型別的抽象模式匹配任務,直接挑戰了關於機器學習系統要如何獲取問題解決能力的傳統觀念。
“無損資訊壓縮本身,能否啟發智慧行為?”,一年級博士生 Issac Liao 和他的導師、卡耐基梅隆大學機器學習系的 Albert Gu 教授提出這樣的猜想。他們的研究工作表明,答案很可能是肯定的。為了進行驗證,他們開發了 CompressARC 軟體,並在 Liao 的個人網站上發表了一篇綜述文章,公佈了相關結果。
兩人在抽象和推理語料庫(ARC_AGI)上測試了相關方法,這是機器學習研究員 François Chollet 於 2019 年建立的視覺基準庫,用於測試 AI 系統的抽象推理能力。ARC 為系統提供基於網格的謎題,每個謎題對應幾個示例以演示基本規則。系統必須從中推斷出規則,才能正確解開新示例。
例如,一個 ARC-AGI 謎題顯示一個網格,其中淺藍色的行和列將空間劃分為多個框。該任務需要根據顏色的位置確定哪些顏色屬於哪個框:黑色代表邊角、洋紅色代表中央,其餘方框則以色彩作為方向區分(紅色代表上、藍色代表下、綠色代表右、黃色代表左)。以下是另外三個 ARC-AGI 示例謎題:
ARC-AGI 基準測試中的三個示例謎題
這些謎題所測試的能力,被部分專家認為決定一般性類人推理(即通用人工智慧 AGI)的關鍵效能,包括理解物件的永續性、目標導向行為、計數與不需要專業知識的基本幾何。普通人約能解決 76.2% 的 ARC-AGI 問題,而人類專家的解決率可達到 98.5%。
OpenAI 於去年 12 月宣佈 o3 模擬推理模型在 ARC-AGI 基準測試中獲得了破紀錄的成績,引發轟動。在受限計算測試中,o3 的得分為 75.7%,而在高計算測試(即思考時間幾乎無限)中得分則為 87.5%。OpenAI 表示,這樣的結果已經與人類相當。
CompressARC 在 ARC-AGI 訓練偏大(用於系統開發的謎題集合)上的準確率為 34.75%,而在評估集(一組未見過的單獨謎題,用於測試該方法在新問題上的推廣效果)上的準確率為 20%。在消費級 RTX 4070 GPU 上,每個謎題需要約 20 分鐘才能解決完畢。相比之下,頂級方法則須使用重型資料中心級裝置,研究人員稱其將產生“天文數字般的計算量”。
並非典型的 AI 方法
CompressARC 採用的方法與大多數當前 AI 系統完全不同。它並不依賴預訓練(即機器學習在處理特定任務前,先從大量資料集中學習的過程),甚至完全不需要外部訓練資料。系統僅使用需要解決的特定謎題本身即可即時訓練。
研究人員寫道,“無需預訓練;模型在推理期間可隨機初始化並完成訓練。無需資料集;模型僅在目標 ARC_AGI 謎題上進行訓練並輸出單一答案。”
研究人員還提到此方法“無需搜尋”,即 AI 問題解決中的另一種常見技術——系統嘗試從多種不同的潛在解法中選擇出最佳解法。搜尋演算法的基本原理是系統探索各選項(類似國際象棋程式中的走法評估),而非直接學習解法。CompressARC 迴避了這種反覆試錯的方法,而是完全依靠梯度下降——一種逐步調整網路引數以減少錯誤的數學技術,類似於靠不斷向下走找到通往谷底的路徑。
研究人員設計的 CompressARC 架構框圖
該系統的核心原理,在於使用壓縮(即透過識別模式與規律以找到最有效的資訊表達方式)作為智慧的底層驅力。CompressARC 尋求的是對謎題的最短描述,以便在解壓時準確重現示例與解法。雖然 COmpressARC 借鑑了 Transformer 的部分結構原理,但仍屬於專為壓縮任務設計的自定義神經網路架構,獨立於大語言模型或標準 Transformer 模型。
與典型機器學習方法不同,CompressARC 僅將其神經網路用作解碼器。在編碼(即將資訊轉換為壓縮格式的過程)期間,系統會微調網路的內部設定與輸入資料,逐漸進行細微調整以最大限度減少錯誤。此過程會創建出壓縮度最高的表示,同時正確重現謎題中的已知部分。之後,這些經過最佳化的引數將轉換為壓縮表示,以高效格式存儲存謎題及其解法。
動圖所示,為 CompressARC 解決 ARC-AGI 謎題的多步驟過程。
研究人員解釋稱,“其中的關鍵挑戰,在於無需答案輸入即可獲得這種緊湊的表示結果。”該系統本質上將壓縮作為一種推理形式。這種方法在沒有大型資料集的領域、或者要求以最少示例學習新任務的場景下極具價值。這項研究表明,某些形式的智慧可能並不是從記憶大量來自資料集的模式中產生,而是來自以緊湊形式高效表示資訊而來。
壓縮與智慧的關聯
壓縮與智慧之間乍看之下似乎並沒有什麼關聯,但這一點在計算機科學概念中卻有著深厚的理論根源,例如柯爾莫哥洛夫複雜度(即能產生指定輸出的最短程式)與所羅門諾夫歸納法(一種理論黃金標準,用於預測效果上的最佳壓縮演算法)。
為了高效壓縮資訊,系統必須識別模式、找到規律並“理解”資料的底層結構——而這些能力,反映的正是不少專家認定的智慧行為,即要想有效壓縮特定序列、系統必須能夠預測序列接下來會發生什麼。於是過去幾十年來,不少計算機科學家認為壓縮能力就等同於通用智慧。基於這些原則,Hutter 獎開出懸賞,鼓勵研究人員嘗試將 1 GB 檔案壓縮到最小體積。
2023 年 9 月,DeepMind 曾經發表一篇論文,發現大語言模型在某些情況下的表現要好於專門的壓縮演算法。在這項研究中,研究人員發現 DeepMind 的 Chinchilla 70B 模型能夠將影像塊壓縮到原始大小的 43.4%(優於 PNG 的 58.5%),將音訊樣本壓縮至僅 16.4%(優於 FLAC 的 30.3%)。
當時的研究結果表明,壓縮和智慧之間確實存在著深刻關聯——即只有真正理解資料中的模式,才能實現更高效的壓縮。這也與此次卡耐基梅隆大學的研究發現一致。而不同於 DeepMind 在訓練過的模型中展現出壓縮能力,Liao 和 Gu 的工作採用自己的方法,證明壓縮過程可以從零開始實現智慧行為。
這項新研究之所以意義重大,是因為它挑戰了 AI 開發領域的主流觀點,即 AI 開發往往依賴於大量預訓練資料集和具有極高計算成本的模型。儘管各大領先 AI 廠商仍在努力開發基於廣泛資料集的更大模型,但 CompressARC 認為智慧完全可以基於不同原理逐步實現。
研究人員們總結道,“CompressARC 的智慧並非源自預訓練、龐大的資料集、詳盡的搜尋或者大規模計算,而是源自壓縮。我們對此前需要大量預訓練和資料集的傳統思路提出挑戰,並提出新的可能性,即量身定製的壓縮目標加高效的推理計算可以共同協作,以最少的輸入實現深度智慧。”
侷限性與未來展望
儘管取得了成功,但 Liao 和 GU 的系統仍存在明顯的侷限性,因此結論可能會面臨質疑。雖然它成功解決了涉及顏色分配、填充、裁剪和識別相鄰畫素等難題,但在計數、遠端模式識別、旋轉、反射或者模擬代表行為等任務中卻表現得舉步維艱。這種侷限性也凸顯出,簡單的壓縮原理恐怕並不適用於所有領域。
這項研究尚未經過同行評審。儘管在未經預訓練的情況下,在未接觸過的謎題中實現 20% 的準確率已然令人印象深刻,但這樣的成績仍遠低於人類表現和當前頂尖 AI 系統。批評者可能會認為,CompressARC 其實是利用了 ARC 謎題中可能無法推廣到其他領域的特定結構模式,進而質疑壓縮本身到底是否可以作為通用智慧的實現基礎。或者說,其僅僅是實現強大推理能力所必需的眾多組成要素之一。
但隨著 AI 技術的持續快速發展,如果 CompressARC 經得起進一步審查,仍有可能揭示一條可能的替代路徑。這條路徑也許同樣可以實現具備實用性的智慧行為,同時避免了當前主流方法提出的嚴苛資源需求。或者至少,它有望成為解鎖機器通用智慧中的一項重要組成部分,而這一點目前仍不太清楚。
原文連結:
https://arstechnica.com/ai/2025/03/compression-conjures-apparent-intelligence-in-new-puzzle-solving-ai-approach/
點選底部閱讀原文訪問 InfoQ 官網,獲取更多精彩內容!
今日好文推薦
Rust粉絲破大防!TypeScript之父選Go語言重寫編譯器,效能飆升10倍引戰:Rust不香了?
“AI原生”標準MCP突然爆紅!引爆LangChain大佬“內戰”:是顛覆OpenAI的技術突破,還是配不上當前關注的玩具?
12 人小團隊如何成就英偉達萬億市值?CUDA 架構師首次親述真正的算力“壁壘”形成過程
程式碼界的“瘟疫”?卡帕西“Vibe Coding”興起,YC披露:1/4新創公司,95%程式碼全由AI生成

相關文章