超越Claude3.5和o1！8B模型靠「分層投票+測試時訓練」逆襲

2025-07-22 10:16 新智元

新智元報道

編輯：peter東英智

【新智元導讀】小時候完成月考測試後，老師會透過講解考試卷中吃錯題讓同學們在未來取得好成績。近日MIT的研究者，發現測試時訓練在大模型應對複雜推理問題時，能透過將任務分解，大幅提升回答的準確率。拿到題目後模型開始訓練，效果意外的好！

測試時訓練（test-time training）是一種通用的訓練方法。

該方法將單個未標記的測試例項轉化為自監督學習問題，在對測試樣本進行預測之前更新模型引數。

而對於大模型訓練，通常會使用一種稱為情境學習的技術來提高其模型在新任務上的效能。

該方法透過將新任務的幾個示例作為文字提示輸入模型，從而指導模型的輸出。

但情境學習並不總是適用於需要邏輯和推理的問題。因為邏輯和推理問題是環環相扣的，需要先做好對問題的拆解，才能夠解決對應的問題。

只是給出例子，而不教會大模型推理方法，相當於只是給學生幾道例題和答案，卻不教解題思路，對成績的提升於事無補。

圖1：大模型測試時學習的框架

測試時訓練的第一步，是資料重構，即透過留一法，將K個示例拆分為K個偽任務，每個任務用K-1個樣本作訓練，留1個作測試。

同時修改訓練最佳化的損失函式，涵蓋所有的示例，讓模型不僅學到訓練集，還能擴充套件到測試集上。

測試時訓練涉及使用少量特定於當前任務的新資料來更新某些模型引數——即模型用於進行預測的內部變數。

下面的圖2，對應的是在抽象推理資料集（ARC）和BBH兩個基準測試集應用測試時訓練後，成功給出回答的示例。

圖2：使用測試時訓練解決抽象推理問題的示例

測試中使用的模型，其引數量不過是8B的lemma3，而其效能提升相當顯著，對於ARC資料集，準確性翻了近兩倍，從17.5%提高到45%；在BBH資料集上，也從50.5%提升到57.8%。

圖3：在80個隨機選擇的ARC驗證任務子集上和全部BBH任務上的準確性

讓大模型的思考邏輯問題如人類專家

為了擴充套件測試時給出資料集的大小，研究者還透過略微改變示例中的問題和解決方案來建立新的資料，例如透過水平翻轉一些輸入資料。

他們發現，在新增的資料集上訓練模型可以使得模型獲得最佳效能。

在使用留一法和可逆幾何變換後，可透過測使用分層投票策略，對訓練後的模型預測進行聚合：首先，在每個變換內部進行投票，然後從每個變換中選出的頂級候選者進行全域性投票以產生最終的前兩個預測。

圖4：分層投票策略示例

使用分層投票和測試時訓練後，即使是1B引數的模型，其在抽象推理問題上的效能提升也相當顯著，效能與8B模型相近，如圖5所示。

圖5 1B 3B和8B引數量模型面對抽象推理問題的回答準確率對比

經過了微調並使用測試時訓練的8B模型，其在抽象推理任務上的準確率高達62.8，已經超過了人類的均值60.2%，對比主流的Claude3.5，Deepseek R1，openAI o1更是遙遙領先。

相比在提示詞中給出示例，測試時訓練這一策略模仿了人類的思維方式，將大任務分解為數個小目標，每一步都包含可管理的邏輯步驟。

不僅適用於抽象推理問題，對於很多涉及多步驟推理的問題，都會帶來顯著的效能提升。

例如物體計數問題,即跟蹤打亂順序的五個物體, 跟蹤打亂順序後的物體順序，或是電影推薦，即選擇滿足多個條件的電影。

在Big-Bench hard資料集的10類任務中，透過消融分析，也可對比使用了測試訓練及分層投票策略所帶來的效能提升（圖6）。

這意味著測試時訓練解決了大模型應用的一個核心痛點，即它們能生成流暢的文字，但在需要嚴密邏輯鏈條的複雜推理任務中，往往會走捷徑或產生邏輯謬誤。

例如雖然會計公司的大模型可能擅長總結財務報告，但如果要求該模型預測市場趨勢或識別欺詐交易，它可能會意外地失敗。

圖7：在Big-Bench hard資料集上，的特定任務進行消融實驗的完整結果

而測試時訓練的引入，讓大模型的思考方式變得類似人類專家，能夠讓大模型學習如何將一個大問題分解成多個子問題，然後按計劃、有條不紊地解決，並在得出最終答案前對中間步驟進行自我審視和驗證。

其意義不僅在於提升了模型的測試分數，更重要的是，它為構建更值得信賴的AI系統提供了可能。

一個能夠清晰展示其推理步驟並進行自我糾錯的AI，將在科學發現、醫療診斷、法律分析等高風險領域具有更廣闊的應用前景。

這些說明測試時訓練在處理新型推理任務方面的潛力，表明其在推動下一代語言模型的發展方面具有巨大前景。

然而，該研究一作Akyürek指出，即使採取了低秩適配的技術，只更新少量模型引數，從而提升測試時訓練的部署效率，由於使用該策略意味著大模型每回答一個問題，都要重新進行訓練。

這會導致一個通常在不到一分鐘內回答查詢的模型，在測試時訓練下可能需要五到十分鐘來提供答案。

因此Akyürek並不希望對所有使用者查詢都這樣做，但如果您有一個非常困難的任務，希望模型能夠很好地解決，那麼測試是就是有用的。

而另一些任務，不需要使用該方法，上下文情境學習就夠用了。

而研究者的長期目標是建立一個能持續學習的大模型，可根據查詢自動判斷是否需要使用測試時訓練來更新引數，或者是否可以使用情境學習來完成任務，然後無需人工干預即可實施最佳測試時訓練策略。

參考資料：

https://github.com/ekinakyurek/marc

https://news.mit.edu/2025/study-could-lead-llms-better-complex-reasoning-0708

https://arxiv.org/pdf/2411.07279

相關文章

模型預訓練模式“變天”？Meta推出預訓練框架，訓練token減少21.5％

模型預訓練模式“變天”？Meta推出預訓練框架，訓練token減少21.5％

DeepSeek同款GRPO訓練大提速！魔搭開源全流程方案，支援多模態訓練、訓練加速和評測全鏈路

DeepSeek同款GRPO訓練大提速！魔搭開源全流程方案，支援多模態訓練、訓練加速和評測全鏈路

小米首個推理大模型突然開源，股價上漲近5％

小米首個推理大模型突然開源，股價上漲近5％

小模型指導大模型！田淵棟等爆錘蒸餾：新方法更高效、更透明、更可控

小模型指導大模型！田淵棟等爆錘蒸餾：新方法更高效、更透明、更可控

比知識蒸餾好用，田淵棟等提出連續概念混合，再度革新Transformer預訓練框架

比知識蒸餾好用，田淵棟等提出連續概念混合，再度革新Transformer預訓練框架

繞開DeepSeek技術思路，馬普所團隊開源推理模型新路線

繞開DeepSeek技術思路，馬普所團隊開源推理模型新路線

LLM用於時序預測真的不行，連推理能力都沒用到

LLM用於時序預測真的不行，連推理能力都沒用到

比知識蒸餾好用！田淵棟等提出CoCoMix：革新Transformer預訓練框架

比知識蒸餾好用！田淵棟等提出CoCoMix：革新Transformer預訓練框架

萬字長文解讀ScalingLaw的一切，洞見LLM的未來

萬字長文解讀ScalingLaw的一切，洞見LLM的未來

類R1強化學習遷移到視覺定位！全開源Vision-R1將圖文大模型效能提升50％

類R1強化學習遷移到視覺定位！全開源Vision-R1將圖文大模型效能提升50％

Copyright © 2025 | WordPress Theme by MH Themes