
來源 | 深度學習自然語言處理
大語言模型(如GPT-4)在訓練階段“吃”了大量資料和算力,但實際使用時常常表現得像“考試臨時抱佛腳”——面對複雜問題容易卡殼。

論文:What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models連結:https://arxiv.org/pdf/2503.24235
今天的一篇arxiv對Test-Time Scaling(TTS)的survey,TTS就像給LLM裝上一個“深度思考開關”,允許它在回答問題時動態分配更多計算資源,透過反覆推敲、多路徑試錯來提升表現。

例如,讓LLM解數學題時,不再一次性輸出答案,而是像人類一樣先寫草稿、檢查步驟,甚至嘗試不同解法,最終選出最優解。
核心框架:四維視角拆解TTS的底層邏輯
論文用四大問題構建TTS的全景圖:
-
What:擴充套件什麼?(生成更多答案?最佳化單條推理鏈?) -
How:如何實現?(調整模型引數?動態搜尋策略?) -
Where:用在哪些任務?(數學、程式設計、開放問答?) -
How Well:效果如何衡量?(準確率、效率、可控性?)

這就像給AI開發者的“操作手冊”,告訴他們在不同場景下該按哪個按鈕提升效能。
技術方法:從“暴力列舉”到“自動駕駛式推理”
-
暴力流:生成N個答案,投票選出最佳(類似“集思廣益”) -
迭代流:讓AI自我糾錯,像寫論文反覆修改草稿 -
混合流:結合以上兩種,先廣撒網再深挖潛力股 -
黑盒流:直接訓練模型自主決定“想多久”,無需人工干預

例如,蒙特卡洛樹搜尋(MCTS) 讓AI像下圍棋一樣預判多步,而內部擴充套件則像給AI裝上“自動駕駛”,自動分配算力。
應用場景:數學、程式設計、醫療……TTS如何改變行業?
-
數學:國際奧賽題準確率提升30%+ -
程式設計:生成程式碼後自動執行測試,篩選可透過版本 -
醫療:模擬醫生會診,多角度驗證診斷結論 -
開放問答:生成10版回答,選最符合人類價值觀的

論文列出的50+個測評集(如MATH、Codeforces)顯示,TTS已在專業領域展現顛覆潛力。
效果評估:如何衡量大模型“燒腦”後的進步?
-
準確率:基礎指標,但可能存在“過度思考” -
效率:每提升1%準確率,需要多消耗多少算力? -
可控性:能否讓AI在指定時間內完成推理? -
擴充套件性:算力翻倍時,效能是否線性增長?

例如,某些方法在數學題上“燒”10倍算力後,準確率從60%飆到85%,但再增加算力卻收效甚微——找到價效比甜點至關重要。
未來挑戰:TTS的邊界與AI進化的下一站
-
算力天花板:無限堆計算資源是否可持續? -
本質理解:TTS為何有效?是“真智慧”還是“暴力美學”? -
跨界通用:如何讓醫療領域的TTS策略適用於法律諮詢? -
倫理風險:若AI透過“無限燒腦”繞過人類控制怎麼辦? -
論文預言:未來的AI可能像人類一樣,在“直覺反應”和“深度思考”間自由切換,甚至發展出獨特的推理風格。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
