阿里發現新方法:僅用小紙條和錯題本,就能使數學近滿分、code能力翻番….

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理

聊一下阿里和中科大最新發布的關於LLM如何透過“自我學習”和“工具呼叫”來提升推理能力的論文——START。你有沒有想過,那些看起來很聰明的AI模型,比如OpenAI的GPT系列,雖然能寫出長篇大論,但在面對複雜的數學題或程式設計問題時,還是會像“學渣遇到高數題”一樣抓狂?沒錯,它們經常因為計算能力不足而“幻覺”(hallucinate)——比如把“1+1”算成“3”,還理直氣壯地說這是“量子力學的結果”。

  • 論文:START: Self-taught Reasoner with Tools
  • 連結:https://arxiv.org/pdf/2503.04625
這篇論文提出了一個叫START的模型,它不僅會推理,還能像人類一樣呼叫工具(比如Python直譯器)來輔助自己。簡單來說,START是一個“自帶計算器”的AI,遇到複雜問題時,它會說:“等等,讓我用Python算一下!”然後默默掏出程式碼編輯器,瞬間化身“學霸模式”。

方法

START的核心創新在於它的“自我修煉框架”,包含兩個絕招:Hint-infer 和 Hint-RFT

Hint-infer:小紙條

想象一下,你在考試時突然卡殼,監考老師偷偷遞來一張紙條:“試試用勾股定理!”這就是Hint-infer的作用。START在推理時會隨機插入一些人工設計的提示,比如:“等等,用Python可能是個好主意!”或者“這裡需要自我檢查哦~”

這些提示就像給AI塞小抄,啟用它呼叫外部工具的能力,而且完全不需要額外訓練資料!更神奇的是,如果在推理末尾插入提示,還能讓AI進入“深度思考模式”——思考時間越長,答案越準,堪稱“拖延症患者的勝利”。

Hint-RFT:錯題本

如果說Hint-infer是臨時小抄,那麼Hint-RFT就是AI的“錯題本”。它會自動給模型的推理過程打分,過濾掉重複或錯誤的答案,然後透過微調讓模型學會“下次別再犯”。
這就像學霸做完題後,自己批改作業,把易錯點記在小本本上,下次遇到類似問題直接秒殺。

秘密武器:Hint-Library

為了應對不同任務,START還準備了一個“工具箱”——Hint-Library,裡面裝滿了針對數學、程式設計等場景的提示模板。比如數學題提示會引導AI用Python驗證邏輯,程式設計題提示則教AI如何用測試用例自我除錯。

實驗

為了驗證START的實力,作者們給它安排了一場“地獄級考試”,涵蓋數學競賽題、博士級科學問答和程式設計挑戰。

數學考試:AMC23滿分學霸

在數學競賽資料集AMC23上,START的準確率高達95.0%,比它的“前輩”QwQ-32B高出了15個百分點!秘訣就在於它能呼叫Python處理複雜計算,比如用程式碼驗證數論問題,徹底告別“心算錯誤”。

科學問答:物理小能手

在博士級別的科學問答資料集GPQA上,START的物理題準確率達到80.0%,比QwQ高出6.2%。這是因為物理問題需要大量計算(比如能量轉換),而START會默默掏出Python算個明白,而其他模型只能靠“腦補”。

程式設計考試:Debug狂魔

在程式設計挑戰LiveCodeBench中,START在中等難度題上的準確率從46.0%飆升到84.6%。秘訣是它的“自我除錯”能力——生成程式碼後自動執行測試用例,發現錯誤立刻修正,堪稱“程式碼界的強迫症患者”。

隱藏技能:思考越久,成績越好

作者還發現,透過Hint-infer增加AI的“思考時間”,模型準確率會顯著提升(比如AIME24資料集上從50%漲到70%)。這就像考試時多檢查幾遍卷子,果然錯誤更少了!

結論:AI的工具箱時代

START透過“自我提示”和“工具呼叫”,成功解決了大型模型的幻覺和計算短板。它不僅能在數學、程式設計等任務中吊打前輩,還能透過自我反思不斷進化。
未來的AI或許會像人類一樣,隨身攜帶“工具箱”——遇到數學題用計算器,寫程式碼用偵錯程式,甚至查資料用搜索引擎。而START正是這個方向的開拓者,為AI的“全能型學霸”之路打開了新大門。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章