科學家實現大模型動態選取推理,優於靜態推理技術等方法

近年來,增強大模型的推理能力引起了廣泛關注,比如近期OpenAI 的 o1 作為一個推理增強的大模型就引起了 AI 社群的廣泛關注。
美國喬治梅森大學嶽牧榮博士和所在團隊注意到,先前很多研究已經證明了各種提示策略在幫助大模型進行推理方面的有效性,例如讓大模型逐步思考、回答前反思、使用程式解決問題等。
圖|嶽牧榮(來源:嶽牧榮)
然而,這些方法通常將靜態的、預定義好的推理行動路徑統一應用於所有問題,比如對所有的問題都要先逐步思考、進行反思。
而忽略以下兩點:第一點,根據每個問題的具體特徵不同,最佳的推理動作可能也不同,比如對於解方程問題,在解決完方程後加入一個驗證過程會有所幫助,但對於一個知識性的問題,大模型的自驗證很難帶來提升;第二點. 不同的大模型所適合的推理動作也不相同,比如以程式碼為主要訓練資料的大模型可能更適合寫程式碼解決問題。
因此,研究人員的目標就是讓大模型學習到根據不同的問題情況和自身的能力動態的選取的推理動作。
在近期一篇論文中,他們提出了 DOTS,這是一種透過最佳推理動作軌跡搜尋使大模型能夠動態推理的方法。
該方法涉及三個關鍵步驟:i) 定義可以組合成各種推理動作軌跡的原子推理動作模組;ii) 讓目標大模型迭代探索和評估的過程,為每個訓練問題尋找最佳動作軌跡;iii) 使用收集到的最優軌跡訓練大模型來規劃未見問題的推理軌跡。
與此同時,他們提出了兩種學習正規化,對於閉源的大模型如 GPT 系列,他們將微調外部大模型作為規劃器來指導閉源的大模型;對於開源的大模型,他們直接微調大模型本身使得推理動作的規劃能力可以被內化到大模型自身。
(來源:arXiv
研究人員在多個推理任務中的實驗表明,他們的方法始終優於靜態推理技術和 vanilla 指令調整方法。進一步的分析表明,本次方法使大模型能夠根據問題的複雜性調整其計算,將更深層次的思考和推理分配給更難的問題。
日前,相關論文《DOTS:透過最佳推理軌跡搜尋在 LLMS 中學習動態推理》(DOTS:LEARNING TO REASON DYNAMICALLY IN LLMS VIA OPTIMAL REASONING TRAJECTORIES SEARCH)已被國際表徵學習大會(International Conference on Learning Representations)2025 接受。
圖 | 相關論文(來源:arXiv
審稿人指出,這篇論文提出了一種動態推理方法,可以使模型根據輸入問題的特點決定適當的原子動作,並且進行了全面的實驗來證明所提出方法的有效性。
DOTS 方法的核心在於透過動態搜尋最佳推理路徑,這種動態推理能力在需要高度複雜推理和靈活應對不同問題的場景中,DOTS 方法將展現出獨特的優勢,如在智慧助理中的使用中,使用者可能會交替提出一些非常簡單的問題,比如“今天的天氣怎麼樣”或者非常專業的問題,DOTS 能夠根據透過動態調整推理路徑,最佳化使用者互動體驗。
除此之外,DOTS 方法可以被認為是一種收集高質量訓練資料的方法,在未來的大模型 post-training 中也可以被用來提升推理能力。
這項研究始於嶽牧榮在騰訊西雅圖人工智慧實驗室實習期間,在姚文林博士(現任亞馬遜高階應用科學家)的指導下展開。
大模型的推理能力一直是學術界和工業界的熱議話題,因此他們最初的目標便是探索如何進一步提升這一關鍵能力。
最初,他們深入探討了當前主流的提升大模型推理能力的方法,包括提示工程和指令調優。然而,在分析的過程中,他們逐漸發現現有方法的侷限:這些方法往往缺乏一個至關重要的環節,即缺少讓大模型在回答問題前主動進行思考的環節。
就像人在面對複雜的數學題時,會主動評估是否需要藉助計算工具;在玩 24 點遊戲時,會自覺檢驗自己提出的方案是否合理。但現有的大模型,尤其是開源模型,卻欠缺這種靈活的思維模式。
他們認識到,這一問題的根源在於訓練資料的缺失。傳統的訓練資料通常只包含問題和答案,而對於如何選擇和使用推理動作的策略指導卻少之又少。譬如,一道數學題的訓練資料可能只展示瞭解題步驟,大模型只知道正確答案,卻沒有嘗試各種的推理行為,比如分解問題或驗證結果是否對獲得答案有所幫助。
基於這種思考,他們構思了本文這種全新的方法:給定訓練資料,讓大模型自主探索各種可能的推理動作組合,並從中學習到最佳策略。在面對不同問題時,大模型透過嘗試問題分解、使用程式碼、結果驗證等推理動作來解決問題。
他們根據嘗試的結果,讓大模型學習如何預測最好的推理路徑,從而最佳化自身的推理能力。
研究中,他們不斷調整和完善方法。例如,初期的實驗效果提升不顯著,他們便反思是否需要為大模型提供更明確的指導——例如透過解釋來幫助其理解和學習推理動作。
經過多次的改進後,他們在多個數據集和多種設定下進行了廣泛測試,實驗表明大模型的推理能力在各個資料集和不同的條件下都有所提升。實驗的成功不僅驗證了他們的方法有效性,更重要的是,它展示了大模型具有巨大的潛力:他們可以透過訓練讓大模型具備能深思熟慮,自主規劃推理動作的能力。
後續, 他們希望在更大規模的資料集上進行訓練,結合更多的推理動作,同時探索如何更好的利用搜索獲得的結果。
目前,嶽牧榮是美國喬治梅森大學的在讀博士生,師從姚子瑜教授,研究方向是是設計高效、安全且經濟的大模型代理來處理複雜的推理任務。
參考資料:
1.https://arxiv.org/pdf/2410.03864
運營/排版:何晨龍


相關文章