對話|張麗:大道至簡,rStar-Math讓小語言模型具有更強的推理能力

(本文閱讀時間:8分鐘)
編者按:近年來,人工智慧在語言處理、視覺生成等領域的表現令人驚歎,但在複雜的數學推理任務上仍面臨挑戰。微軟亞洲研究院推出的新演算法 rStar-Math,透過引入類似人類系統的慢思考和推理思維,顯著提升了小語言模型(SLMs)的數學推理能力。rStar-Math 打破了“只有大模型才有高效能”的固有觀念,證明了小語言模型經巧妙設計,同樣能實現卓越的推理效果,甚至在部分奧數級別的挑戰中超越了現有大語言模型。
當前大語言模型(LLMs)雖然已具備解決數學問題的能力,但其常用的推理解題思路類似於人類系統1(System 1)的直覺思維模式,速度快卻易出錯。在此背景下,微軟亞洲研究院的研究員們提出了大語言模型可向人類系統2(System 2)偏向規則的思維正規化轉變,透過慢且深入的思考模式模擬人類推理的過程。為此,研究員們設計出了 rStar-Math 演算法,藉助蒙特卡洛搜尋(MCTS)使其實現類似人類系統2深度思考的自我進化機制,將小語言模型的數學推理能力推向了新的高度。在美國數學奧林匹克競賽中,rStar-Math 平均解決了53.3%(8/15)的問題,成績躋身參賽高中生的前20%。
rStar-Math 的自我進化機制是如何實現的?這種自我進化能否在其他場景複用?小語言模型數學推理能力的提升,對現實世界有怎樣的意義?面對人工智慧數學推理能力的諸多難題,微軟亞洲研究院是否還有更深入的研究計劃?針對這些問題,我們和參與 rStar-Math 研究的微軟亞洲研究院高階研究員張麗展開了深入對話,一同探尋 rStar-Math 背後的思考與技術細節。
微軟亞洲研究院高階研究員張麗
Q:rStar-Math 這項研究試圖解決什麼關鍵問題?為何能在業界引發廣泛關注?
張麗:rStar-Math 研究聚焦於一個核心問題:在數學推理領域,大語言模型是否能夠透過 System 2 深度思考實現自我進化,從而在資源受限的情況下,大幅提升推理能力,顯著降低高效能人工智慧的應用門檻。我們希望透過這一探索突破現有模型的推理能力極限,為提升大語言模型能力開闢新方向。
隨著 OpenAI o1/o3 模型在數學和程式碼等複雜推理任務中展現出卓越效能,測試時推理(test-time scaling laws)方法開始被視為提升大模型效能的新正規化。然而,這些模型的具體技術路線尚不明確。我們的 rStar-Math 是首個公開發布的技術研究報告,填補了這一領域的空白。值得注意的是,rStar-Math 並未像領先的大模型(例如 GPT-4o 或 o1)一樣進行蒸餾,而是利用極為有限的資源,在僅 7B 引數量的模型上實現了更高的數學推理水平,甚至在某些奧數級別測試中超越了 o1 的數學推理表現。
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
論文連結:
https://arxiv.org/abs/2501.04519
Q:業界對 rStar-Math 的反饋如何?有沒有哪些反饋給你留下了深刻的印象,甚至促使你和團隊對相關研究有了新的想法?
張麗:rStar-Math 的“爆火”讓我們既驚喜又意外。rStar-Math 不僅在學術圈內引發了廣泛關注,還“破圈”吸引了很多媒體的目光,超出了我們的預期。許多媒體對 rStar-Math 的意義都給予了高度評價,尤其強調它僅用 7B 小模型實現複雜推理的能力,展現出了低資源、高效率的路徑。相比當前許多需要龐大算力支援的工具,這一成果降低了對計算資源的依賴,既節能環保,又為小模型更廣泛的實際應用打開了大門。
相關領域研究人員對我們僅透過四輪自我進化就能取得如此優異的效果表示驚喜。我留意到,社群稱讚 rStar-Math 在蒙特卡洛演算法中利用 Q-value 自動標註推理步驟獎勵分數的設計簡潔有效。作為研究者,看到這些評價讓我感到非常欣慰,因為我始終相信,最優雅的解決方案往往是最簡潔的,這與“大道至簡”的理念不謀而合。
當然,也有質疑聲音,例如有人對小模型能達到如此優異的效果感到難以置信。這些反饋讓我們意識到,程式碼和資料的開源不僅是驗證研究成果的最佳方式,也有助於解答社群的疑問,推動人工智慧研究的交流與創新。因此,我們計劃儘快開源 rStar-Math 的程式碼和資料,一方面為其他研究者提供便利,同時也希望藉此促進更廣泛的合作和討論,共同推動這一領域的進步。
Q:rStar-Math 中引入了自我進化的 System 2 推理方法,這種自我進化具體是如何實現的,在其他場景中是否具有可複用性? 
張麗:rStar-Math 的自我進化過程與人類的深度思考有許多相似之處。人類面對複雜問題時,深入思考能加深對問題本身及多種解題路徑的理解,更精準找到解決方案。許多突破性成果正是源自這樣的深度思考,而過程中積累的成功與失敗經驗則推動了認知與能力的提升。
從技術層面看,rStar-Math 通過蒙特卡洛搜尋演算法實現了類似人類的深度思考自我進化機制。我們分別訓練了一個數學策略模型(7B 引數)和一個獎勵模型(7B 引數的推理步驟偏好模型),對於74.7萬道數學題進行深度推理。每一輪推理結束後,高質量解題資料會被收集,用於更新數學策略模型,推理步驟偏好的反饋則會進一步最佳化獎勵模型。隨著迭代推進,兩個模型不斷變強,再次對相同數學題進行更深度的推理。透過迴圈這一過程,rStar-Math 不僅顯著提升了推理能力,還展現出類似人類深度思考後自我進化的特質,持續突破自身侷限。
這種基於深度思考的自我進化機制具有廣泛的適用性,我們正在積極探索將其應用於其他領域,以挖掘大模型的更多潛力。
rStar-Math 概覽
Q:rStar-Math 的研究對現實世界將產生怎樣的影響?它能夠為哪些行業或場景帶來價值?
張麗:rStar-Math 的設計理念和技術思路不僅在數學推理領域大放異彩,還能在其他複雜推理場景中發揮重要作用。例如,在程式碼生成與除錯領域,它可以顯著提高程式碼生成的準確性,快速識別並修復潛在問題;在智慧體規劃方面,它支援更復雜的多步驟任務執行,賦予智慧體更強的靈活性、效率和自主決策能力。
Q:rStar-Math 的研究是否證明了小模型疊加使用可以在保持低算力和低能耗的同時,達到甚至超越大模型效能?這對於人工智慧模型的普及和加速落地意味著什麼?
張麗:我們的研究並非否認模型規模與效能之間的關聯。通常,在相同訓練方法和高質量資料的支援下,規模更大的模型能帶來更優的使用者體驗。然而,rStar-Math 的創新之處在於,證明了小模型在特定垂直領域也可以實現卓越的推理能力。透過巧妙的設計和方法,即使在資源受限的條件下,小模型同樣可以擁有強大的競爭力,甚至在某些方面可以與大模型一較高下。
當前,高質量的大模型往往依賴龐大的算力和昂貴的計算資源,而 rStar-Math 展現出一條低算力、低能耗的創新路徑,使小模型在特定領域實現實用價值。這一突破顯著降低了高質量人工智慧應用的推理成本。
Q:目前人工智慧在解決數學推理問題方面還面臨哪些困難和值得深入研究的方向?針對這些問題,你和團隊是否有進一步的研究計劃?此外,你還看到了人工智慧領域中哪些值得關注的問題和研究趨勢?
張麗:儘管人工智慧在數學推理方面已取得顯著進展,但要成為數學家解決複雜問題的得力助手,仍面臨不少挑戰。不過,我們對此持非常積極的態度,也在積極探索新的路徑,力求攻克這些難題。
至於人工智慧領域的未來發展,我們認為2025年將是一個重要的轉折點,人工智慧技術將加速滲透到各行各業,真正釋放實用價值。我們也非常關注這一趨勢,希望探索當前的創新思路是否能跨越領域的界限,解決更多複雜的任務。這種跨領域的潛力是我們研究的重要方向,也讓我們充滿期待。
你也許還想看:

相關文章