只要9美元!LoRA+強化學習,DeepSeek1.5B推理效能暴漲20%


新智元報道  

編輯:KingHZ
【新智元導讀】南加州大學團隊只用9美元,就能在數學基準測試AIME 24上實現超過20%的推理效能提升,效果好得離譜!而其核心技術只需LoRA+強化學習,用極簡路徑實現超高性價比後訓練。
只用9美元,在數學基準測試AIME 24上,實現了超過20%的推理效能提升!
來自南加州大學(University of Southern California,USC)的研究團隊,基於LoRA的強化學習(RL)訓練了1.5B推理模型——
這種極簡的方法訓練出的模型不僅能與當前最先進的強化學習推理模型相媲美,有時甚至超越它們,即便它們是基於相同底座模型構建的。
論文連結:https://arxiv.org/abs/2504.15777
在AIME 24推理任務中,最好的新模型實現了超過20%的效能提升,達到了43%的Pass@1準確率,而訓練和評估的總成本僅為9美元
在X上,19歲獲得博士學位、AI初創的CEO「少年天才」Tanishq Mathew Abraham推薦了此論文,已有數萬瀏覽。
X使用者Omar則表示:新方法令人激動,是金融科技的燈塔!完美契合金融科技的增長需求!

Tina:利用LoRA的微型推理模型
開源的微型推理模型Tina算法系列,結合了三大關鍵技術。
  1. 強大而輕量級的基礎模型:所有的Tina模型都基於DeepSeek-R1-Distill-Qwen-1.5B構建而成,在極小的計算資源佔用下展現出色能力。
  2. 引數高效後訓練微調Parameter-efficient post-training):在強化學習(RL)階段,採用低秩適應(LoRA)技術,顯著降低了計算成本,同時不減推理效能。實際上,與全引數微調相比,有時甚至能提升模型的推理效能!
  3. 精選的資料集:在精簡而高質量的資料集上,全部Tina模型都進行後訓練微調,進一步降低了整個流程的計算複雜度。
開源推理模型時間線:開源「推理複製品」(reasonging replicas)旨在復現高階推理模型的效能

效果好得邪門!
與使用相同基礎模型的SOTA模型對比,Tina模型不僅具備競爭力,有時甚至還能超越它們——
所需成本卻只是它們的零頭
簡單來說,就是:更少的算力,帶來了更高的效能
下圖1展示了Tina模型最佳checkpoint和基準模型的比較結果,其中推理效能(reasoning performance)表示在AIME24/25、AMC23、MATH500、GPQA和Minerva上的平均得分。
圖1:Tina模型與基準模型的整體比較
只經過極少量的後訓練,Tina模型在效能上就比基礎模型提升了超過20%,並且在表現最好的checkpoint上,在AIME24基準測試中,取得了43%的Pass@1成績。
在六個推理任務上,Tina模型與相應的全引數訓練的最先進(SOTA)模型之間的效能比較
而且,復現表現最佳Tina檢查點只需花費9美元,若從頭開始復現實驗的全部過程,成本也僅為526美元!
計算成本分解,以美元($)為單位進行衡量
在多個開源推理資料集上,研究者驗證了這一發現,並對學習率、LoRA的秩以及強化學習演算法進行了消融實驗。
總體來看,研究者發現Tina的效能在這些因素上都比較穩定,表現出較強的穩健性。
在六個推理任務上,對Tina模型的變體進行效能評估
此外,研究者特意使用了固定的超引數,避免了超引數調優所帶來的成本,並進一步減少了計算開銷。

但為什麼呢?

初步的猜想
那麼,為什麼使用LoRA+強化學習在推理任務中會如此高效且效果顯著呢?
在Tina模型的計算擴充套件行為以及訓練動態中,研究者發現了一些有趣的模式。
觀察一:在LoRA模型中,訓練所使用的計算量增加反而會降低模型效能,這與全引數模型的表現相反。
這一發現揭示了一個現象:更少的計算,反而能帶來更好的效能
Tina模型與基線模型在推理任務上的效能比較,同時對比了它們的訓練計算複雜度(以FLOPs為單位)
觀察2:在訓練大多數Tina模型時,研究者注意到與問題格式相關的指標(如格式獎勵、答案長度),會在訓練過程中發生顯著變化,而這種變化在準確性相關的指標上並不明顯。
有趣的是,性能最佳的checkpoint,往往出現在這些格式指標發生變化的時候
基於LoRA的強化學習中的階段轉
根據這些觀察,研究者提出了關於基於LoRA的強化學習後訓練方法有效性的假設:
Tina訓練方法之所以有效且高效,是因為LoRA能夠迅速調整模型,讓模型適應強化學習所獎勵的推理結構,同時保留基礎模型的大部分原有知識。

作者介紹

王上上(Shangshang Wang)

王上上(Shangshang Wang),目前是南加大的計算機科學和人工智慧專業一年級博士生。
在上海科技大學,他完成了計算機科學的本科和碩士學位。
他的研究興趣包括大語言模型(LLM)推理、測試時計算效率、人工智慧在科學中的應用(Ai4science)、強化學習(RL)和帶約束的最佳化演算法(例如多臂老虎機問題)。
參考資料:
https://arxiv.org/abs/2504.15777
https://shangshangwang.notion.site/tina


相關文章