聞樂 發自 凹非寺量子位 | 公眾號 QbitAI
強化學習(RL)+真實搜尋引擎,可以有效提升大模型檢索-推理能力。
但問題來了:
一方面,搜尋引擎返回的文件質量難以預測,給訓練過程帶來了噪音和不穩定性。
另一方面,RL訓練需要頻繁部署,會產生大量API開銷,嚴重限制可擴充套件性。
現在,來自阿里通義實驗室的解決方案公開了:開源ZeroSearch,提供了一種無需與真實搜尋引擎互動的強化學習框架。
實驗表明,ZeroSearch僅需3B引數的LLM作為檢索模組,即可有效提升搜尋能力,節省了高昂API成本。

ZeroSearch讓LLM“自給自足”實現搜尋進化
研究團隊用模擬搜尋環境+漸進式抗噪訓練,讓LLM不再依賴昂貴搜尋引擎API。

輕量微調:把LLM變成“搜尋引擎模擬器”
用少量標註資料微調LLM,使其能按指令生成兩種文件——有用結果和噪聲干擾。

透過收集與真實搜尋引擎互動的資料,ZeroSearch對LLM進行輕量級監督微調。
在這個過程中,模型學會生成與真實搜尋引擎風格相似的文件,同時能夠根據提示詞生成相關或噪聲文件。
這種能力使得模型在訓練過程中能夠動態調整文件質量,從而更好地模擬真實檢索場景。
課程化抗噪訓練:像打遊戲升級一樣練模型
訓練初期返回高質文件,後期逐漸混入噪聲(噪聲比例按指數曲線上升)。
ZeroSearch引入了課程式學習機制,逐步降低生成文件的質量,使模型從簡單的檢索場景逐步過渡到更具挑戰性的任務。
這種策略不僅提升了模型的推理能力,還顯著增強了訓練的穩定性和效果。


隨著訓練的進行,模型逐漸適應更復雜的檢索任務,最終能夠在高質量和低質量文件中找到平衡。
強化學習閉環:自產自銷的搜尋生態
ZeroSearch透過模擬搜尋引擎,完全消除了與真實搜尋引擎互動的API費用,使得大規模強化學習訓練變得更加經濟可行。
並且,ZeroSearch相容多種強化學習演算法,包括PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)。
這些演算法為模型提供了不同的最佳化策略,使得ZeroSearch能夠在不同的模型和任務中表現出色。
實驗表明,GRPO在訓練穩定性方面表現更好,而PPO則在某些任務中提供了更高的靈活性。
實驗結果及結論
ZeroSearch的零API成本優勢不僅體現在經濟上,還體現在訓練的靈活性和可擴充套件性上。
ZeroSearch vs. 現有方法

在圖中,我們可以清晰地看到ZeroSearch在多個問答資料集上的表現。
無論是單跳(Single-Hop)還是多跳(Multi-Hop)問答任務,ZeroSearch都顯著優於現有的基線方法,包括直接提示、RAG和Search-R1等。
這表明ZeroSearch不僅在簡單任務中表現出色,還能在複雜的多跳問答任務中發揮強大的檢索能力。

上圖展示了ZeroSearch和Search-R1(使用真實搜尋引擎)在LLaMA-3.2-3B模型上的獎勵曲線對比。
ZeroSearch的學習曲線更加平滑且最終效能優於Search-R1,表明其在訓練過程中的穩定性和優越性。
不同模型規模的效能

可以看到使用7B引數的檢索模組就能達到與谷歌搜尋相當的效能,而14B引數的檢索模組甚至能夠超越谷歌搜尋。
這表明ZeroSearch不僅適用於小型模型,還能在大型模型中發揮更大的潛力,為LLM的檢索能力提升提供了廣闊的空間。
強化學習演算法的相容性

比較了在Qwen-2.5-3B和LLaMA-3.2-3B模型上,使用PPO和GRPO演算法的ZeroSearch效能,可以看到ZeroSearch與PPO和GRPO兩種強化學習演算法的相容性。
實驗結果表明,GRPO在訓練穩定性方面表現更好,而PPO則在某些任務中提供了更高的靈活性。
這表明ZeroSearch能夠適應不同的強化學習演算法,為研究人員提供了更多的選擇。
透過模擬搜尋引擎,ZeroSearch完全消除了API成本,同時透過課程式學習策略逐步提升模型的推理能力。
這一創新不僅解決了現有方法中的成本和穩定性問題,還為未來的智慧化檢索提供了新的思路。
論文連結:https://arxiv.org/abs/2505.04588參考連結:https://x.com/_akhaliq/status/1920397374007984516
— 完 —
📪 量子位AI主題策劃正在徵集中!歡迎參與專題365行AI落地方案,一千零一個AI應用,或與我們分享你在尋找的AI產品,或發現的AI新動向。
💬 也歡迎你加入量子位每日AI交流群,一起來暢聊AI吧~

一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!