通義實驗室新研究：大模型自己「扮演」搜尋引擎，提升推理能力無需搜尋API

2025-08-23 02:34 量子位

聞樂發自凹非寺量子位 | 公眾號 QbitAI

強化學習（RL）+真實搜尋引擎，可以有效提升大模型檢索-推理能力。

但問題來了：

一方面，搜尋引擎返回的文件質量難以預測，給訓練過程帶來了噪音和不穩定性。

另一方面，RL訓練需要頻繁部署，會產生大量API開銷，嚴重限制可擴充套件性。

現在，來自阿里通義實驗室的解決方案公開了：開源ZeroSearch，提供了一種無需與真實搜尋引擎互動的強化學習框架。

實驗表明，ZeroSearch僅需3B引數的LLM作為檢索模組，即可有效提升搜尋能力，節省了高昂API成本。

ZeroSearch讓LLM“自給自足”實現搜尋進化

研究團隊用模擬搜尋環境+漸進式抗噪訓練，讓LLM不再依賴昂貴搜尋引擎API。

輕量微調：把LLM變成“搜尋引擎模擬器”

用少量標註資料微調LLM，使其能按指令生成兩種文件——有用結果和噪聲干擾。

透過收集與真實搜尋引擎互動的資料，ZeroSearch對LLM進行輕量級監督微調。

在這個過程中，模型學會生成與真實搜尋引擎風格相似的文件，同時能夠根據提示詞生成相關或噪聲文件。

這種能力使得模型在訓練過程中能夠動態調整文件質量，從而更好地模擬真實檢索場景。

課程化抗噪訓練：像打遊戲升級一樣練模型

訓練初期返回高質文件，後期逐漸混入噪聲（噪聲比例按指數曲線上升）。

ZeroSearch引入了課程式學習機制，逐步降低生成文件的質量，使模型從簡單的檢索場景逐步過渡到更具挑戰性的任務。

這種策略不僅提升了模型的推理能力，還顯著增強了訓練的穩定性和效果。

隨著訓練的進行，模型逐漸適應更復雜的檢索任務，最終能夠在高質量和低質量文件中找到平衡。

強化學習閉環：自產自銷的搜尋生態

ZeroSearch透過模擬搜尋引擎，完全消除了與真實搜尋引擎互動的API費用，使得大規模強化學習訓練變得更加經濟可行。

並且，ZeroSearch相容多種強化學習演算法，包括PPO（Proximal Policy Optimization）和GRPO（Group Relative Policy Optimization）。

這些演算法為模型提供了不同的最佳化策略，使得ZeroSearch能夠在不同的模型和任務中表現出色。

實驗表明，GRPO在訓練穩定性方面表現更好，而PPO則在某些任務中提供了更高的靈活性。

實驗結果及結論

ZeroSearch的零API成本優勢不僅體現在經濟上，還體現在訓練的靈活性和可擴充套件性上。

ZeroSearch vs. 現有方法

在圖中，我們可以清晰地看到ZeroSearch在多個問答資料集上的表現。

無論是單跳（Single-Hop）還是多跳（Multi-Hop）問答任務，ZeroSearch都顯著優於現有的基線方法，包括直接提示、RAG和Search-R1等。

這表明ZeroSearch不僅在簡單任務中表現出色，還能在複雜的多跳問答任務中發揮強大的檢索能力。

上圖展示了ZeroSearch和Search-R1（使用真實搜尋引擎）在LLaMA-3.2-3B模型上的獎勵曲線對比。

ZeroSearch的學習曲線更加平滑且最終效能優於Search-R1，表明其在訓練過程中的穩定性和優越性。

不同模型規模的效能

可以看到使用7B引數的檢索模組就能達到與谷歌搜尋相當的效能，而14B引數的檢索模組甚至能夠超越谷歌搜尋。

這表明ZeroSearch不僅適用於小型模型，還能在大型模型中發揮更大的潛力，為LLM的檢索能力提升提供了廣闊的空間。

強化學習演算法的相容性

比較了在Qwen-2.5-3B和LLaMA-3.2-3B模型上，使用PPO和GRPO演算法的ZeroSearch效能，可以看到ZeroSearch與PPO和GRPO兩種強化學習演算法的相容性。

實驗結果表明，GRPO在訓練穩定性方面表現更好，而PPO則在某些任務中提供了更高的靈活性。

這表明ZeroSearch能夠適應不同的強化學習演算法，為研究人員提供了更多的選擇。

透過模擬搜尋引擎，ZeroSearch完全消除了API成本，同時透過課程式學習策略逐步提升模型的推理能力。

這一創新不僅解決了現有方法中的成本和穩定性問題，還為未來的智慧化檢索提供了新的思路。

論文連結：https://arxiv.org/abs/2505.04588參考連結：https://x.com/_akhaliq/status/1920397374007984516

— 完 —

📪 量子位AI主題策劃正在徵集中！歡迎參與專題365行AI落地方案，一千零一個AI應用，或與我們分享你在尋找的AI產品，或發現的AI新動向。

💬 也歡迎你加入量子位每日AI交流群，一起來暢聊AI吧～

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

相關文章

拜拜，昂貴的谷歌搜尋API！阿里開源RL框架讓大模型自給自足、成本直降88％，網友：遊戲規則變了

拜拜，昂貴的谷歌搜尋API！阿里開源RL框架讓大模型自給自足、成本直降88％，網友：遊戲規則變了

顛覆傳統資訊搜尋，效果是之前SOTA的三倍？UIUC韓家煒、孫冀萌團隊開源DeepRetrieval，讓模型端到端地學會搜尋！

顛覆傳統資訊搜尋，效果是之前SOTA的三倍？UIUC韓家煒、孫冀萌團隊開源DeepRetrieval，讓模型端到端地學會搜尋！

為什麼說大模型，補上了搜尋的最後一塊短板

為什麼說大模型，補上了搜尋的最後一塊短板

哈佛華人創辦的AI搜尋引擎，提出了AI搜尋賽道的ScalingLaw

哈佛華人創辦的AI搜尋引擎，提出了AI搜尋賽道的ScalingLaw

深度｜突發！美國司法部要求谷歌強拆Chrome瀏覽器和Android系統，OpenAI抓住機會推出新瀏覽器NLWeb

深度｜突發！美國司法部要求谷歌強拆Chrome瀏覽器和Android系統，OpenAI抓住機會推出新瀏覽器NLWeb

大模型聯網搜尋的短板與突破之路

大模型聯網搜尋的短板與突破之路

今年的GenAI發展是否需要重回“打好地基再蓋房”？

今年的GenAI發展是否需要重回“打好地基再蓋房”？

深度｜AI搜尋把SEO流量截胡了嗎？這家公司希望成為GenAI時代的Semrush！平臺使用者已超五位數

深度｜AI搜尋把SEO流量截胡了嗎？這家公司希望成為GenAI時代的Semrush！平臺使用者已超五位數

騰訊雲大模型知識引擎接入DeepSeek模型

騰訊雲大模型知識引擎接入DeepSeek模型

教師使用生成式AI的3個常見誤區

教師使用生成式AI的3個常見誤區

Copyright © 2025 | WordPress Theme by MH Themes