
近日,阿里巴巴的研究人員在 Hugging Face 上釋出了一種名為“ZeroSearch”的新技術,可以大大降低訓練 AI 系統進行資訊搜尋的成本和複雜度,完全消除對昂貴商業搜尋引擎 API 的需求。
研究人員表示,“強化學習(RL)訓練需要頻繁進行部署,可能會涉及到數十萬次搜尋請求,這會產生鉅額的 API 費用,嚴重限制了可擴充套件性。”
據介紹,這項新技術是一種強化學習框架,允許大語言模型 (LLM) 透過模擬的方式開發高階搜尋功能,而無需在訓練過程中與真實的搜尋引擎進行互動。並且,其表現優於基於真實搜尋引擎的模型,同時產生的 API 成本為零。既能讓企業更好地控制 AI 系統學習檢索資訊的方式,又可以為其節省大量的 API 費用。
該技術適用於多個模型系列,包括 Qwen-2.5 和 LLaMA-3.2,且無論是基礎模型還是經過指令調整的模型都能應用,無需單獨的監督預熱階段,並與近端策略最佳化 (PPO)、組相對策略最佳化 (GRPO)等各種 RL 演算法相容。目前,研究人員已在 GitHub 和 Hugging Face 上提供了他們的程式碼、資料集和預訓練模型,允許其他研究人員和公司能夠應用這一方法。
專案連結:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0
有網友評價,“ZeroSearch 是 LLM 的遊戲規則改變者。”還有人說,“這似乎是 RAG 應該發展的方向。”

要開發能夠自主搜尋資訊的 AI 助手會面臨兩大挑戰:一是在訓練過程中,搜尋引擎返回的文件質量不可預測;二是訓練高階 AI 系統通常需要對大型科技公司控制的服務進行昂貴的 API 呼叫,尤其是向谷歌這樣的商業搜尋引擎進行數十萬次 API 呼叫,成本高得令人望而卻步。
在針對七個問答資料集所進行的全面實驗中,ZeroSearch 的效能表現不僅與使用真實搜尋引擎訓練的模型相當,而且在很多情況下還超越了它們。結果表明,ZeroSearch 使用 3B LLM 作為模擬搜尋引擎,就可以有效地提升策略模型的搜尋能力;一個擁有 70 億引數的檢索模組能達到可與谷歌搜尋相媲美的效能,而一個擁有 140 億引數的模組甚至超過了谷歌搜尋的表現。
更重要的是,ZeroSearch 表現出強大的可擴充套件性:增加 GPU 的數量可以顯著加快模擬 LLM 的生成吞吐量,從而實現高效的大規模部署。

並且,ZeroSearch 在基礎模型和指令最佳化模型中都能很好地泛化。在這兩種模型型別下,ZeroSearch 都能穩步提高獎勵效能,這突出了它的通用性。

“這證明了在強化學習的架構中,使用一個經過良好訓練的 LLM 來替代真實搜尋引擎是可行的。” 研究人員指出。
值得注意的是,ZeroSearch 在成本方面的節省也相當可觀。根據研究人員的分析,透過 SerpAPI 使用 Google 搜尋引擎對大約 64000 個搜尋查詢進行訓練,成本約為 586.70 美元;而在四個 A100 GPU 上使用一個擁有 140 億引數的模擬大型語言模型進行訓練,成本僅為 70.80 美元,降低了 88%。
由此來看,ZeroSearch 所能解決的問題意義重大。不過,研究人員也指出,ZeroSearch 也有一定的侷限性。部署模擬搜尋 LLM 需要訪問 GPU 伺服器,雖然比商業 API 使用更具成本效益,但這會帶來額外的基礎設施成本。
據介紹,ZeroSearch 的方法始於一個輕量級的監督微調過程,將 LLM 轉化為一個能夠生成相關和不相關文件以響應查詢的檢索模組,可以作為模擬搜尋引擎,生成相關和嘈雜的文件以響應查詢。

研究人員解釋道:“我們的關鍵認知是,LLM 在大規模預訓練期間已經獲得了廣泛的世界知識,並且能夠在給定搜尋查詢的情況下生成相關文件,真實搜尋引擎和模擬 LLM 之間的主要區別在於返回內容的文字樣式。但是,透過輕量級監督微調,即使是相對較小的 LLM 也可以有效地模擬真實搜尋引擎的行為。”
除了消除 API 成本之外,使用 LLM 生成文件的一個重要優勢是能夠控制文件質量。具體來說,在監督微調過程中,透過提示設計區分導致正確或錯誤答案的文件,使模擬 LLM 只需調整提示中的幾個單詞即可學習生成相關或嘈雜的文件。
在強化學習訓練期間,該系統採用了研究人員所說的“基於課程搜尋模擬的推出策略”。在推出過程中,策略模型會執行互動式推理並生成搜尋查詢,然後將查詢輸入模擬 LLM 以生成相應的文件。為了逐步增加訓練的難度,該系統在強化學習訓練期間引入了一種基於課程學習的部署機制,這種機制下生成文件的質量會隨著時間的推移而逐漸降低,以模擬越來越具有挑戰性的檢索場景。這允許策略模型首先學習基本的輸出格式和任務要求,然後再逐步適應更具挑戰性和嘈雜的檢索場景。
獎勵訊號是強化學習過程中的主要監督。在這項工作中,ZeroSearch 採用了基於 F1 分數的獎勵,該獎勵只關注答案的準確性。
ZeroSearch 的這一突破標誌著 AI 系統的訓練方式發生了重大轉變。其表明,AI 在不依賴搜尋引擎等外部工具的情況下也能實現提升。
對於預算有限的小型 AI 公司和初創企業來說,這種方法可以創造公平的競爭環境。API 呼叫的高昂成本一直是開發複雜 AI 助手的一大進入壁壘,ZeroSearch 將這些成本降低了近 90%,使高階 AI 訓練變得更加觸手可及。除了節省成本之外,這項技術還讓開發者能夠更好地控制訓練過程。在使用真正的搜尋引擎時,返回文件的質量是不可預測的。而藉助模擬搜尋,開發者能夠精確控制 AI 在訓練過程中所接觸到的資訊。
隨著大語言模型的不斷發展,像 ZeroSearch 這樣的技術意味著,未來 AI 系統可以透過自我模擬而不是依賴外部服務來發展日益複雜的能力,這有可能會改變 AI 開發的經濟模式,並減少對大型技術平臺的依賴。此外,傳統搜尋引擎對 AI 開發的必要性似乎在降低。
隨著 AI 系統變得更加自給自足,未來幾年的技術格局可能會大不相同。
參考連結:
https://venturebeat.com/ai/alibabas-zerosearch-lets-ai-learn-to-google-itself-slashing-training-costs-by-88-percent/
https://arxiv.org/pdf/2505.04588
宣告:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載
後續我將透過微信影片號,以影片的形式持續更新技術話題、未來發展趨勢、創業經驗、商業踩坑教訓等精彩內容,和大家一同成長,開啟知識交流之旅歡迎掃碼關注我的微信影片號~

今日薦文

你也「在看」嗎?👇