顛覆傳統資訊搜尋，效果是之前SOTA的三倍？UIUC韓家煒、孫冀萌團隊開源DeepRetrieval，讓模型端到端地學會搜尋！

在資訊檢索系統中，搜尋引擎的能力只是影響結果的一個方面，真正的瓶頸往往在於：使用者的原始 query 本身不夠好。

尤其在專業搜尋場景（如文獻、資料庫查詢）中，使用者往往無法用精確、完整的表達描述他們的需求。

那麼問題來了：能不能教大模型最佳化原始 query 的表達方式，從而讓已有檢索系統的能力被最大化激發？

來自 UIUC 的 Jiawei Han 和 Jimeng Sun 團隊的一項最新工作 DeepRetrieval 就是針對這個問題提出了系統性解法，只需 3B 的 LLM 即可實現 50 個點以上的提升。

論文標題：DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning
論文地址：https://arxiv.org/pdf/2503.00223
開原始碼：https://github.com/pat-jj/DeepRetrieval
開源模型：https://huggingface.co/DeepRetrieval

一句話概括：DeepRetrieval 是一個基於強化學習（RL）的 query 最佳化系統，訓練 LLM 在不同檢索任務中最佳化原始查詢，以最大化真實系統的檢索效果。

它不是訓練一個新的 retriever，也不是讓模型直接回答問題，而是：

在不改變現有搜尋系統的前提下，透過最佳化原始 query，讓「提問方式」變得更聰明，從而獲取更好的結果。

更多有意義的討論請讀原文正文和附錄的 Discussion 部分。

方法細節

方法要點

輸入：原始查詢 q
輸出：改寫後的查詢 q′（自然語言、布林表示式或 SQL）
環境反饋：使用 q′ 去檢索系統中查詢 → 返回結果 → 與 groundtruth 對比，計算 reward，reward 為 task-specific 檢索表現（如 Recall@K、NDCG@K、SQL accuracy）使用 PPO 進行訓練，並加入格式獎勵（format correctness）與 KL-regularization 保證訓練穩定，最佳化目標如下：

其中，π_ref 是參考策略（reference policy），通常指的是在強化學習開始之前的初始模型。β 是一個合適的 KL 懲罰係數，用於控制正則化的強度。KL 散度項的作用是懲罰當前策略與參考策略之間的過大偏離，從而在強化學習訓練過程中保證策略更新的穩定性。

實驗結果

真實搜尋引擎的文獻搜尋

首先在真實的搜尋引擎上進行實驗，文中用到了專業搜尋引擎 PubMed 和 ClinicalTrials.gov。無需改動搜尋引擎或其它任何檢索器，僅透過端到端地最佳化 query 表達，DeepRetrieval 就可以讓結果獲得 10 倍提升，遠超各個商業大模型和之前的 SOTA 方法 LEADS（蒸餾 + SFT 方法）。

Evidence-Seeking 檢索：通用搜索引擎的革新潛力

DeepRetrieval 在 Evidence-Seeking 檢索任務上的優異表現令人矚目。如表 1 所示，結合簡單 BM25，這個僅有 3B 引數的模型在 SQuAD、TriviaQA 和 NQ 資料集上超越了 GPT-4o 和 Claude-3.5 等大型商業模型。

Evidence-Seeking 任務的核心是找到支援特定事實性問題答案的確切文件證據，在通用搜索引擎環境中，這一能力尤為關鍵。作者團隊指出，將 DeepRetrieval 應用到 Google、Bing 等通用搜索引擎的 Evidence-Seeking 場景將帶來顯著優勢：

精準定位事實文件：通用搜索引擎包含海量資訊，使用者難以構建能精確定位證據段落的查詢。DeepRetrieval 可將簡單問題轉化為包含關鍵術語、同義詞和限定符的複雜查詢，顯著提高找到權威證據的機率。

克服知識時效性限制：模型能夠將「2024 年奧運會金牌榜前三名」等超出 LLM 知識截止日期的問題轉化為精確搜尋表達，使檢索系統能夠找到最新事實證據。

多源驗證能力：透過最佳化查詢幫助搜尋引擎找到多個獨立來源的事實證據，從而交叉驗證資訊準確性，這是純 LLM 問答無法實現的關鍵優勢。

作者團隊表示會將這部分的延伸作為 DeepRetrieval 未來主要的探索方向之一。

Classic IR（Sparse / Dense）

在 BM25 和 dense retriever 下，DeepRetrieval 提供了平均 5~10 點 NDCG 提升，並且：BM25 + DeepRetrieval 和多數 dense baseline 水平相當。

結合極快的檢索速度（BM25 vs dense：352s vs 12,232s），展示了一個現實可部署、效能不俗的高效方案。

SQL 檢索任務

在 SQL 檢索任務中，DeepRetrieval 擺脫了對 groundtruth SQL 的依賴，直接利用生成 SQL 的執行成功率最佳化模型，透過生成更精準的 SQL 語句，使得模型在 Spider、BIRD 等資料集上的執行正確率均超過對比模型（包括 GPT-4o 和基於 SFT 的大模型）。

探索勝於模仿：RL 為何超越 SFT

DeepRetrieval 的實驗揭示了強化學習（RL）在搜尋最佳化上相比監督微調（SFT）的獨特優勢。實驗資料令人信服：在文獻搜尋上，RL 方法的 DeepRetrieval（65.07%）超過 SFT 方法 LEADS（24.68%）近三倍；在 SQL 任務上，從零開始的 RL 訓練（無需任何 gold SQL 語句的監督）也優於使用 GPT-4o 蒸餾資料的 SFT 模型。

這種顯著差異源於兩種方法的本質區別：SFT 是「模仿學習」，試圖複製參考查詢，而 RL 是「直接最佳化」，透過環境反饋學習最優查詢策略。SFT 方法的侷限在於參考查詢本身可能不是最優的，即使是人類專家或大模型也難以直觀設計出最適合特定搜尋引擎的查詢表達。

論文中的案例分析進一步證實了這一點。例如，在 PubMed 搜尋中，DeepRetrieval 生成的查詢如「((DDAVP) AND (Perioperative Procedures OR Blood Transfusion OR Desmopressin OR Anticoagulant)) AND (Randomized Controlled Trial)」融合了醫學領域的專業術語和 PubMed 搜尋引擎偏好的布林結構，這種組合很難透過簡單模仿預定義的查詢模板獲得。

相反，RL 允許模型透過嘗試與錯誤來探索查詢空間，發現人類甚至未考慮的有效模式，並直接針對最終目標（如 Recall 或執行準確率）進行最佳化。這使 DeepRetrieval 能夠生成高度適合特定搜尋引擎特性的查詢，適應不同檢索環境的獨特需求。

這一發現具有重要啟示：在追求最佳檢索效能時，讓模型透過反饋學習如何與檢索系統「對話」，比簡單模仿既定模式更為有效，這也解釋了為何引數量較小的 DeepRetrieval 能在多項任務上超越擁有更多引數的商業模型。

模型 Think&Query 長度分析

透過分析 DeepRetrieval 在訓練過程中模型思考鏈和查詢長度的變化，可以發現以下關鍵洞見：

思考鏈長度演變

與「aha moment」相反，DeepRetrieval 的思考鏈長度隨訓練呈下降趨勢，而非增長。這與 DeepSeek-R1 報告的「aha moment」現象形成鮮明對比，後者的思考鏈會隨訓練進展變得更長。圖 4(a) 清晰地展示了 Qwen 模型思考鏈從初始約 150 tokens 逐漸降至穩定的 50 tokens 左右，而 Llama 模型的思考鏈更短，甚至降至接近 25 tokens。

查詢長度特徵

實驗揭示了思考過程對查詢長度的顯著影響。無思考過程的模型容易陷入次優解，如圖 4(b) 所示，Qwen 無思考版本生成極長查詢（500-600 tokens），表現出過度擴充套件的傾向。相比之下，有思考過程的模型保持更為適中的查詢長度，Qwen 約 150 tokens，Llama 約 100 tokens。有趣的是，不同模型採用不同長度策略，但能達到相似效能，表明查詢生成存在多樣有效路徑。

效能與思考過程關係

思考過程對檢索效能有決定性影響。圖 4(c) 表明，具備思考能力的模型效能顯著提升，有思考的模型 Recall@3K 能達到 65%，而無思考模型僅 50% 左右。此外，訓練效率也明顯提高，有思考的模型更快達到高效能並保持穩定。論文附錄 D.1 的分析表明，思考過程幫助模型避免簡單地透過增加查詢長度和重複術語來提升效能，而是引導模型學習更有效的語義組織策略。

關鍵結論

DeepRetrieval 展示了思考過程在資訊檢索中扮演「探索促進器」的關鍵角色。與數學或程式設計問題不同，檢索任務不需要像「aha moment」那樣的突然頓悟現象。相反，檢索最佳化遵循「先詳細思考，後逐漸精簡」的模式，模型在內化有效策略後，不再需要冗長思考。這表明檢索任務中思考鏈的主要功能是探索，一旦策略穩定便可簡化。

這種分析表明，適當的思考過程設計對於構建高效的檢索最佳化系統至關重要，能夠在不增加模型引數的情況下顯著提升效能，為未來的 LLM 應用於搜尋任務提供了重要設計思路。

結論

DeepRetrieval 的貢獻在於揭示了一個常被忽視但至關重要的事實：檢索效果的上限不僅在於檢索器本身，更在於如何「提問」。

透過強化學習教 LLM 改寫原始查詢，DeepRetrieval 不僅擺脫了對人工標註資料和大模型蒸餾的依賴，還在多個任務上證明了改寫 query 的巨大潛力。這項工作為搜尋與資訊檢索領域帶來了新的思考：未來的檢索最佳化，不僅是提升引擎演算法，更是如何讓使用者「問得更好」，從而激發出檢索系統的全部潛力。

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]