讓LLM自己上網搞科研!WebDancer實現DeepResearch級自主推理

作者介紹:本文作者來自通義實驗室 RAG 團隊,致力於面向下一代 RAG 技術進行基礎研究。該團隊的 WebWalker 工作近期也被 ACL 2025 主會議錄用。
論文連結:
https://arxiv.org/pdf/2505.22648
程式碼連結:
https://github.com/Alibaba-NLP/WebAgent
影片:
WebDancer 能夠完成多步資訊檢索任務,涵蓋多輪推理與連續動作執行。在執行過程中,模型展現出對任務的自主拆解能力,能夠進行知識回溯與多輪驗證,體現出高度的任務理解與執行自主性。
背景:資訊檢索的新需求與挑戰
在資訊爆炸的時代,傳統的搜尋引擎已難以滿足使用者對深層次、多步驟資訊獲取的需求。從醫學研究到科技創新,從商業決策到學術探索,複雜問題的解決需要深入的資訊挖掘和多步推理能力。這催生了對能夠自主思考、自主決策的智慧體的需求。
然而,構建這樣的智慧體面臨諸多挑戰:
  • 理解複雜網頁內容:智慧體需要具備解析和理解多樣化網頁結構和內容的能力。
  • 多步決策與推理:能夠進行任務分解、知識回溯和反覆驗證,完成複雜的資訊檢索任務。
  • 適應開放動態環境:面對不斷變化的網路環境,智慧體需要具備強大的適應能力。
  • 自主行動:智慧體應能自主採取行動並進行自我修正。
在此背景下,WebDancer 的出現,為實現 Deep Research 類智慧體在開源模型上實現提供了可行路徑。
訓練資料難獲得:WebDancer的資料端創新突破
2.1 資料稀缺的困境
在自主資訊檢索領域,高質量的訓練資料至關重要。然而,現有的資料集如 2WIKI,HotpotQA 多為淺層次問題,難以支援複雜多步推理的訓練需求。
2.2 WebDancer 的資料合成策略
為解決資料稀缺問題,WebDancer 提出了兩種創新的資料合成方法:
  • CRAWLQA:透過模擬人類瀏覽行為,從權威網站(如 arXiv、GitHub、Wikipedia 等)中爬取網頁資訊,生成複雜的問答對,確保資料的多樣性和真實性。這一技術方案與中稿在 ACL2025 的 WebWalker 類似。
  • E2HQA:採用“由簡到難”的策略,從簡單問題出發,逐步增加問題的複雜度,構建多步推理的問答對,促進智慧體能力的逐步進化。為了保證 QA 對的合法驗證,我們保持答案不變,對問題進行改寫。
2.3 ReAct 框架與思維鏈蒸餾
ReAct 框架是 WebDancer 的基礎。一個 ReAct 軌跡包含多個思考-行動-觀察(Thought-Action-Observation)迴圈。
智慧體生成 Thought(自由形式的思考),Action(結構化的行動,用於與環境工具互動),並接收 Observation(來自環境的反饋)。這個過程迭代進行,直到任務完成,最終行動是 answer。可能的行動包括 search,visit,和 answer。
思考鏈(Chain-of-Thought, CoT)對於智慧體的執行至關重要,它使得高層工作流規劃、自我反思、資訊提取和行動規劃成為可能。
論文探索了構建短 CoT 和長 CoT 的方法。對於短 CoT,直接使用強大的模型(如 GPT-4o)在 ReAct 框架下生成軌跡。對於長 CoT,則順序地向推理模型(LRM)提供歷史行動和觀察,讓其自主決定下一步行動,並記錄其中間推理過程作為當前的 Thought。
在獲得問答對後,WebDancer 利用 ReAct 框架,結合閉源的 GPT-4o 和開源的 QwQ 模型,進行長短思維鏈的蒸餾,生成高質量的 agentic 資料。這種方式簡潔高效,滿足了對 Agentic Model 的需求。
2.4 資料過濾與質量提升
為了確保資料質量,WebDancer採用了多階段的資料過濾策略:
  1. 有效性控制:剔除不符合指令的資料。
  2. 正確性驗證:僅保留結果正確的資料。
  3. 質量評估:透過規則過濾掉出現嚴重 repetition 或思考冗餘的資料,確保資料的多樣性和邏輯性。
這些嚴格的過濾策略,確保了訓練資料的高質量,為智慧體的高效學習提供了保障。
開放網路環境難訓練:WebDancer的高效解決方案
3.1 開放環境訓練的挑戰
在開放環境中訓練智慧體是一項極具挑戰性的任務。網路環境的動態變化和部分可觀測性,使得智慧體需要具備強大的適應能力和泛化能力。
3.2 WebDancer 的兩階段訓練策略
為應對這些挑戰,WebDancer採用了兩階段的訓練策略:
  • 監督微調(SFT):在高質量軌跡資料上進行微調,使智慧體快速適應任務需求,掌握在複雜環境中進行推理和決策的能力。為了避免外部反饋(Observation)的干擾,損失函式會遮蔽掉 Observation 的貢獻,只計算智慧體自主決策步驟(Thought 和 Action)的損失。這已被證明能提高效能和魯棒性。
  • 強化學習(RL):透過與環境的互動,智慧體不斷試錯,學習在複雜多變的環境中做出最優決策。WebDancer 採用了先進的 DAPO 演算法,動態取樣未被充分利用的資料對,提高資料效率和策略的魯棒性。DAPO 透過最大化一個目標函式來進行策略更新,該目標函式考慮了候選軌跡的獎勵和優勢項。優勢項基於批次內的原始獎勵值進行歸一化計算。
3.3 高效的資料利用與動態取樣
WebDancer 透過動態取樣機制,優先採樣那些未被充分利用的資料對,確保資料的高效利用,增強了智慧體的泛化能力。
3.4 降低強化學習成本
強化學習階段的高計算成本和時間開銷一直是開放環境訓練的一大難題。WebDancer 透過最佳化演算法和硬體資源的高效利用,顯著降低了強化學習的成本。
實驗與結果:WebDancer的卓越表現
WebDancer 的創新策略在多個資訊檢索基準測試中得到了充分驗證。
4.1 GAIA 資料集
GAIA 資料集旨在評估通用人工智慧助手在複雜資訊檢索任務上的表現。WebDancer 在 GAIA 資料集上的表現尤為突出,在不同難度的任務中均取得了高分,展現了其強大的泛化能力。
4.2 WebWalkerQA 資料集
WebWalkerQA 資料集專注於深度網路資訊檢索。WebDancer 在該資料集上的表現同樣出色,尤其是在中等難度和高難度任務中,其效能提升更為明顯。
我們表現最佳的模型在 GAIA 基準測試中達到了 61.1% 的 Pass@3 分數,在 WebWalkerQA 基準測試中達到了 54.6% 的 Pass@3 分數。
4.3 BrowseComp 資料集
在更具挑戰性的 BrowseComp(英文)和 BrowseComp-zh(中文)資料集上,WebDancer 同樣展現出了強大的效能,進一步證明了其在處理複雜資訊檢索任務方面的魯棒性和有效性。
深入分析:Agent 模型的訓練
實驗一分析:
強化學習(RL)在提升普通指令模型(Instruction Model)效能方面表現顯著,尤其在提升 Pass@1 取樣準確率方面效果突出,其效果甚至可接近 Pass@3。
然而,對於如 QwQ 這類以推理為核心的模型,RL 的提升效果相對有限,主要體現在取樣結果的穩定性上。這一差異可能與 agentic 任務中決策軌跡較長、推理過程更復雜有關。
實驗二分析:
Agentic 資料的質量遠比數量更為關鍵。我們在 QwQ 模型上僅使用約 6,000 條高質量、具備長思維鏈的訓練資料,就在 GAIA 任務中取得了優異的效果,表明精細構造的思維軌跡在複雜任務中的價值遠高於海量但粗糙的資料。
實驗三分析:
長短思維鏈的模式在不同型別模型之間並不具備良好的可遷移性。儘管長思維鏈對指令模型和推理模型均能帶來效能提升,但其同時也顯著增加了非法生成(如重複內容)的機率,尤其在引數規模較小的模型上更為嚴重。這表明在設計長思維鏈訓練資料時,需要在有效性與體驗感之間做好平衡。
未來展望:WebDancer的新徵程
6.1 更多工具的整合
目前,WebDancer 僅集成了兩種基本的資訊檢索工具,未來計劃引入更多複雜的工具,如瀏覽器建模和 Python 沙盒環境,使智慧體能夠執行更復雜的任務。
6.2 任務泛化與基準擴充套件
目前的實驗主要集中在短答案資訊檢索任務上,未來 WebDancer 將擴充套件到開放域的長文字寫作任務,對智慧體的推理能力和生成能力提出更高的要求。
在本研究中,致力於從頭訓練一個具備強大 Agent 能力的模型,重點探索如何在開源體系中構建高效的 Agentic 模型架構。這不僅有助於推動智慧體模型的開源程序,也對於理解智慧體在開放環境中如何湧現與擴充套件(scale)其能力具有基礎性意義。
採用原生的 ReAct 框架,強調簡潔性與通用性,體現了“大道至簡”的工程理念。
所謂 Agentic 模型,指的是那些天生支援推理、決策及多步工具呼叫的基礎模型(foundation models)。能夠僅憑任務描述提示,即可展現出如規劃、自我反思、行動執行等一系列突現能力(emergent capabilities),從而在互動式環境中表現出近似智慧體的行為。
近年來,系統如 DeepSearch 和 DeepResearch 顯示出強大底層模型如何作為智慧體核心,透過其原生支援的工具呼叫與迭代式推理,完成自主的網路環境互動。
然而,考慮到網路環境的動態性與部分可觀測性,強化學習(RL)在提升智慧體的適應性與魯棒性方面起到了關鍵作用。
因此,我們的目標是透過針對性的後訓練(post-training),在開源基礎模型中激發出更具通用性與自主性的 Agent 能力,從而為構建可持續、可控的智慧體生態奠定基礎。
結語:WebDancer,開啟自主智慧的新時代
WebDancer 透過系統化的訓練正規化——涵蓋從資料構建到演算法設計的全流程——為構建具備長期資訊檢索能力的智慧體提供了明確路徑。同時,該框架也為在開源模型上覆現 Deep Research 系統提供了清晰可行的指導。
團隊將進一步在更開放的環境中、結合更多工具,持續拓展和整合 Agentic 能力,推動通用智慧體的落地與演進。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章