WorfBench團隊 投稿
量子位 | 公眾號 QbitAI
大模型智慧體正在迅速發展,能力已不再侷限於 API 呼叫。
諸如OpenAI的Operator和Anthropic的Computer Use等,能夠像人類一樣直接與介面互動,執行復雜操作。
在處理這類複雜任務的過程中,大模型智慧體將問題分解為可執行的工作流(Workflow)是關鍵的一步。然而,這一核心能力目前缺乏完善的評測基準。
現有的資料集和評估框架存在明顯侷限性:要麼僅關注規劃任務的端到端效能,要麼在場景覆蓋範圍、工作流結構的複雜性以及評估標準的全面性上存在不足。完善的工作流評測基準對於推動大模型智慧體在真實場景中的應用和效能提升至關重要。
為解決上述問題,浙大通義聯合釋出WorfBench——一個涵蓋多場景和複雜圖結構工作流的統一基準,以及WorfEval——一套系統性評估協議,透過子序列和子圖匹配演算法精準量化大模型生成工作流的能力。這一研究不僅填補了現有評估體系的空白,還為未來大模型智慧體在複雜任務中的應用提供了重要的參考。

該工作已被人工智慧頂級會議ICLR 2025錄用。

WorfBench構建與評估
WorfBench利用GPT自動化構建多場景任務,包括problem solving、function calling、embodied planning和open-ended planning等,生成了包含18k訓練樣本、2146測試樣本和723個OOD的評測資料集。作者將工作流建模為有向無環圖(DAG),以更精確地表示現實世界中的複雜序列或並行智慧體工作流。
為了確保資料質量,作者引入了節點鏈作為中間結構,並採用拓撲排序(Topological Sorting)演算法對圖結構進行質量過濾,並在測試集上進行人工驗證。

WorfEval則透過子序列和子圖匹配演算法,分別從鏈結構和圖結構兩個維度對大模型生成的工作流進行量化評估,從而精準衡量模型的線性規劃和圖規劃能力。
基準評測結果
作者在WorfBench上對18種不同規模的主流大模型進行了全面評估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。實驗結果顯示,與線性結構相比,模型在圖結構工作流預測上的能力遠未達到現實需求,即使是效能卓越的GPT-4,其圖結構工作流的平均效能也僅為52.47%。
此外,作者還對兩個開源模型進行了訓練,並在OOD任務上評估其泛化能力。結果表明,儘管在訓練集上表現出色,但在未見過的任務上,模型的泛化能力仍有待提高。這表明,僅透過資料擬合目前仍難以實現結構化工作流規劃能力的有效學習。

工作流生成分析
透過對實驗結果的深入分析,作者發現大模型在工作流生成中存在顯著的線性規劃與圖規劃能力差距,且圖規劃能力與模型規模並非完全正相關。例如,部分7B模型在某些任務上超越了13B模型,這可能與模型訓練資料的規模和質量有關。
此外,作者還發現,即使提供標籤節點鏈以簡化圖結構預測任務,模型的圖規劃效能仍不理想,這表明圖規劃的複雜性在於對任務依賴關係的理解。

進一步的錯誤分析顯示,大模型在工作流生成中的典型錯誤主要集中在任務分解的粒度、任務描述的明確性、圖結構的正確性以及輸出格式的規範性四個方面。這些錯誤大多源於模型對環境知識的缺乏。
因此,未來的研究方向可能包括最佳化提示策略、採用多智慧體架構,以及將世界知識或世界模型更深入地融入大模型中,以提升其對現實世界的理解能力。
工作流知識增強智慧體
作者探討了工作流在智慧體規劃中的重要作用。研究發現,工作流不僅可以作為一種流程先驗知識直接指導智慧體的規劃過程,幫助其在複雜任務中更高效地執行,還可以作為鏈式思考(Chain-of-Thought, CoT)的增強手段,透過為智慧體提供更相關的API選擇,減輕其在多步任務中的負擔。

此外,工作流的圖結構特效能夠實現並行任務執行,顯著減少推理時間,同時減少智慧體在規劃過程中的步驟數,提升任務完成效率。這些結果表明,工作流不僅是連線任務與具體執行動作的橋樑,還能顯著提升智慧體在複雜任務中的表現和效率。

論文連結: https://arxiv.org/abs/2410.07869
程式碼連結: https://github.com/zjunlp/WorfBench
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!