一句話全自動建立AI智慧體，港大AutoAgent打造開源最強DeepResearch

香港大學近期重磅釋出開源專案 AutoAgent，這是由黃超教授實驗室開發的創新 AI 框架。它最大的特點是：只要用自然語言就能建立 AI 助手，讓人工智慧應用開發變得特別簡單。

專案開源僅三週就在 Github 上獲得了 2.1k 星標。基於 AutoAgent 引擎，黃超團隊還打造了一個超強的 AI 研究助手——Auto-Deep-Research。這個通用 AI 智慧體效能目前位列全球第三，開源第一。在開源產品中更是排第一。

它的主要功能包括：

智慧搜尋：自動搜尋網路資訊，整合分析內容

自動程式設計：能處理各種複雜的程式設計任務
資料分析：進行深入的資料探勘和分析
智慧報告：生成視覺化報告

導讀

2025 is the Year of AI Agents

這不是一個隨意的預測，而是整個科技界的共識。從英偉達創始人黃仁勳，到 OpenAI 的掌舵人 Sam Altman，從 DeepMind 的天才科學家 Demis Hassabis，再到矽谷頂級投資機構 a16z，他們都指向了同一個未來：AI Agent 即將迎來爆發性增長的拐點。

就像 2022 年是生成式 AI 的元年，ChatGPT 的橫空出世徹底改變了我們與 AI 互動的方式。而 2025 年，AI Agent 的普及將掀起一場更具革命性的變革 —— 它不僅能理解和回應，更能主動思考、規劃、與環境互動並採取行動，真正成為人類的得力助手。

英偉達創始人

OpenAI CPO

貝爾獎得主，DeepMind 創始人 Demis Hassabis

OpenAI CEO

Sam Altman

Inflection AI 聯合創始人 ustafa Suleyman

a16z 最新預測

然而，一個尷尬的現實是：全球僅有 0.03% 的人掌握程式設計技能。這意味著在 AI Agent 這場技術革命中，99.97% 的人都可能被排除在外。我們真正需要的，不是讓少數精英獨享 AI Agent 帶來的紅利，而是讓每個人都能夠創造和駕馭屬於自己的 AI 助手。

在這個重要的歷史節點，我們推出了 AutoAgent 框架。這不僅僅是另一個開發工具，而是一次讓 AI Agent 創造門檻從“專業程式設計”降低到“日常對話”的革命性嘗試。它內建了開箱即用的 Auto-Deep-Research 多智慧體系統，這是一個在 General AI Assistant benchmark GAIA 評測中取得總體第三、開源方案第一的頂尖研究助手。

基於 Claude-3.5-sonnet 構建，支援 Deepseek、Huggingface 等多種模型，它不僅是前三名中最經濟實惠的方案，更讓每個人都能輕鬆開啟深度研究之旅。得益於其突破性的自我發展架構和智慧向量資料庫，AutoAgent 不僅能讓使用者透過自然語言輕鬆建立各類工具和工作流，更能實現真正的零程式碼開發，打造專屬於你的 AI 助手。

我們也歡迎所有有興趣的開發者加入我們的社群一起探索，在這個 AI Agent 即將爆發的前夜，AutoAgent 將如何重新定義人機協作的未來…

自研框架 AutoAgent：

https://github.com/HKUDS/AutoAgent

Auto-Deep-Research：

https://github.com/HKUDS/Auto-Deep-Research

論文連結：

https://arxiv.org/abs/2502.05957

現在讓我們進一步看看，Auto-Deep-Research 是怎麼實現的吧！

驚豔一瞥：讓 AI 成為你的金融分析師

幫我分析蘋果和微軟的 10-K 財報，結合最新市場動態，做一份量化分析報告，最好能加上資料視覺化。

透過這個簡單指令，我們可以看到 Auto-Deep-Research 的實際應用能力。面對兩份總計超過 200 頁的 PDF 文件，這個多智慧體系統展現出了高效的處理能力。

在演示影片中，我們可以看到三個視窗同時執行：終端介面（左側）顯示 Auto-Deep-Research 的思考和規劃過程；檔案目錄（右上）展示生成的分析文件；瀏覽器視窗（右下）則在收集最新的市場資訊。

從文件解析、網路搜尋、到程式碼編寫、資料視覺化，整個過程自動化完成，無需人工干預。在約 10 分鐘內，系統生成了一份完整的分析報告——這種效率大大提高了財務分析的工作效率。

這個演示展示了 AI 如何處理複雜任務，讓人類可以從繁瑣的資料處理中解放出來，專注於更具創造性的工作。

agent 生成的 report 和 figure 如下所示：

深入剖析 AutoAgent

如圖所示，AutoAgent 的設計靈感來自現代作業系統，旨在打造一個全自動的 AI 助手作業系統。就像 Windows 或 MacOS 為電腦提供了完整的執行環境，AutoAgent 為 AI 助手們提供了一個強大而優雅的執行平臺。

這個平臺由四大核心模組構成，它們默契配合，讓使用者僅透過自然語言就能創造和管理各類 AI 助手：

開箱即用的開源最強 Deep Research 模式（Agentic System Utilities），為使用者提供了頂尖的複雜任務分析和解決能力。
基於大語言模型的行動引擎（LLM-powered Actionable Engine）則是整個系統的'大腦'，負責理解使用者需求並協調多個AI助手的合作
自管理檔案系統（Self-Managing File System）能智慧處理和組織各類多模態資料，讓 AI 助手得心應手地處理文字、影像等不同型別的資訊
零程式碼的 Agent 定製化功能（Self-Play Agent Customization）讓每個人都能輕鬆打造專屬 AI 助手和工作流程，就像在和AI對話一樣簡單

這些模組的完美配合，讓 AutoAgent 成為了一個真正全能的 AI 助手平臺，能夠適應從學術研究到商業分析等各類場景的需求。

開源最強 Auto-Deep-Research（Agentic System Utilities）

AutoAgent 採用了一個結構化的多智慧體架構，使其能夠系統化地處理各類複雜任務。從網頁瀏覽、資訊檢索到資料分析、程式碼執行，每個功能領域都有專門的智慧體負責。

這個智慧體系統的核心是編排智慧體（Orchestrator Agent）。它作為中央協調者，接收使用者需求後，分析任務要點，將其分解為子任務，並分配給相應的專業智慧體。透過高效的 handoff 機制，各智慧體協同工作直至完成整個任務。

網頁智慧體（Web Agent）提供了一套全面的網路任務處理工具集。它能夠執行從通用網路搜尋到檔案下載的各類網路任務，透過 10 個高階操作工具（如 click、web_search、visit_url 等）實現精準的網頁互動。系統基於 BrowserGym 構建了專業的瀏覽器環境，將底層的程式碼驅動行為抽象為高階工具，顯著提升了工具定義的擴充套件性。

程式碼智慧體（Coding Agent）是一個綜合性的程式碼執行解決方案，專門處理從資料分析、計算到機器學習、自動化和系統管理等各類程式碼驅動的任務。它包含了 11 個核心工具，涵蓋程式碼指令碼建立、Python 程式碼執行、指令實現和目錄結構管理等關鍵功能。

程式碼智慧體執行在互動式終端環境中，所有程式碼相關工具的執行結果都透過終端輸出返回。當輸出超出顯示容量時，終端會以分頁形式呈現，智慧體可以透過 terminal_page_up、terminal_page_down 和 terminal_page_to 等命令自如地瀏覽內容，有效解決了大語言模型上下文長度的限制問題。

本地檔案智慧體（Local File Agent）則專注於多模態資料的統一處理和分析。它支援多種檔案格式的轉換和處理，包括文字文件（.doc、.pdf、.txt、.ppt）、影片檔案（.mp4、.mov）、音訊檔案（.wav、.mp3）以及電子表格（.csv、.xlsx）等。

透過統一的工具集，它能夠將各類檔案轉換為 Markdown 格式，並利用互動式 Markdown 瀏覽器進行高效分析，有效突破了上下文長度的限制。

這套精心設計的架構在 GAIA benchmark 評測中展現出了卓越的效能：以總體第三、開源方案第一的成績，與 OpenAI 等商業巨頭的閉源方案並駕齊驅。

特別值得一提的是，在前三名中，我們是唯一一個基於 Claude-3.5-sonnet 的方案，不僅達到了頂尖效能，還實現了最優的成本效益。同時，系統的開放性使其能夠無縫對接 Deepseek-R1 等多種模型，甚至支援本地開源模型部署，讓高效能的 Deep Research 真正走入大眾視野。

基於大語言模型的行動引擎（LLM-powered Actionable Engine）

基於大語言模型的行動引擎是 AutoAgent 的核心處理單元，負責理解自然語言、生成執行計劃並協調各智慧體任務。系統採用 LiteLLM 實現了標準化的 LLM 呼叫介面，支援來自不同供應商的 100 多個模型，確保系統協同執行。

在生成可執行動作方面，系統設計了兩種互補正規化：直接工具使用正規化針對支援工具呼叫的商業語言模型，能夠直接生成下一步執行工具；轉換式工具使用正規化則將工具使用轉化為結構化的 XML 程式碼生成任務（如 <function=function_name> <parameter=parameter_1>value_1 … ），既提升了商業模型效能，也為開源模型整合提供了靈活性。

自管理檔案系統（Self-Managing File System）

AutoAgent 的檔案系統本質上是一個向量資料庫，專門設計用於支援大語言模型的檢索和理解。系統支援使用者上傳任意格式的文字檔案（如 .pdf、.doc、.txt）或包含文字檔案的壓縮包和資料夾。

透過 save_raw_docs_to_vector_db 等工具，系統能自動將這些檔案轉換為統一的文字格式，並存儲在使用者定義的向量資料庫集合中。藉助 query_db 和 answer_query 等工具，智慧體能夠自主管理資料庫記憶體，實現高效精準的資訊檢索和生成。

在 MultiHop-RAG 基準測試中，基於這一原生自管理檔案系統構建的 Agentic-RAG 展現出了卓越效能：準確率達到 73.51%，顯著超越了其他基線方法，包括知名的 LangChain 框架。

這一成績充分證明了我們的系統在處理複雜的多跳檢索和生成任務時具備更強的靈活性和適應性，不依賴預定義的工作流程，能夠在檢索過程中動態編排最優路徑。

零程式碼的 Agent 定製化功能（Self-Play Agent Customization）

AutoAgent 設計了一個程式碼驅動的自程式設計智慧體框架，透過實現約束機制、錯誤處理和定製化工作流，實現了可控的程式碼生成，讓使用者能夠輕鬆定製工具和智慧體，或構建多智慧體系統。系統支援兩種主要模式：無工作流智慧體建立和基於工作流的智慧體建立。

無工作流智慧體建立

構建高效的多智慧體系統通常需要專業領域知識，比如金融法規或醫療協議等專業知識。為了讓普通使用者也能輕鬆構建複雜系統，AutoAgent 提供了強大的智慧體生成能力。使用者只需提供智慧體名稱和簡單的功能描述，系統就能自動完成建立過程。

系統首先透過專業的分析智慧體評估現有工具和資源，深入分析使用者需求。隨後，工具編輯智慧體開始發揮作用：它可以無縫整合 LangChain、RapidAPI 和 Hugging Face 等第三方 API，目前已支援 8 類 145 個 RapidAPI 介面和 9 類 Hugging Face 模型。

更重要的是，它能自動生成工具程式碼、設計測試用例並驗證功能，遇到問題時還會自動除錯直到成功。

在智慧體建立階段，系統會自動識別是否需要多個智慧體協作。如果需要，它會透過 create_orchestrator_agent 工具生成一個編排智慧體，遵循 Orchestrator-Workers 設計模式，確保多個智慧體之間的有效協調。

基於工作流的智慧體建立

當用戶對多智慧體系統的工作流程有特定要求時，系統採用了創新的事件驅動方法，突破了傳統圖方法在工作流生成中對圖論原則的嚴格依賴。透過將智慧體任務建模為事件，並利用事件監聽和觸發機制，實現了更靈活的智慧體協作。

工作流的構建過程本身就是一個精心設計的多智慧體協作：工作流表單智慧體負責分析需求並設計事件邏輯，生成結構化的 XML 程式碼；強大的錯誤檢測機制確保生成的工作流嚴格符合系統約束；最後，工作流編輯智慧體負責建立所需的新智慧體、構建工作流並執行任務。

這種設計不僅實現了真正的零程式碼開發，更透過嚴謹的框架設計和靈活的事件機制，確保了系統的可靠性和擴充套件性。

結語

AutoAgent 是一個開源的 AI 助手作業系統，旨在降低建立 AI 助手的技術門檻。歡迎訪問我們的 GitHub 倉庫，為專案點星並加入開源社群。您的參與將有助於專案持續改進，同時促進 AI 技術的普及應用，使更多使用者能夠利用這一技術。期待與開發者和使用者共同推進 AI 助手技術的發展。

GitHub 地址：

https://github.com/HKUDS/AutoAgent

研究團隊

本項研究由黃超老師帶領的港大資料智慧實驗室（https://sites.google.com/view/chaoh/group-join-us）的團隊成員帶來。港大資料智慧實驗室長期耕耘於資料科學，大語言模型領域，由諸如 LightRAG，GraphGPT 等諸多高星開源專案。歡迎大家來 Github 進一步探索：

https://github.com/HKUDS