
香港大學近期重磅釋出開源專案 AutoAgent,這是由黃超教授實驗室開發的創新 AI 框架。它最大的特點是:只要用自然語言就能建立 AI 助手,讓人工智慧應用開發變得特別簡單。
專案開源僅三週就在 Github 上獲得了 2.1k 星標。基於 AutoAgent 引擎,黃超團隊還打造了一個超強的 AI 研究助手——Auto-Deep-Research。這個通用 AI 智慧體效能目前位列全球第三,開源第一。在開源產品中更是排第一。
它的主要功能包括:
-
智慧搜尋:自動搜尋網路資訊,整合分析內容
-
自動程式設計:能處理各種複雜的程式設計任務 -
資料分析:進行深入的資料探勘和分析 -
智慧報告:生成視覺化報告

2025 is the Year of AI Agents
這不是一個隨意的預測,而是整個科技界的共識。從英偉達創始人黃仁勳,到 OpenAI 的掌舵人 Sam Altman,從 DeepMind 的天才科學家 Demis Hassabis,再到矽谷頂級投資機構 a16z,他們都指向了同一個未來:AI Agent 即將迎來爆發性增長的拐點。
就像 2022 年是生成式 AI 的元年,ChatGPT 的橫空出世徹底改變了我們與 AI 互動的方式。而 2025 年,AI Agent 的普及將掀起一場更具革命性的變革 —— 它不僅能理解和回應,更能主動思考、規劃、與環境互動並採取行動,真正成為人類的得力助手。

英偉達創始人

OpenAI CPO

貝爾獎得主,DeepMind 創始人 Demis Hassabis

OpenAI CEO
Sam Altman

Inflection AI 聯合創始人 ustafa Suleyman

a16z 最新預測
然而,一個尷尬的現實是:全球僅有 0.03% 的人掌握程式設計技能。這意味著在 AI Agent 這場技術革命中,99.97% 的人都可能被排除在外。我們真正需要的,不是讓少數精英獨享 AI Agent 帶來的紅利,而是讓每個人都能夠創造和駕馭屬於自己的 AI 助手。
在這個重要的歷史節點,我們推出了 AutoAgent 框架。這不僅僅是另一個開發工具,而是一次讓 AI Agent 創造門檻從“專業程式設計”降低到“日常對話”的革命性嘗試。它內建了開箱即用的 Auto-Deep-Research 多智慧體系統,這是一個在 General AI Assistant benchmark GAIA 評測中取得總體第三、開源方案第一的頂尖研究助手。
基於 Claude-3.5-sonnet 構建,支援 Deepseek、Huggingface 等多種模型,它不僅是前三名中最經濟實惠的方案,更讓每個人都能輕鬆開啟深度研究之旅。得益於其突破性的自我發展架構和智慧向量資料庫,AutoAgent 不僅能讓使用者透過自然語言輕鬆建立各類工具和工作流,更能實現真正的零程式碼開發,打造專屬於你的 AI 助手。

https://arxiv.org/abs/2502.05957
現在讓我們進一步看看,Auto-Deep-Research 是怎麼實現的吧!

驚豔一瞥:讓 AI 成為你的金融分析師
幫我分析蘋果和微軟的 10-K 財報,結合最新市場動態,做一份量化分析報告,最好能加上資料視覺化。
透過這個簡單指令,我們可以看到 Auto-Deep-Research 的實際應用能力。面對兩份總計超過 200 頁的 PDF 文件,這個多智慧體系統展現出了高效的處理能力。

幫我分析蘋果和微軟的 10-K 財報,結合最新市場動態,做一份量化分析報告,最好能加上資料視覺化。
在演示影片中,我們可以看到三個視窗同時執行:終端介面(左側)顯示 Auto-Deep-Research 的思考和規劃過程;檔案目錄(右上)展示生成的分析文件;瀏覽器視窗(右下)則在收集最新的市場資訊。
從文件解析、網路搜尋、到程式碼編寫、資料視覺化,整個過程自動化完成,無需人工干預。在約 10 分鐘內,系統生成了一份完整的分析報告——這種效率大大提高了財務分析的工作效率。
這個演示展示了 AI 如何處理複雜任務,讓人類可以從繁瑣的資料處理中解放出來,專注於更具創造性的工作。



如圖所示,AutoAgent 的設計靈感來自現代作業系統,旨在打造一個全自動的 AI 助手作業系統。就像 Windows 或 MacOS 為電腦提供了完整的執行環境,AutoAgent 為 AI 助手們提供了一個強大而優雅的執行平臺。
這個平臺由四大核心模組構成,它們默契配合,讓使用者僅透過自然語言就能創造和管理各類 AI 助手:
-
開箱即用的開源最強 Deep Research 模式(Agentic System Utilities),為使用者提供了頂尖的複雜任務分析和解決能力。 -
基於大語言模型的行動引擎(LLM-powered Actionable Engine)則是整個系統的'大腦',負責理解使用者需求並協調多個AI助手的合作 -
自管理檔案系統(Self-Managing File System)能智慧處理和組織各類多模態資料,讓 AI 助手得心應手地處理文字、影像等不同型別的資訊 -
零程式碼的 Agent 定製化功能(Self-Play Agent Customization)讓每個人都能輕鬆打造專屬 AI 助手和工作流程,就像在和AI對話一樣簡單
這些模組的完美配合,讓 AutoAgent 成為了一個真正全能的 AI 助手平臺,能夠適應從學術研究到商業分析等各類場景的需求。
AutoAgent 採用了一個結構化的多智慧體架構,使其能夠系統化地處理各類複雜任務。從網頁瀏覽、資訊檢索到資料分析、程式碼執行,每個功能領域都有專門的智慧體負責。
這個智慧體系統的核心是編排智慧體(Orchestrator Agent)。它作為中央協調者,接收使用者需求後,分析任務要點,將其分解為子任務,並分配給相應的專業智慧體。透過高效的 handoff 機制,各智慧體協同工作直至完成整個任務。
網頁智慧體(Web Agent)提供了一套全面的網路任務處理工具集。它能夠執行從通用網路搜尋到檔案下載的各類網路任務,透過 10 個高階操作工具(如 click、web_search、visit_url 等)實現精準的網頁互動。系統基於 BrowserGym 構建了專業的瀏覽器環境,將底層的程式碼驅動行為抽象為高階工具,顯著提升了工具定義的擴充套件性。
程式碼智慧體(Coding Agent)是一個綜合性的程式碼執行解決方案,專門處理從資料分析、計算到機器學習、自動化和系統管理等各類程式碼驅動的任務。它包含了 11 個核心工具,涵蓋程式碼指令碼建立、Python 程式碼執行、指令實現和目錄結構管理等關鍵功能。
程式碼智慧體執行在互動式終端環境中,所有程式碼相關工具的執行結果都透過終端輸出返回。當輸出超出顯示容量時,終端會以分頁形式呈現,智慧體可以透過 terminal_page_up、terminal_page_down 和 terminal_page_to 等命令自如地瀏覽內容,有效解決了大語言模型上下文長度的限制問題。
本地檔案智慧體(Local File Agent)則專注於多模態資料的統一處理和分析。它支援多種檔案格式的轉換和處理,包括文字文件(.doc、.pdf、.txt、.ppt)、影片檔案(.mp4、.mov)、音訊檔案(.wav、.mp3)以及電子表格(.csv、.xlsx)等。
透過統一的工具集,它能夠將各類檔案轉換為 Markdown 格式,並利用互動式 Markdown 瀏覽器進行高效分析,有效突破了上下文長度的限制。

基於大語言模型的行動引擎(LLM-powered Actionable Engine)
基於大語言模型的行動引擎是 AutoAgent 的核心處理單元,負責理解自然語言、生成執行計劃並協調各智慧體任務。系統採用 LiteLLM 實現了標準化的 LLM 呼叫介面,支援來自不同供應商的 100 多個模型,確保系統協同執行。
AutoAgent 的檔案系統本質上是一個向量資料庫,專門設計用於支援大語言模型的檢索和理解。系統支援使用者上傳任意格式的文字檔案(如 .pdf、.doc、.txt)或包含文字檔案的壓縮包和資料夾。
透過 save_raw_docs_to_vector_db 等工具,系統能自動將這些檔案轉換為統一的文字格式,並存儲在使用者定義的向量資料庫集合中。藉助 query_db 和 answer_query 等工具,智慧體能夠自主管理資料庫記憶體,實現高效精準的資訊檢索和生成。

零程式碼的 Agent 定製化功能(Self-Play Agent Customization)
構建高效的多智慧體系統通常需要專業領域知識,比如金融法規或醫療協議等專業知識。為了讓普通使用者也能輕鬆構建複雜系統,AutoAgent 提供了強大的智慧體生成能力。使用者只需提供智慧體名稱和簡單的功能描述,系統就能自動完成建立過程。
系統首先透過專業的分析智慧體評估現有工具和資源,深入分析使用者需求。隨後,工具編輯智慧體開始發揮作用:它可以無縫整合 LangChain、RapidAPI 和 Hugging Face 等第三方 API,目前已支援 8 類 145 個 RapidAPI 介面和 9 類 Hugging Face 模型。
更重要的是,它能自動生成工具程式碼、設計測試用例並驗證功能,遇到問題時還會自動除錯直到成功。
當用戶對多智慧體系統的工作流程有特定要求時,系統採用了創新的事件驅動方法,突破了傳統圖方法在工作流生成中對圖論原則的嚴格依賴。透過將智慧體任務建模為事件,並利用事件監聽和觸發機制,實現了更靈活的智慧體協作。
工作流的構建過程本身就是一個精心設計的多智慧體協作:工作流表單智慧體負責分析需求並設計事件邏輯,生成結構化的 XML 程式碼;強大的錯誤檢測機制確保生成的工作流嚴格符合系統約束;最後,工作流編輯智慧體負責建立所需的新智慧體、構建工作流並執行任務。

AutoAgent 是一個開源的 AI 助手作業系統,旨在降低建立 AI 助手的技術門檻。歡迎訪問我們的 GitHub 倉庫,為專案點星並加入開源社群。您的參與將有助於專案持續改進,同時促進 AI 技術的普及應用,使更多使用者能夠利用這一技術。期待與開發者和使用者共同推進 AI 助手技術的發展。


更多閱讀



#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
