等不到OpenAI開源了!5個工程師24小時手擼免費版DeepResearch,效果直追正主、過程全公開

整理 |華衛、核子可樂
OpenAI 新推出的 Deep Research 功能令人矚目,但目前僅向訂閱了 OpenAI 每月 200 美元 ChatGPT Pro 計劃的使用者提供。在該功能釋出不到 24 小時後,來自人工智慧開發平臺 Hugging Face 的 5 名工程師,其中包括該公司聯合創始人兼首席科學家 Thomas Wolf,表示他們打造出了 Deep Research 的免費開源版本。
該團隊表示,Open Deep Research 能夠自主瀏覽網頁,滾動頁面、處理檔案,甚至利用資料進行計算。他們致力於改善體驗,並已在 GitHub 上提供原始碼以供檢查和反饋。並且,Hugging Face 詳細公開了 Open Deep Research 的完整開發過程,該團隊的負責人日前也在採訪中透露了更多幕後資訊。
極限 24 小時“克隆”任務
凌晨 2 點設計出基礎架構
早上 7 點接入 o1 模型
下午 3 點實現網頁自主滾動技術
晚上 9 點完成檔案動態解析模組
以上是該團隊在 24 小時內所完成的事。與 OpenAI 的 Deep Research 以及谷歌依託 Gemini 打造的最早同名“Deep Research”(於去年 12 月首次釋出,早於 OpenAI)類似,Hugging Face 的方案是為現有 AI 模型新增一套“智慧體”框架,使其能夠執行多步驟任務,例如在收集資訊的同時構建報告、並最終展示給使用者。
據該團隊介紹, Open Deep Research 由一個人工智慧模型(OpenAI 的 o1)和一個開源“代理框架”組成,後者可幫助該模型規劃其分析並指導其使用搜索引擎等工具。該團隊表示,“儘管眾多優秀的大模型均以開源形式免費開放使用,但 OpenAI 並未透露太多有關 Deep Research 背後的代理框架的資訊。因此,我們決定開始一項 24 小時的任務,以重現他們的結果,並在此過程中開源所需的框架!”
開源專案地址:https://github.com/huggingface/smolagents/tree/main/examples/open_deep_research
該團隊要解決的對傳統人工智慧智慧體系統的首要改進,是採用所謂的 “程式碼智慧體”。其指出,讓智慧體用程式碼表達其行動有諸多優勢,其中最顯著的是,程式碼就是專門為表達複雜的行動序列而設計的。
根據 Roucher 的解釋,Hugging Face 還重現了一個保證專案得以順利執行的核心元件。他們使用 Hugging Face 的開源“smolagents”庫佔得先機,此庫使用到所謂“編碼智慧體”而非基於 JSON 的智慧體。這些編碼智慧體使用程式程式碼編寫動作,據稱這使其任務完成效率提高了 30%。如此一來,系統能夠更加簡潔地處理複雜的動作序列。
工具集方面,與其他開源 AI 應用一樣,在外部貢獻者的貢獻和支援下,Open Deep Research 背後的開發人員不必將時間浪費在迭代設計身上,該團隊借鑑了他人的工作成果,大大縮短了開發時長。雖然要達到最佳效能可能需要像 Operator 那樣功能完備的網路瀏覽器互動,但目前為了初步驗證概念,他們先從一個極其簡單的基於文字的網路瀏覽器入手,並使用了用於讀取多種文字檔案格式的簡易文字檢查器。
這些工具取自微軟研究院出色的 Magentic-One 智慧體,該團隊沒有對其做太多改動,因為他們的目標是在儘可能降低複雜度的同時,獲得儘可能高的效能。以下是他們認為能切實提升這些工具效能的短期改進路線圖:
  • 增加可讀取的檔案格式數量。
  • 提出對檔案更精細的處理方式。
  • 用基於視覺的瀏覽器替代現有的瀏覽器 。
不過,Hugging Face 團隊也認識到,OpenAI 的深度研究工具或許受益於他們隨 Operator 推出的出色網路瀏覽器。據該團隊稱,接下來他們我們打算打造圖形使用者介面(GUI)智慧體,也就是 “能檢視使用者的螢幕,並能直接透過滑鼠和鍵盤進行操作的智慧體”。為此,他們正在招聘一名全職工程師來協助推進這個專案及更多工作。
1 背後模型的選擇:DeepSeek 和 o3 都試過了  
如果沒有現有 AI 模型充當其核心,AI 智慧體根本無法發揮作用。目前,Open Deep Research 透過 API 站在了 OpenAI 旗下大語言模型及模擬推理模型的肩膀上。但除此之外,它也完全可以適應其他開放權重 AI 模型。其中的創新之處在於,Open Deep Research 的智慧體結構可將所有內容整合在一起,並由 AI 模型自主完成研究任務。
來自 Hugging Face 並參與 Open Deep Research 專案的 Aymeric Roucher 對外透露了研究團隊如何選擇 AI 模型。“我們沒有選擇開放模型,因為研究發現封閉模型的效果更好。但我們會公開整個開發過程並展示程式碼。大家可以隨意切換至任意其他模型,它支援完全開源的流程。”
Roucher 還補充說,“我嘗試了多種大模型,包括 DeepSeek R1 和 o3-mini。單就本用例來看,o1 的效果最好。但隨著後續啟動 open-R1 計劃,我們也會考慮用更好的開放模型取代 o1。”對於 o3-mini,該團隊稱,“它速度確實很快,但表現不如 o1 和 gpt – 4o。我想模型太小的話,應對艱鉅任務還是不行。”談到 DeepSeek R1,其表示,“它的表現不如 o1。這並非像許多大語言模型那樣是因為 “笨”,更多是因為對框架指南的適配不足。所以我們在考慮透過微調來解決這個問題!”
雖然這套研究智慧體的核心大模型或 SR 模型非常重要,但 Open Deep Research 表明構建正確的代理層才是關鍵,基準測試也證明多步驟代理方法大大提高了大語言模型的能力:OpenAI 的 GPT-4o 本體(無智慧體代理框架)在 GAIA 基準測試中的平均得分為 29%,而 OpenAI Deep Research 則高達 67%。
值得注意的是,目前除 Open Deep Research 外,還有其他一些依賴於開源模型和工具的 OpenAI 深度研究工具 “複製品”,包括 node-DeepResearch 和 OpenDeepResearcher。但原版 Deep Research 由 o3 模型的一個版本提供支援,如果背後沒有可與 o3 匹敵的模型支援,這些替代版可能無法與之相媲美。
在通用人工智慧助手的基準測試 GAIA 上,Open Deep Research 獲得了 54% 的準確率分數。相比之下,OpenAI 的深度研究工具得分是 67.36% 。Hugging Face 在說明帖中解釋稱,GAIA 測試包含複雜的多步驟問題,例如:
1960 年電影《驚險重重》中使用了真實遠洋客輪作為拍攝道具。在該客輪 1949 年 10 月的早餐選單中,有哪些水果出現在了 2008 年的畫作《烏茲別克的刺繡》當中?將這些水果以逗號分隔的列表形式列出,從 12 點位置順時針開始按它們在畫中出現的順序依次列舉,注意使用名稱的複數形式。
為了正確回答這類問題,AI 智慧體必須搜尋多個不同來源並將其組合成一條連貫的答案。GAIA 中的許多問題哪怕對於人類來說都相當困難,因此能夠有效測試代理式 AI 的處理能力。
2 開源 AI 的驚人速度  
雖然此次重現的開源研究智慧體的效能似乎還無法真正與 OpenAI 相媲美,但它的出現至少讓更多開發者獲得了自由研究並改進該技術的可能性。同時,Open Deep Research 專案也展現了研究界快速重現並公開分享專有 AI 功能的能力,這些功能以往只能從商業提供商處獲取。
有網友直呼,“這意義重大!開源替代方案正是人工智慧領域所需要的。考慮到開發時間線,在 GAIA 基準測試中能達到 55% 的成績已經相當令人矚目了 —— 很期待看到它後續的發展。”
Roucher 總結稱,“我認為這次的基準測試結果對於解決難題具有巨大的指導意義。但在速度和使用者體驗方面,我們的方案在最佳化水平上仍無法與專有成果比肩。”據其介紹,Hugging Face 的下一步改進計劃不僅包括支援更多檔案格式以及基於視覺的網頁瀏覽功能,還在嘗試克隆 OpenAI Operator,其可以在網路瀏覽器環境中執行其他多種型別的任務(如檢視計算機螢幕並控制滑鼠 / 鍵盤輸入等)。
此外,Roucher 表示,“大家反響很好。有很多新的貢獻者加入進來,並向我們提出了補充建議。這真的很有種在技術發展的浪頭上弄潮的感覺,感謝社群提供的有力支援!”。對此有網友評價道,“這就是典型的史翠珊效應(注:指試圖阻止公眾瞭解某些資訊,結果反而使該資訊更加廣為人知)。你惹惱了一群優秀的工程師,他們白天在公司整日編寫程式碼,回家後晚上還接著免費編寫程式碼。你告訴別人他們做不成某事,他們偏要做成。我們不需要 OAI(為 OpenAI 縮寫)。”
值得一提的是,開源 AI 驚人的發展速度似乎也震懾到了一心想轉向營利型的 OpenAI。此前在目睹 DeepSeek 火爆出圈後,OpenAI 的 CEO 薩姆·奧特曼(Sam Altman)就表態稱,OpenAI 在開源 AI 方面“一直站在歷史的錯誤一邊”。今日凌晨,距離 Open Deep Research 推出不過兩天,OpenAI 就發帖宣佈,ChatGPT 搜尋功能已正式向所有使用者推出,無需註冊或登入。也就是說,現在所有人都能用 ChatGPT 進行網路搜尋了。
參考連結
https://huggingface.co/blog/open-deep-research
https://arstechnica.com/ai/2025/02/after-24-hour-hackathon-hugging-faces-ai-research-agent-nearly-matches-openais-solution/
https://techcrunch.com/2025/02/04/hugging-face-researchers-aim-to-build-an-open-version-of-openais-deep-research-tool/
今日好文推薦

相關文章