夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
Manus背後公司名為“蝴蝶效應”,真的帶火了整個智慧體賽道——
開源復現潮出現了,商業閉源產品也捲起來了。
目前進度最快的兩個專案,都是在Manus釋出的第0天釋出了復現程式碼。
除了之前介紹的OpenManus之外,另一個開源專案OWL已經把DeepSeek模型整合到多智慧體協作框架中。
OWL來自國內開源社群CAMEL-AI團隊。
OWL最新提交的結果在智慧體測試基準GAIA的驗證集上排名平均分第3,在開源專案中排第1。

其Level 1分數81.13同樣超過了OpenAI的Deep Research,與Manus曬出的86.5已經非常接近。

雖然Level 2和Level 3分數還有差距,不過CAMEL-AI團隊的李國豪在交流群中表示,有信心刷爆。

今日的GitHub熱榜上,大多是Agent相關的專案和工具庫,老牌Agent專案MetaGPT與AutoGPT雙雙被頂到前排。
Camel-AI、OpenManus所使用的程式碼庫browser-use也現身,此外金融、程式設計等領域的垂直智慧體也備受關注。

與此同時,有人注意到Claude團隊推出的模型上下文協議MCP不是已經有小半年了麼,為什麼突然每個人都在討論它?

原來是每個人都想知道如何造一個Manus,而MCP是一種有效的實現途徑呀。

Manus火到海外
再來看看Manus本尊的進展。
官方社交媒體賬號被短暫禁封后現已恢復,稱將釋出更多演示和更新。

Manus這個產品也成功火到了國外,方法很簡單:發邀請碼。
除了給海外大V單獨發之外,Manus聯創季逸超還與抱抱臉CEO取得聯絡,公開分享100個碼,見者有份,先到先得。

兩人的交流中季逸超談到Agent能力可能更多的是對齊問題而不是基礎能力問題,基礎模型被訓練為“無論任務有多複雜,都一次性回答所有問題”,而“只需對代理軌跡進行一點後期訓練,就可以立即產生顯著的變化”。
(順便碼不用去試了,半夜就搶光了。)

海外使用者得到碼之後的劇情和這邊差不多,有不少試用之後被驚豔到的,變成“自來水”的。

並且海外使用者的付費意願確實要強一些,畢竟比起OpenAI兩萬美元一個月的博士級智慧體總是要便宜許多。

很多人拿到Manus做的第一件事,都是讓他收集自己的資料,編寫並部署個人主頁。
其中Rowan Cheung表示Manus收集到關於他的個人資訊100%準確且是最新的。

類似的任務還有日本網友讓Manus部署一個介紹他自己的網站。
他分享了體驗中的一個細節:雖然Manus可以自己完成所有任務,但如果在執行過程中給出意見,它也可以靈活地改變計劃並執行,就好像真的再給人下達指令一樣。

更復雜的程式設計類任務還有製作一個javascript的飛行遊戲。

也有人把它當做Deep Research類工具,尋找租房資訊只花了不到10分鐘時間。

主要的抱怨集中在速度有些慢,以及沒有碼。

One More Thing
作為Manus出圈的副作用之一,GAIA基準測試正在成為智慧體類產品必爭之地。
GAIA由Meta AI、HuggingFace和AutoGPT團隊推出,圖靈獎得主Yann LeCun和HuggingFace首席科學家Thomas Wolf參與,旨在解決現有大語言模型基準測試被快速突破、難以評估新模型的問題。

GAIA測試由450+具有明確答案的複雜問題組成,分為三個難度級別,考驗智慧體系統的工具使用能力以及自主性。
Level 1:通常解題步驟不超過5步,且不需要工具,或最多使用一種工具。如簡單的資訊檢索和處理,任何優秀的語言模型都可以完成。
Level 2:需要在5-10步之間完成,並且需要組合使用不同工具。如“根據附件 Excel 檔案計算當地快餐連鎖店食品(不含飲料)的總銷售額”。
Level 3:面向近乎完美的通用AI助手,要求AI能夠執行任意長度的複雜動作序列,使用多種工具,並具備廣泛的世界知識和資訊獲取能力。
如“在2006年1月21日NASA的每日天文圖片中有兩名宇航員,截至2023年8月,找出較小宇航員所在NASA宇航員小組中在太空停留時間最短的宇航員及其停留時間”,解答這類問題需要綜合網路搜尋、資訊篩選、知識推理等多種能力。

人類在Level 2、和Level 3上的成功率分別是92%和87.3%,測試推出時最先進的語言模型GPT-4得分為9.7%和0。
此外GAIA排行榜分為測試集(Test)和驗證集(Validation)兩項,其中驗證集是公開資料,測試集為私有資料,測試集的含金量更高一些。
目前測試集排行榜中,h2oGPTe Agent(來自H20.ai)、Trase Agent(來自Trase Systems)兩個商業閉源系統的Level 2分數與Manus公佈分數(70.1%)接近。
Manus團隊公佈的Level 3分數為57.7%,領先幅度比較大。

ImageNet資料集與競賽開啟了深度學習浪潮之後,每個時代都有自己的當紅榜單指引著最前沿技術的發展。
在BERT時代是語言理解基準CLUE、SpuerCLUE。
隨後ChatGPT、Claude、Gemini已經刷爆了考驗各學科知識的MMLU、以及使用者用腳投票的ChatBot Arena大模型競技場。
o1/r1/QwQ類推理模型正在比拼數學(AIME、FrontierMath)、博士級別理科題(GPQA)、程式設計/軟體工程能力(Codeforces、SWE-bench、LiveCodeBench)。
智慧體刷GAIA,似乎正在成為行業最新共識。
或者不久以後,可以期待一下AgentArena智慧體競技場?
OpenManus
https://github.com/mannaandpoem/OpenManus
OWL
https://github.com/camel-ai/owl
GAIA Bencmark
https://huggingface.co/spaces/gaia-benchmark/leaderboard
https://arxiv.org/abs/2311.12983
— 完 —
評選報名|2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!

一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!