歡呼又開始了。
“扔炸彈”、“AI雙星”、“再革OpenAI的命”……這場狂歡似乎就是要再次複製deepseek式的成功,震耳欲聾的誇耀從昨晚又開始了。新產品叫Manus,官方稱這是全球首款通用性Agent。
Manus能做什麼?官網上密密麻麻列出了不少demo,從幫你做旅行攻略、股票分析、生成課件、再到審合同……或許你們已經看過了。強大如童話般的功能,也造成了“一碼難求”,據《第一財經》報道Manus內測碼已經炒到了9萬一個。

為了做出真實的體驗判斷,果殼向開發團隊申請到了內測碼。以下是我們的真實體驗。
(測試的開頭不太順利。有碼在手的我們,在註冊頁面從早上9點卡到了下午1點半。)
先說總結。
Manus是一個執行在虛擬機器中的多Agent架構,有規劃型Agent負責任務拆解;執行型Agent呼叫具體工具;監控驗證Agent來跟蹤任務進度和debug。
說白了,它的理解、工具呼叫、Computer Use(計算資源排程)能力都要很強,才能實現將複雜任務規劃成可執行的具體步驟,並保證處理效率。

對於內測使用者,Manus 每天開放了10個任務。當我們給到Manus第11個壓力測試——讓它為我們“做梗圖”時,它告知已經到了最多使用次數。很遺憾,未能測試它的“情商“如何。
在高階模式下,如果我們讓它寫篇文章,它的處理時長很久,大概30分鐘-1小時。在一般模式下,尤其是不需要聯網搜尋時,例如,寫一個HTML頁面,需要15分鐘。
我們測試瞭如下功能:分析上市公司股價、設計網頁、寫研報、填表、甚至遊戲“代打”等等。完成得有好有壞,以下是部分回顧。

這些任務讓我驚喜
今日最佳我給“世界時鐘.html"任務。別說,Manus 寫出來的網頁還挺符合我的審美,而且“新增時區”,“刪除時區”,“下載”等互動都沒有問題。

第二個給我驚喜的任務是,我讓Manus去“外國版4399”上自己找個遊戲玩(現在回想起來覺得好抽象)。Manus成功訪問了網站,並在多個遊戲類別裡,選擇了一個賽車遊戲。並且成功讀取了網頁和圖片資訊,點選了“Play Now”,在遊戲裡介面裡,自行選擇了“汽車”,和“競速模式“。


遊戲開始後,由Manus控制的車停在原地,我意識到它可能並不瞭解遊戲機制。我告訴它“請用WASD開車試試”後,車居然……跑起來了(速度就彆強求了)。
這個任務裡,AI Agent展現出一定程度的可自主操作性,這是能獨立完成工作的前提
這些任務“不太行”
當我讓Manus給我寫一個“浪漫高階的生日祝福網頁”時,不僅無法互動——圖片,應該滿屏閃爍的愛心,音樂都無法點選,就連審美也差了一些,選用了非常正式的“宋體”。當我要求用本世紀的審美重新生成後,我始終訪問不到虛擬機器中的最新版網頁。
按理說,想要做得更美觀,是可以透過給提示詞讓它繼續修改。但不止是這個,其他任務下也經常提示負載過高導致伺服器出錯。所以我們沒有執拗於生成一個極其精美的網頁,按今天AI能力來說,做個線上抽獎系統啥的應該不成問題。

一些“正經活兒”上,Manus表現也有些低於我的預期。我讓它分別做一個“高分子材料效能預測與模擬”研究報告和“碳纖維結構件”科普文章。

我想測試兩個能力:它在垂直領域的深度檢索和資訊處理能力,以及按照特定要求和格式交付的能力。這是區別於AI通用搜索很重要的兩點。
這個任務裡,它有幾點不足:
· 經常過度推理:比如當我只是希望AI研究碳纖維的生產工藝,它會發散性地總結大量市場分析和行業應用資訊。
· 資訊來源不夠:Manus的思考過程是清晰展示出來的,所以能看到AI正在瀏覽哪些文章、影片資源。但其引用的資源大多來自中文聚合平臺、國內期刊,缺少國外期刊和第一手資源。
· 無法按照特定要求和格式交付:比如我希望Manus給我一個可以直接拿去跟老闆彙報的PPT,但我只獲得了一個markdown格式的中間態。
· 多次需要接管:抓取一些內容平臺或付費牆時,需要手動接管登陸賬號。AI Agent也解決不了“資料邊界”的問題。
最後一類任務,讓AI去替代填寫表格(財務人估計狠狠點了),是我最期待,也是我認為團隊應該最佳化好的需求之一。
我上傳了一張醫保發票和保險申請書,讓AI“把申請書裡原本的金額部分清空,並填入新發票中資訊,金額以自付部分為準”。
AI無法真正理解表格結構,以及每一處資訊真實代表什麼,比如說沒有修改日期,或是覆蓋了金額和時間之外的資訊,把我的身份證號刪除了;或是找不到資訊該在的位置等等。以及在這個任務中出現了很多次計算資源不足的情況。
也許對於需要AI精準“定位”的任務,我在給提示詞時也應該更加精準和“按部就班”些。但這也反映出,AI在發揮想象力、憑空生成的任務上,比在已有框架下修改做得更容易、效果更好。
就好比當你告知一臺機器人“拿杯水過來”時,它表現得怎麼樣,是能透過各種感測器計算出你在它2點鐘位置、往前走10步就行呢,還是它不管不顧“衝”到你面前給你個“大比兜”呢?
當能執行得足夠精準時,就是前者,就是AI Agent給你做出一篇能拿去忽悠老闆的PPT。否則你還是需要拿著AI的“半成品”修修補補。
雖然任務完成得不盡如人意,也不是沒有優點。透過看在每個任務下的思考過程,確實可以看到AI Agent的推理思維鏈,比如當我以小米SU7Ultra引出碳纖維結構件的問題,它的思考過程是從點切入,逐漸展開。即便它總結的備忘錄作為半成品,也給到我很大啟發。
在很多時候,Manus遇到問題,會告知它在自行修正和處理。以及它有一定的“記憶機制”,會跟你確認要不要按照你的偏好進行後續的生成。

總的來說,這款全新產品還是賦予了大眾很多應用上的想象力。儘可能的覆蓋到了主流需求,但我想說,AI Agent是一個應該非常個人化的東西,所以更期待它在解放生產力上的進步和表現。
作者:馬文
編輯:臥蟲
題圖來源:giphy
本文來自果殼,未經授權不得轉載.
如有需要請聯絡[email protected]
