深度實測Manus,我依然認為這就是AIAgent行業的DeepSeek時刻,不過……

文 | 闌夕
Manus刷屏一天,從開始的一夜成名,到中間的一碼難求,再到質疑它的宣發一擲千金,整個過程裡,FOMO情緒和直覺警惕交纏不休,是很有意思的傳播學樣本。
其實AI行業這幾年來一直都是「炸裂驅動型」的資訊模式,瞭解的都已經祛魅了,不瞭解的卻還會少見多怪,但是有一說一,天天這麼炸裂下來,客觀上也會存在真的炸裂矇混其中。
而我對Manus的評價就是,它確實屬於真·炸裂的那一桌,稱得上AI Agent行業的DeepSeek時刻,不過有個補丁,結尾時我再疊上。
先看Manus的一個演示效果:
讓它開發一款文字互動遊戲,可以扮演谷歌公司的CEO,透過體驗公司歷史上的重要決策,既能獲得遊戲的樂趣,也可以順便了解公司的文化。
用了差不多一個小時,Manus把谷歌CEO模擬器的網頁遊戲開發好了,完成度很高,點選開始遊戲,還會讓你自選難度,接著就會面對谷歌發展史上的每一次轉變節點,你的選擇會決定公司資源的變化,並影響最終的遊戲結局。
在一個小時裡,用一句話,做一個遊戲出來,這就是AI Agent的能力。
它和傳統的對話式AI不同,不再只是提供資訊層的答案,而是能夠操作電腦完成更加具體的工作任務,包括但不限於寫程式、做網頁、整報告、篩簡歷等等等等,它能夠完全自主的解決過程中遇到的各種困難,並交付工作結果,當然也有例外,這個例外我們後面再說。
目前主流的AI Agent服務不多,而且普遍很貴,比如ChatGPT Operator需要200美元一個月Pro會員才能使用,還有主打程式設計市場的AI工程師產品Devin,每個月的費用更是要500美元。
Manus的開發商是中國大模型團隊Monica,目前是免費測試階段,單任務成本壓縮到了2美元,是OpenAI的1/10,同時在基準測試的排行榜上已經超過OpenAI拿下了全球最強。
我在拿了邀請碼後,已經在幾個小時之內耗盡了Manus的單日計算資源,確實非常興奮,效果也非常震撼。
展示幾個實測案例吧:
首先我讓它幫我做一張linktree風格的個人主頁,Manus把這個任務拆成了8個步驟,先在全網蒐集我的資料資訊,包括我在各個平臺的連結以及代表作,然後基於linktree的設計風格開始編寫網頁程式碼,半個小時之後,它交付了這麼一個作品給我。

簡單,但是完美符合要求,互動也都沒問題,寫輪眼級的複製效果,如果想做得更美觀,還可以繼續寫提示詞讓它修改。
第二個測試,是我用Manus幫一個工程師群友解決實際問題,他在工廠裡負責維護的阿特拉斯機械臂出了點小問題,找售後的話費用要花幾千塊錢,不如自己想辦法找補,他又懶得看文件,於是直接給了我一段話,讓Manus看看怎麼處理。
注意啊,這個需求理論上普通的對話式AI也能接住,但會需要更多的互動流程,比如你得把文件餵給它,一步一步的得到答案,但是Manus不需要這些,它會自己去阿特拉斯官網下載文件,讀完之後找到解決問題所需的關鍵內容,仔細分析,建立程式,最後的程式碼我發給了朋友,有點小瑕疵但手工修改之後完全可用,直接省掉了一次售後呼叫的次數。
第三個測試,是我的微博讀者提議,讓Manus去做一個國家的極簡編年史,我增加了漫畫表選和網頁設計的要求,最後交付的作品配色有點難繃——AI沒有審美,這點必須反覆強調——但是這時Manus的伺服器已經宕機了,暫時沒法修改,所以我也就把半成品展示出來吧。
可以看到,Manus將英國的歷史分成了10個不同的時代,並基於時代風貌繪製了SVG圖片,最後呈現在HTML的網頁端,可以說是人機協同的樣板間了,無論是作為課外教案還是作品預覽,都有極其便捷的上手門檻。
最後一個案例,是我讓Manus做一款消消樂遊戲,但是圖示得用原神的角色,它先是開始研究消消樂的遊戲機制和實現方法,接著試圖蒐集原神的圖片素材,這個時候就出現例外了,它第一次發出了接管請求,原因也很讓人無語,它的執行邏輯被一個網盤給堵住了,沒法註冊賬號,所以下載不了資源,想讓我幫它去下載。
看來再強大的AI,也會被網盤的會員攔在門外。
本著儘可能讓AI Agent獨立完成工作的原則,我沒有這麼做,而是稍微改了一下需求,讓Manus改用科技公司的logo來做遊戲圖示,因為開放版權的SVG素材全網都是,所以這下Manus跑起來就沒什麼問題了,很快就做完了一個帶積分的消消樂遊戲,玩起來也算順暢。

不過也能看到,在解決這類相對複雜的問題時,

Manus在細節方面的缺失還是有的,這也和人類(我)參與過少有關,比如對螢幕的適配問題,需要給它更多的說明,Manus的修改響應也不慢,但因為同樣遇到了伺服器宕機的麻煩,這個任務暫時沒有繼續精進下去。

我覺得這幾個實測例子已經可以非常清晰的表明,AI Agent在現階段的能力和不足,Manus已經不是那種只能操作瀏覽器的產品了,它本身具有沙盒環境,能在完成工作之前自行進行測試,驗收合格再做交付,但也限於網際網路的資料邊界,如果網路上的資源不夠,它是沒有辦法生產資源自給自足的。

我還做了一些偏文書類的測試,也可以用來對比

AI Agent的特點:

比如我讓

Manus根據B站最熱門的10個星見雅(遊戲角色)影片,給出她的操作技巧。

Manus是真的足足看完了10個影片——花了一個多小時的時間——再去把各個UP主的小作文精煉成了我要的材料,而且相當準確,同樣的任務如果交給聯網的大模型去做,雖然也能完成,但幻覺的產生機率很高,在「老實」程度上不及AI Agent靠譜。
再如讓Manus去研究PolyMarket的套利可能,雖然我確實有那麼一絲期待,想得到一個穩賺不賠的投資指南——別笑——Manus倒是兢兢業業的做足了功課,列出了四個套利機會,讓我只要在PolyMarket看到符合條件的專案出現,就能無腦按規則下注。
從回放來看,Manus每次都是從最基礎的資訊開始切入,先了解PolyMarket是什麼,再分析預測市場的遊戲玩法,接著結合平臺規則構建風險策略,標準的實習生作風,任勞任怨,踏實耐用。
對了,回放這個設計,在我看來也是Manus的亮點之一,它有點像推理模型暴露思維鏈的選擇,很多時候,AI的思考過程要比答案供給更能給人啟發,Manus的每一個任務都有回放功能,且可被分享出去,它在解決問題的途中所展現出來的手段,完全稱得上是另一種形式的智慧資產,可以扮演人類的老師。
所以話說回來,我評價Manus是AI Agent行業的DeepSeek時刻,這裡需要打一個補丁,是DeepSeek-V2時刻,2024年5月,DeepSeek開源V2版本的模型,這是它第一次出圈,因為價格非常便宜,但是因為模型本身的能力一般,所以當時很多人只是覺得DeepSeek要來打價格戰了,感到意外但不重視,熱度也沒有持續太久。
直到DeepSeek-V3和R1的連續釋出,大家這才發現事情完全不一樣,一夜之間整個大模型市場的成本邏輯都被顛覆了。
最初,沒有人在意這場災難,這不過是一場山火,一次旱災,一個物種的滅絕,一座城市的消失,直到這場災難和每個人息息相關。——「流浪地球」
我的意思是,AI技術的發展是連續性的,而在這條跌宕起伏的曲線上,每一次的訊號強度都決定了後面的突破深度,就像DeepSeek沒有V2就不會有V3,更不會有R1,我對Manus的看法沒有變化,在把AI Agent服務從專業場景帶向通用場景的歷史轉折點,它就是開山立派的創始品牌。
從用例來看,作為AI Agent的功能性非常強大,對於拆解任務的熟練度很高,CoA(代理鏈)的觀測感覺和看CoT(思維鏈)很像,能「看到」AI在多個方案裡評估並尋求最優解。
理論上應該是內建了海量的CoA來做承接,就和DeepSeek這類推理模型也是提前消化了足夠豐富的CoT之後才會推向大眾市場,儘可能的覆蓋到了主流需求,從官網的Use Case就能看到。
有什麼問題可以在評論區留言,或者說出你們想讓Manus完成哪些任務,我可以幫著測試。

相關文章