恐怖的Manus:一個新時代正拉開序幕

作者:數字生命卡茲克
來源:數字生命卡茲克(ID:Rockhazix
前天夜裡,深夜驚雷。
一個新團隊突然發了一個首款通用行的專案:Manus。演示在此,我人直接看麻了。
看完我的第一感覺,臥槽,人類又要一敗塗地了。
這尼瑪,就是OpenAI的DeepResearch和Claude的Computer Use的究極集合體,甚至,他還能自己寫程式碼,直接Coding Agent。
這特麼是什麼怪物啊。。。
我預想到這一天會來,只是沒想到,來的如此之早。
Manus在GAIA的評分上,也非常的離譜。
已經超越OpenAI的DeepResearch的了,成為GAIA評分第一。
可能很多人不知道GAIA是個啥,我簡單說一下。
GAIA(General AI Assistants)是一個面向通用AI助手能力的基準評測體系,由 Meta AI(FAIR)、Hugging Face 等研究團隊於 2023 年提出。
有一篇非常著名的論文:
裡面有466個精心設計的問題。
傳統的測試一般都是數學(AIME)或者一些專業知識問答、程式設計等等,但是GAIA測試,裡面很多都是概念簡單,但是需要多步驟解決的實際問題。
其中分為三個級別,Lv.1、Lv.2、Lv.3,難度依次遞增。
想透過GAIA的測試,一般需要網路檢索能力、工具呼叫能力、程式設計能力、檔案處理能力等等。
在23年的時候,人類一般能達到90%的成功率,而那時候的最強AI GPT4,在第一級才勉強達到15%。
再看這張圖,你就知道,有多強了。。。
說實話,我目前還願意為ChatGPT每個月都氪200刀,主要就是o1 Pro和

DeepResearch,這兩玩意有一說一,在我做一些研究和需要強推理任務的時候,還是非常好用的。
而Manus這波,把DeepResearch幹碎了,要知道,它之前已經是最強了。。。
Manus網址在此:https://manus.im
現在有個很難頂的問題是封測中,所以只有邀請碼的使用者才能體驗到。
所以,我也動用了我的人脈,花了十分鐘的時間,聯絡到了Manus團隊的人,非常幸運的獲得了邀請碼。
不過,即使是沒有拿到邀請碼的使用者,也可以去他們官網,大概看一下他們的Use Case,每一個,都非常的有意思。
而如果你有了邀請碼,正常登入進去以後,就是一個大大的介面:
雖然都是一個對話方塊,但是Manus的能力還不太一樣,他不是那個你提出個問題,AI一會就會直接給你回答Chatbot。
而是當你提出問題之後,他會根據你的問題和要求,來拆解任務,進行極度複雜的任務規劃和執行。
並且會在雲端自動執行,你可以直接退出出去,等執行完了,會通知你。
比如之前的那篇GAIA的論文,我想把PDF變成一個能拿出去講的PPT,我把這個要求提給Manus的時候。
他會先把我的需求拆解。
我是這麼說的:
1. 我希望你寫一段Python程式,用OCR把這篇論文的PDF資訊提取出來。 
2. 將PDF裡面的資訊總結成PPT大綱。 
3. 按照小米釋出會的風格,做一份給普通人科普用的PPT。
4. 給我PPT的下載檔案。
他會開始花一點時間來理解。
然後,在右邊的視窗上,執行一個虛擬機器,準備開始執行操作。
在虛擬機器開啟之後,會第一時間,列一份To Do List。
然後,就會開始執行第一個任務,安裝python庫。
完成的專案,會全部在右邊的預覽視窗打x。
他們用了一個非常有趣的互動形式,就是即時加進度同步。
右邊的介面就像PPT一樣,不斷的下一頁下一頁,讓你即時的看到,當前這個Manus正在做什麼,你能看到它的每一點想法,每一個動作,這個掌控感真的太強了。
即使要等很久,你看著他在一點一點執行,這個感覺也真的很爽。
而右下角的任務步驟也可以展開,非常直觀的告訴你,大步驟進行到哪一個階段了。
互動做的極棒。
我這個case,只需要等大概幾分鐘以後,一個PPT就出來了。
看看PPT。
資訊是沒問題的,就是這美感= =還是欠缺了一點,但是在資訊的排版和內容質量上,真的高到爆炸。
這個其實並不是特別能展示它的能力,我再展示另一個,我曾經試圖讓所有Agent嘗試的例子,幫我整理發票。
我經常要出差,所以有一堆亂七八糟的發票需要讓公司報銷的,但是公司的大總管呢,制定了一個SOP,就是發票你不能直接打包給她,這樣太亂,所以需要做成一個excel的模板,這樣她好對賬。
就是這樣的,但是你知道,我要每個月把我的十幾張發票,都處理成表格,真的很麻煩。
所以,當我抱著試試看的態度,把這個任務交給Manus的時候,我震驚了。
因為,它成功了。。。
我當時就渾身發麻了,實在太牛逼了。你們懂那種,渾身觸電的感覺嗎。
我給大家過一下流程。
最開始,我的Prompt超級簡單。
就這麼簡簡單單的一句話。
他在思考完以後,處理成了8步任務。
然後,解壓壓縮包,安裝OCR依賴,提取發票,整理成表格等等等等。
我什麼也沒幹,他就自己這麼跑著。
9分鐘以後,提示我任務完成了。
我一回來,就看到了了這個畫面。
只有一個小地方沒填上,其他都是對的。
太離譜了,這還需要人幹嗎?
我還用它,分析了一下阿里巴巴股票。
同樣的case,我們先看看OpenAI的DeepResearch的結果。
質量是不錯,很高,但是對比一下Manus,那可讀性實在是有點不堪重負了。。。
Manus直接把任務拆解成了8步。
最重要的是,當他們完成的時候,所輸出的內容。
當我看到所謂的報告,給出的是一個連結的時候,我就猜到,這個事情有點不簡單了。
點進去以後,果然。。。
不僅圖文並茂,這尼瑪,這些圖示圖表居然是可以互動的。。。
我真的給跪了,我想給Manus磕一個。
然後今天QwQ不是開源了32B的推理模型嗎,我又讓Manus隨手做了一個千問開源的時間線。
在經歷了30多分鐘後,一張時間線的地圖就出來了。大家可以驗證一下看看準不準。。。
我無話可說,人已跪地。
短短的幾個小時的體驗時間
人類真的即將,一敗塗地。
在Manus的prompt技巧上,我自己試了下,你的點,一定要足夠的清晰,描述越清晰具體,Manus 就能執行得越精準。
明確說明你的期望、格式要求和質量標準,可以大幅提升最終交付物的匹配度。
這一點,非常重要。
2025年3月6日,我覺得,即使在AI圈,也是一個值得銘記的日子。
阿里開源QwQ-32B,以如此尺寸在效能上追平DeepSeek R1滿血版,另一邊,Manus一夜崛起,把Agent工程帶上了一個新的高度。
而這兩個團隊,都屬於我們中國。
沒錯,都是中國團隊。
為之自豪吧。
今夜的這一片星空,屬於China。
宇宙,正在為我們而閃爍。
THE END
如果喜歡我們的文章
可以點選右下角的在看


相關文章