

|
(鑑於Manus引起的炒作爭議,36氪特別申明,本文絕非投放,實際上,我們連要到邀請碼都頗費了一番周折……)
應該無需贅述Manus的引起的轟動了:大家已經在各種影片切片中,看到Manus勤勤懇懇地搜資料、做PPT、開發網頁小遊戲。回放形式的分享設計,讓人一眼就能感受到Agent帶來的直觀效率提升,這也讓Manus經歷一場迅速破圈。
在輾轉拿到邀請碼後,36氪編輯部討論了一下,為了更好地瞭解Manus的特性和功能,我們決定請Manus來當實習生,按照正常的工作流給ta分配任務,看看Manus能否勝任。
OK,輸入邀請碼,36氪的新實習生Manus就位!

先說第一觀感,如果你要請這位“實習生”,可能第一個需要接受的現實狀況就是:這是位容易宕機的同學。
Manus如今的服務非常不穩定。36氪在週末實測時,第一感覺就是:讓人崩潰……任務頻繁遇到停滯,因為Manus在雲上的虛擬機器跑,經常需要手動重置,才能繼續跑。
本期實測,就是在Manus不斷的崩潰間隙,測出來的。

測試的介面,總是停留在“連線已斷開”、“遇到嚴重問題”,需要不斷重置/開啟新會話…
偶爾出現的幻覺(不確定是幻覺還是官方通知)也很真實。Manus前一句還在說需要兩小時升級維護,你再敲敲它,它就馬上又開始幹活了……

捉摸不透的Manus
Manus號稱是“第一款通用型Agents(智慧體)”,這意味著它不走垂直專家路線,優勢在於更通用能力的任務。Manus的官網就列出了多個分類:

Manus官網 來源:Manus
Agents(智慧體)不同於大模型,如果說大模型只有一個對話視窗,實現資訊輸入-輸出。那麼Agents就相當於讓大模型有了行動能力,可以靈活呼叫各類工具完成任務。
36氪決定先從我們編輯部的日常使用場景出發,以從易到難的程度排列,請Manus都跑一遍。
請注意,以下場景均為一次性輸出的結果,除了任務中途崩潰重置計算機之外,36氪沒有做任何的重複測試。

校對及整理
我們先請Manus完成比較基礎的校對、整理工作。
36氪將此前的一份訪談錄音原文(約2.8萬字)交由Manus進行整理,核心要求是對錄音速記“逐字逐句整理,不要壓縮”,去除相應的口癖、對語義不清的部分進行校對。
在以前的操作中,起碼要來回和模型互動十多次:將錄音速記中的錯誤進行人工校對——再分段扔到模型中——輸出完畢後,還需要重新投餵給模型進行校對,看是否有事實錯誤。
但Manus很明顯將以往的多個步驟壓縮到一個步驟,這種下達任務之後等待驗收的感覺,比和ChatBot互動體驗,完全是十倍以上的體驗提升。

圖源:Manus
但Manus的缺陷也是明顯的:上下文太短,幻覺依然有。很多複雜任務還沒有完成,就因為Token消耗太多而中止了任務。
在校對潤色這一任務中,最終輸出的文件長度大大壓縮,基本只輸出了訪談的最後一部分,總共3800多字,前面的部分基本丟失。但從已輸出整理的部分來看,語氣、資訊完整性還是算不錯。

Manus在執行長文任務
這大機率是因為推理和協作機制做得還不夠好,模型只能提供一次性輸出的結果,導致壓縮;也有可能是Memory機制還未能做得很好——Memory可以看作是模型暫時儲存資訊的 "倉庫",比如聊天機器人會記住你之前說過的話。
早前一些研究工作指出,memory會隨著時間或任務步驟的增加而消退。而Agent所消耗的Token,比起單ChatBot起碼是兩個數量級的提升——一位Agent從業者對36氪估計,Manus的一個複雜任務的Token消耗估計會有百萬Token級別。Memory的分層管理、壓縮等技術難點,還有很多提升空間。

新聞跟進及寫作
對一般的ChatBot來說,輸出長度都是一個老大難——36氪之前的測試體驗中,如果是一個128K的模型,一般而言單次輸出長度都在1000-2000字左右,才能保證資訊完整性,不被大量壓縮。
36氪先讓Manus完成最基本的新聞跟進工作。這包含幾項能力:日常的新聞監控——看是否會篩選靠譜的資訊源,再進行重要性分析判斷,以及找相應的資料,加以補充和跟進。

Manus開始進行學習範例-搜尋相關新聞等等,但是在訪問路透社時被驗證碼擋住了,請求人類接管。36氪接管後,發現Manus已經被認證為機器,被遮蔽了。

Manus約花費9分鐘完成這個任務,輸出5條最值得關注的AI新聞,新聞源都是靠譜權威的。最後,Manus最後選擇了寫有關自己的新聞……哈哈。

Manus寫有關自己的新聞
Manus的新聞文字輸出已經算是70分水平,文字通順,主要資訊點都能覆蓋,但和參考的範本不同,現在的文字偏軟,AI味較重。
但在我們提出修改意見後,第二版好了許多。

基本是可以細微調整調後,直接發表的水平
難度往上,我們也在Manus也輸入了一段 prompt,讓Manus幫忙直接以36氪的深度報道欄目“深氪”為例,生成一篇長文:
這周“稚暉君”創立的智元機器人預告要發新品。“稚暉君”原名彭志輝,請你搜索彭志輝以及智元機器人的歷史過程,用36氪的風格去寫作一篇文章,主題為回溯智元機器人的歷史,以及反映這家公司的成長,在科技行業中的意義,長度為5000字左右,可參考深度報道“深氪”欄目的風格。 請注意,語句需要深入淺出,普通人都能看懂,不要堆砌專業術語。
Manus自動進行了資料收集,寫作階段直接進行分段寫作,再合併,順利地完成了長文寫作,輸出結果:

寫作一篇有關智元機器人的深度長文
在輸出的文章中,Manus在深度寫作上效果一般,更偏資料型整理。但遣詞造句也算合格,但是風格還是偏軟文。在高質量內容方面,Manus的品味還有待加強。

資料分析及視覺化
研究型任務也是Manus的強項。
從性質上來講,Manus採用了多智慧體架構。簡單來說,就是可將複雜任務拆解為子任務(如資料清洗、特徵工程、模型訓練),透過不同的智慧體,分工並行處理,顯著提升資料分析效率。
不過,如果一致性做不好,多智慧體的區域性決策可能導致全域性結果偏差較嚴重。
36氪讓Manus和OpenAI旗下的Deep Research,都試著做了一張“大模型API兩年多以來的的API價格走勢表”。
OpenAI旗下的Deep Research則是單智慧體,端到端訓練的模式——僅一箇中心化智慧體負責所有任務,決策與執行集中化。但好處在於模組整合度高,易於管理,輸出質量比較有保證。

來源:Manus
Manus花費的時間較長,約三個小時,生成了一個可以互動的網頁。互動性和表格樣式都相當不錯。不過資料詳實程度,和專門做研究的Deep Research仍有差距,但問題不大

來源:Deep Research
Deep Research暫時還無法輸出圖表,但從輸出的內容質量來看,是現在的Manus還沒法趕上的。

創意型任務:可以做,但審美有點難評
我們也讓Manus上了點難度。
第一個任務是模仿行業大V“影視颶風”Tim老師的風格,做一期有關Manus相關的影片,長度在5分鐘左右。
Manus用了約45分鐘完成了這一任務,全程絲滑,依舊是兢兢業業拆任務,先上油管學習影視颶風的影片,再蒐集資料寫指令碼。

最後產出的內容,形式嚴謹,是一個結構完整的小科普影片——

我們請教了影片組的老師,評價是:實習生水平,優點在於把工作流說明白了,分鏡和鏡頭排程可以直接用作參考,但內容還不能直接用。
第二點是,影片指令碼過於亢奮,全場充斥著“炸裂”“顛覆”之感,對人類的感情理解比較表面,有點難繃。
節選一段,供大家參考:
第二部分:Manus的核心能力(1:10-2:20)[場景:主持人誇張地在電腦前掙扎,被各種檔案和任務包圍]主持人:(誇張的疲憊表情,抓狂狀)我們都經歷過這樣的時刻——需要整理大量資料、撰寫報告、分析市場趨勢…這些工作可能要花費我們幾小時,甚至幾天!而且還很容易出錯![特效:時鐘快速旋轉,日曆頁快速翻動]主持人:(突然振作,眼睛發亮)但有了Manus,這一切都將改變!它就像給你複製了一個數字版的自己,但更聰明、更高效![分屏效果:四個視窗同時展示Manus的不同能力,每個視窗都有動態效果]主持人:(指向第一個視窗)Manus的第一大核心能力:自主完成複雜任務![視窗放大,展示Manus自動撰寫報告的加速過程,從收集資料到成品輸出]主持人:(解說,語速適中)你只需要告訴它你需要什麼,然後…(打響指,配合音效)它會自己規劃、搜尋資訊、整理資料、撰寫內容,最終交付一份完整的成果!就像有了一個永不疲倦的助手![特效:第二個視窗放大,伴隨著轉場音效]主持人:(熱情洋溢)第二大核心能力:多領域通用能力!無論是金融分析、教育內容創作、旅行規劃,還是程式碼開發,Manus都能勝任![快速剪輯展示Manus處理不同領域任務的畫面,每個場景都有對應的圖示和文字標籤]主持人:(誇張的驚訝表情,手勢豐富)這就像同時擁有了一個金融分析師、一個內容創作者、一個旅行顧問和一個程式設計師!而且,它們都是24小時待命的!不需要休息,不會喊累![特效:第三個視窗放大,伴隨著科技感音效]主持人:(神秘語氣,稍微降低音量)第三大核心能力:多模型協作機制!這個有點專業,但非常酷![動畫展示多個AI模型協同工作的概念圖,類似於團隊協作的視覺化]主持人:(解說,配合手勢)Manus不是依靠單一大模型,而是採用"多重簽名"機制,由多個獨立AI模型共同驅動!就像一個高效的團隊,每個成員負責不同的任務,相互配合,確保結果的可靠性和準確性!
36氪還讓Manus試著做了一個偏分析型的創意工作——對我們的微信公眾號版式和設計分析後,進行改進。
為了更明確設計需求,我們也給Manus提供了一份設計案例,以及我們認為風格突出、審美優秀的數個公眾號,作為參考。

來源:Manus
Manus依舊很快就對任務進行拆解,雖然最後任務沒有正式完成,但還是輸出了一套完整的方案給我們。
除了我們建議的步驟(分析好版式的共性、聯網搜尋比較優秀的公眾號設計實踐,提出建議),Manus還自己規劃了更多步驟,也做了更細緻的分類,包括分析36氪公眾號,分為設計元素、板式佈局、視覺資產、配色方案等等。
不過從結果可以看出,Manus在審美這件事上……並不擅長。就配色來說,Manus給出了一個放之四海而皆準的方案,分為春夏秋冬四個季節,配色飽和度過高,審美可以說約等於沒有。

來源:Manus
字型也是分為多個版本,並不統一。

來源:Manus
Manus的輸出依然非常依賴於公網資料的質量。
在Manus學習排版、設計相關知識時,打開了不少知乎網頁。但Manus很難繞過登陸限制,然後就會轉戰到其他公開網頁。更不必提如同獨立王國一樣的各大App——比如微信公眾號內的資料,爬蟲工具也很難完全觸及。

被知乎登陸視窗卡住多次的Manus
可能這需要期待以後模型間的介面進一步打通,包括端側Agent跨平臺等能力的進展,才能讓Agent輸出質量有質的提升。
最後,我們試著讓Manus使用高推理模式,生成一個Jellycat主題的吃豆人遊戲,Manus花費約45分鐘時間完成。


吃豆人網頁遊戲
可以看到,程式碼和遊戲開始介面都已經相當完整,但最後到了“開始遊戲”這一環節,音效都能聽到,但無法點選開始遊戲。而後,對話因為上下文過長,停止響應了。

在測試過程中,36氪最大的感觸在於,前端互動非常絲滑,有一種簡潔的美感——從進入Manus官網到實際對話,Manus都在營造一種“對面真的是個活人”的感覺。
尤其是在對話視窗旁邊,可以開啟一個名為“Manus的電腦”的小視窗,即時顯示Manus正在操作什麼,真的像遠端看著一位實習生同學,幫你完成任務。
你可以隨時拖動進度條,檢視Manus正在進行的任務。對已經完成的步驟,Manus都會提供類似網頁快照的界面,讓你對任務進展有明顯感知。

Manus正在透過百度百科學習智元機器人相關背景資料
另一個體驗優秀的地方在於,Manus對工具的呼叫成功率算是比較高的。在不遭遇崩潰、宕機的情況下,如果測試10個任務,大概能有8個自動完成任務,無需人類介入。
這能大大提升使用者體驗——在以前,很多agent呼叫外部工具的成功率都在60%以下,體驗不佳,難以吸引到更多的使用者。
市場普遍認為,Manus團隊對各類通用任務都先置入了不少CoA(代理鏈)模版,覆蓋眾多通用任務(寫作、資料分析、攻略等開放式問題)等等,這些工作顯著提高了任務成功率。
這種機制,類似在DeepSeek對話中不斷蹦出來的思維鏈,使用者可以看到,Manus是怎麼樣一個接一個呼叫外部工具的。
Manus的糾錯能力也很強。
36氪多次發現,Manus在任務進行過程中會遭遇錯誤。但Manus會嘗試不同的解決方案,直至沒法解決,才會向人類報錯,讓人類介入到問題解決中。


來源:Manus
使用者還可以隨時打斷Manus,自己來完成某些步驟。
在“Manus的電腦”視窗右下角,有一個“接管”按鈕。一旦任務進行得不對,人類可以直接打斷程序,自己進入到這部“雲上電腦”進行操作。
不過可能是計算資源不夠,36氪在操作Manus的電腦時,卡頓嚴重,只能勉強進行操作。

Manus的電腦
這樣的形式天然更符合人類工作的互動形式——只要使用一次,模型儘可能地自行糾錯,減少人類參與的次數。
總結一句話:分析總結、資料分析、開放性問題等需要強邏輯性的任務,是Manus最擅長的部分。最不擅長的是創意工作,審美基本等於沒有。
不過,受限於現在的服務穩定性和上下文視窗,Manus完成任務的邏輯和過程很好,但交付質量只能說在中等水平,包括資料、文字等,都需要人類進行二次校對。但從完成任務的時間和質量來說,已經算是很不錯的同學。
無論是對文字、影像、影片等相關內容,Manus呼叫大模型只能模仿到內容的框架,就像一層皮——但內容質量還是需要人類強把關。
從週末的爭議中再次回看Manus,36氪頻繁想起的,是2009年的電影《阿凡達》上映之時。當時的阿凡達,是特效電影的集大成者,一個最重要的意義在於,讓全球觀眾都見識到:頂尖的電影工業水平是這樣的。
如今的Manus,儘管還處於比較粗糙的形態。但至少在產品層面,和年初爆火的DeepSeek有一個共通點:用技術平權的手段,將AI產品迅速拉到大眾面前,而不是停留在小圈子中狂歡。
Manus集成了現在程式設計開發能力最強的Claude,並且受到許多最新技術成果如CodeAct的啟發。比起OpenAI Operator或者Devin高達數百美金的定價,Manus的成本價大約在2美元左右。
而且,Manus通用任務的體驗已經足夠絲滑,這讓普羅大眾都能感受到:“AI居然還能這麼玩”,以及真正感受到AI對人類帶來的巨大效用。
這也是現階段,AI產品在能為市場貢獻的的最大價值。



深度、敏銳、前瞻,為1%的人捕捉商業先機
36氪旗下精選公眾號



