讓Manus給36氪當一天實習生後，我們想給ta多發點獎金

雖然Manus在產品上還處於較粗糙的形態。但它和年初爆火的DeepSeek有一個共通點：用技術平權的手段，將AI產品迅速拉到大眾面前，而不是停留在小圈子中狂歡。

文｜鄧詠儀

編輯｜蘇建勳

封面來源｜AI製圖

（鑑於Manus引起的炒作爭議，36氪特別申明，本文絕非投放，實際上，我們連要到邀請碼都頗費了一番周折……）

應該無需贅述Manus的引起的轟動了：大家已經在各種影片切片中，看到Manus勤勤懇懇地搜資料、做PPT、開發網頁小遊戲。回放形式的分享設計，讓人一眼就能感受到Agent帶來的直觀效率提升，這也讓Manus經歷一場迅速破圈。

在輾轉拿到邀請碼後，36氪編輯部討論了一下，為了更好地瞭解Manus的特性和功能，我們決定請Manus來當實習生，按照正常的工作流給ta分配任務，看看Manus能否勝任。

OK，輸入邀請碼，36氪的新實習生Manus就位！

先說第一觀感，如果你要請這位“實習生”，可能第一個需要接受的現實狀況就是：這是位容易宕機的同學。

Manus如今的服務非常不穩定。36氪在週末實測時，第一感覺就是：讓人崩潰……任務頻繁遇到停滯，因為Manus在雲上的虛擬機器跑，經常需要手動重置，才能繼續跑。

本期實測，就是在Manus不斷的崩潰間隙，測出來的。

測試的介面，總是停留在“連線已斷開”、“遇到嚴重問題”，需要不斷重置/開啟新會話…

偶爾出現的幻覺（不確定是幻覺還是官方通知）也很真實。Manus前一句還在說需要兩小時升級維護，你再敲敲它，它就馬上又開始幹活了……

捉摸不透的Manus

Manus號稱是“第一款通用型Agents（智慧體）”，這意味著它不走垂直專家路線，優勢在於更通用能力的任務。Manus的官網就列出了多個分類：

Manus官網來源：Manus

Agents（智慧體）不同於大模型，如果說大模型只有一個對話視窗，實現資訊輸入-輸出。那麼Agents就相當於讓大模型有了行動能力，可以靈活呼叫各類工具完成任務。

36氪決定先從我們編輯部的日常使用場景出發，以從易到難的程度排列，請Manus都跑一遍。

請注意，以下場景均為一次性輸出的結果，除了任務中途崩潰重置計算機之外，36氪沒有做任何的重複測試。

校對及整理

我們先請Manus完成比較基礎的校對、整理工作。

36氪將此前的一份訪談錄音原文（約2.8萬字）交由Manus進行整理，核心要求是對錄音速記“逐字逐句整理，不要壓縮”，去除相應的口癖、對語義不清的部分進行校對。

在以前的操作中，起碼要來回和模型互動十多次：將錄音速記中的錯誤進行人工校對——再分段扔到模型中——輸出完畢後，還需要重新投餵給模型進行校對，看是否有事實錯誤。

但Manus很明顯將以往的多個步驟壓縮到一個步驟，這種下達任務之後等待驗收的感覺，比和ChatBot互動體驗，完全是十倍以上的體驗提升。

圖源：Manus

但Manus的缺陷也是明顯的：上下文太短，幻覺依然有。很多複雜任務還沒有完成，就因為Token消耗太多而中止了任務。

在校對潤色這一任務中，最終輸出的文件長度大大壓縮，基本只輸出了訪談的最後一部分，總共3800多字，前面的部分基本丟失。但從已輸出整理的部分來看，語氣、資訊完整性還是算不錯。

Manus在執行長文任務

這大機率是因為推理和協作機制做得還不夠好，模型只能提供一次性輸出的結果，導致壓縮；也有可能是Memory機制還未能做得很好——Memory可以看作是模型暫時儲存資訊的 "倉庫"，比如聊天機器人會記住你之前說過的話。

早前一些研究工作指出，memory會隨著時間或任務步驟的增加而消退。而Agent所消耗的Token，比起單ChatBot起碼是兩個數量級的提升——一位Agent從業者對36氪估計，Manus的一個複雜任務的Token消耗估計會有百萬Token級別。Memory的分層管理、壓縮等技術難點，還有很多提升空間。

新聞跟進及寫作

對一般的ChatBot來說，輸出長度都是一個老大難——36氪之前的測試體驗中，如果是一個128K的模型，一般而言單次輸出長度都在1000-2000字左右，才能保證資訊完整性，不被大量壓縮。

36氪先讓Manus完成最基本的新聞跟進工作。這包含幾項能力：日常的新聞監控——看是否會篩選靠譜的資訊源，再進行重要性分析判斷，以及找相應的資料，加以補充和跟進。

Manus開始進行學習範例-搜尋相關新聞等等，但是在訪問路透社時被驗證碼擋住了，請求人類接管。36氪接管後，發現Manus已經被認證為機器，被遮蔽了。

Manus約花費9分鐘完成這個任務，輸出5條最值得關注的AI新聞，新聞源都是靠譜權威的。最後，Manus最後選擇了寫有關自己的新聞……哈哈。

Manus寫有關自己的新聞

Manus的新聞文字輸出已經算是70分水平，文字通順，主要資訊點都能覆蓋，但和參考的範本不同，現在的文字偏軟，AI味較重。

但在我們提出修改意見後，第二版好了許多。

基本是可以細微調整調後，直接發表的水平

難度往上，我們也在Manus也輸入了一段 prompt，讓Manus幫忙直接以36氪的深度報道欄目“深氪”為例，生成一篇長文：

這周“稚暉君”創立的智元機器人預告要發新品。“稚暉君”原名彭志輝，請你搜索彭志輝以及智元機器人的歷史過程，用36氪的風格去寫作一篇文章，主題為回溯智元機器人的歷史，以及反映這家公司的成長，在科技行業中的意義，長度為5000字左右，可參考深度報道“深氪”欄目的風格。

請注意，語句需要深入淺出，普通人都能看懂，不要堆砌專業術語。

Manus自動進行了資料收集，寫作階段直接進行分段寫作，再合併，順利地完成了長文寫作，輸出結果：

寫作一篇有關智元機器人的深度長文

在輸出的文章中，Manus在深度寫作上效果一般，更偏資料型整理。但遣詞造句也算合格，但是風格還是偏軟文。在高質量內容方面，Manus的品味還有待加強。

資料分析及視覺化

研究型任務也是Manus的強項。

從性質上來講，Manus採用了多智慧體架構。簡單來說，就是可將複雜任務拆解為子任務（如資料清洗、特徵工程、模型訓練），透過不同的智慧體，分工並行處理，顯著提升資料分析效率。

不過，如果一致性做不好，多智慧體的區域性決策可能導致全域性結果偏差較嚴重。

36氪讓Manus和OpenAI旗下的Deep Research，都試著做了一張“大模型API兩年多以來的的API價格走勢表”。

OpenAI旗下的Deep Research則是單智慧體，端到端訓練的模式——僅一箇中心化智慧體負責所有任務，決策與執行集中化。但好處在於模組整合度高，易於管理，輸出質量比較有保證。

來源：Manus

Manus花費的時間較長，約三個小時，生成了一個可以互動的網頁。互動性和表格樣式都相當不錯。不過資料詳實程度，和專門做研究的Deep Research仍有差距，但問題不大

來源：Deep Research

Deep Research暫時還無法輸出圖表，但從輸出的內容質量來看，是現在的Manus還沒法趕上的。

創意型任務：可以做，但審美有點難評

我們也讓Manus上了點難度。

第一個任務是模仿行業大V“影視颶風”Tim老師的風格，做一期有關Manus相關的影片，長度在5分鐘左右。

Manus用了約45分鐘完成了這一任務，全程絲滑，依舊是兢兢業業拆任務，先上油管學習影視颶風的影片，再蒐集資料寫指令碼。

最後產出的內容，形式嚴謹，是一個結構完整的小科普影片——

我們請教了影片組的老師，評價是：實習生水平，優點在於把工作流說明白了，分鏡和鏡頭排程可以直接用作參考，但內容還不能直接用。

第二點是，影片指令碼過於亢奮，全場充斥著“炸裂”“顛覆”之感，對人類的感情理解比較表面，有點難繃。

節選一段，供大家參考：

第二部分：Manus的核心能力（1:10-2:20）

[場景：主持人誇張地在電腦前掙扎，被各種檔案和任務包圍]

主持人：（誇張的疲憊表情，抓狂狀）我們都經歷過這樣的時刻——需要整理大量資料、撰寫報告、分析市場趨勢…這些工作可能要花費我們幾小時，甚至幾天！而且還很容易出錯！

[特效：時鐘快速旋轉，日曆頁快速翻動]

主持人：（突然振作，眼睛發亮）但有了Manus，這一切都將改變！它就像給你複製了一個數字版的自己，但更聰明、更高效！

[分屏效果：四個視窗同時展示Manus的不同能力，每個視窗都有動態效果]

主持人：（指向第一個視窗）Manus的第一大核心能力：自主完成複雜任務！

[視窗放大，展示Manus自動撰寫報告的加速過程，從收集資料到成品輸出]

主持人：（解說，語速適中）你只需要告訴它你需要什麼，然後…（打響指，配合音效）它會自己規劃、搜尋資訊、整理資料、撰寫內容，最終交付一份完整的成果！就像有了一個永不疲倦的助手！

[特效：第二個視窗放大，伴隨著轉場音效]

主持人：（熱情洋溢）第二大核心能力：多領域通用能力！無論是金融分析、教育內容創作、旅行規劃，還是程式碼開發，Manus都能勝任！

[快速剪輯展示Manus處理不同領域任務的畫面，每個場景都有對應的圖示和文字標籤]

主持人：（誇張的驚訝表情，手勢豐富）這就像同時擁有了一個金融分析師、一個內容創作者、一個旅行顧問和一個程式設計師！而且，它們都是24小時待命的！不需要休息，不會喊累！

[特效：第三個視窗放大，伴隨著科技感音效]

主持人：（神秘語氣，稍微降低音量）第三大核心能力：多模型協作機制！這個有點專業，但非常酷！

[動畫展示多個AI模型協同工作的概念圖，類似於團隊協作的視覺化]

主持人：（解說，配合手勢）Manus不是依靠單一大模型，而是採用"多重簽名"機制，由多個獨立AI模型共同驅動！就像一個高效的團隊，每個成員負責不同的任務，相互配合，確保結果的可靠性和準確性！

36氪還讓Manus試著做了一個偏分析型的創意工作——對我們的微信公眾號版式和設計分析後，進行改進。

為了更明確設計需求，我們也給Manus提供了一份設計案例，以及我們認為風格突出、審美優秀的數個公眾號，作為參考。

來源：Manus

Manus依舊很快就對任務進行拆解，雖然最後任務沒有正式完成，但還是輸出了一套完整的方案給我們。

除了我們建議的步驟（分析好版式的共性、聯網搜尋比較優秀的公眾號設計實踐，提出建議），Manus還自己規劃了更多步驟，也做了更細緻的分類，包括分析36氪公眾號，分為設計元素、板式佈局、視覺資產、配色方案等等。

不過從結果可以看出，Manus在審美這件事上……並不擅長。就配色來說，Manus給出了一個放之四海而皆準的方案，分為春夏秋冬四個季節，配色飽和度過高，審美可以說約等於沒有。

來源：Manus

字型也是分為多個版本，並不統一。

來源：Manus

Manus的輸出依然非常依賴於公網資料的質量。

在Manus學習排版、設計相關知識時，打開了不少知乎網頁。但Manus很難繞過登陸限制，然後就會轉戰到其他公開網頁。更不必提如同獨立王國一樣的各大App——比如微信公眾號內的資料，爬蟲工具也很難完全觸及。

被知乎登陸視窗卡住多次的Manus

可能這需要期待以後模型間的介面進一步打通，包括端側Agent跨平臺等能力的進展，才能讓Agent輸出質量有質的提升。

最後，我們試著讓Manus使用高推理模式，生成一個Jellycat主題的吃豆人遊戲，Manus花費約45分鐘時間完成。

吃豆人網頁遊戲

可以看到，程式碼和遊戲開始介面都已經相當完整，但最後到了“開始遊戲”這一環節，音效都能聽到，但無法點選開始遊戲。而後，對話因為上下文過長，停止響應了。

在測試過程中，36氪最大的感觸在於，前端互動非常絲滑，有一種簡潔的美感——從進入Manus官網到實際對話，Manus都在營造一種“對面真的是個活人”的感覺。

尤其是在對話視窗旁邊，可以開啟一個名為“Manus的電腦”的小視窗，即時顯示Manus正在操作什麼，真的像遠端看著一位實習生同學，幫你完成任務。

你可以隨時拖動進度條，檢視Manus正在進行的任務。對已經完成的步驟，Manus都會提供類似網頁快照的介面，讓你對任務進展有明顯感知。

Manus正在透過百度百科學習智元機器人相關背景資料

另一個體驗優秀的地方在於，Manus對工具的呼叫成功率算是比較高的。在不遭遇崩潰、宕機的情況下，如果測試10個任務，大概能有8個自動完成任務，無需人類介入。

這能大大提升使用者體驗——在以前，很多agent呼叫外部工具的成功率都在60%以下，體驗不佳，難以吸引到更多的使用者。

市場普遍認為，Manus團隊對各類通用任務都先置入了不少CoA（代理鏈）模版，覆蓋眾多通用任務（寫作、資料分析、攻略等開放式問題）等等，這些工作顯著提高了任務成功率。

這種機制，類似在DeepSeek對話中不斷蹦出來的思維鏈，使用者可以看到，Manus是怎麼樣一個接一個呼叫外部工具的。

Manus的糾錯能力也很強。

36氪多次發現，Manus在任務進行過程中會遭遇錯誤。但Manus會嘗試不同的解決方案，直至沒法解決，才會向人類報錯，讓人類介入到問題解決中。

來源：Manus

使用者還可以隨時打斷Manus，自己來完成某些步驟。

在“Manus的電腦”視窗右下角，有一個“接管”按鈕。一旦任務進行得不對，人類可以直接打斷程序，自己進入到這部“雲上電腦”進行操作。

不過可能是計算資源不夠，36氪在操作Manus的電腦時，卡頓嚴重，只能勉強進行操作。

Manus的電腦

這樣的形式天然更符合人類工作的互動形式——只要使用一次，模型儘可能地自行糾錯，減少人類參與的次數。

總結一句話：分析總結、資料分析、開放性問題等需要強邏輯性的任務，是Manus最擅長的部分。最不擅長的是創意工作，審美基本等於沒有。

不過，受限於現在的服務穩定性和上下文視窗，Manus完成任務的邏輯和過程很好，但交付質量只能說在中等水平，包括資料、文字等，都需要人類進行二次校對。但從完成任務的時間和質量來說，已經算是很不錯的同學。

無論是對文字、影像、影片等相關內容，Manus呼叫大模型只能模仿到內容的框架，就像一層皮——但內容質量還是需要人類強把關。

從週末的爭議中再次回看Manus，36氪頻繁想起的，是2009年的電影《阿凡達》上映之時。當時的阿凡達，是特效電影的集大成者，一個最重要的意義在於，讓全球觀眾都見識到：頂尖的電影工業水平是這樣的。

如今的Manus，儘管還處於比較粗糙的形態。但至少在產品層面，和年初爆火的DeepSeek有一個共通點：用技術平權的手段，將AI產品迅速拉到大眾面前，而不是停留在小圈子中狂歡。

Manus集成了現在程式設計開發能力最強的Claude，並且受到許多最新技術成果如CodeAct的啟發。比起OpenAI Operator或者Devin高達數百美金的定價，Manus的成本價大約在2美元左右。

而且，Manus通用任務的體驗已經足夠絲滑，這讓普羅大眾都能感受到：“AI居然還能這麼玩”，以及真正感受到AI對人類帶來的巨大效用。

這也是現階段，AI產品在能為市場貢獻的的最大價值。

深度、敏銳、前瞻，為1%的人捕捉商業先機

36氪旗下精選公眾號

👇 真誠推薦你來關注 👇

dignews.cc

讓Manus給36氪當一天實習生後，我們想給ta多發點獎金

校對及整理

新聞跟進及寫作

資料分析及視覺化

創意型任務：可以做，但審美有點難評

相關文章

更多企業跟進「強制下班、休假」/瑞幸成功打假泰國山寨店，獲賠千萬/iPhone17系列曝外觀大改

羅永浩旗下AI公司發起招聘/更多企業跟進「強制下班、休假」/曝iPhone17系列外觀大改

9點1氪：位元組通報員工薅羊毛訂迪士尼酒店；吳彥祖開英語網課；臨近邊界的緬北電詐園區已全部清除

8點1氪：國產AI產品Manus邀請碼被炒到5萬元；海底撈回應男子往火鍋裡小便；靳東兩會建議AI換臉立法

8點1氪：美的被曝強制18點20下班；政協委員建議直播打賞建立消費冷靜期；蘋果研發內建攝像頭AirPods

恐怖的Manus：一個新時代正拉開序幕

Manus創始人早說過：產品非常簡單，沒有秘密

Manus邀請碼被炒至5萬合夥人緊急澄清；海底撈回應男子往火鍋裡小便；霸王茶姬赴美IPO獲證監會備案；極氪懸賞500萬維權

8點1氪：人大代表呼籲廢除35歲就業門檻；大疆不強制9點上班開始強制9點下班；海底撈回應警方通報：強烈譴責毫無公德心行為

8點1氪：華為通報“違規招聘”，多人被開除；馬斯克承認特斯拉生意困難；始祖鳥吊牌被炒到最高300元一張