為什麼Manus底層模型沒用DeepSeek?——Manus六問六答

在Manus迅速出圈之後,各種資訊漫天飛舞,有嚴肅分析和解讀,但並不多,更多的是各類博主(特別是短影片博主)震驚體式的搖旗吶喊。
那麼在Manus各類資訊過載的同時,潘寒試圖從各種資訊中抽出部分有價值的進行分析,總結了六個問題。
力求讓讀者看懂“是什麼”之後也真正搞懂“為什麼”,同時在眼花繚亂的AI資訊爆炸中破除FOMO焦慮——
一、為什麼Manus底層模型沒用DeepSeek?
Manus各類出色任務背後到底用了什麼模型?
根據相關博主的公開資訊,在3月6日上午官方小範圍產品溝通時披露,Manus背後主要用了Claude(api)和自己後訓練的阿里Qwen。
很多讀者會有疑問——為什麼Manus不用DeepSeek呢?又強大又便宜。
為什麼呢?
在2月22日,Manus的聯合創始人季逸超在混沌學院進行了一次對話,在這次對話中,季逸超分享瞭如下觀點——
“DeepSeek並不是萬能的,具體問題要具體分析,比如要做Function calling(函式呼叫),選擇千問Qwen模型可能更合適。”
“DeepSeek的模型(無論V3還是R1)本身更側重推理能力,在多模態、函式呼叫、長期規劃等能力上並不出眾。”
“從DeepSeek最近的V3論文看,其架構已與傳統模型有顯著差異,但除官方外,國內推理廠商的Infra最佳化普遍不足,仍需大量工作。”(彼時DeepSeek開源周還沒有開始)
個別無腦讀者不要據此就將Manus和DeepSeek對立起來(回去認真看原文),季逸超只是在就事論事地分析他們選擇的技術路線背後的邏輯。
可以看到,Manus之所以沒有選DeepSeek作為底層模型,是因為DeepSeek擅長的是推理,並不擅長Function calling(函式呼叫)、多模態、長上下文。
而這三個東西恰恰就是Manus這類高度自動化Agent產品非常看重的特性——
Function calling(函式呼叫)可以讓Agent實現遠超傳統Chatbot的多樣任務。
長上下文則可以讓Agent實現多步驟的複雜任務,如果一個任務分7步,上下文不足,做到第6步已經忘了第1、2步,那很多工分分鐘歇菜。
多模態就更容易理解了,Manus的很多工是要讀網頁、看影片的,多模特讓Agent有了眼睛。
在這三點中,長上下文所驅動的長鏈規劃能力顯得更重要一些,Monica(Manus母公司)創始人肖弘在張小珺的播客採訪中也非常詳細地闡述了這一點——
“我們測試下來全世界只有Claude3.5 Sonnet能夠在把我們剛剛所說的那個架構跑起來,我們內部管這個叫Agent能力,傳統的Chatbot它訓練過程中,它就是假設一輪對話就要儘可能解決你的所有問題的,只有Claude3.5 Sonnet有長程規劃能力和逐步解決問題的能力。”
根據Twitter博主Alexander Doria的說法——
OpenAI的DeepResearch之所以表現驚豔,是因為其並不是簡單地在GPT基礎上增加了外部搜尋功能,而是訓練了一個全新的模型學習了基礎的瀏覽能力(搜尋、點選、滾動、檔案解析),以及如何透過強化學習來整合大量網頁資訊,生成結構清晰、來源可靠的研究報告。
從這個意義上,國內模型依然在針對Agent所需特性上有巨大的訓練空間。
二、給Manus靈感的Devin是個什麼?
Devin是去年AI程式設計領域一個熱度挺高的自動化Agent產品,它主要集中在程式碼領域,號稱能頂一個程式設計師。
它有三個特徵——
第一,它是非同步的,即你不需要像聊天產品一樣時刻和它同步互動,交給它一個任務,你就可以幹別的了;
第二,Devin有云端虛擬機器,這一點很重要,這意味著你電腦關了它也可以繼續工作,不需要動使用者的電腦;
第三,它能隨時打斷,需要幫助的時候會尋求使用者幫助或確認,同時會根據使用者反饋積累Know How的知識。
而這三個特徵,Manus全部都有,肖弘也坦言團隊從Devin和Cursor中得到了靈感。
Devin在產品定義上是相當超前的,超越了Coze、Dify等產品的開發理念,也不同於cursor等程式設計產品。
關於Devin,肖弘是這樣評價的——
“Devin有點可惜,它直接選擇了最硬核的工程師群體,也不能叫可惜,我相信他在美國也是發展的很好的一家公司,但我會更願意選擇通用而不是垂直到一個具體的行業,我認為這個架構是很符合我對Agent的想象的,而他應該是給普通使用者就能用的一個產品。”
戴雨森是Manus投資人真格基金的合夥人,他在播客十字路口中用了一個非常誇張的表述評價Devin——
“它的出現可能標誌著人類歷史的一個重要時刻。”
我當時很詫異,為什麼戴雨森會用這種虎狼之詞?
他自己的解釋是——
人類歷史上發明了很多工具,甚至有人說人就是能夠使用工具的動物,工具基本上分為兩種——
第一種就是說需要持續注意力的工具比如說像電鑽,像錘子。
第二種就是說叫做機械重複的自動化工具,比如說洗衣機、自動售貨機流水線,它可以去不需要我的關注,但是它只能解決重複的東西。
人類一直在尋找第三種——不需要持續的注意力,但同時又能自我規劃去解決問題的。
而Devin就是這種真正自主的Agent,即Agent中的Agent。
沒錯,工程層面的創新意義其實被低估了,事實上,這一輪AI改變最為深刻的行業就是AI Coding,而支撐這一改變的關鍵變數就是Cursor這樣的應用層產品創新。
Devin毫無疑問是一個創新的產品,也有很多報道,但問題是——為什麼只有Monica團隊想到要學習借鑑並且第一個把它做起來了?
這是很多國內大廠、中廠團隊需要反思的。
三、如何理解AI時代的“安迪-比爾定律”?
Manus團隊的張濤在即刻上發了這麼一段——
“去年底我開始鼓吹今年的推理算力需求不是十倍增長,而是千倍。大部分朋友都覺得我瘋了,這個非共識讓我們走上了一條很不一樣的道路。”
Agent對token消耗是呈指數增長符合肖弘在接受採訪時稱的AI時代的“安迪比爾定律”——Andy gives, Bill takes away”。該定律說的是在PC時代,英特爾的安迪格魯夫將晶片效能提升1倍,微軟的比爾蓋茨就會將軟體複雜性提升1倍。
AI時代也一樣,LLM廠商透過效能最佳化將token的生成成本降低了10倍,而Manus為代表的Agent則會讓token的消耗量提升10倍。
與PC時代不同,AI領域這一定律速度更快,PC軟硬體升級週期通常為18個月,而AI模型和應用迭代週期縮短至2-6個月。
Manus為代表的Agent的發展其實也遵循了“傑文斯悖論”——蒸汽機效率提升反而刺激煤炭消耗總量增加,即當資源使用效率提高時,不會減少資源總消耗,反而會增加。
基於以上的推導,從更長遠的角度,我對國內Agent的發展保持理性樂觀——
哪怕如張濤所預測:推理算力需求呈千倍增長,以國內向來的卷價格、捲成本的優良傳統,“中國卷王”們有望在下一輪Agent大戰中獲得結構性成本優勢。
四、大廠抄Manus作業容易嗎?
很多人說,這個幾十個人的團隊做出來的東西,大廠很快就可以複製。
事實上,我認為這個複製的難度不小,原因在於——
1.複合經驗:
Monica團隊的經驗非常複合,Monica本身的產品就是對接各家模型的,對不同模型的能力邊界的理解會更深刻。
同時該團隊在長期與瀏覽器外掛打交道過程中對瀏覽器產品異常熟悉,甚至立項探索過類似Arc的AI瀏覽器的專案,Manus的聯創季逸超在NLP和機器視覺領域沉浸多年
而Monica的定位在海外,這也讓其更容易對海外Agent產品的進展保持高頻關注。
2.需求理解:
某種意義上這是Monica團隊的基因,這種對產品需求的非常接地氣的理解從創始人肖弘早年產品“壹伴助手”和“微伴助手”,我早期公眾號時代用的就是“壹伴助手”,的確方便實用。
如果你深入用過Monica,你就能更直觀地感受到產品巧思所展現的產品功力——比如,在Monica,你是可以一個指令,喚起多個模型答案的;
再比如,它支援常用的提示詞進行快捷呼叫;更不用說其各種非常細緻實用的小工具。
國內做AI應用的PM,其實都應該深入研究一下Monica功能和背後的產品理念。
比如,Manus的整個過程支援分享,分享其實沒什麼,但Manus的分享是支援過程回放的,而且,Manus生成的網頁,直接就是可以公開訪問的,這些小細節都是團隊產品功力深厚的直觀體現。
從豆包、Kimi、元寶、文心一言在功能層面的同質化來看,我不認為大廠在短時間內能大幅提升創新能力。
3.團隊敏捷性:
Manus在昨天的閉門分享了一個觀點——“AI產品的迭代週期超過了大廠的OKR的考核週期”
這句話背後是充分說明,和大廠相比,小團隊的扁平團隊的敏捷在AI產品的開發中非常關鍵。
Manus團隊不大,產品負責人張濤原來是光年之外的產品負責人,做過8年C端產品,5年B端產品,而Manus的聯創季逸超(產品影片中出鏡的那位)也是一位技術大咖,十多年前在高中時就單槍匹馬手搓過一款產品猛獁瀏覽器。
創始人肖弘能將這些人組織到一起,本身就證明了其產業認知和團隊建設能力,這種隱形的軟實力無法單純靠堆人解決,不要忘了,DeepSeek也就100多人。
以上三點,解釋了為什麼是Monica團隊率先做出了Manus,而這一樣一個綜合各方面稟賦的敏捷團隊,大廠要短時間元件並不容易。
五、Manus接下來會推進大規模融資嗎?
我覺得大機率會。
邏輯在於,儘管上面說大廠短時間推出並趕超並不容易,但大廠一定會入局。
如果說Monica原來的“All in One”聚合產品能在大廠看不上的賽道找到相對的舒適區,那麼對於Agent這個符合AI產業未來演進方向的主戰場,巨頭絕無可能袖手旁觀。
想一想對標Dify的Coze、元器,想一想對標Cursor的Trae。
不要懷疑大廠卷應用的資源和決心。
DeepSeek毫無疑問動搖了不少大廠、中廠自己訓練基座模型的決心,但在應用層,它們的推進力度反而上了一個臺階,騰訊以極快的反應速度飽和式強推元寶就是一個明證。
我們來看上邊所說的Devin,它的估值是多少?
答案是20億美金。
我不知道Monica團隊的估值,但按之前的各種公開資料看,大機率是沒有到20億美金這個級別的。
也就是說Manus目前手中大機率並沒有和巨頭打大仗的資金彈藥。
想一想位元組這樣推土機般的App工廠、想一想國內雲廠商無情的降價機器。
假如Manus未來面對一個“價格是十分之一、體驗是80%”的大廠競品,使用者的忠誠度無疑是一個修羅場般的考驗,而卷價格,只是大廠最常規的操作。
所以,按這個簡單的邏輯推斷,儘管Monica團隊之前在融資層面相對保守(Monica現金流不錯),肖弘也多次說要保持自己的節奏,但為了給Manus囤積彈藥,團隊大機率會進行下一輪融資。
好在這次迅速出圈會給其帶來相對寬裕的融資環境,讓其團隊有可能以較小的股份稀釋獲得相對充足的資金以對抗巨頭未來的競爭。
六、到底應該如何評價Manus的表現?
我們的確看到官方案例中有無數驚豔的案例,同時不同的博主
關於它的表現,我覺得有三個維度或許有助於我們更客觀地觀察它的表現——
1.GAIA的Benchmark分數決定了它的水準是在基準線以上的;
GAIA由Hugging Face等研究團隊於2024年聯合AutoGPT推出,它包含466個多領域、多模態的問題及標準答案,只在測試Agent的解決問題的能力。
GAIA這是一個反傳統的評測,與傳統AI基準測試(如法律、數學等專業領域)不同,GAIA專注於對人類簡單但對AI困難的開放性問題,這些問題模擬日常場景。
比如——最新的樂高維基百科頁面中有多少張圖片?”
再比如——“在美國國家航空航天局 2006 年 1 月 21 日的天文照片中,可以看到兩名宇航員,請問其中年齡更小的宇航員在太空中待了多少分鐘,四捨五入精確到分鐘。”
Manus在所有三個難度級別上都實現了超越OpenAI的效能,這個成績無疑是讓人印象深刻的。

2.高分並不直接決定個人使用的實際表現;
比如從實測博主李繼剛闌夕等生成的案例看,它的各項表現完成的不錯,無論是生成可互動的科普網頁,還是開發文字遊戲,完成度很高。
但從花生果殼的體驗看,其中有一些任務完成的並不好,比如,花生讓其生成一本書的營銷計劃,從結果看,很龐大,但細看非常籠統,並沒有太多個性化內容,一本書的營銷預算是54萬,基本不可用。
而果殼的測試也發現Manus在一些任務用存在如下問題——1.過度推理,過於發散;2.資訊來源質量不夠;3.無法按要求的格式交付;4.經常需要接管。
3.正確的評價是理解其邊界、管理好預期;
Manus目前的架構決定了它的邊界在深入研究、輕度合成的資訊處理領域,屬於Artifacts+DeepResearch+Operator+Claude Computer Use的輕度縫合怪,還不是完全體。
比如它的虛擬機器操作範圍的核心還是瀏覽器,你讓它剪個片子、幫你玩《艾爾登法環》這類輸入就屬於並沒有理解Manus的能力邊界。
關於Agent,一個極簡版的理解邏輯是——任務成功率等於任務步數乘以每一步的成功率。
假如一個任務總共要分三步,而底層模型每一步成功率是90%,那麼總體成功率就是90%*90%*90%=72.9%,同理,如果單步成功率為70%,總體成功率就變成70%*70%*70%=34.3%。
兩年前的AutoGPT之所以不可用,一個重要原因為當時的模型單步驟成功率太低,導致總成功率不可用。
而Manus的釋出就基於基礎模型過去兩年的快速進步,讓其在某些單任務上的成功率快速上升,以至於到了基本可用階段。
Manus恰如其分地抓住了這個時間點,同時將其推向了消費級市場。
關於Manus的體驗,一個容易忽視的要素是價格——
根據官方閉門會披露,單任務的成本是2美元,也就是跑一個任務大概花費14塊人民幣。
這意味著,如果Manus按成本+利潤定價,使用者最終用到或許會超過這個價格,那麼在這個價格下,我們再來看其產出質量,無疑需要重新評估。
靜待後續市場檢驗。
結語
我昨天看到這樣一條Twitter——
沒錯,我大體是同意這個觀點的,“你不擁抱變化,變化就會壁咚你”,但我反對應激性焦慮。
除非你本身就是做AI媒體的,不然如果每一個新熱點都要第一時間追,那麼你永遠追不完。
正確的做法是,一個新東西出來,先讓子彈飛一會,然後綜合各維度資訊判斷其價值,決定自己應該多大程度上校準自己的認知和行動。
潘寒整理了一份關於Manus創始團隊肖弘、張濤、季逸超,歷年的訪談、播客及文章彙總,裡邊有肖弘當初為什麼花百萬級的錢買“ChatGPT for Google”這個瀏覽器外掛的精彩故事,關注公眾號 “降維實驗室” 回覆關鍵詞 “Manus” 領取。
——完——
作者:“降維實驗室”主創潘寒,《三體》謎,野生AI創作者,開瘋狂腦洞,挑戰AI的各種可能性。

相關文章