狂熱過後,我們和幾位硬體工程師聊了聊Manus的真正價值|亮馬橋小紀嚴選

小紀有話說:
在昨天拿到 Manus AI 的測試碼、連續進行了數個小時的測試之後,有不少在手機/PC 廠商的工程師/產品經理朋友,來找我「打聽」Manus AI 的真正能力如何。
為什麼硬體行業這麼關注 Manus?這與當下硬體行業最受關注的概念——LAM 有關。LAM 是一個從 LLM 延伸而來的名詞,全名為大型行動模型 (Large Action Models),也稱為大型智慧體模型。
與 LLM 致力於「超越人類」,因此在訓練方法上也經常突破人類經驗完全不同,現階段 LAM 想要做到的,是成為人類的手,去作為人類使用者在數字世界中的代理人。
這與 Manus 的核心理念有相通之處。目前而言,Manus AI 的體驗,圍繞在一個執行在雲端的 Ubuntu 作業系統虛擬機器上,同時在作業系統中開啟 Chrome 瀏覽器介面,在網頁中或是呼叫其他軟體,來完成各種使用者的請求。
為了完成這個要求,Manus 需求同時具備「自然語義理解和計算機視覺」,以及「使用者行為習慣學習與場景感知」,同時擁有「意圖識別自主決策」的能力,當然最重要的,同時也是讓 Manus AI 與此前的 Computer Use 在體驗上拉開明顯差距的,還是「跨應用呼叫工具」的能力。
舉例來講,對於常見的「能不能用 Manus AI 生成一段影片」這個問題,嚴格來講回答是「可以」,但 Manus AI 去生成一段影片的方式,也是透過在網路上搜索第三方 AI 影片生成工具,並在這個過程中使用到各種工具,來完成使用者的請求。
本文經授權轉載自公眾號「極客公園」(ID:geekpark)
作者|張勇毅 編輯|鄭玄

LAM 真正的未來

進入 2025 年,Agent AI,或者說 LAM 在端側的落地,已經是再明顯不過的趨勢。但怎麼落地,以及最終呈現給使用者的會是怎樣的商業產品,仍然有很多問題。
早在 2024 年初,彼時釋出的 Rabbit R1 硬體,以及對應的 LAM 工具——Rabbit LAM Playground 其實已經展現出了今天我們在 Manus AI 中看到的能力雛形。
在官方的演示中,Rabbit R1 所搭載的 LAM Playground,能主動幫助使用者完成類似音樂播放、打車等服務,實際上背後的技術原理,就是透過使用 LAM 來訪問對應服務的網站,透過模擬人類與網站的互動方式,完成使用者指令中的工作內容。

Rabbit 釋出的 LAM Playground,其實已經具備今天 Manus AI 的初步能力 | 圖片來源:Rabbit

但彼時的 Rabbit Playground 受限於模型以及開發能力的限制,還並不能做到像人類一樣,在網際網路中暢通無阻。
在實際使用者的測試中,面對類似人機驗證這樣的場景,Rabbit Playground 仍然難以透過,也無法使用第三方工具,來完成生成複雜表格、匯出 PPT 這樣的使用者需求。
由於在實際使用中面臨著諸多挑戰,Rabbit R1 作為一款明星 AI 硬體,很快就退出主流使用者的視野,AI 時代的熱點變化的是如此之快,以至於到了 2025 年年初,在網際網路上已經很難找到關於這款產品討論的聲音。
但 LAM 這個概念,作為一個可能改變人類使用者與智慧硬體裝置互動的火種,留存了下來,仍然作為行業中一個重要的研究方向而存在。
Manus AI 的出現,尤其是它在自然語義理解,以及在網際網路訪問網站時,面對各種各樣的人機識別,都能「暢行無阻」的能力,讓不少仍然在致力於 LAM 產品開發、並希望在今年推出相關測試產品的人,再次看到了一個契機,並希望透過 Manus AI 目前的能力以及展現出的短板,來進一步完善自己的產品。

Manus AI 已經能在遇到各種人機驗證時成功透過,大幅提升了對網際網路的訪問能力 | 圖片來源:極客公園

目前,在致力於開發 LAM 產品、來提升使用者對手機/電腦等產品使用體驗的硬體廠商中,系統級廠商在做 LAM 中,有著最明顯的優勢。
「Manus AI 這種命令執行方式,對於算力要求非常高,但如果是瀏覽器或智慧手機作業系統來做這件事,能透過獲得更多高質量資料的方式,大幅降低算力成本與提升執行速度。」
「做通用 LAM 並不用針對某些單一網站去適配,雖然在某些場景下可能。」
Manus AI 中的一些簡單的場景,並不需要完全搬到(雲端)上面去處理,反而是留在端側效果會更好。」據這位面向桌面端開發 LAM 應用的開發者介紹,當前的端側模型經過針對性訓練之後,目前也能實現簡單的通用網頁訪問並具備內容識別能力,已經能初步完成例如「訪問旅遊相關網站並制定旅遊計劃」這樣的需求。
此外由於端側有著更便捷的檔案管理系統,同時也有更強大的本地檔案管理工具,遇到類似「整理並分析簡歷」這樣的需求,端側 LAM 同樣能做到更好的效果。
在我的實際測試中,我想要讓 Manus AI 幫我生成一個 PPT 檔案,它就能自動在電腦上安裝對應的依賴環境,然後利用工具來自動完成 PPT 生成,雖然最終仍然完成了使用者指令中的需求,但仍然因此大幅拉低了對請求的響應時間。

如何理解 Manus 的意義

當前,Manus AI 展示出的邏輯中,已經向外界展示了 LAM 在「生產力」領域能帶來怎樣的改變,但仍然有很多問題亟待解答。
其中最重要的,也是被問到最多的,或許就是商業化這件事:不少使用者對於 Manus AI 這樣的服務,最終會定價多少有著諸多的猜測。
除了類似 Manus AI 這樣,完全交給雲端執行,使用者端只需要「輸入命令 – 返回成果」的模式,前面提到的不少硬體廠商,實際上是將端側/雲端混合執行的模式作為主流方案。
這其實也暗示了,未來 LAM 的發展,或許將分為兩個不同的主流方向;不僅有基於現有硬體算力,在端側實現效能稍差的 LAM,也有完全基於雲端的「數字代理」服務。
但這樣的服務,距離最終投向市場可能還有不小的距離。「Manus AI 如果訂閱的話,這樣的服務 20 美元(訂閱費)顯然是完全不夠的。」一位目前就職於手機廠商,研發 LAM 端側應用的工程師對此評價道。
僅僅是全程虛擬機器執行以及即時顯示內容串流的高昂成本,就足以成為此類服務現階段面向普通消費級市場的最大阻力。
對於以 ChatGPT 為代表的 LLM 產品來講,過去幾年已經迅速建立起一套行之有效的訂閱系統,使用者也在「每個月 20 美元」的週期往復中,建立起了一個準確的心理預期。
如果 LAM 未來想要以這種「前端硬體 + 後端雲服務」的方式繼續存在,同樣也要經歷這樣一個過程,同時在這個過程中將訂閱成本快速拉低,最終將這一商業模式跑通。
隨著完全在雲端部署的 LAM 進一步完善,我們大機率會再次看到像 Rabbit R1 這樣、有著更靈活形態的 AI 硬體裝置出現:它可以是智慧手錶、也可以是 AI 眼鏡,甚至都可能是完全不需要螢幕的智慧耳機等裝置。
到這個階段,LAM 實際上已經進化成了 Agent UI:使用者並不再需要傳統手機桌面、瀏覽器那樣的使用者互動介面,只需要一個供使用者輸入指令的方式,以及接受 LAM 最終交付成果的終端。

當初 Rabbit R1 的展示場景中,就已經出現了一些 Manus AI 的案例 | 圖片來源:Rabbit

它或許不如 LLM 那樣科幻,但它卻是在現有硬體的基礎上,短期內我們能看到最明顯、最有能力給使用者與硬體的互動,帶來改變的方向。
隨著 Manus AI 進一步將 LAM 以及 Agent AI 能做到什麼,展現給更多普通使用者,這或許就是 Manus AI 在這場浪潮最終退去之後,給我們留下的最重要的收穫。
「即便最終贏家不是它,它也足夠意義重大。」一位 LAM 產品經理這樣評價 Manus AI 的行業價值。
*頭圖及封面圖來源“ivy”,本文為極客公園原創文章,轉載請聯絡極客君微信 geekparkGO
溫馨提示:雖然我們每天都有推送,但最近有讀者表示因平臺推送規則調整,有時候看不到我們的文章~
歡迎大家進入公眾號頁面,右上角點選“設為星標”點亮⭐️,收藏我們的公眾號,新鮮內容第一時間奉上!
*文章觀點僅供參考,不代表本機構立場


相關文章