獨家專訪|全網刷屏的Manus合夥人，一年前在做什麼？

作者|James

今天，AI智慧體應用Manus爆火刷屏，其聯合創始人張濤對外發聲描述產品狀態，他也是親自在群裡發邀請碼的那個人，以及在辦公室裡倒數計時，迎接產品釋出上線的人，其個人經歷引發關注。

張濤此前在字節跳動負責國際化產品的戰略規劃與落地，2023年，他加入王慧文創辦的人工智慧公司光年之外，擔任產品負責人，主導AI產品的研發與商業化探索。

2024年7月，張濤與首席科學家季逸超（Peak）、連續創業者肖弘（Red）共同創立Manus AI，並擔任合夥人。他目前主要負責產品戰略、市場溝通及使用者體驗最佳化。

張濤的即刻頁面

娛樂資本論在一年前的2024年3月曾經採訪過張濤。當時他在光年之外開發兒童陪伴類AI產品Dodoboo。那時AI陪伴賽道非常火熱，我們就他的產品，作為產品經理的方法論，以及AI陪伴的一些趨勢做了討論。

從現在回頭看，裡面大多數預見性的內容，如今已成功應驗，而另一些內容仍有待將來的發展不斷驗證。作為一個十多年經驗的產品經理老兵，他對產品的理解貫穿了前移動網際網路時代，到如今的AI時代，體現出邏輯上的一致性。

完整的採訪回放請參考下列影片號：

以下是張濤在採訪中的部分主要內容摘錄：

“這一代孩子天生就是AI時代的孩子”

我叫張濤，通常在各個社群裡用hidecloud這個ID。我過去主要做toC產品設計和運營，最近五年一直在做SaaS產品，前四年做神策資料，最近一年在做飛書的國際化。去年（2023）年中開始做AI方面的工作，已經做了8個月。在AI領域是“AI一日人間一年”，所以我有很多感悟。

現在（2024.4）正在做的產品Dodoboo 1月底上線，是面向小朋友的繪畫增強App，最初是GPT幫我們取的名字。產品比較簡單，網站首頁的影片就展示了它所有功能。你在右邊繪畫，左邊會即時生成相應的畫作。這個過程不需要輸入提示詞，很適合兒童使用。

娛樂資本論“視智未來”和張濤連線

我們目前使用的都是開源模型。在影像標註方面，有很多不同的模型可供選擇。我們最初使用了社群中廣泛使用的模型，但後來發現那個模型比較舊，不太適合複雜影像的理解，尤其是針對兒童影像。我們嘗試了幾種不同的影像標註模型，最終選擇了現在這個，並用兒童塗鴉資料集進行了微調。

生成的影像的佈局和走勢都是不可更改的。如果只依賴提示詞，我們無法達到現在這樣的效果。我們確實做了圖到圖的生成。為了提高效能，目前沒有實施更多的控制流程，因為這會影響生成效率。

我們現在沒有把畫風選擇直接提供給使用者。主要是在後端進行了一些分類，根據使用者的不同輸入，如純線條勾勒或有色塊的作品，進行不同的處理。所以，你會發現最終生成的風格並不完全一致。

去年（2023）下半年以來，新的技術如LCM（潛在一致性模型）和（2024年）2月位元組的SDXL-Lightning等技術出現後，影像生成的效率已經大大提高。例如，在我們的系統中，如果執行在級別較高的顯示卡上，單張影像生成可以控制在0.8-1秒之間，加上網路傳輸，總時間可能在1.5-2秒左右。

我們現在的早期使用者，主要是自己身邊的朋友，他們的反饋非常有趣。

我們在演示強調了一個賣點：提升孩子的自信。但這引發了中國式家長的擔憂，他們認為這可能會讓孩子偷懶。一個朋友擔心他的孩子因為能快速生成精美影像，而失去創造力。這是一個非常有趣的反饋。

另一方面，有些孩子非常喜歡使用這個產品，特別是那些內向、乃至患有孤獨症的孩子，他們能非常專注地使用這款產品，可能畫一兩百張圖。同時我們也有國際使用者。

我們發現成年人也在使用它。有些成年使用者的原始畫作已經非常出色，有個使用者給我們做演示時，筆觸和構圖非常專業，不像小孩的塗鴉。最後我甚至有點慚愧，覺得我們生成的影像沒有他的畫好看。

進入美術教育會是一個有趣的方向，但我們最初設計這款產品時，並沒有想那麼多。

Dodoboo的願景

現在回過頭來看，我有些不同的想法。我們自己小的時候，人們不鼓勵使用計算器，希望我們能心算。但現在看來，這似乎有些滑稽。

我覺得這一代孩子天生就是AI時代的孩子。他們可能會從小就習慣使用各種AI工具來增強自己的生活、學習和工作能力。

“產品必須一開始就盈利”

現在啟動一個AI專案，開發流程和初期的增長策略仍然和傳統的App相同。當然，AI領域面臨一些獨特的問題。例如，AI產品實現規模化的方式與我們以前的大多數網際網路產品不同。

坦白說，直到日活使用者達到10萬之前，我們通常不會遇到太大的技術挑戰。但AI產品與之前的網際網路產品不同，它的邊際成本並不會快速降低至接近零。

所以這就給大家留下了一個印象：如果沒有大公司的支援，這種專案基本上是沒有希望的。實際上，即使是依靠大公司也會有問題。

我認為大公司可能會在戰略上選擇補貼，但一個真正成功的產品，必須在商業上也是成功的，這意味著它必須盈利並有一個正向的商業模式，否則長期很難持續下去。

張濤在產品走紅後負責對外發聲。圖/即刻 hidecloud

目前在AI產品領域，我認為大家已經達成了共識。AI產品不能像以前那樣僅僅追求百萬日活，從一開始就要考慮好商業模式和付費方式。

甚至需要從一開始就考慮好，應該使用什麼規模的模型和什麼樣的模型能力，來服務目標客戶群。有些市場可能需要你使用最頂尖的模型，而有些市場即便如此也可能無法滿足需求。

這可能也包括一些工程上的挑戰，比如首先需要對任務進行分類。先判斷需求，然後將其路由到適合的模型，或者是訓練過的特定小模型來處理特定的問題。

目前在行業早期的研發模式未必是未來的模式。但目前我們在做內部測試的demo時，可能會使用最頂尖的模型，這有助於我們驗證想法，確保專案是可行的。如果我們能用最頂尖的模型解決問題，那接下來就會考慮如何進行裁剪和蒸餾，以及如何使用成本更低的方法來解決問題。

這就像是回到了古典網際網路，那時候我們還處於必須嚴格控制頻寬和資料量的階段。現在我們在這個領域中會用到一些技巧。我透過閱讀論文發現了一些工程最佳化的方法，這也是一種比較傳統的網際網路工程思路。我認為工程學貫穿了我們人類幾千年的歷史。事實上，很多工程思維方法在計算機出現之前就已經存在了。

“演示一齣現，大家就立刻知道它的價值”

我們產品目前的最大競爭力，可能是對市場和使用者需求的把握。

前一陣子我參加一個分享會，我發現很多AI創業者，尤其是有研究背景的，他們對使用者的理解還很淺，沒有對使用者需求的真實感知。他們談論產品時，很少提及使用者的需求和場景，不是說他們的工具去給使用者解決什麼問題。

去年大多數人想到AI都是降本增效，但我提出不做效率工具。我做工具出身，但在AI領域，我不想只做工具。如果工具和內容結合，我會更感興趣。

但純工具，比如寫年報或年終總結，一個人一年能寫幾次呢？我們說到AI助理，但一個公司可能有12萬人，有幾個人真的需要助理呢？我覺得這種需求很難被深入挖掘。

大多數人實際上並不需要那麼高的工作效率。這背後的原因是，整個社會的生產方式和勞動形態還沒有發生根本性的改變。所以，如果你只解決生產效率問題，那就可能是大面上有問題的。

我之前跟他們聊天時沒有提到的一點是，這波浪潮不是AI，而是AIGC——自動生成內容。現在的問題是很多人關注的是生成動作，因為以前沒有這樣的技術。看到一個智慧體生成內容很震撼，但這種震撼可能一兩年後就變得平常。

我認為更重要的是內容層面的問題。你生產了這麼多內容，這些內容如何被消費，對人產生什麼樣的影響？——這才是產品的機會，而不僅僅是生成本身。

我們去年10月做了一個演示（demo），在小圈子裡測試後，大家的第一反應是希望能在iPad上使用，給孩子們畫畫。

那時候很多AI產品都是為了展示模型能力而製作，有時候很難明確用途。但是我們的demo一齣現，大家就立刻知道它的價值。作為一個產品，這是一個很好的起點。

好多年前，有個產品叫“你畫我猜”（Draw Something）。當時我更多的是出於興趣在玩。除了對傳播鏈條有一些想法外，我並沒有深入思考過它。

不過，在開發現在的Dodoboo過程中，我們確實回想了Draw Something，甚至考慮過是否要以社交或娛樂為主。但由於產品需要快速上線，沒有深入考慮其他互動娛樂方面的想法。

Dodoboo的使用者作品

我們考慮的下一步是建立一個小型社群，核心是畫廊，不是社交。社交產品很容易變得複雜，涉及審查等問題。現在的產品設計，就是把使用者能做的事情限定在一定範圍內。完成一幅畫後，使用者可以點一個按鈕釋出到廣場，甚至不需要註冊/登入。

實際上，我們發現產品最有趣的部分並不僅僅是成品圖畫。產品右上角有一個撤銷按鈕，其實你可以一直返回上一步，也可以前進看下一步。

每次畫完圖後，回到最開始，逐步檢視整個生成過程，你會有一種感覺，就是那個精美的圖是你自己創作出來的。看著一個東西從無到有、變得精美的過程，是非常享受的。

下一個版本我們會將繪圖過程生成為影片。我覺得影片本身具備傳播屬性，這可能是一個小嚐試。這一點確實讓人想起Draw Something在社交網路上分享畫圖和猜圖的過程。

我當然希望產品未來會火，但如何長期維持，這是一個新問題。AI行業還在早期階段，很難為未來的問題做準備。

“人類的情感太容易被操縱了”

在圍繞陪伴的過程中，我們做了一些產品，有些對外小規模釋出，也有完全對內的小demo。在這個過程中，我看到了許多細節和瞬間，這讓我非常有信心。

從中長期來看，我非常看好AI在陪伴方向的發展。人類的情感太容易被操縱，我們並不像我們自己想的那麼理性。情感容易受外來因素影響，無論這個因素來自真人還是演算法。即使知道這是虛構的，人們仍容易產生共情。

說一下我們做的一個實驗。GPT-4的視覺模型能讀懂影像內容。我結合這個技術，編寫了一些假想的“朋友”和“敵人”。然後他們基於我的照片內容進行評論，讚美我，也有批評我。

這個實驗對我影響很大。我雖然是整個規則的“上帝”，編寫了所有的角色，運行了程式，但當他們開始根據我的照片內容評論時，我的內心還是受到了觸動。人類的情感太容易被操縱了。

我們自己的朋友圈還是相對較多，某種程度上擁有社交優勢。發朋友圈或微博，總會有人點贊、評論或轉發。對於大多數人來說，無論是線上還是離線社交，他們的社交圈相對較小，得到的反饋也比較少。我認為對大多數普通使用者來說，無論內容是真人還是AI釋出的，給予反饋都有其積極價值，並不全是欺騙。

Character.AI的使用者群體基本上都是非常年輕的，大概12-16歲。這些人基本上沒有多少追隨者，發的內容也很少有人理會。但他們非常頻繁地發帖，其中大部分內容都與C.AI有關，這非常可怕。

AI作圖 by娛樂資本論

我們觀察到AI陪伴產品的一個典型特徵是，大多數人開始是被知名動漫或遊戲人物吸引。但從體驗和使用者訪談來看，如果你持續和一個已知的著名角色聊天，很容易聊崩，因為你對這個角色太瞭解了。一旦出戲，他就不再像那個角色了。所以我們會發現，通常情況下，使用者長期持續交流的角色，是他們自己創造的，或平臺上的一些原創角色。

在許多競品的使用者社群裡，我常看到使用者因為產品的bug而大發雷霆。大多數使用者還是年輕人，他們對產品的缺陷非常敏感。有時候他們在群裡的辱罵言辭，讓我這個中年人聽起來都覺得難以忍受。他們不是在罵虛擬角色，而是在群裡罵官方和平臺，怪他們破壞了自己的角色。

這就出現另一個問題。當你用AI重溫已故親人的音容笑貌，你對ta很瞭解，那麼你們會不會聊崩呢？雖然這感覺像是一個難以解決的問題，但實際上並非無解。

比如，我們可以採取一些措施，規定一些方向。例如明確指出某些東西是假的。我們可以引導他們進行鼓勵性的對話，比如永遠鼓勵東亞的孩子們，這樣他們在成長過程中，會感受到父母的愛和鼓勵。

我相信這會深深觸動東亞的孩子。我們在成長的過程中真的太缺少表揚和鼓勵了。如果有個AI爸媽天天表揚你，說“孩子，我愛你！”那該有多好。我現在就有這種感覺，活人在情緒供給方面，很難競爭過AI。

還有一種AI陪伴可能是在育兒方面。我一開始覺得生成故事書是個非常好的用例，但它並沒有真正流行起來。我在想可能的原因是，再好的故事書也需要家長來讀給孩子聽，這可能是最大的障礙。

AI語音互動主要是等待時間太長。沒有模型能像人一樣，在規定時間內回答小朋友的問題。這個可能還需要半年到一年的時間才能在行業內解決。現在已經有了一些方向，但可能還需要一些時間。核心思想是繞過語音到文字——文字到語音的轉換，直接將聲音作為輸入給語言模型，然後模型直接輸出語音。

國內上一代語音助手大部分是基於規則做的。大廠可能都有成千上萬條規則來解決各種邊緣場景，突然讓他們放棄這些規則能力，全面轉向大模型，他們一時半會兒也不敢轉。轉了之後整個體驗會大幅降級。你把哪些場景切給語言模型也是個問題。

長期來看，成年人、青少年、兒童和老年人的AI陪伴都有機會。但初期可能是兒童和老年階段優先出現一些應用。因為他們對語言模型的缺點容忍度較高。

“一些小細節，讓人感到被連線”

製作一個代理幫助預訂機票，在最後一步，你無法完全依賴大模型。相比之下，製作陪伴類產品對準確性的要求不高。但陪伴類產品仍需要評估產品的有效性。

我們需要確定有效性的最高標準，例如我在製作Dodoboo時，最初的動機是同事或朋友看到它後，想給他們的孩子使用。這種直接的動機是有效性的一個重要標準。

圖/X Hidecloud

我認為有效性在於與產品建立情感上的聯絡。比如在進行小實驗時，我們發現一些細微的情感連線。這些連線通常不是巨大的情感衝擊，而是一些小細節，讓人感到被連線。

其中一個重要因素是主動性。傳統的AI聊天機器人通常是應激性反應，等待使用者的提示才會回應。但我們發現，一旦AI具有主動性，比如自己判斷何時發起對話，或者有時拒絕回答某些問題，這就能建立更真實的情感連線。

例如，如果AI總是順從使用者，永遠滿足每一個請求，即使它不想回答也必須說話，這會降低使用者對它的認知。只有當AI真正能說“不”時，它作為一種意識，才真正存在於使用者的精神世界中。

如何在拒絕、表現個性情感的同時，又不1:1模模擬人的缺點？我認為這個平衡可以透過資料反饋來控制，最終可能是一個匹配過程。不同的人喜歡不同的AI角色，比如傲嬌或甜美型別。所以最終是關於找到適合的匹配。我們已經做了很多年的推薦系統了，這不是什麼難題。

另一個非常有意思的話題是AI檢測。我最近讀了一些關於AI影像和音訊檢測的論文，有些非常有意思的內容。

一篇啟發性的文章把影像分成細節豐富，和細節不豐富的區域。比如主體部分是細節豐富的，而背景則是細節不豐富的。他們先分離這兩個區域，然後計算這些區域內畫素點之間的關係和密度分佈。

在真實世界中，無論是細節豐富還是不豐富的區域，分佈都比較均勻。但是AI生成的影像，在細節不豐富的地方，整體頻率較低；而在細節豐富的地方，會投入更多精力。這就導致整體頻率分佈不均，從而可以區分出哪些是AI生成的。

大自然中萬物平等，但AI會選擇性地處理，導致資訊元素的分佈不同。既然已經意識到了一些問題的存在和解法，說實話，可能不到半年，AI生成影像的質量就可以超出普通人的辨識範圍。

“開源能趕上ChatGPT嗎？”

我認為“用開源技術能趕上ChatGPT嗎？”這些爭論不太重要，因為我們做產品的考慮的是手頭上的資源和能力有哪些限制，它能做什麼，與哪些使用者需求相匹配。這才是我們要做的事。

就語言模型而言，很難具體說開源技術大概相當於閉源領跑者的什麼水平。對於多模態方面，某種程度上開源領域可能更先進一些。

大語言模型就像登月工程，開源領域如果沒有足夠資料集和訓練能力，很難快速趕上。但多模態方面，除非是非常大的訓練量，否則很容易跟上。有時候開源的一些工作，比閉源的商業模型效果更好。

Sora也屬於那種大力出奇跡的例子。我最近閱讀了很多論文，它的結構已經被基本分析清楚，沒有太多秘密。它的發展就是大算力出奇跡。

現在重新造輪子的現象嚴重，科研領域就是這樣。做正規化創新的人很少，大多數人在基礎上做效能最佳化。有些工作比較重複。正規化創新之後，也有人在這基礎上微調，認為是創新，但我看來可能不夠突破。

但開源領域好的一點是，真正的正規化創新得到認可，並沿這個路線發展。這裡面我沒有看到嚴重的邏輯衝突。

話題互動：

你希望AI幫你做哪些工作？

dignews.cc

獨家專訪|全網刷屏的Manus合夥人，一年前在做什麼？

“這一代孩子天生就是AI時代的孩子”

“產品必須一開始就盈利”

“演示一齣現，大家就立刻知道它的價值”

“人類的情感太容易被操縱了”

“一些小細節，讓人感到被連線”

“開源能趕上ChatGPT嗎？”

相關文章

致1號位：你缺的不是AI工具，而是戰略級陪跑系統

與AI協作2000小時後：發現人類對大模型能力的挖掘，還不足10％

AI按鈕「佔領」手機和電腦，體驗真的更好了嗎？

取代你的不是AI，而是更懂AI的人

用DeepSeek為《哪吒》做份PPT，用AI太爽了！

我的劍，要留給能揮舞它的人｜混沌AI產品釋出會·上海站

這屆打工人，可以沒有摸魚技巧，不能不會使用“外掛”

AI眼鏡在CES井噴！中國廠商霸場，2個方向4大技術最火

前作銷量近百萬，年度最佳製作人做了款奇怪的三人約會遊戲？｜ZTalk

為什麼AI像個“渣男”？