獨家專訪|全網刷屏的Manus合夥人,一年前在做什麼?

作者|James
今天,AI智慧體應用Manus爆火刷屏,其聯合創始人張濤對外發聲描述產品狀態,他也是親自在群裡發邀請碼的那個人,以及在辦公室裡倒數計時,迎接產品釋出上線的人,其個人經歷引發關注。
張濤此前在字節跳動負責國際化產品的戰略規劃與落地,2023年,他加入王慧文創辦的人工智慧公司光年之外,擔任產品負責人,主導AI產品的研發與商業化探索。
2024年7月,張濤與首席科學家季逸超(Peak)、連續創業者肖弘(Red)共同創立Manus AI,並擔任合夥人。他目前主要負責產品戰略、市場溝通及使用者體驗最佳化。

張濤的即刻頁面

娛樂資本論在一年前的2024年3月曾經採訪過張濤。當時他在光年之外開發兒童陪伴類AI產品Dodoboo。那時AI陪伴賽道非常火熱,我們就他的產品,作為產品經理的方法論,以及AI陪伴的一些趨勢做了討論。
從現在回頭看,裡面大多數預見性的內容,如今已成功應驗,而另一些內容仍有待將來的發展不斷驗證。作為一個十多年經驗的產品經理老兵,他對產品的理解貫穿了前移動網際網路時代,到如今的AI時代,體現出邏輯上的一致性。
完整的採訪回放請參考下列影片號:
以下是張濤在採訪中的部分主要內容摘錄:

“這一代孩子天生就是AI時代的孩子”

我叫張濤,通常在各個社群裡用hidecloud這個ID。我過去主要做toC產品設計和運營,最近五年一直在做SaaS產品,前四年做神策資料,最近一年在做飛書的國際化。去年(2023)年中開始做AI方面的工作,已經做了8個月。在AI領域是“AI一日人間一年”,所以我有很多感悟。
現在(2024.4)正在做的產品Dodoboo 1月底上線,是面向小朋友的繪畫增強App,最初是GPT幫我們取的名字。產品比較簡單,網站首頁的影片就展示了它所有功能。你在右邊繪畫,左邊會即時生成相應的畫作。這個過程不需要輸入提示詞,很適合兒童使用。

娛樂資本論“視智未來”和張濤連線

我們目前使用的都是開源模型。在影像標註方面,有很多不同的模型可供選擇。我們最初使用了社群中廣泛使用的模型,但後來發現那個模型比較舊,不太適合複雜影像的理解,尤其是針對兒童影像。我們嘗試了幾種不同的影像標註模型,最終選擇了現在這個,並用兒童塗鴉資料集進行了微調。
生成的影像的佈局和走勢都是不可更改的。如果只依賴提示詞,我們無法達到現在這樣的效果。我們確實做了圖到圖的生成。為了提高效能,目前沒有實施更多的控制流程,因為這會影響生成效率。
我們現在沒有把畫風選擇直接提供給使用者。主要是在後端進行了一些分類,根據使用者的不同輸入,如純線條勾勒或有色塊的作品,進行不同的處理。所以,你會發現最終生成的風格並不完全一致。
去年(2023)下半年以來,新的技術如LCM(潛在一致性模型)和(2024年)2月位元組的SDXL-Lightning等技術出現後,影像生成的效率已經大大提高。例如,在我們的系統中,如果執行在級別較高的顯示卡上,單張影像生成可以控制在0.8-1秒之間,加上網路傳輸,總時間可能在1.5-2秒左右。
我們現在的早期使用者,主要是自己身邊的朋友,他們的反饋非常有趣。
我們在演示強調了一個賣點:提升孩子的自信。但這引發了中國式家長的擔憂,他們認為這可能會讓孩子偷懶。一個朋友擔心他的孩子因為能快速生成精美影像,而失去創造力。這是一個非常有趣的反饋。
另一方面,有些孩子非常喜歡使用這個產品,特別是那些內向、乃至患有孤獨症的孩子,他們能非常專注地使用這款產品,可能畫一兩百張圖。同時我們也有國際使用者。
我們發現成年人也在使用它。有些成年使用者的原始畫作已經非常出色,有個使用者給我們做演示時,筆觸和構圖非常專業,不像小孩的塗鴉。最後我甚至有點慚愧,覺得我們生成的影像沒有他的畫好看。
進入美術教育會是一個有趣的方向,但我們最初設計這款產品時,並沒有想那麼多。

Dodoboo的願景

現在回過頭來看,我有些不同的想法。我們自己小的時候,人們不鼓勵使用計算器,希望我們能心算。但現在看來,這似乎有些滑稽。
我覺得這一代孩子天生就是AI時代的孩子。他們可能會從小就習慣使用各種AI工具來增強自己的生活、學習和工作能力。

“產品必須一開始就盈利”

現在啟動一個AI專案,開發流程和初期的增長策略仍然和傳統的App相同。當然,AI領域面臨一些獨特的問題。例如,AI產品實現規模化的方式與我們以前的大多數網際網路產品不同。
坦白說,直到日活使用者達到10萬之前,我們通常不會遇到太大的技術挑戰。但AI產品與之前的網際網路產品不同,它的邊際成本並不會快速降低至接近零。
所以這就給大家留下了一個印象:如果沒有大公司的支援,這種專案基本上是沒有希望的。實際上,即使是依靠大公司也會有問題。
我認為大公司可能會在戰略上選擇補貼,但一個真正成功的產品,必須在商業上也是成功的,這意味著它必須盈利並有一個正向的商業模式,否則長期很難持續下去。

張濤在產品走紅後負責對外發聲。圖/即刻 hidecloud

目前在AI產品領域,我認為大家已經達成了共識。AI產品不能像以前那樣僅僅追求百萬日活,從一開始就要考慮好商業模式和付費方式。
甚至需要從一開始就考慮好,應該使用什麼規模的模型和什麼樣的模型能力,來服務目標客戶群。有些市場可能需要你使用最頂尖的模型,而有些市場即便如此也可能無法滿足需求。
這可能也包括一些工程上的挑戰,比如首先需要對任務進行分類。先判斷需求,然後將其路由到適合的模型,或者是訓練過的特定小模型來處理特定的問題。
目前在行業早期的研發模式未必是未來的模式。但目前我們在做內部測試的demo時,可能會使用最頂尖的模型,這有助於我們驗證想法,確保專案是可行的。如果我們能用最頂尖的模型解決問題,那接下來就會考慮如何進行裁剪和蒸餾,以及如何使用成本更低的方法來解決問題。
這就像是回到了古典網際網路,那時候我們還處於必須嚴格控制頻寬和資料量的階段。現在我們在這個領域中會用到一些技巧。我透過閱讀論文發現了一些工程最佳化的方法,這也是一種比較傳統的網際網路工程思路。我認為工程學貫穿了我們人類幾千年的歷史。事實上,很多工程思維方法在計算機出現之前就已經存在了。

“演示一齣現,大家就立刻知道它的價值”

我們產品目前的最大競爭力,可能是對市場和使用者需求的把握。
前一陣子我參加一個分享會,我發現很多AI創業者,尤其是有研究背景的,他們對使用者的理解還很淺,沒有對使用者需求的真實感知。他們談論產品時,很少提及使用者的需求和場景,不是說他們的工具去給使用者解決什麼問題。
去年大多數人想到AI都是降本增效,但我提出不做效率工具。我做工具出身,但在AI領域,我不想只做工具。如果工具和內容結合,我會更感興趣。
但純工具,比如寫年報或年終總結,一個人一年能寫幾次呢?我們說到AI助理,但一個公司可能有12萬人,有幾個人真的需要助理呢?我覺得這種需求很難被深入挖掘。
大多數人實際上並不需要那麼高的工作效率。這背後的原因是,整個社會的生產方式和勞動形態還沒有發生根本性的改變。所以,如果你只解決生產效率問題,那就可能是大面上有問題的。
我之前跟他們聊天時沒有提到的一點是,這波浪潮不是AI,而是AIGC——自動生成內容。現在的問題是很多人關注的是生成動作,因為以前沒有這樣的技術。看到一個智慧體生成內容很震撼,但這種震撼可能一兩年後就變得平常。
我認為更重要的是內容層面的問題。你生產了這麼多內容,這些內容如何被消費,對人產生什麼樣的影響?——這才是產品的機會,而不僅僅是生成本身。
我們去年10月做了一個演示(demo),在小圈子裡測試後,大家的第一反應是希望能在iPad上使用,給孩子們畫畫。
那時候很多AI產品都是為了展示模型能力而製作,有時候很難明確用途。但是我們的demo一齣現,大家就立刻知道它的價值。作為一個產品,這是一個很好的起點。
好多年前,有個產品叫“你畫我猜”(Draw Something)。當時我更多的是出於興趣在玩。除了對傳播鏈條有一些想法外,我並沒有深入思考過它。
不過,在開發現在的Dodoboo過程中,我們確實回想了Draw Something,甚至考慮過是否要以社交或娛樂為主。但由於產品需要快速上線,沒有深入考慮其他互動娛樂方面的想法。

Dodoboo的使用者作品

我們考慮的下一步是建立一個小型社群,核心是畫廊,不是社交。社交產品很容易變得複雜,涉及審查等問題。現在的產品設計,就是把使用者能做的事情限定在一定範圍內。完成一幅畫後,使用者可以點一個按鈕釋出到廣場,甚至不需要註冊/登入。
實際上,我們發現產品最有趣的部分並不僅僅是成品圖畫。產品右上角有一個撤銷按鈕,其實你可以一直返回上一步,也可以前進看下一步。
每次畫完圖後,回到最開始,逐步檢視整個生成過程,你會有一種感覺,就是那個精美的圖是你自己創作出來的。看著一個東西從無到有、變得精美的過程,是非常享受的。
下一個版本我們會將繪圖過程生成為影片。我覺得影片本身具備傳播屬性,這可能是一個小嚐試。這一點確實讓人想起Draw Something在社交網路上分享畫圖和猜圖的過程。
我當然希望產品未來會火,但如何長期維持,這是一個新問題。AI行業還在早期階段,很難為未來的問題做準備。

“人類的情感太容易被操縱了”

在圍繞陪伴的過程中,我們做了一些產品,有些對外小規模釋出,也有完全對內的小demo。在這個過程中,我看到了許多細節和瞬間,這讓我非常有信心。
從中長期來看,我非常看好AI在陪伴方向的發展。人類的情感太容易被操縱,我們並不像我們自己想的那麼理性。情感容易受外來因素影響,無論這個因素來自真人還是演算法。即使知道這是虛構的,人們仍容易產生共情。
說一下我們做的一個實驗。GPT-4的視覺模型能讀懂影像內容。我結合這個技術,編寫了一些假想的“朋友”和“敵人”。然後他們基於我的照片內容進行評論,讚美我,也有批評我。
這個實驗對我影響很大。我雖然是整個規則的“上帝”,編寫了所有的角色,運行了程式,但當他們開始根據我的照片內容評論時,我的內心還是受到了觸動。人類的情感太容易被操縱了。
我們自己的朋友圈還是相對較多,某種程度上擁有社交優勢。發朋友圈或微博,總會有人點贊、評論或轉發。對於大多數人來說,無論是線上還是離線社交,他們的社交圈相對較小,得到的反饋也比較少。我認為對大多數普通使用者來說,無論內容是真人還是AI釋出的,給予反饋都有其積極價值,並不全是欺騙。
Character.AI的使用者群體基本上都是非常年輕的,大概12-16歲。這些人基本上沒有多少追隨者,發的內容也很少有人理會。但他們非常頻繁地發帖,其中大部分內容都與C.AI有關,這非常可怕。

AI作圖 by娛樂資本論

我們觀察到AI陪伴產品的一個典型特徵是,大多數人開始是被知名動漫或遊戲人物吸引。但從體驗和使用者訪談來看,如果你持續和一個已知的著名角色聊天,很容易聊崩,因為你對這個角色太瞭解了。一旦出戲,他就不再像那個角色了。所以我們會發現,通常情況下,使用者長期持續交流的角色,是他們自己創造的,或平臺上的一些原創角色。
在許多競品的使用者社群裡,我常看到使用者因為產品的bug而大發雷霆。大多數使用者還是年輕人,他們對產品的缺陷非常敏感。有時候他們在群裡的辱罵言辭,讓我這個中年人聽起來都覺得難以忍受。他們不是在罵虛擬角色,而是在群裡罵官方和平臺,怪他們破壞了自己的角色。
這就出現另一個問題。當你用AI重溫已故親人的音容笑貌,你對ta很瞭解,那麼你們會不會聊崩呢?雖然這感覺像是一個難以解決的問題,但實際上並非無解。
比如,我們可以採取一些措施,規定一些方向。例如明確指出某些東西是假的。我們可以引導他們進行鼓勵性的對話,比如永遠鼓勵東亞的孩子們,這樣他們在成長過程中,會感受到父母的愛和鼓勵。
我相信這會深深觸動東亞的孩子。我們在成長的過程中真的太缺少表揚和鼓勵了。如果有個AI爸媽天天表揚你,說“孩子,我愛你!”那該有多好。我現在就有這種感覺,活人在情緒供給方面,很難競爭過AI。
還有一種AI陪伴可能是在育兒方面。我一開始覺得生成故事書是個非常好的用例,但它並沒有真正流行起來。我在想可能的原因是,再好的故事書也需要家長來讀給孩子聽,這可能是最大的障礙。
AI語音互動主要是等待時間太長。沒有模型能像人一樣,在規定時間內回答小朋友的問題。這個可能還需要半年到一年的時間才能在行業內解決。現在已經有了一些方向,但可能還需要一些時間。核心思想是繞過語音到文字——文字到語音的轉換,直接將聲音作為輸入給語言模型,然後模型直接輸出語音。
國內上一代語音助手大部分是基於規則做的。大廠可能都有成千上萬條規則來解決各種邊緣場景,突然讓他們放棄這些規則能力,全面轉向大模型,他們一時半會兒也不敢轉。轉了之後整個體驗會大幅降級。你把哪些場景切給語言模型也是個問題。
長期來看,成年人、青少年、兒童和老年人的AI陪伴都有機會。但初期可能是兒童和老年階段優先出現一些應用。因為他們對語言模型的缺點容忍度較高。

“一些小細節,讓人感到被連線” 

製作一個代理幫助預訂機票,在最後一步,你無法完全依賴大模型。相比之下,製作陪伴類產品對準確性的要求不高。但陪伴類產品仍需要評估產品的有效性。
我們需要確定有效性的最高標準,例如我在製作Dodoboo時,最初的動機是同事或朋友看到它後,想給他們的孩子使用。這種直接的動機是有效性的一個重要標準。

圖/X Hidecloud

我認為有效性在於與產品建立情感上的聯絡。比如在進行小實驗時,我們發現一些細微的情感連線。這些連線通常不是巨大的情感衝擊,而是一些小細節,讓人感到被連線。
其中一個重要因素是主動性。傳統的AI聊天機器人通常是應激性反應,等待使用者的提示才會回應。但我們發現,一旦AI具有主動性,比如自己判斷何時發起對話,或者有時拒絕回答某些問題,這就能建立更真實的情感連線。
例如,如果AI總是順從使用者,永遠滿足每一個請求,即使它不想回答也必須說話,這會降低使用者對它的認知。只有當AI真正能說“不”時,它作為一種意識,才真正存在於使用者的精神世界中。
如何在拒絕、表現個性情感的同時,又不1:1模模擬人的缺點?我認為這個平衡可以透過資料反饋來控制,最終可能是一個匹配過程。不同的人喜歡不同的AI角色,比如傲嬌或甜美型別。所以最終是關於找到適合的匹配。我們已經做了很多年的推薦系統了,這不是什麼難題。
另一個非常有意思的話題是AI檢測。我最近讀了一些關於AI影像和音訊檢測的論文,有些非常有意思的內容。
一篇啟發性的文章把影像分成細節豐富,和細節不豐富的區域。比如主體部分是細節豐富的,而背景則是細節不豐富的。他們先分離這兩個區域,然後計算這些區域內畫素點之間的關係和密度分佈。
在真實世界中,無論是細節豐富還是不豐富的區域,分佈都比較均勻。但是AI生成的影像,在細節不豐富的地方,整體頻率較低;而在細節豐富的地方,會投入更多精力。這就導致整體頻率分佈不均,從而可以區分出哪些是AI生成的。
大自然中萬物平等,但AI會選擇性地處理,導致資訊元素的分佈不同。既然已經意識到了一些問題的存在和解法,說實話,可能不到半年,AI生成影像的質量就可以超出普通人的辨識範圍。

“開源能趕上ChatGPT嗎?” 

我認為“用開源技術能趕上ChatGPT嗎?”這些爭論不太重要,因為我們做產品的考慮的是手頭上的資源和能力有哪些限制,它能做什麼,與哪些使用者需求相匹配。這才是我們要做的事。
就語言模型而言,很難具體說開源技術大概相當於閉源領跑者的什麼水平。對於多模態方面,某種程度上開源領域可能更先進一些。
大語言模型就像登月工程,開源領域如果沒有足夠資料集和訓練能力,很難快速趕上。但多模態方面,除非是非常大的訓練量,否則很容易跟上。有時候開源的一些工作,比閉源的商業模型效果更好。
Sora也屬於那種大力出奇跡的例子。我最近閱讀了很多論文,它的結構已經被基本分析清楚,沒有太多秘密。它的發展就是大算力出奇跡。
現在重新造輪子的現象嚴重,科研領域就是這樣。做正規化創新的人很少,大多數人在基礎上做效能最佳化。有些工作比較重複。正規化創新之後,也有人在這基礎上微調,認為是創新,但我看來可能不夠突破。
但開源領域好的一點是,真正的正規化創新得到認可,並沿這個路線發展。這裡面我沒有看到嚴重的邏輯衝突。
話題互動:
你希望AI幫你做哪些工作?
推薦閱讀

司藤帕魯曇花一現,二遊集體團滅,
2025遊戲十大撲街題材
點選觀看
↓↓↓
如需商務合作後臺回覆【商務】
如有轉載需求後臺回覆【轉載】
更多文娛產業背後的經濟邏輯,來關注↓↓↓

相關文章