前不久我們和 Luma.ai[1] 團隊中的唯一一位產品經理 Barkley 用 20 個問題來梳理了 AI 影片模型在過去這一年的發展。
這期播客,我們邀請一鍵魔改短影片的工具 Vozo 的創始人周昌印和我們分享開發 Vozo 的故事:Vozo 可以為影片重新配音,做影片翻譯和剪輯,上線的時候連續三天登上 Product Hunt 榜首,6 個月實現 100 萬美元 ARR。

另外,在這次的聊天中,我們也以 Vozo 為線索,和周昌印詳細聊了聊他從前在著名的 GoogleX 實驗室的工作經歷,在矽谷的第一次創業以及,如何從「接地氣」的直播機開始自己回國創業的旅程。
我們本以為,一個人要丟掉過去的工作方式重新開始,是一件需要鼓足勇氣的事情,沒想到昌印告訴我們,相比沉默成本,他更在意的是自己是不是在做一件沒有人做過的事情。
他也和我們分享他觀察過去周圍那些非常聰明的人的工作習慣,希望會讓大家有所收穫。
微信收聽播客:
小宇宙收聽播客:


Vozo AI:影片翻譯與魔改的創新之旅
🚥 Ronghui
上一期我們盤點了 Sora 釋出以來影片模型的進展。今天我們來和 AI 影片工具 Vozo[2] 的創始人周昌印來聊一聊他非常具體的創業故事和個人的經歷。
Vozo 被形容為「用 AI 一鍵魔改短影片的工具」,可以為影片重新配音,做影片翻譯和重剪。在上線的時候連續三天登上 Product Hunt 的榜首,也在六個月做到了 100 萬的 ARR。據我們所知 Vozo 的發展經歷也有一些很有意思的關鍵節點以及昌印對應的一些思考。
今天我們就請昌印來跟我們具體的聊一聊這些故事。那昌印先跟大家打個招呼,介紹一下自己,也介紹一下 Vozo。
👦🏻 周昌印
謝謝 Ronghui,我是周昌印,大家可以叫我長鷹,我是 Vozo AI 的創始人和 CEO。
🚥 Ronghui
可以詳細跟我們介紹一下 Vozo 具體是做什麼,這些功能是怎麼樣一步一步被開發出來的嗎?
AI 影片工具還挺多的,為什麼選了這個具體的方向?
👦🏻 周昌印
Vozo 在我們公司內部經歷了漫長的「孕育」過程。2021 年,團隊從美國回到國內,決定專注於「影片表達自由」這一理念。我們認為這是一項非常值得做的事情。
從 2021 年開始,我們陸續推出了幾款產品,有成功的,也有不盡如人意的。從 2022 年,我們開始進行生成式 AI 的研發探索。這是一個雙管齊下的過程——一方面從使用者需求出發,另一方面從技術研發著手。到 2023 年,我們有了一些想法,找到了研發和需求碰撞的點,開始內部孵化並篩選了幾個想法。2024 年,當我們自己對產品比較滿意的時候,正式推出了 Vozo。
Vozo 的定位經歷了幾次演變,但核心始終是幫助普通人,而非專業影片剪輯師。這裡的「普通人」覆蓋面很廣,包括教師、專案經理、營銷經理等。雖然他們偶爾需要製作影片,但專業能力有限或需要外包。我們的願景是讓所有普通人都能透過影片進行表達。這其實是一個非常大的事情,我們最初的生成式 AI 模型相當激進,類似於現在許多大家看到的生成式視覺大模型。
但是在 2023 年底,我們進行了轉型,希望聚焦於真實場景,切實解決使用者問題。所以我們 2024 年 7 月上線、第一次 Product Hunt 打榜的時候,我們將功能定義為 「Vozo Rewrite」。我們適當降低了難度,不是憑空生成影片,而是在已有影片基礎上改變故事。
這種功能適用於多種場景。一種是利用現有優質影片素材,如電影片段,來講述你的品牌故事或觀點。另一種是將現有影片,比如感恩節推廣,輕鬆轉換為聖誕節推廣。
我覺得 Vozo Rewrite 為影片剪輯帶來了挺大的改變。傳統剪輯需要裁剪和音影片處理,而透過 Vozo Rewrite,只需簡單 Prompt,如 「請將影片轉為西班牙語」或「讓影片更激動人心 / 更有趣」,就能實現影片轉換。這是我們首次上線的核心功能。
經過半年多的演進,Vozo 的功能範圍更加廣泛。值得一提的是,Vozo 於 7 月 20 日首次釋出後,我們進行了多次迭代。到 11 月,產品迎來重大轉變,我們推出了新功能 「Vozo Translate」。
Translate 實際上是 Rewrite 的延伸,因為我們發現大量使用者使用 Rewrite 進行翻譯,所以我們在內部進行了長期迭代,邀請使用翻譯的使用者試用並提供反饋,逐步完善了翻譯功能。
目前,我們大多數使用者的續費率非常高。從 2024 年 7 月算起,雖然我們起步相對較晚,但到 2025 年 1-2 月,產品形態已經相當成熟。這就是 Vozo——我們公司最新產品的發展歷程。

從創意到市場:Vozo 的功能迭代與商業化
🚥 Koji
我首次接觸 Vozo 是在十字路口的會員群裡。當時,Vanessa (位元組的一位PM,也曾上過十字路口播客《AI 產品經理指南》期)向大家推薦了這款產品。
她推薦的內容質量一貫很高,所以我對此格外關注。當時印象深刻的是多個使用 Vozo 生成的短影片同時刷屏,這些影片巧妙地將經典電影畫面改編成搞笑橋段。畫面保持不變,但主角的口型和語氣完全變了。
我記得其中有小李子(萊昂納多·迪卡普里奧)在《華爾街之狼》中的經典片段。他依然保持著原片中慷慨激昂的表現方式,但內容卻變成了日常瑣事,這種強烈的反差令人印象深刻。除此之外,《泰坦尼克號》、《哈利波特》等各種經典電影畫面都被創意性地 「魔改」,讓人耳目一新 ——這應該是 Vozo 的第一波出圈。
到了 11 月,Vozo 再次登上熱門榜單,甚至在 Product Hunt 上成為月榜第一。這次是因為新推出了翻譯功能,它能將影片內容從一種語言完美轉換為另一種語言,效果之出色贏得了廣泛好評。
除了這兩個主要的產品高光時刻,昌印還有其他補充嗎?
👦🏻 周昌印
目前「翻譯」確實是我們使用者最常用的功能。
正如前面提到,Translate 功能於 10 月份正式上線。在 11 月之後的 3 個月中,我們又陸續開發了兩個新產品功能。
這三個功能都是慢慢延續出來的。我們最初開發了 Rewrite 功能,隨後發現大部分使用者將其用於翻譯目的,因此我們決定深化 Translate 功能,這個過程耗費了相當長的時間。
在完善 Translation 功能後,我們注意到部分使用者並不需要完整的翻譯服務,他們只想使用我們的口型同步技術。基於這一需求,我們深化開發了 Lip Sync 功能,它現已成為我們的重要功能之一。
有趣的是,在推出 Lip Sync 後,一些使用者提出了新需求——他們希望能對照片而非影片進行口型同步。最初我們對這個需求有所猶豫,認為市場上已有類似的 Photo Lip Sync 工具,但經過對各種現有工具的測試和分析,我們瞭解了使用者對現有解決方案的不滿之處。於是我們重新開發了 Photo Lip Sync 功能,並於 1 月左右推出。這一功能上線後用戶增長迅速,也證明我們的效果確實令人滿意。
簡單的預告一下,3 月份我們會有更大的東西 release,但目前保密(笑)。
🚥 Koji
這個更大的東西會是像最初的 Rewrite 從視覺上給大家帶來震撼,還是像 Translate 或 Lip Sync 從功能上做的比競爭對手都好?
👦🏻 周昌印
其實都有。更多的是基於現有需求的一個功能,但是我們做的比較不一樣。
🚥 Koji
你是否認為 Vozo 如果一開始就主推翻譯或唇形同步等功能,可能反而難以獲得市場關注?
而選擇推出一個前所未見的創新功能,恰恰激發了使用者的好奇心,讓短影片得以破圈傳播,使 Vozo 成功進入更廣泛的使用者視野?
既然已經嚐到了這種創新營銷策略的甜頭,未來你們是否會繼續保持產品和營銷層面的創新嘗試?就像最初的 Rewrite 功能,以及現在的 Pika 每月推出的新特效一樣。這是否代表了你們未來的路徑選擇?
👦🏻 周昌印
對,我覺得路徑真的非常重要:
第一個功能是推什麼以及大家對你的 first impression 是什麼,是非常重要的。
畢竟我覺得在現在 GenAI 的時代,創新其實是最主要的推廣手段。所以你肯定不要讓別人覺得你是個「me too」,而且 「me too」 對內部團隊也很難交代,對一個創新團隊來說,很難一直靠做「me too」,因為團隊都會沒有士氣。
當然瞭如果你的團隊不是個創新團隊,那無所謂了。你本來就是「me too」 團隊,你就這麼做。但是 「me too」 的團隊,在我的 bias 看來,我覺得在現在的 AI 時代是不可能成功的。
如果是一個創新團隊,你肯定要不斷地去擁有新的創新東西並且去往外推。但是剛剛前面我講的有一點點悖論,就是我們又要抓需求,又要有創新點,那就路徑很重要。
創新品牌推出後再從 Rewrite 切回 Translate 領域,能夠實現比傳統翻譯更優質的效果。翻譯市場需求真實且廣泛,我們的策略是先精細化運營,再逐步拓展業務範圍。
這種路徑對技術演進和市場開拓都相當有利。雖然並非所有商業模式都適用這種發展軌跡,但對 AI video 而言,我們有幸找到了這條持續擴圈的路徑。
值得注意的是,市場上也有企業選擇不同策略——潛心研發並且不公開任何發展路線,而後爆火,這類案例確實存在。我們則選擇從使用者需求出發,探索 AI video 的應用場景,這正是我們當前聚焦的方向。
🚥 Koji
當前 AI video 賽道湧現出多家創新公司,從 Pika 到 Luma,從 Heygen 到 Viggle、OpusClip 等。你對哪些公司特別欣賞或關注?
👦🏻 周昌印
我比較喜歡 Heygen,我覺得他們非常 focus 去做他們想做的事情。
創始人徐卓從「替代傳統攝像」的願景出發,自 2021 年便堅定推進這一方向。儘管過程中遇到諸多技術挑戰,團隊仍逐步突破困境。無論其遷往美國的決策如何評價,在產品打磨與技術迭代方面,Heygen 確實表現出色。
我對其他公司瞭解相對有限。例如做影像相關的 Dzine,是由我另一位朋友創立的,其產品品質同樣也很棒。我個人偏好那些在產品體驗上精益求精的團隊,這方面 Dzine 與 Heygen 都表現突出。

在 Product Hunt 脫穎而紅:冷啟動策略
🚥 Koji
我知道 Vozo 其實一直是沒有花營銷預算,只是做了兩次 Product Hunt 的打榜,就做到了今天 100 萬美金的年收入。
你如何看待 Product Hunt 打榜的這種營銷方式對你們的幫助究竟有多大?
👦🏻 周昌印
我覺得幫助還挺大的,得從兩方面來看。
第一個是我非常喜歡 Product Hunt。其實我在 15 年的時候我就做過第一次 Product Hunt 打榜。那時候的氛圍實際上跟現在不太一樣。
但我覺得它核心的價值是當你去做 Product Hunt 打榜的時候,你真的會去想你是什麼樣的產品以及怎麼樣透過一句話可以說清楚你的產品。我覺得這個其實對產品的打磨是最有用的。所以我覺得 Product Hunt 最大的價值是在這個地方。
它給我們的價值是,我們比較簡單的完成了冷啟動。雖然帶來的流量沒有特別大,每天大概是 1000 左右,但是 1000 左右足夠我們做產品的 PMF 的迭代,所以相當於是冷啟動。透過一次跟兩次的 Product Hunt 就完成了,我覺得這個其實是非常有價值的。
🚥 Koji
其實在 PH 上打榜有非常多的技巧,我自己在各種群裡也看到天天有人在拉票。
你認為一款產品現在能衝到 PH 日榜第一,有多少是運營的成分,有多少是產品本身實力要做的特別好的成分?
👦🏻 周昌印
這正是我開始說的,現在與 2015 年相比有很大的差別,當時沒有這種現象。
如今我認為在 Product Hunt 上獲得高排名這件事,與產品本身的關係並不那麼密切。
如果你懂運營並願意投入資源推廣,基本上都可以將產品推到前列。也許難以確保第一名,但進入前三應該不成問題。但我覺得這只是一個方面,就是你把排名做到第一或第二第三,並不意味著你在 Product Hunt 上真正成功了。
你的成功與否取決於這次 Product Hunt 活動最終對你產品的產品市場契合度 (PMF) 是否產生了實質性幫助。所以我並不驚訝有很多團隊可能在排名上達到第一或第二,但最終產品可能並未成功落地。
因此,回到剛才的問題,在 Product Hunt 上獲得高排名成功與否,主要是運營層面的事情。而在獲得高排名之後,能否帶來真正的商業價值,我認為這才是產品層面需要解決的問題。
🚥 Ronghui
除了 Product Hunt,你們有在其他的地方做這種露出嗎?
👦🏻 周昌印
我們幾乎沒有過多做推廣,雖然中間有一些機會可以去做,但我們相對比較剋制。這主要是因為 Product Hunt 已經給了我們足夠的流量,所以我們比較珍惜這半年的時間去專注產品本身。
另外一部分原因是,在初期流量進來之後,我們收到了很多使用者反饋。我們認為在解決這些反饋問題之前,進一步推廣意義並不大。這些反饋確實非常多,但我認為我們做對了幾件事情:我們很早就啟用了類似 Intercom 的客服系統,使用者可以直接在網頁上與我們交流。
我們的一些團隊成員會一直線上回應,瞭解使用者真正需要什麼、不需要什麼、哪些地方不滿意。基於這些反饋,我們持續迭代產品,大概每週會發布一到兩個版本,不斷地改進它。
所以在那個階段,我們沒有太過關注推廣的事情。這種做法不一定適合所有團隊,有些團隊可能會選擇更早進行推廣,從而獲得更快的增長。但這只是我的觀點:
推廣早一個月或晚一個月其實影響不是那麼大。最終,產品與市場的契合度 (PMF) 才是更重要的因素。
🚥 Ronghui
有什麼時刻覺得 PMF 找到了嗎?
👦🏻 周昌印
我認為這是一種感覺,就是如果要定量衡量的話,我們會關注兩個關鍵指標:使用者的續費滿意度以及最終的絕對值,也就是我們的年度經常性收入 (ARR) 有多少。
我們當時的做法比較直接,也就是設定一個目標:想要先到達 100 萬的 ARR 再說。幸運的是,即使沒有額外推廣,我們也剛好達到了這個目標。這可能有運氣成分,但也和我們最初的判斷基本吻合。
另一個關鍵指標是續費率,我認為這需要保持在合理水平。比如說,如果我們有 100 個付費使用者,假設他們對產品滿意,那麼應該有 80 個人會選擇留下來繼續使用。當然,這是我個人的判斷,因為我知道大約 20% 的使用者可能會因為自身業務原因而停止使用產品。所以當續費率達到這個水平時,我認為我們的產品算是合格的。
這兩個方面結合起來就成為了我們內部的目標。這種做法的好處是,有了明確的目標後,做事情會更有動力。每個階段專注於一到兩個目標,而不是同時做多件事,比如一邊改進產品一邊還要透過五個不同渠道推廣。我們儘量把這些任務分開處理,更有針對性地推進。

技術困境與團隊轉型:尋找正確路徑
🚥 Koji
前面提到,Vozo 在 2024 年 7 月才正式上線第一個主打 Rewrite 功能的版本 ——上傳並「魔改」現有影片,一經推出就迅速走紅。
👦🏻 周昌印
我認為雙方因素都存在,但我們自身的原因可能佔比更大一些。後來我們內部也做了一些覆盤。
我們其實在 AI 影片這個賽道起步非常早,2021 年成立時就開始做這方面的工作,雖然那時可能更偏向傳統的計算機視覺 (CV)。到了 2022 年,我們開始研究一些更深層次的技術。
2022 年時,我們比一般公司更早預見到了生成式 AI 的潛力。因此我們做了一件對早期公司來說非常少見的事情:與外部一位知名的、也是我以前的一位老師一起成立了聯合實驗室。我們投入了很大資源去做一些基礎性研究和前沿探索,而且在那時我們幾乎沒有營收,這是相當大膽的決策。
這些研發工作到 2023 年初開始顯現成果,特別是生成式影片模型開始湧現。那段時間非常令人興奮,我們大約每兩到三週就能迭代出一個新模型。但在那時我們走錯了一步棋 – 我們同時在做兩件事:一方面推廣原有產品並追求營收;另一方面進行基礎研發,認為這可能是未來的重要機會點。
當時我們有個看似不錯的理論:從兩個方向同時出發,一邊做貼近市場的應用,另一邊做高階前沿研究,希望有一天這兩條路能夠匯合。但現在回頭看,對初創公司而言,這其實是一個相當錯誤的想法。
到了 2023 年,我們陷入了一種尷尬狀態:我們想做的產品功能無法被我們的基礎模型所支援。因為基礎研究是按照自己的路徑推進的,雖然模型效果很有趣、很令人興奮,但這些成果難以產品化,總是有各種各樣的隨機性和奇怪的問題。所以在 2023 年,我們基本上糾結了一整年 – 我們在研究方面很激進,在應用抓取方面也很積極,但這兩條路徑始終無法有效融合。
🚥 Koji
沒有形成合力(synergy),反而出現了「你幫不上我,我幫不上你」這種情況。
👦🏻 周昌印
對,特別糾結。研發的人也很糾結,他覺得我出了個模型,你為什麼不能把我產品化?然後產品說我要這個東西,為什麼你模型沒給我。
🚥 Koji
最後誰勝出了呢?
👦🏻 周昌印
最終,專注於應用和使用者需求的方向勝出了。到了 2023 年 10 月,我們釋出了一個 PR(新聞稿)宣佈我們的模型成果。雖然 PR 中沒有明確表示,但實際上這意味著我們不再繼續純研究路線。
我們釋出了一個名為「HiveNet」的多模態模型,但從那時起,我們的研發團隊所有專案立項都必須從產品需求出發,必須得到產品團隊的認可才能進行。
理論上我們仍然為研究團隊保留了 20% 的資源,讓他們可以探索自己感興趣的方向。但從 2023 年 10 月之後,我們所有的研發立項都是從產品需求出發,以解決實際問題為導向。
🚥 Koji
但這樣的話,研究人員會因此而離職嗎?他們會不會覺得這裡不再是當初吸引他們的研究環境了?
👦🏻 周昌印
其實不會。
經歷一年多的發展歷程,大部分的研究人員期望將自身研究成果整合到產品中。他們注意到我們其他產品擁有龐大使用者基礎,但是自己的研究難以進入這些產品線。這種情況確實與研究人員的心態密切相關。
我們有幸與幾位特別關注應用落地的研究人員建立合作關係。如今,每當 Vozo 使用者量實現增長且反饋積極時,這些研究人員便會感到非常開心。我相信這已經形成了持續向上的良性迴圈。
🚥 Koji
方便問一問,Vozo 目前融資到什麼程度?團隊規模大概是怎樣的?這裡面的研究以及產品都分別佔多少?
👦🏻 周昌印
我們現在融資在 A 輪之前,主要是線性資本跟紅杉種子。大概後面還有一些個人投資者加在一起大約會有 600 萬到 700 萬美金的樣子,所以我們的資金效率可能還算是比較高。因為我們中期迭代過很多產品。
🚥 Koji
從 21 年到 25 年,四年只融了 600 萬美金,資金效率確實非常高。
👦🏻 周昌印
我們從 2022 年到 2023 年開始,之前的一些產品相當成功,也產生了營收,所以我們的財務狀況比較健康。目前整個團隊的現金流是正向的,因此壓力不會那麼大。這一點是我們最初沒有意識到的,但後來發現這對整個團隊的心態有很積極的影響。
我們現在團隊有四十多人。研發人員佔比大約 70% 以上,所以我們在研究方面投入非常重。
🚥 Koji
我很好奇,一個僅有四十幾人的團隊如何能夠憑藉百萬級別的 ARR 實現收支平衡?這是否意味著你們還有其他產品線在持續貢獻收入?
👦🏻 周昌印
Vozo 雖然是我投入最多精力的專案,但它並非我們目前營收的主要來源。
我們之前開發了兩款應用程式,在國內稱為 「說得提詞器」(現改為 說得相機) APP,在海外市場則名為「Blink」。這兩款應用同樣致力於幫助創作者更輕鬆地製作影片,但其背後採用的是較為傳統的計算機視覺和自然語言處理技術。
這兩款應用的 ARR 約為 600 萬美元。正是這些產品確保了我們目前的現金流達到收支平衡。所以現在 Vozo 賺的所有 ARR 都是我們的利潤。
🚥 Ronghui
你們現在是一個應用工廠的模式嗎?
👦🏻 周昌印
這是個好問題。
最初我們並未確立明確方向,僅圍繞「影片表達自由」這一理念,基於使用者需求開發了首款應用。後續我們發現這個應用採用傳統計算機視覺方法反而能力受限,隨即著手開發基於生成式 AI 技術的新產品。
在相當長的一段時間內,我們同時運營著兩款產品,這也是我們團隊感到特別痛苦的地方——同時推進兩條平行的產品線。不過隨著時間推移,我們現在找到了將它們有效融合的方法。再過一段時間,你會發現這兩款產品實際上將合併成一個統一的產品。它們的功能將相互共享,最終能夠服務於所有內容創作者、各公司的市場營銷經理以及電商從業者等——所有需要透過影片講述視覺故事的人。
🚥 Ronghui
找到了什麼方法可以讓它們很好的結合起來?
👦🏻 周昌印
這兩個產品之間的使用者重疊率大約為 20% 到 30%左右。
在定位方面,APP 端主要面向 C 端,包括關鍵意見領袖 (KOL)、關鍵意見消費者 (KOC) 以及少量的中小企業 (SMB)。而 Vozo 則主要服務於企業營銷部門和部分中小企業,因此我們在中小企業這一細分市場有較多重疊。
產品合併後,它們將實現使用者互相導流、功能互相共享。我們會建立統一的會員系統,使用者購買 Vozo 會員後可以同時使用 APP 中的功能;同樣,購買 APP 會員並新增一定點數後,也可以使用 Vozo 的功能。這樣兩邊的使用者將完全打通,我們對此非常期待。
合併後的產品將統一使用 「Vozo」這個名稱,因為整個團隊更喜歡這個品牌名。
🚥 Ronghui
為什麼叫 Vozo 這個名字呢?
👦🏻 周昌印
這個名字是 GPT 幫我們創造的,確實非常有趣,給我留下了深刻印象。
我們想找一個簡短的詞,與 「video」和 「voice」相關,因為我們在製作內容的時候基本上都是 「talking to video」——有人在說話,有人在畫面中展示自己。
除了與「video」和「voice」有關聯外,我們還有一個願景:希望將來每個人都能擁有自己的專屬空間。在這個空間裡,你可以像寫部落格一樣,透過影片分享你的想法和情感,擁有屬於自己的個人領地 Zone。基於這個理念,我們將其命名為「Vozo」。
不過選擇這個名字最主要的原因是我們都喜歡這個發音——簡短有力,vozo.ai 一共只有六個字母,而且非常朗朗上口。這就是我們最終選定這個名字的過程。

影片模型與 Vozo:差異化的技術路線
🚥 Koji
過去一年,影片大模型領域發生了非常多的變化。
我們上一期正好就是和 Luma 的產品經理在聊《AI 影片大模型 20 問》,來帶大家覆盤從 Sora 釋出至今的一年,影片大模型領域發生的種種事情。
在這些發展中,哪些與 Vozo 有直接關係,哪些有間接關係?
👦🏻 周昌印
Sora 與我們的業務關聯相對有限。
2023 年 10 月,如我先前所述,我們釋出了一則新聞,展示了團隊此前開發的視覺模型。這一時間點位於 Runway V2 釋出之前,即 Runway 第一代模型推出之後的階段。透過該專案的實踐經驗,我對視覺大模型在影片生成領域面臨的技術瓶頸形成了清晰認識。
我能夠預估這些技術瓶頸的突破時間點,包括可控性、一致性及計算成本等關鍵指標。同時,我也評估了將成本降低至普通創作者可接受水平所需的時間週期——例如,生成一小時影片的費用需控制在 200-300 美元以內。基於這些判斷,我決定不再繼續推進視覺大模型的開發。
當然,還有其他因素影響這一決定,比如這項工作需要大量資金投入。我不是特別擅長融資,所以認為自己可能做不了這樣的一個事情。因此,我轉向開發 AI 增強或 AI 輔助的影片創作工具,而非直接從文字生成影片的系統。我認為在短期一兩年內,後者很難有重大突破。
另外,我認為即使有突破,它也不會成為一道行業壁壘——這一點後來得到了驗證。雖然 Sora 釋出時令人印象深刻,遠超其他產品,但我們預計幾個月後其他公司也會推出類似技術。這確實如期發生了,現在中國已有多家公司能夠開發視覺大模型。
這形成了我個人的一個判斷:無論是語言模型、音訊模型還是視覺多模態模型,只要它是通用的,未來都不會成為壁壘。因為總會有開源和各種方式使其普及,所以我們的創業儘量避開這些領域。
我們自主開發的所有模型,均針對特定應用場景的專業需求。例如,在翻譯領域,我們對語氣保持有特殊要求,因此專門開發了聲音克隆、語音合成和唇形同步等模型。我們圍繞真實使用者需求,在垂直領域中持續迭代產品模型。對於外部的基礎模型,只要適用於我們的場景,我們都會採納整合。
🚥 Koji
你們為了提升使用者體驗確實做了大量的工作。
從最初的提詞器 App 到現在的「翻譯語氣保持」等方面,都體現了這一點。不過,我感覺這些努力可能並未被使用者們充分感知到?
👦🏻 周昌印
是的,我認為使用者真正使用後才能體會到這些技術的價值。以我們的翻譯功能為例,如果大家親自嘗試就會發現翻譯中存在許多難點。
比如將中文翻譯成德語時,兩種語言的表達長度差異很大。據我瞭解,德語可能是最繁瑣的語言之一——你用中文說 5 秒鐘的內容,用德語可能需要 15 秒鐘。在同一個影片中,如果畫面沒有明顯變化,就會出現非同步問題。比如說中文部分 5 秒鐘說完了,那麼嘴巴是繼續動還是停止呢?你不能讓嘴巴閉上 15 秒鐘吧?這個問題該如何解決?
其實有很多解決方法。在翻譯時,我們需要找到一個既能在語義上匹配原文,又能在語氣語調上接近原聲,同時還能與口型自然匹配的翻譯方案。這實際上變成了一個最佳化問題。
不同語言有各自的特點。例如,當你拍攝一個一分鐘或 15 秒鐘的短影片來講述品牌故事時,品牌名稱通常是一個專有名詞。翻譯的過程中如果你不瞭解這點,可能會錯誤地翻譯品牌名稱。人工翻譯時,你可以提前告知翻譯人員:「這是我的品牌名稱,請不要翻譯錯了」。但機器翻譯通常缺乏這種上下文理解,會直接將其翻譯出來。因此,我們需要一種合理的方式來指導翻譯系統進行調整,這又使得剛才的問題變得更加複雜。
口型同步也是類似的挑戰,不同語言有不同的口型特徵。關於情感表達,普通的聲音克隆技術,比如 Koji 或者 Ronghui 口述的一分鐘,可能只是學習你們一分鐘語音的整體音色。但翻譯不同,理想情況下,我們希望每一句話的情感都能被準確複製。比如原聲中一句話平靜,下一句話激動,那麼翻譯後的語音也應當保持相同的情感變化。
但是,翻譯又不能簡單地一句對一句進行,那樣會丟失上下文,導致翻譯質量下降。所以我們既要考慮上下文,又要保持對應關係,還要能夠複製原聲的情感。這就是為什麼在行業常識中,機器翻譯長期被認為是不夠好的。
如果你對質量要求很高,傳統上你會僱傭一個專業團隊,花費每分鐘 50-100 美元進行翻譯。但實際上,如果這些技術都做得足夠好,我認為它的效果可以超過一般的人工翻譯。當然,與頂尖專家相比,可能還有差距。不過我認為再過一兩年,這項技術可能會超越人類專家的翻譯水平。
對於電商使用者來說,當你需要翻譯一個推廣影片時,基本上只需輸入一個影片,就能得到一個保留了原始語氣、語調和情感的翻譯版本。最近我們還嘗試了短劇的翻譯,這更具挑戰性,因為短劇中的表情通常非常誇張,有時候角色會激動地拍桌子。如何保留這些情緒和語調是一個重大挑戰。
所以我們正在逐步挑戰更困難的問題。最初我們從簡單的演講開始,現在慢慢能夠處理一些短劇的翻譯了。
🚥 Koji
上面提到的這些問題,我感覺每一個問題都很有意思。
你們在面對這些問題時,是優先用工程手段、還是技術手段去解決呢?
👦🏻 周昌印
我們會採用多種解決方案,包括研發手段(如模型提升)、技術手段(工程方法)以及產品手段。一般來說,我們優先考慮產品手段,比如新增一個彈窗提示使用者點選某處,這通常是最直接有效的解決方案。
其次是技術層面的最佳化。就像剛才提到的那些最佳化:既要延長語音時長,又要與畫面對齊,還要保持情緒表達不變,這本質上是一個最佳化問題。我們可以編寫演算法來實現這些最佳化,這屬於工程方法。
還有一些問題,比如語氣的精準複製,如何能夠快速地逐句複製情感表達,這就需要模型的迭代改進。所以解決方案分為這三個層次,這使得工作非常有趣。當發現問題時,我們需要決定使用哪種方法來解決,哪些是當前的臨時解決方案,哪些是未來必須完成的改進。剛才提到的語氣複製就是一個很好的例子。
最初,我們會給使用者一些互動選項,比如允許他們加強某些表達效果,讓使用者自己進行控制。但這實際上非常困難,特別是在翻譯方面,很多使用者甚至聽不懂第二語言。因此,我們逐漸轉向使用模型來直接幫使用者完成這些任務。
還有一個有趣的問題:比如將中文翻譯成阿拉伯語,作為使用者,你可能完全不知道翻譯是否準確,這種情況該怎麼辦?如果你僱人翻譯,付錢籤合同後,對方翻譯錯誤,你可以向他們追責。但作為 SaaS 服務提供商,使用者無法向我們追責,那該怎麼解決這個問題呢?
因此,我們提供了一些創新功能,比如「回譯」(back translation)。這個功能會將翻譯後的內容再次翻譯回原語言,然後你可以對比原文與回譯文字。如果意思大致相同,那麼原始翻譯很可能是準確的。
🚥 Koji
有意思!先翻成阿拉伯語,再把阿拉伯語翻成中文。這有點像之前快樂大本營的遊戲,一個人蒙著眼睛給另一個人講,然後再往前傳遞。
👦🏻 周昌印
否則的話這個問題很難解決。你怎麼說服使用者,特別是使用者如果他發的是很重要的 marketing 的影片,他很難去點這個 button,他不知道你翻譯的對不對。
🚥 Koji
其實剛才有提到 Sora 的釋出,視覺模型對你們做 Vozo 的影響其實不太大。
但感覺過去這一年,其實大家說到 AI 影片,都覺得是視覺模型在突飛猛進,各種新聞都和它有關,各種炸場的產品也都和它有關。
過去一年有哪些技術突破,讓 Vozo 從不可能變成可能,或者從原來只能做 60 分做到 80 分、90 分?
👦🏻 周昌印
對,這些技術都緊密相關。
以 Sora 的 DIT 架構為例,該技術與我們直接相關。在聲音復刻和嘴型生成領域,如果對這個方向比較熟悉的話,業內人士都知道四五年前存在一套老舊的技術方案,主要依靠 GAN 或其他生成模型,但當時的清晰度很低,真實度較差。
經過這波技術革命後,我們開始採用 transformer 進行口型生成。近期又出現了新的技術演變,比如高斯 splatting,它能更快速地生成更高質量的內容。我們並不專注於研發非常底層的新技術來替代 transformer,而是基於現有技術對口型生成進行最佳化。透過翻譯後,我們還能對口型做調整。目前,我們的口型同步(lip sync)技術可能是行業領先的、最好的之一,這得益於我們擁有大量資料積累和對最新技術的持續跟進。
我們也應用各種影片生成模型。在最新發布的功能中,我們能讓靜態圖片動起來併發聲,這實際上是利用視覺大模型進行生成。我們的模型有其獨特之處,主要專注於讓照片自然地動起來。很多公司都在研究如何提高生成速度,以及如何讓動態效果與語音更加和諧。當整個影片生成行業不斷前進時,我們努力站在前人肩膀上,跟隨這一發展趨勢,解決過去無法解決的使用者問題。
回到剛才的問題,無論是快速的單句聲音克隆、高度真實的口型面部表情,還是整體畫面的生成,這些技術突破大多發生在過去一年半到兩年內,有些甚至僅在過去半年才出現的創新。
🚥 Koji
視覺模型正在快速發展,Google 最近也釋出了廣受好評的 Veo 2。
你如何看待這一觀點:隨著基礎模型不斷進化,它們可能最終會「吞沒」和取代那些專注於特定功能最佳化的產品?
👦🏻 周昌印
對,我認為這一定會發生。它就像一輛大車,對於產品開發者而言,我們內部有一個準則:
如果是標準模型,不要去觸碰它,我們應該專注於開發靠近應用端且與眾不同的東西。這些差異化的產品實際上非常穩固。
回顧過去,以 Midjourney 為例,從文生圖到整體生成框架,技術基礎可能大同小異。但從商業角度看,很多使用者已經習慣使用 Midjourney,而 Midjourney 本身在技術上有許多精細調整,這些微小差異能帶來巨大的使用者體驗區別。
影片領域也是如此,未來可能會出現類似 Deepseek 的更易用的視覺模型。但當你將技術應用到具體場景時,差異會變得極為顯著。這一現象在過去的谷歌眼鏡專案、我之前的創業經歷,以及包括 Midjourney 的 David 在他上一次創業中都有體現。在相同的技術時代,他能做得比其他人好很多。
這正是應用端技術人員應該專注的方向。
我認為不必過分擔心單一模型會消滅所有技術空間和創新機會,這是不可能發生的。在技術相似的基礎上,應用層面的創新和最佳化仍有巨大空間。
🚥 Koji
有沒有什麼 idea 是你看到了技術突破帶來的新產品機會,但還沒顧得上去做的?或許可以給正在創業選方向的朋友們一些啟發。
👦🏻 周昌印
這個不敢說,因為只有進行實際調研才能瞭解真相。但我個人對某些方向確實很感興趣。因為我之前參與過谷歌眼鏡,我認為將眼鏡與低延遲 LLM 結合會是一件非常有趣的事,這蘊含著巨大的想象空間。
不過,這可能又讓我重蹈覆轍——僅僅因為我對某項技術感到興奮就投入其中。真正要做決策時,還是需要進行商業分析。從技術角度看,我們在開發谷歌眼鏡時想實現的許多功能,當時做不到,而現在都已經成為可能。
谷歌眼鏡專案中有一件事情,我也非常 buy in,也是 Sergey Brin 很想做的事情,「谷歌眼鏡讓你更聰明」。他們的構想是:比如 Ronghui 問我一個問題,實際上我無法回答,但眼鏡能夠迅速地給我提示,快到讓我感覺答案是我自己想出來的。這種體驗對於像我這樣的使用者來說,是願意付費購買的。

從 Google X 到創業:精英到接地氣的轉變
🚥 Ronghui
你前面提到成立實驗室的部分,我認為這對初創公司來說相對少見。能否分享當時想要實現的目標,以及這個實驗室如何助力這些目標?
另外,我瞭解到你之前來自 Google X,成立這個實驗室是否受到你在 Google X 工作經歷的影響?或者你能否先介紹一下你在 Google X 的經歷嗎?
👦🏻 周昌印
雖然我最近在國內,但我的職業生涯大部分時間是在美國度過的。
2011 年我在哥倫比亞大學博士即將畢業時,正面臨是成為教授還是嘗試其他發展道路的抉擇。恰巧當時斯坦福大學的一位教授邀請我加入他在 Google X 成立的新團隊。於是我從哥大休學,與這位教授和另一位學者一起在 Google X 組建了新團隊。
回顧那段經歷,我們的團隊實際上是為滿足 Google 聯合創始人 Sergey Brin 的眾多探索需求而成立的。團隊最終擴充套件到約 12 人,其中包括四位格萊美獎得主。我們基本上網羅了計算、攝影領域最頂尖的人才,因此完成了許多具有開創性的專案。我們負責開發了谷歌眼鏡最核心的成像和影片處理演算法,奠定了整個技術基礎。從技術層面看,現在幾乎所有安卓手機上的影像處理和視覺處理技術,都源自於我們當時建立的技術平臺,這對我的職業發展產生了深遠影響。
隨後我開始了創業之路。我的第一次創業在美國,專注於 immersive video 領域的前沿技術,當時應該是業內最高畫質影片渲染生成的創業專案。而我的第二次創業——現在的公司——則形成了鮮明對比。這家公司做的是非常接地氣的事務,這也是我最大的一課:
必須開發使用者明確需要且不可或缺的功能。
這種接地氣的產品往往不那麼「性感」,我最初做的第一個功能讓我感到有些「低階」,儘管使用者都需要它。這產生了我個人情感上的矛盾,需要某種途徑釋放。另一方面,我認為這些接地氣的功能雖然滿足使用者需求,但無法實現我們所追求的「影片表達自由」這一更宏大的願景。用傳統方式推進,很難達到我們的目標,儘管這樣做能夠創造收益。
因此,我意識到需要設立研究部門來解決一些核心問題。例如,有些人的形象較差,音色不佳,表達不流暢,無論如何剪輯都難以改善。即使提供最好的提詞器、準備完善的指令碼,他們也拍不出好內容。這些問題需要被解決,所以我們開始了研究工作。
這個決定有些任性,但非常幸運。並非我們獨自取得了突破,而是整個行業在 2023 年實現了多項重大進展。我們的實驗室藉助這些行業突破,推動了相關技術的發展。所以這可能是一次冒險,但也是一次幸運的嘗試。
🚥 Ronghui
這個其實就是喬布斯說的,你在某一個時間線上會發現前面的點都可以連起來。
剛剛你說的這個時候,我突然想起來,我認識你的時候應該就是在第一段創業的時候,對吧?
👦🏻 周昌印
對的。
🚥 Ronghui
你可以再說說,比如說當時在 Google X 工作時,那裡是否就是一個沒有預算限制、純粹追求探索的環境?這種對科研工作來說是不是一個非常理想的環境?
👦🏻 周昌印
對,我覺得可能沒法想象比那更好的環境了。
那時候的工作條件非常寬裕,我舉個例子:我同時管理著一個影像實驗室 (image lab),如果需要採購裝置,一萬美元以下我可以直接購買,非常奢侈。
在招聘方面,第一階段我們會從 Google 其他部門挖來 A plus 級別的人才。當時 Larry Page 負責管理正式業務,而 Sergey Brin 則負責 Google X,探索各種創新專案。有一天 Larry 生氣了,表示我們不能再從 Google 其他部門挖人,於是我們開始向外部招募。基本上,我們會尋找在特定領域最頂尖的專家,資源相當充足。
不過,這也成為我後來離開的原因之一。進入這種狀態後,我們基本上都在做研究工作。後來我帶領一個專案,有六七個人與我一起合作。我們在 all hands(全員會)上 demo,展示完畢後大家覺得非常酷,然後就沒有然後了,但僅僅是掛在牆上作為展覽品。
我發現這與我讀博士時的經歷沒什麼區別,感覺很輕鬆但有些浪費機會,太過自由了。當這種自由走向極端後,我意識到專案難以產品化,無法產生實際影響。這就是我最終選擇離開的主要原因。
🚥 Ronghui
你能給聽眾解釋一下,Google 的 A plus 指的是什麼?
👦🏻 周昌印
我們會尋找其他部門能力最強、業績最突出的人才。比如看中了 Google Earth 團隊(負責Google地圖)中某位特別優秀、最聰明的成員,我們就會去將他招募過來。這些人通常都願意加入我們的團隊,所以基本上我們可以在 Google 內部自行挑選人才。
這種做法其實對公司整體並不理想,特別是對業務部門而言,因為他們負責賺錢的,而我們這邊主要是花錢的 (笑)。
🚥 Ronghui
正好前兩天聽 Marc Andreessen 他們最新的一期播客裡面講到並盛讚開源的意義。
其中提到說正是因為開源,才讓學界有了能力去做一些前段時間只有大公司才能做的事兒。就是因為花費太高。
👦🏻 周昌印
我覺得把一些厲害的人放到能產生影響地方,我覺得是比較重要的。
而不是一些大廠或者是某個機構把很厲害的人聚集在一起,但不產生效果,我覺得其實是比較浪費的一件事情。
🚥 Ronghui
你當時抱著一種想要讓自己的研究能夠落地,能夠變成現實的這麼一個想法。
可以說一說你當時第一段創業經歷主要是做什麼?因為我記得當時是做 VR 對吧?
👦🏻 周昌印
對,這很有趣。雖然我帶著避免過度研究導向的想法離開 Google,但回顧我的第一段創業經歷,實際上仍然非常偏向研究驅動。我當時自認為已經很努力地把握使用者需求,甚至確信自己抓住了核心需求,但現在回頭看並非如此。
在第一次創業中,我更多擔任 CTO 角色,因此特別關注技術是否處於行業領先地位。那時我們嘗試的方向其實相當冒險 – 我們希望實現兩個人無論身處何地都能隨時隨地見面的功能,即所謂的「心靈傳輸」(teleportation)概念。為此,我們開發了大量影片壓縮技術,研究如何實現高畫質、即時渲染。
從宏觀邏輯看,這種需求似乎非常巨大 – 能讓任何兩個人跨越空間限制實現連線。但實際上,如果從商業角度進行細緻分析,你會發現這個商業場景並不成立。有許多因素會導致商業模式難以實現。
這說明僅僅有一個從邏輯上看似合理且市場廣闊的創意,並不足以支撐你去實施這個專案。
🚥 Koji
但似乎也僅僅是嘗試之後就結束了,大家的裝置紛紛開始吃灰,沒有人真正在用它打電話。你也提到這不是一個真正的剛需 ——你曾思考過這背後的原因嗎?
👦🏻 周昌印
Vision Pro 剛上線時,我其實就不太看好它,儘管我知道它的體驗會非常出色。我第一個創業公司有位員工後來就去參與 Vision Pro 的開發,因為他仍然對 VR 領域充滿熱情。
商業上能否成立其實取決於很多條件。首先是產品形態 (form factor) 如何,普通人能否接受,以及是否存在替代方案。另一方面,你需要形成完整的生態系統,需要有大量應用和內容生產,整個產業鏈必須運轉順暢。
我在第一次創業後,採取了更為保守的商業策略:專注於整個行業鏈中缺失的最後一環。有時你可能覺得某個願景很美好,理應能夠實現。但如果這件事需要五個環節才能完成,而你只負責第一環,期望別人完成另外四環,這實際上是極其困難的。
Vision Pro 也面臨類似問題。無論從產品形態、價格還是使用者必需性 (must-have reason) 來看,它都缺失了很多要素。當然,它確實有令人著迷的地方——體驗非常好,非常酷炫。你可以想象出許多美好的應用場景,但這些場景難以形成完整的商業鏈條,因此難以真正成功。
即使像 Apple 這樣財力雄厚的公司,也很難將如此龐大的產業鏈條串聯起來。對創業公司而言,最好的策略可能是遠離這類需要構建完整生態的宏大專案。
🚥 Koji
其實 Vozo 釋出的第一版就已經非常成功。這個成功背後也有使用者的認可——他們喜歡使用、願意傳播。
你覺得在做 Vozo 的時候,你自己是做對了哪幾件事情,帶來了這個結果?
👦🏻 周昌印
在開發 Vozo 的過程中,我發現自己比以往更有耐心。回想之前開發產品時,作為偏研究型的人常常過於興奮,一有好想法就迫不及待要實現,否則會感到遺憾。而 Vozo 的誕生則經歷了多次構思與否定的過程。
Vozo 的前身是我用 GPT 幫我寫了一個我想用的功能。這使我能在電腦的 Terminal 裡面用命令列去做影片編輯。2024 年 3 月左右,我對這個概念非常滿意,便開始實際使用它來剪輯和修改影片,卻發現實際效果與預期有差距。
雖然這個工具理論上可以幫我修改任何內容,但我卻不確定該如何操作。我開始向 GPT 請教修改方法,然後逐條調整,但這個流程顯得繁瑣。於是我將 GPT 整合進來,只需告訴它「請將影片調整得更溫柔一點」,它就能完成修改。
從 2024 年 3 月開始,我編寫小程式進行使用、測試和迭代,不斷新增新功能。直到 7 月,我才開發出一個較為滿意的版本並決定上線。
這個過程中,我們進行了大量研究,這也帶來了好處。由於我們之前有其他產品和多個社群,我對普通創作者的水平和可能遇到的問題比較瞭解。儘管我們的影片視覺模型已積累多時,真正推出產品前仍花了相當長的時間。
我認為值得花時間找到合適的產品再推廣,好過你做了然後發現做錯了。
🚥 Koji
你提到自己直接在 Terminal 裡面用命令列去剪影片,這是在探索使用者需求的過程中嘗試的,還是當時你確實有這方面的實際需求?
👦🏻 周昌印
我構思了一個理念,希望能像編輯文字那樣編輯影片。雖然已經將構想畫成圖紙,但我認為僅存在於腦海中的想法不算數,因此決定將其實現出來。最快的實現方式是透過 Terminal 操作,於是我開發了一個沒有圖形介面但可以透過命令列執行所有編輯功能的軟體。
完成第一個影片後,團隊成員開始提問:「這個影片也能改成那樣嗎?」然而,製作那個影片耗費了我大量時間,需要逐幀細緻處理,這只是我的初始版本。
隨後我開始思考如何將製作時間從 3 小時縮短至 10 分鐘左右,因為我意識到普通使用者若需花費超過 10 分鐘完成任務,很可能就會放棄。就這樣,我逐步改進我的原型,直到某個階段,我感覺這個專案變得頗有意義,團隊才真正加入並著手開發這款產品。
🚥 Ronghui
你說到第一段創業經歷結束,後來回國再創業,當時心裡面想說一定要做這個非常接地氣的事情。
當時是什麼樣子的事情發生,或者是什麼樣子的感觸,讓你有了這個想法?
👦🏻 周昌印
我的創業體驗在過去幾年有了顯著的轉變。當初開發 VR 專案時,我們服務了包括 AT&T、Verizon、中國移動和中宣部等大客戶。
但是我發現一個明顯的問題:每次產品迭代後,我們總是需要求這些客戶使用新功能。儘管他們付了錢,但許多時候產品只是被閒置,沒有真正融入他們的工作流程。我們不得不主動索要反饋,而客戶往往根本沒有使用產品。這種情況限制了我們前一家公司的發展潛力。
這種感受在當時可能不那麼明顯,但 2020 年我回到國內,2021 年我在國內待了更長時間,情況變得更加清晰。疫情期間,我被困在杭州,利用這個機會與當地十幾家 MCN 的 CEO 進行了交流。和這些人的對話形成了鮮明的對比:每次交談,這些創作者都會提出大量具體需求,詳細描述他們希望如何製作影片。
這與 VR 專案的經歷形成了強烈反差:一邊是有明確需求但我暫時無法滿足的客戶,另一邊是我開發了許多功能卻需要懇求客戶使用的情況。後一種體驗尤其痛苦。
這讓我意識到,成功的商業模式應該是提供人們真正渴望的產品,完成後他們能立即投入使用,這才是良好的商業體驗。
🚥 Ronghui
然後你做了什麼呢?
👦🏻 周昌印
我們最初開發直播機的經歷很有趣。當時許多 MCN 公司想建立包含數百個直播間的大樓,卻面臨著管理難題。高階直播通常需要多個機位和一名導播,所有人戴著耳麥協調操作,整個過程非常複雜。
為解決這個問題,我們開發了一款約人頭大小的直播機。只需一人手持平板,大部分鏡頭切換都由系統自動完成。它能理解場景內容,當你展示商品時自動切換到手部特寫,大大簡化了導播工作。
作為研究人員,我們自然而然地希望用 AI 取代傳統方法,但這款產品雖有創新性,仍不夠接地氣,存在諸多商業問題。
半年後,我們終止了這個專案,轉而開發至今仍很成功的產品——提詞器。提詞是大多數人 (包括我在內) 面臨的最大挑戰。一旦需要記憶超過半分鐘或一分鐘的內容,就容易忘記。拍攝時如果記不住內容而頻繁檢視提示,往往會導致影片報廢。
我們的 AI 提詞器設計簡潔實用,它懸浮在手機上方靠近相機的位置,類似卡拉 OK 但更智慧——文字會跟隨你的語速自動滾動,你停下它也停,語速加快它也隨之加快。這解決了許多非專業創作者的核心痛點。
這款產品帶來了意外收穫。最初我只是確信使用者需要它而開發,並不確定能否盈利。但推出後發現付費率出奇地高。於是我們圍繞這一核心功能逐步擴充套件,新增更多功能,付費率也隨之提高。
該產品於 2022 年上線,至今累計約 800 萬用戶。我們還建立了私域社群,因為許多達人需要專業指導,現在社群規模已接近 10 萬人。這讓我意識到國內市場規模巨大,對接地氣產品的需求非常旺盛。
從 2021 年開始,我們先做直播機,後轉向短影片製作,圍繞提詞器逐步完善應用。如今,這款應用已成為我們主要的營收來源。
🚥 Koji
當時做一個提詞器 App,這聽起是你之前可能十年的研究心得都無法發揮了。
那當時是一個什麼心情?是否會產生一種割裂感,彷彿之前所有的專業積累突然失去了施展的舞臺?
👦🏻 周昌印
確實,有時當我與以前的老師或同學交流時,我通常不會提及我在做什麼(笑),因為提詞器並不是一個特別「sexy」或高大上的產品。
但是說回來,開發一個真正好用的 AI 提詞器實際上非常具有挑戰性。使用者錄製時可能面臨各種複雜情況:房間裡噪音很大,說話者口音很重,語速不穩定或跳躍性表達。
要讓產品在這些條件下依然表現出色,需要解決大量不起眼但至關重要的技術難題。再加上使用者裝置效能參差不齊的問題,整個開發過程充滿了「髒活累活」。
這種情況也正如你之前提到的,某種程度上逼迫我後來建立了實驗室。
🚥 Koji
如果再回到那個時候,你還是會做實驗室嗎?
👦🏻 周昌印
我認為這種情況確實存在多種可能性。那個決定的確是較為衝動的。當然,這與我之前的一位美籍外籍院士導師有關。
從邏輯角度分析,我們確實處於一線位置,瞭解影片創作中的眾多實際問題。而許多研究人員雖然具備強大的研究能力,卻往往不清楚真實問題所在。因此,從這個宏觀邏輯出發,建立一個深度研究實驗室、確定課題和研究方向是有價值的。這個結論本身是合理的。
問題可能在於時機——也許我不應該在同時創業的情況下進行這項工作。當時確實沒有考慮那麼周全,就直接付諸行動了。現在回想起來,我可能是 50% 不會再做、50% 會再做的態度,我並不完全確定如果再來一次,我會否再次建立實驗室。
🚥 Ronghui
所以在時間上是到提詞器的這個時間點。
那按照這個時間線,從 Google X 到第一個 VR 的創業專案,到杭州做了直播機,然後是提詞器,接著是 Research Lab,最後是 Vozo 會跟提詞器的 APP 會合並。
👦🏻 周昌印
對,提詞器其實在原來 APP 裡已經變成一個功能了。因為它只是這個 APP 最開始的入口。
不過回到剛剛 Koji 問我的問題,我覺得回到那個時候,這個 Lab 大機率還會做。如果不做 Lab 我一定會做別的。
🚥 Koji
別的更 crazy 的事情?
👦🏻 周昌印
對,否則的話我覺得如果我只是做純的接地氣,然後能夠 make money 這件事情,我覺得我應該是不會接受這個東西的。
🚥 Koji
此刻呢?此刻你覺得自己接受了嗎?
👦🏻 周昌印
我認為 Vozo 的成績至少給了我一種自豪感,這是我親手創造的成果,讓我感到滿足。相比之下,如果只開發了提詞器,我可能會覺得無法向自己交代這段創業經歷。
🚥 Ronghui
你在當時做提詞器這個時候,我覺得對你的職業經歷來看,要求是很高的。
因為你要改掉過去的工作習慣,作為一個有光環的海歸,回來之後接觸的人,也不是說人家做的事情就是接地氣,而是你要去接觸一群可能從來沒接觸過的人,你可能以前都不知道該怎麼跟他們打交道。
我想問的問題是,你在這個時候做了哪些可能對自己影響比較大的自我反思(self reflection)或者其他什麼樣的比較大的調整,能讓自己去做一些以前從來沒做過的事情,克服這種我們從來沒有做過這件事情帶來的恐懼?
👦🏻 周昌印
我覺得我的性格比較有意思,因為這件事情我自己沒做過,所以我在做的時候還挺 exciting 的。
有時候去一些直播基地,然後跟一些以前從來沒聊過的人聊,有時候會讓我非常 surprise。最開始做的時候,我舉個例子,有一個使用者跟我們抱怨說他提示器不好用。我們就問他是不是房間比較有噪音?畫面看起來比較差,燈光是不是比較暗?他會很確定地跟我說,他房間裡非常安靜,燈光非常好。
我們就很奇怪,以為我們出 bug,於是去了他們拍攝的地方,發現他燈光非常暗,邊上車來車往特別吵。我覺得很有意思,他不是說謊,他就是這麼認為的。人是很不一樣的,他覺得房間很亮,但我們說的亮不是他說的亮,我們覺得安靜,不是他說的安靜,這很有趣。
所以我去很多直播基地,包括跟每一個 MCN 的 CEO 聊的時候,我覺得他們跟我們完全不一樣,很好玩。這好玩是一方面,但有時候晚上靜下來想想我做的是什麼事情,就又會有別的感受。我知道可能有些人會很難接受,但我還好,我覺得這部分讓我覺得 exciting。
不 exciting 的點是我做的東西好像別人也能做,或者說我可能做得比別人好一點點,但讓別人做也能做,這是我的挑戰。因為我之前做 researcher、做 scientist 的人一般會有一個想法,就是我要做別人做不出來的東西。這是心理上比較大的挑戰。
🚥 Koji
這也是一個經濟理性上的考慮。
當我做的是其他一萬個人都能做出來的東西時,我就沒有獨特的競爭力。所以我要做別人不能做的事情,這樣的競爭力才能讓我有持續的差異化,可以越做越輕鬆。
👦🏻 周昌印
對,技術出發的人,這個坎一般過不去。總是覺得如果做的東西沒有技術領先優勢,感覺就不能做了。
有時候我們不能叫自己精英,但說精英創業的話,這其實是很難突破的一件事情。你總覺得要做點不一樣的事情,但從商業角度來說,其實不是這樣子。
🚥 Ronghui
我覺得這是很多研究背景或技術背景創業的人都會遇到的問題。你怎麼樣從商業的角度來看這個問題,而不是從技術突破的角度來看這個問題。
👦🏻 周昌印
對,每天都會看到很多專案是這樣子的。我覺得有幾個思路,可能沒有特別系統化。第一個是需要成為一個好的產品經理,就是得拋棄自己的 wishful thinking。
比如我第一段經歷就更像是 wishful thinking。我覺得如果做成一個能夠遠端傳輸的系統,就會有人去用它,然後就會有人給他做相機、做裝置,大家就會付費。這些看起來邏輯正確的想法,但它其實並不會發生,它會不會發生,問一下就知道了。這是第一個要克服的事情。
第二個是 knowledge,創業者可能並不知道對於整個市場來說,需要你的這個創新的人群佔比是多少。如果你真的去做調研,你會非常 surprise,那些你很在意的創新點,對使用者來說,可能只有 1% 的人在意這件事情。這是 knowledge 的缺失。
所以一個是態度上 wishful thinking 的事情,一個是要更瞭解市場,還有就是如何去掉自己的 ego,這需要一個系統性的理論。我現在沒有這樣的理論,也許 Koji 你可以想辦法去總結一下,我覺得對很多創業者會很有幫助。

放下 ego:創業者的自我革新
🚥 Ronghui
你剛才說到去掉自己的 ego 這一點,這是我覺得最難的一點。現在回頭看,當時你做了什麼事情來去掉自己的 ego?
👦🏻 周昌印
其實都是被動的一些教訓,才會去做這件事情。因為你不會覺得自己錯了,但錯了幾次之後,你就知道了。
🚥 Ronghui
有沒有一些什麼樣的時刻,是你覺得自己在經歷一個很大的改變?
👦🏻 周昌印
你說某個時間點嗎?
🚥 Ronghui
或者是某些特殊經歷,或者你在這個階段要求自己去做一些以前從未嘗試過的事情。
👦🏻 周昌印
我覺得至少在行為上會有一些變化。
ego 有一個表現是認為自己想的東西都對,無論大的小的都會試著去說服別人。我不知道這種變化是什麼時候發生的,但在團隊裡,因為我還是會參與比較多的產品和技術,有時候我會提出一個技術方案,然後這方案可能會被小朋友們否掉。
現在我一般會很習慣被否定,雖然他否定的不一定對,但只要這件事情不是非常 critical,我就會讓他過。這是一種改變,我以前不是這樣的,我以前會覺得我是最聰明的,我的想法一定是對的。而且我以前會覺得這些細節很重要,如果做成那樣,效能就會從 99% 變到 98.9%,這是不能接受的(笑)。但我可能想不起是從哪個時間點開始改變的。
🚥 Koji
是不是因為曾經這樣的放手也讓你得到了正反饋呢?
👦🏻 周昌印
我覺得是放手之後自己時間會多很多。
因為從機率上來說,如果用我的方案可能 70 分,然後用他的方案可能 65 分,其實沒有太大區別。而且因為那是他的方案,所以他執行得會更好,做出來的結果可能比我的方案還更好一些,所以沒有必要去糾結這種東西。
只有一些真的非常 critical 的事情,才需要我想得很清楚,一定要說服所有人,而這應該是非常極少數的事情。
🚥 Ronghui
那你在這個時候有對創業這件事有什麼新的理解嗎?
👦🏻 周昌印
我在最開始創業時有個心路歷程。我是 15 年從 Google 離職開始做第一家公司的。那個時候很懵懂,我就做 CTO 然後去解決技術問題。所以創業就是一個模模糊糊的東西,反正感覺很激動就去做了。
後來慢慢覺得,創業的事情好多,每天都要忙。包括我第二次創業做 CEO 的時候,什麼事情都會自己去做。但其實我的精力非常分散,一些公司重要決定我覺得都沒有做對,可能因為花的精力沒那麼多。然後慢慢發現其實重要事情沒幾件,現在更多糾結的是到底哪件事是重要的事情。
比如現在我有三件事很重要,但我心底裡知道其實中間可能只有兩件事是真正重要的,然後我會花很多時間去想到底哪個更重要。所以我在想一些更厲害的創業者,他能夠一眼就知道這件事情更重要,那件事情不需要做。
這個路徑我不知道接下來三五年會怎麼演變,但我覺得聚焦、知道什麼事情更重要,可能是那些特別厲害的創業者和像我這種比較普通的人的差別。
🚥 Koji
有一個好奇就是當時這個公司融資的時候,找線性、找紅杉應該聊了一大圈。你是用直播機這個 idea 去融的資嗎?
👦🏻 周昌印
對,直播機。
🚥 Koji
當時你的整個研究背景,包括第一段創業也是做 VR,跑去做直播機,這個確實是一個很大的轉變。
當時你是怎麼下定決心的呢?是看到了「直播機」某個遠大的商業前景嗎?——讓你願意自己下場做 CEO 去承擔最大的風險來創業?
👦🏻 周昌印
其實有兩方面的想法。第一個就是我覺得國內的電商以及對短影片的需求,這是一個非常大的市場,裡面一定有機會。有一些技術能力的人,加上商業能力(因為我是溫州人,總覺得我的商業能力不會太差),我覺得這個地方一定是有機會的。
直播機是否為最佳選擇我並不確定,但是在當時看上去是有明確的客戶,他們想要,而且我們也能賣蠻多錢。只是當時沒有完全分析清楚直播機這類軟硬體專案的長期發展路徑及可能遇到的障礙,就直接付諸行動了。
所以中間我們經歷過有一次融資,有一個還蠻有名的國內的一家美元基金的老大就直接跟我說:「你為什麼做這個事情?你能做別的嗎?」
🚥 Koji
我覺得確實這是一個挺讓人意外的人生轉折。
做那麼久的 research,然後現在跑出來要創業去融資的時候講這樣一個 story。每個人都會懷疑自己可能聽錯了你要做的方向,會有這種巨大的落差感。
你小時候就會經常這樣,就出人意料地做一些決定?
👦🏻 周昌印
對,我比較特別一點,有很多很奇怪的決定。
🚥 Koji
你人生中還有做出過其他「出格」的決定嗎?
👦🏻 周昌印
我本科是管院的,所以我是先在管院學習,然後畢業後去微軟工作。這是很奇怪的一件事情。在微軟工作一段時間之後,覺得我想做 research,所以我就從微軟辭職,然後去讀研讀博了。
🚥 Ronghui
本科是學管理,然後研究生讀的計算機,對吧?
👦🏻 周昌印
對。
🚥 Koji
而且多數人到了這個歲數再轉 research,其實是很難很難的。
👦🏻 周昌印
我不是很操心這些事情,可能沉沒成本在我這邊不是很重要。我覺得接下來是該做的事情可能就可以做了。
🚥 Ronghui
你是李誕說的那句話,「沉默成本不參與重大決策」。
我覺得剛才你說到你做 Vozo 的前面做的那些,因為你自己在做一些研究,然後自己用工具來把它寫出來。其實之前做研究可能有一些因為環境的優勢,讓自己也可能相對來說對更接地氣的東西,之前在前期可能接觸的不是那麼多,然後到後面我覺得它是一個閉環,這恰好其實也是你自己做 research 的一個習慣。
結合了工具,結合了特別是 AI 之後的一些機會和工具相關的大發展,它合起來發揮了一個作用。
👦🏻 周昌印
對,我覺得最後結合點其實是在產品上面。我覺得產品經理真的是蠻難做的,差不多是過去的這麼多年,硬生生把自己變成了一個產品經理。
👦🏻 周昌印
我覺得產品經理可能是這個時代比較有意思的一個崗位。
你要理解技術,要理解市場,甚至要理解一下流量怎麼來。然後這幾個東西全部能夠很好地結合在一個東西上,那就是產品。所以技術的人過來做產品,或者市場的小夥伴去做產品,都會有很多挑戰。
我走的可能就是從 research 到技術到產品這條路徑,我覺得還挺好的,是挺有趣的一個過程。
🚥 Ronghui
當時做這些事情的目標是什麼呢?是要去做一個什麼樣子的公司,還是我要賺錢?
那個核心的心理動力是什麼?以及你剛才說的「沉默成本不參與重大決策」,我覺得這是一個挺特別的地方。
👦🏻 周昌印
我覺得那個可能是人的個性,我可能是個純理性的人。
我是個機率論者,所以還好。我覺得初衷可能有兩部分。第一個就是從以前做研究還是在 Google 的影響,就是做 researcher,希望我自己的 intelligence 能夠非常 positive 地影響非常多人,影響這個世界。這可能是從大的內心的一個想法。
另外一邊就是更具體的,我在 Google 的時候就一直覺得用 video 去傳遞資訊,是一個必然發生的事情。因為 video 的資訊量是最大的,bandwith 也最高,遲早會發生這件事情。我總覺得這件事情一定會發生,然後希望自己是中間主要促成的一個人。
但 15 年的時候太早了,發現市場也不 ready,技術也不 ready。到了 21 年的時候,我發現這個東西好像有一點點機會。所以這也回到剛才 Koji 問的問題,為什麼 21 年會回到國內去做這件事情。因為這個 video story telling 這件事情跟我最開始想做的事情有一定關聯性。
🚥 Ronghui
總結來說還是因為有一件你非常相信的認為一定會發生的事情,你希望自己能夠是這個一定發生的事情中的一部分,並且最好能夠成為推動它發生的人。
🚥 Koji
你經歷過和最聰明的一群大腦一起工作、看到過非常多頂尖的人。你認為頂尖的人和其他人,最大的區別有哪些?
👦🏻 周昌印
我覺得我可能是比較幸運的,接觸過一些特別 high profile 的人。我最開始在微軟亞研院,不知道是不是方便在節目裡提他們的名字,反正他是一個現在美國科學院的外籍院士,算是我的導師,會有一些近距離的交流,會發現他是怎麼做事情。後面他把我送到美國本部去,和當時美國微軟那邊最主要幾個人都聊了幾遍,然後我又去哥大跟了另外一個院士,他算是在計算成像這邊最厲害的一個 professor。後面我又去了 Google,跟 Sergey Brin 和另外一個 Graphics 的 fellow 一起工作過。
我覺得他們有一些共性,非常 focus,想的東西蠻少的。
就像我的導師來說,他帶的學生也非常少。到了今年他應該快 70 歲了,今年還拿了兩篇 best paper。他想東西非常聚焦,他覺得這個領域裡面這個問題最重要,這個問題裡面這個小問題最重要。他就會想這件事情,解完之後,自然而然就會把其他的事情給串起來。因為你把最重要的事情解決掉之後,很多無論是 resource 還是人自然就會聚過來了,這件事情就做完了。有時候你會覺得他挺輕鬆的,就非常 focus 做這件事情,我覺得這是一個特點。
很多不是 top 的人可能沒有這麼幸運,只做重要的事情。他可能因為生活原因要做很多其他的事情,那反而變成一種迴圈。而頂尖的人只做最重要的一件事情,其他事情讓別人來做或者不做,我覺得這是一個很大的差別。
你需要促成這個變化,也需要很多能力。比如說你想聚焦,你可能想不出來「我應該聚焦在哪」,即使有人給你 100 萬,不用擔心別的任何事情,讓你去做你最重要的一件事情,你可能也想不清楚你最重要的一件事情是什麼。
我認為這是一個較為重要的差異點,可能是最關鍵的區別之一。這是我近期思考較多的議題,雖然未來我的觀點或許會有所變化,但目前我認為這一點確實至關重要。這背後涉及一種普遍的心理傾向:人們往往趨於中庸,當思考三個不同事項時,我們下意識會認為這三者均具有同等重要性。
但如果你覺得 1 比 2 重要,2 比 3 重要,可能你覺得一個是 80 分,一個 60 分,一個是 40 分。如果你這麼打分的話,我覺得你可以把方差拉很大,你肯定會低估中間的重要性。如果你覺得一個是 80 分,一個是 60 分,一個 40 分,大機率可能是一個是 90 分,一個是 20 分,一個是 10 分。
人總是會很中庸的。
🚥 Ronghui
你自己現在會有什麼區分最重要事情的方法?
👦🏻 周昌印
一種就是我想「我不做會怎麼樣」,很多時候不做也不怎麼樣。
不是說不做不舒服,而是不做真正會導致我們公司營收下降嗎?使用者真的就會跑掉嗎?會跑多少?是跑兩個還是跑 20%?大體一算,很多時候就不重要了。

向最優秀的人學習:成長與思維方式
🚥 Ronghui
那你自己有什麼保持學習的方法?
👦🏻 周昌印
現在主要是跟 GPT 學了,我是 ChatGPT 的忠粉。他們因為我應該虧了好多錢,因為我每天用 (笑)。
o1 一出來的時候,我基本就是三天兩頭都會把它的額度用盡,然後要等到第二天才能繼續用,現在就可以自由使用了。我覺得它已經比人聰明瞭,跟它學就行了,這是一個方法。
另外就是儘量找每個領域最強的人跟他學,無論是學術這邊的,找他聊。我覺得這是比較重要的一件事情,你做一件事情就找這件事情最厲害的人先跟他聊一聊,我覺得這是比較有效的一種方式。這可能是跟我以前讀管理學院的時候,逃學逃多了,上課都不去,上的時候都要先找一下老師,讓老師給我劃一下重點(笑)。
🚥 Koji
這個觀點非常有趣。我們上一期嘉賓 Justin,曾經創辦遊戲公司沐瞳,後來以超過 40 億美金的價格將公司出售給位元組。當我們向他提出類似問題時,他也表示「找最厲害的人學習」是關鍵。
我們又問他接下來打算向誰學習,他提到第二天已經約見了 DeepSeek 的一位合夥人。
但我想探討的問題是,並非每個人都可以輕易接觸到頂尖人才。年輕人應該如何找到並接近那些你認為厲害的人呢?
👦🏻 周昌印
我覺得只要去找你邊上能找到的最厲害的人,這件事情就已經 80% 被完成了,也未必要找到這領域最強的。你會發現很多人其實不難找的,你去找他,他大機率也都會跟你去聊。
我其實最開始意識到這件事情也很晚了,是在讀研的時候才慢慢意識到這件事情。我原來在復旦讀研,那時候就想我要做 computer vision research,我應該去哪呢?我要去出國,我也不知道怎麼出國,然後我就東看看西看看,看到北京有個微軟亞洲研究院,然後我就發了封郵件給裡面的一個 researcher。
他應該算是我後面很重要的一個貴人,然後他就打電話面試我,打完電話我就去北京了。去了北京後,他又幫我推薦給前面提到的微軟亞研究院那個老大,然後他又把我推薦到哥大去讀 PhD,然後推薦到微軟,後面就會參加一些學術會議,做一些報告。
有個很有趣的事情,我做了個學術報告,觀眾裡有個老頭問了我一個問題,就是開放麥,他問我,我回答完之後,這個老頭就是後來我去 Google X 的老闆。他記得我,後來就打電話問我要不要跟他一起去。所以我覺得你只要關注邊上你能 reach 到的人,然後認識他,這網路其實很小的,就可以了。
🚥 Koji
之前聽過一個說法:把每一次談話都當成一次面試。
但仔細想一想,每次只要放鬆一點心態去面對一場場的溝通,然後儘量去不要太害羞、多表達。
👦🏻 周昌印
對,我覺得這是一個大學或高中應該培訓的 killer skill。
為什麼覺得這個值得聊呢?因為我們現在國內會招一些國內的同事,我覺得國內同事這方面明顯比美國同事的意識要弱很多。所以有時候會花一些精力,想讓他們中間有一些特別有天賦的人變得更厲害一些,有時候會想這些事情多一點。

放眼未來:國內市場與團隊擴充套件
🚥 Ronghui
我們知道 Vozo 之前是在海外的 App Store 上線的,那現在是有要做中文版的規劃嗎?
👦🏻 周昌印
關於國際化策略的規劃其實由來已久,內部曾就「是否支援國內市場」以及「何時支援」等問題進行了多次討論。
雖然我們此前並未正式釋出中文版,但實際上我們已積累了相當數量的中國使用者。這可能源於我們處於中國科技圈的關係網,加上中國短劇出海、電商出海使用者基數龐大,因此吸引了眾多中國使用者使用我們的產品。
這些使用者大致分為兩類:一部分使用者在使用過程中不斷反饋希望推出中文版本;另一部分使用者則面臨支付困境,因為我們的付費系統暫不支援支付寶和微信支付,導致他們無法順利完成付費流程。這兩類問題構成了使用者最主要的反饋意見。
我覺得差不多是時候了,因為我們迭代 PMF 也差不多完成了,然後我們再做增長。國內的話我覺得應該去支援它。另外一個 debate 是有些公司會說我要把中國市場踢出去,我們團隊從來沒有這麼想,只是說我們中國排第幾,是先做日本再做法國還是怎麼樣。我們現在決定不管怎麼樣,先把國內市場支援了再說,至少讓國內使用者可以看得明白,可以付費,可以給我們發 support ticket。我覺得這是比較重要的事情。
大家如果對 AI video 很感興趣,無論你是做產品的,做研發的,做工程開發的,都可以隨時發訊息給我們,我們可以因人設崗。
🚥 Ronghui
好,我們今天非常謝謝昌印跟我們分享他做 Vozo 的過程,對行業的看法,他自己很多的個人經歷,特別是作為一個創業者,從一個研究者到一個創業者的身份轉變,以及過程中的很多感想跟自己的思考。
我們今天就先聊到這裡,謝謝昌印做客十字路口,也希望以後我們能有機會繼續這樣子的交流👋。
👦🏻 周昌印
謝謝 Ronghui,謝謝 Koji,今天非常開心交流❤️。
🚥 Koji
謝謝,拜拜👋。

歡迎訂閱「十字路口」播客
🚦 我們關注新一代 AI 技術浪潮帶來的行業新變化和創業新機會。十字路口是喬布斯對蘋果公司的一個比喻,形容它站在科技與人文的十字路口,偉大的產品往往誕生在這裡。AI 正在給各行各業帶來改變,我們尋找、訪談和凝聚 AI 時代的「積極行動者」,和他們一起,探索和擁抱新變化,新的可能性。
👦🏻 主播 Koji:新世相/躺島的聯合創始人。我相信科技尤其是 AI 會在未來徹底改變社會,賦能人類,歡迎大家找我聊天,碰撞想法,連結下一個可能性。Koji 的即刻[3],Koji 的網站[4]
👧🏻 主播 Ronghui:供職於科技 VC,前《第一財經週刊》駐矽谷記者,Ronghui 的即刻[5]
參考資料
[1] Luma.ai: http://luma.ai/
[2] Vozo: https://www.vozo.ai/
[3] Koji 的即刻: https://okjk.co/0JSUes
[4] Koji 的網站: https://koji.super.site/
[5] Ronghui 的即刻: https://okjk.co/0cbnYV