

這一期五源小酒館,我們邀請到了ACE Studio的創始人郭靖。ACE Studio在2024年初剛剛開啟出海北美的程序,半年時間裡,作為一個面向專業消費者的音樂工作站,ACE Studio已經在海外市場取得了階段性成果,郭靖分享了他的心路歷程和一些出海的經驗。
對想要出海的創業者來說,ACE Studio的故事是一種鼓舞。面對全新的市場和陌生的環境,比起策略與方法,出海可能需要更多“一頭扎過去”的魄力,直面挑戰的勇氣,以及也取決於你所能承擔的代價。
郭靖也分享了他對AI音樂行業的洞察,AI降低了創作的工具門檻,可以讓更多人能夠參與其中,將更多時間用在感知與表達藝術上。我們節選了部分訪談內容,也可以在小宇宙收聽完整的播客。


歡迎在小宇宙關注五源小酒館,收聽本期播客
以下為訪談內容的節選:
五源小酒館:先請郭靖介紹下自己和ACE Studio。
郭靖:我叫郭靖,我們的產品叫ACE Studio,它是一個面向professional consumer的work station,目前主要的使用者有音樂行業的從業者、製作人等,他們會用它來創作音樂裡面的演唱歌聲。因為歌聲的錄製成本很高,很難用一些電子或者數字的手段來代替,比如假設你要一個百人大合唱,還是需要有真人來到一個空間去做錄音等很重的安排,但今天你開啟ACE Studio就可以完成這件事情。
我們也逐漸發現,不僅僅是傳統的音樂人,很多泛內容創作者也會使用ACE Studio,他們會做一些歌曲的填詞,產生出一種全新的內容形態,叫唱解說或者唱電影。這些人被稱之為professional consumer,就是他們在做這件事情的時候是一個professional的心智,但消費交易決策是個體完成的。ACE Studio就是一個典型的professional customer產品,接下來我們會把更多AI音樂的能力加到裡面,逐漸升級為一個all in one的工作站。
五源小酒館:半年前你們對於出海還是從零開始摸索的狀態,但短短半年時間裡,你們做到了單月幾十萬刀的海外收入,出海的進展還是很快,現在你們的付費使用者主要來自哪裡?你們是怎麼從零開始得到他們的信任的?
郭靖:對,我們現在主要的收入是海外,90%是美金,這些收入中,70%來自美國和加拿大,其餘主要來自歐洲的英國、德國、法國,以及巴西等地區,還有一些收入來自東南亞等其他地區。
我們最初也認為,出海應該是先在國內成功,然後把國內的東西複製到海外,做成一個全球性的產品。因為產品做的還是功能,你只需要將介面翻譯成多種語言,這個沒什麼難的。但現在我們發現,由於我們做的是professional consumer的產品,酒香也怕巷子深,在我們沒有往海外懟之前和使勁往海外懟之後,同樣的產品形態收入可能差100倍。
一個很大的提示就是,你的產品好不好或者有沒有PMF這件事,並不是在產品釋出或使用者初次接觸後就能立即顯現的。你還是需要在這個地方持續地懟,直到達到某個時刻才能驗證這一點。如果你努力了很長時間發現還是起不來,可能證明本身就沒有PMF,但如果你一開始沒有成功,並不意味著產品不work,可能有很多事情你還沒做到。
五源小酒館:你們比較關鍵的一個轉折點是什麼時候?
郭靖:我們去了洛杉磯的一個全球最大的音樂行業展,叫NAMM SHOW,當時在展會上認識了很多從業者以及格萊美的音樂人。在去之前,我們的感知是我們也不是完全沒做海外,也有英文官網和支付系統,海外使用者也能下載,但為什麼很少有新增,也沒啥收入,偶爾有新增的收入也還是來自華語世界。對於西方世界到底在怎麼想這件事情我們是沒自信的,我們以為他們沒這個需求。
但在展會時候發現不是的,他們的確有需求,只是我們沒有將產品正式介紹給他們,沒有告訴他們產品的好處和使用體驗。他們可能對我們的產品一無所知,或者認為它是一個比較隨機的產品,你會在他的心智中被忽略掉。
當我們把展臺往海外一擺,好好介紹我們的產品是什麼的時候,他們感覺到非常impressive,會口口相傳說這個非常神奇,以前好像沒有產品能夠解決我們這樣的一個需求,他們覺得你在顛覆這個行業,雖然美國人經常會說話有點誇張,或者是過分讚揚你,但是至少能夠看到一些比較正向的訊號。
在那之前我們也曾嘗試聯絡了許多YouTuber,希望他們能幫我們做一些產品評測影片。印象特別深,我們發了100封郵件,但沒有人回覆。但展會結束後,一些YouTuber開始回應我們,因為他們對我們不再感到陌生,他親眼看到或者聽朋友說了你們還不錯,我們正式向他們介紹,我們來自中國北京,現在正致力於進入美國市場。大家對你可能沒有一下子多信任,但至少有一定體感知道你們是活的,你們在努力做這件事情,然後開始嘗試合作,投了幾部YouTube的影片,增長就一下起來了。
五源小酒館:你之前提到過自己英語四級也沒有過,也沒有長時間在海外生活的經歷,最開始出海的時候,有沒有過擔心或者顧慮?
郭靖:肯定是有的,最開始你的人際情緒壓力會遠大於跟中國人交流,因為總覺得自己的語言不行,總有種想要討好的心態。但是我最後走下來的感覺是,美國人也不是語言都很好,美國有一大堆移民,口音比我差很多倍。
我覺得很多東西說實話都是紙老虎,很多人可能因為對自己的語言不自信,交流時就天然缺乏那種真誠,那種發自內心想做一件事情的動力就體現不出來。如果你就是臉皮厚一點,用蹩腳的英文去展現你的真誠,往往效果還是不錯的。而且因為你是一個非母語者,有些時候你問一些很直接的問題,別人也會原諒你。現在我新的目標是要達到一個native speaker的水平,當然離得還是超級遠,但是我給自己定了這個目標。
五源小酒館:有什麼讓你印象深刻的故事,你在出海過程中就感受到的一些正反饋,或者是被信任的瞬間?
郭靖:我們在NAMM SHOW的時候,經常有一些人過來跟我們聊。有一些穿著名不見經傳的大哥,帶著個破草帽就過來,說你這個東西挺有意思,我跟我錄音棚的幾個合夥人介紹一下,你能不能明天來我們錄音棚咱們一起聊聊,我們說好。結果錄音棚是一個好萊塢的傳奇錄音棚,隸屬於東海岸傳奇rapper叫Jay Z。當時也有不少人留下了詳細的聯絡方式,想要參加我們的年度會員抽獎,裡面有十幾個都是格萊美獎提名的人。
但給我最多感觸的,不是說我遇到很多很牛的人,而是在那個環境下,很多東西就更近,就像洛杉磯就是一個全球音樂的中心大本營,你在這裡接收到的能量密度很高。
很多中國founder可能都是這個感覺,我們先在國內悶頭搞,其實不清楚自己與全球頂尖水平的差距,也可能會走向兩個極端,一是盲目自信,認為自己非常優秀,而可能與全球最好的東西在理念上差距很大。另一個極端是盲目自卑,認為自己的產品沒有競爭力。我現在逐漸意識到,founder也好,工程師也好,很多時候我們的各種能力不比他們差,甚至有過之而無不及,我們的差距在於對什麼事情是對的、什麼事情是應該做的這些事情的判斷上,他們的vision更強,因為他們接觸到的資訊密度更好。
比如說我們吭哧吭哧做ACE Studio做了這麼久,各方面的工程技術其實都很強,但是像Suno這樣的公司,他們就知道說本質就是你做一個端到端的東西,text to music才是未來,他們就第一個把這個事情做出來。其實這個事情讓我挺痛苦的,為什麼我們做AI音樂這麼多年,有這麼多有才華的工程師在我們公司,不是我們作為全球第一個做text to music的人。
我也在反思,Suno最初醞釀這件事情的時候,那會兒全世界都不看好他們。我記得Suno V2剛釋出幾個月之後,我還跟別人聊天,說可能 AI音樂這條賽道是真的不work,因為我覺得Suno V2當時的效果已經到了MidJourney時刻,但釋出了半年了,Suno的Twitter只有4000多個粉絲,只有一些技術的人關注,我說是不是 AI音樂這事就沒需求了。後來發現不是,他只是差一點點臨界值擊穿這個市場,可能質量再提升一點,這事就翻過來了。
但為什麼在Suno剛開始的那段寂寞積累期時,我們沒有去做這件事情。我們知道這個正規化,研讀了它的開原始碼,還評估了算力的成本,最後沒有選擇去做。那我們那個時候在幹什麼?那個時候大家沉浸在國內的氛圍裡,講元宇宙、虛擬人,現在回想起來這些都是挺浪費時間和資源的。本質上是因為我們認知還不夠好,技術vision還不夠清晰。我們看到的東西不一樣,導致在很多決策的細節上我們輸了。
五源小酒館:怎麼能夠有擊穿市場的認知,尤其是你可能無時無刻會聽到很多噪音的時候,怎麼能夠做出正確的決策?
郭靖:我現在覺得簡單樸素的道理,還是你能夠獲取到更多正確的資訊,能不能給你的大腦靠譜的training data。獲取資訊的阻礙可能很多,你需要走出很多舒適圈,讓這個世界羞辱你很多次,才能獲取真實的資訊。很多時候我們會用一些看起來合理的東西說服自己和團隊,讓大家接受一個舒適的、而不是正確的決定。
更難的事情是,在我看來沒有什麼是什麼努力、才華,一切就是一個單詞price,你take多少price你就能獲得多少結果。很多事情我們說為什麼他能做到,你不能?也許你看到他每天都在寫程式碼,你說我也行,但反過來講,你能不能接受他的很多price,可能他禿頂了,假設你現在有挺不錯的身材,工作也不錯,你願不願意把工作變成極致,但是你的代價是變成一個胖子,再比如你為了創業家庭都沒了,你要離婚了,你願不願意take the price?
當然這是比較極端的思考模式,思考的時候極端,但做事的時候可以圓滑。你先把這個推演到極限,再看怎麼輾轉騰挪到你能接受的範圍內。比如就說出海這件事,也許你在國內整體也不錯,財務狀況各方面也越來越好,而到海外你可能是個邊緣人物,在hacker house裡擠著,語言也不通,美國白人也不把你當回事,你願不願意接受這一點。最終沒有誰比誰聰明,沒有誰比誰努力,可能就是他嚼過的玻璃渣比你多。
五源小酒館:你們在出海之前就想清楚了要接受哪些price嗎?
郭靖:這事兒也不可能先想得特清楚,有時候就是一頭先扎進去再說。但我們最終都是要出海的,哪怕今天我們在國內是離起跑線90米,去海外一下退回到30米,那我也要從30米開始跑,想清楚這一點其實也沒那麼嚇人。
五源小酒館:你們有在當地找人嗎,團隊配置有沒有做哪些調整?
郭靖:我們目前都還是華人,主要是在中國,有些在日本。全員遠端是我們邁出的第一步,因為我們公司有很強的匿名加開源協作的氛圍,所以它的文化特別適合遠端,我們自己測下來效率甚至是更高。接下來怎麼在那邊怎麼招人,怎麼管理那邊的員工,怎麼去判斷那邊的人,現在對我來講還是一個未知的議題。
五源小酒館:之前你也說過你有一個認知,就是世界上沒有很難的事兒,天才和普通人之間的區別沒有那麼大,包括你二十三四歲最開始創業也是自己自學寫程式碼。經過了創業這些年,外部環境也有一些變化,你這個認知現在有改變嗎?
郭靖:我覺得有一點改變。我當時的感覺是很多事情其實差別沒那麼大,但為什麼人和人之間最終還是有巨大的差別?首先客觀來講,因為人是一個自啟動系統,很多人可能永遠逾越不了那個差別,儘管可能就是小小的一步,但在那個地方他的思考已經板結了。我也經常反思自己,有哪些是這樣的事情,可能差一步就有翻天覆地的改變,這一步本身不難,但因為我自己的侷限,我不知道這一步或者我總覺得這一步很難。
大方向上我還是覺得世界上很多事情沒有那麼難,但我覺得不能停在一腔熱血的口號上,你得拆解說為什麼很多事情沒有那麼難,你的策略是什麼,因為很多東西是low-hanging fruits,你先給自己制定一個路徑,你把low-hanging fruits都吃到之後,其他更高的果實就又變成低垂的果實了,可能兩三年之後你看到自己完成了很多在別人看來不可能的任務,但實際上對於你來講,每一步都是可完成的。另外就還是price,你能接受哪些price,或者你能不能改變自己,讓自己能接受更多的price,這件事情其實最終決定了你的天花板。
五源小酒館:那還是你對一個願景的篤定程度和你相信它實踐後一定可以帶來的改變?為什麼有些人可以接受更大的price,或者是他可以承擔更大的痛苦,有些人就不能。
郭靖:我覺得是你看沒看見燈塔。比如說在登山的時候,有些人遇到了暴風雪,失去了所有的視野,然後他可能就凍死在營地外10米的位置。這件事情很震撼,因為他只差幾步路了。但是當暴風雪矇蔽了他的雙眼之後,他並不知道往下走的每一步是不是在正確的方向上,你可以想象那種感覺,是非常絕望的。
Vision的本質就是你看到了這件事真的會發生,而且不是透過邏輯推演看到的。我覺得在創業的前幾年,我們所謂的方向和願景其實都是一種邏輯推演,寫在紙面上的漂亮話。現在我特別警惕這種複雜的邏輯推演,我更希望依靠直觀的一步創新,比如說這世界上有1000萬人或者1億人有這個需求,這是我看到的,而不是我推匯出來的。我只需要做一個假設,我做的這個東西能不能滿足這個需求。這個是一個非常簡單的、建立在系統一上的直覺,當你能夠直觀地看到這一點時,你會更有信心。你會覺得如果實現了這個目標,一定會讓很多人的生活被改變。
我覺得好的創業者肯定不是依賴逐步的邏輯推演來規劃長遠的未來,而是更像神經網路,他會把一個看似很長週期、需要很複雜路徑的東西,抽象到更稠密的空間裡。原本需要很多步驟才能完成的事情,現在可能只需要一步,但這一步是巨大的。
五源小酒館:那對於AI生成音樂這個領域來說,你們的燈塔是什麼?
郭靖:音樂是一個長久持續而樸實的內容需求,而且音樂有自己的特殊性,這也不是邏輯推導的結果,而是人類幾百年歷史的規律。人們始終需要音樂,也始終需要有人創作音樂。
我們相信人真正做一個內容,最重要的部分仍然是人性的部分,因為只有人理解人的情感需求。那麼唯一的區別或者變數是要用什麼方式來做?以前音樂創作的門檻可能很高,只能由少數專業人士完成。但未來,創作將變得更加模組化,更多人可以參與,發揮他們的創造力。
我也經常被問到,普通人為什麼要創作音樂,我的回答是:只要人們需要聽音樂,就總會有人需要創作音樂。這是我們的基本原則,雖然其中也包含一定的風險和不確定性。我們在bet的無非就兩件事情,第一件事情就是,在可見的未來裡,人仍然是供給人的內容消費的主流,AI作為工具,只不過這個工具的模組和顆粒度會越來越大,比如說顆粒度大到他可以作為一個乙方,比如說music agent,你可以跟他去聊,他來幫你去做一個你想象中的東西,但仍然是你想象中的東西,我們仍然相信人性。第二個bet就是我們相信音樂這個東西不會在有生之年內消失,但也有不確定性,比如說像京劇一樣,假設人類今天不需要聽京劇了,這事也不存在了。
五源小酒館:AI涉及到任何創作領域的時候,常常看到一個討論是會不會讓原來的很多創作者失業,會不會取代人類,你會怎麼看?
郭靖:我們今天的AIGC跟AGI是兩件事情,我覺得AGI要解決的是AI具有人性的所有部分,比如說它甚至具有人的自我激勵、懷疑、反思甚至洞見的能力,有提出假設的動機和驗證假設的能力。但這些問題什麼時候被解決,以及解決了之後AI是什麼樣子?這個事情有很多不可知需要慢慢去揭曉。
在這些問題解決之前, AI僅僅是工具。我認為今天的AIGC可以比喻為你操作的顆粒度,以遊戲為例,早期像拳皇這樣的遊戲要發個大招,你需要按下7個鍵,而後面的遊戲比如王者榮耀只需按一個鍵。最開始設計師本能地覺得要把這個東西做難,才能拉開玩家之間的技能差距,我們都要經歷一個手把手練成機器的過程。而後面透過將複雜的操作封裝成更粗顆粒度的模組,比如一鍵釋放大招,降低了工具的門檻,我們可以在更平等的基礎上進行競爭和博弈。
好比畫畫最開始是以畫素級顆粒度去操作的,但可能會慢慢變為模組化或語義化操作,比如簡單地描述中間一個人,右邊一個太陽,底下一片湖水,或者我圈一下這個區域加一個水果籃。以前創作者需要曠日持久的練習才可以具備基本的能力,但AI做這些事情,會讓創作不再僅僅依賴於精細的技巧,而是更多地關注作品的主題、組織和風格等更高層次的元素。所以我覺得未來不會喪失掉創業者,反而可能會有更多創作者湧現。這是因為隨著操作的顆粒度變大,降低了技術門檻,會使更多的人能夠參與到創作中來,也為創作者提供了更多表達的空間。
你會發現其實有很多原本被時代埋沒的人才。比如在有嘻哈音樂之前,許多現在的rapper和電子音樂製作人可能不會被認為是人才,因為他們無法進入主流音樂界。當搖滾樂出現時,The Beatles樂隊剛出來時,一些傳統音樂界人士也在批判,說這是對音樂的一種褻瀆。你們憑什麼用幾種樂器,簡單的旋律就能吸引大眾。因為之前的爵士樂更為複雜,要求演奏者具有高超的技巧,爵士鼓手的標配就是能用四肢打出不同的節奏,但搖滾打破了這個。不過今天來看,搖滾本身也已成為一種高門檻的音樂形式,後面的朋克、嘻哈音樂門檻逐漸降低,包括現在的網路音樂。你說這是創作的下沉,藝術的悲哀,還是人性的喜訊?我堅定的相信這是後者。
我覺得人不要過於傲慢,覺得這事兒我能做、你做不了,就高人一等。比如有人擅長打算盤,但計算器的出現讓大家都能達到相同的水平,這並不意味著計算器是對財務工作的褻瀆,最終要看的是你計算的目的。同樣,創作也是要看你要表達什麼,只不過今天的技術能夠讓更多的人來表達了,這讓一些已經積累了打算盤能力很多年的人,這些既得利益者當然是不爽的,他要豎起這個門檻跟大家說,你們是褻瀆。這個是自然而然的人性,但是骨子裡我不相信這件事情。
五源小酒館:關於創作,也常常提到1萬小時理論,我鍵盤打得比你快,不是說因為我更具權威或者是既得利益,就是因為我付出了更多的血汗和刻意練習,AI會解構這個理論嗎?
郭靖:當我們講1萬小時理論的時候,這件事情他只提出說這個天才不是天生的,可能是環境鑄造的,但是並不代表它認為1萬小時的盲目訓練就能夠讓你變成天才。如果1萬小時是一種盲目的練習,你的水平不會越來越好,它只會讓你變成一個平庸的老油條。
比如你去野球場,會看到很多人可能打了一輩子籃球,他從小十幾歲就開始打,每天過來打,但是他左手還是不會運球。真正打籃球好的人不是每天去那打球,一招鮮一個勾手吃遍天下,而是每天花時間練基本功,左手運球,右手運球,交叉運球,各種各樣的讓自己不舒適的那個東西,這個過程叫encoding。
這給我們的一個巨大的提示是,我們的1萬小時要花在什麼事情上,假設你要花7000個小時去練手指的熟練度才能把算盤打出來,可能就壓縮了你真正去思考財務應該怎麼做的時間。創作這件事情的本質是你去思考人性的需求,或者說內窺自己內心的情感,尋找你想要表達的東西。如果每個人都能夠進入到創作的門檻,他們的1萬小時花在去感知藝術、表達情感上,那未來創造的東西應該是更偉大的。
五源小酒館:AI讓工具的門檻降低了,但也並不會讓創作這件事情本身變得更容易。
郭靖:因為創作這個東西它是一個相對性問題,它不是一個絕對性問題。今天我們聽到的隨便一首口水歌,在20年前在華語樂壇可能都是很厲害的作品。人的品味是會提高的。當大家都可以隨便做一些東西的時候,我們每天聽到的仍然是那少部分人在這個歌裡面注入了人性,注入了有差異化想法的那些作品。

互動送禮
聽完播客或者讀完文章你有哪些心得?歡迎在評論區分享對ACE Studio出海經歷或者對AI音樂的觀點,我們會選取2位精選留言,送出五源準備的禮物一份:)
