


作者:拾象
排版:Scout

AI 生成音樂是一個發展了很長時間的研究領域,但之前生成的作品還停留在“人工智障”的階段,Transformer 架構為音樂生成體驗帶來了 10x 的提升,2023 年出現的一系列基於 Transformer 的模型,包括 Google 的 MusicLM、Meta 的 MusicGen 以及 Suno 的 Bark,讓 AI 生成的歌曲變成了可欣賞內容。類似 Midjourney 讓人人都可作畫,Suno AI 作為第一款普通人可用、帶有人聲、歌曲生成效果接近商業化水平的產品,為全球 5.89 億音樂流媒體付費訂閱使用者提供了創作工具,開闢了增量市場。
Suno AI 的前身為團隊訓練的開源語音生成模型 Bark,2023 年 9 月在 discord 推出音樂生成 bot “Chirp”,音樂製作效果被使用者稱為 “the next level of music generation",在矽谷核心圈得到了廣泛的流傳,實現了使用者的持續增長,根據 Similarweb 的資料,目前已經達到了約 220 萬 MAU。
這篇 Memo 主要同步我們看好 suno 的原因、對音樂生成技術的理解、音樂生成市場機會的梳理、Suno 產品及團隊的分析以及未來發展的猜想。
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 Thesis
02 音樂生成技術分析
03 音樂 × AI 市場
04 Suno AI 的產品及競爭
05 對 Suno 的猜想
06 附錄
01.
Thesis
1. Suno V3 可以類比為音樂生成領域的”midjourney V3",音樂生成第一次到了生產、消費可用的臨界點。
音樂生成的技術突破同樣得益於 Transformer、Diffusion 架構的結合運用和 scaling up,高質量的資料將成為長期壁壘。
如果優秀人類的作品為 10 分,我們認為 Suno 可以到達 7 分普通歌手、“抖音網紅歌”的水平:擁有多風格的作曲能力,可以創作出吸引人的旋律和節奏,但在音質、創新度上達不到專業作曲家的要求。
2. AI 音樂將改變音樂生產方式,帶來"camera 時刻”,讓音樂創作平民化,音樂人全棧化
傳統音樂製作流程極為複雜,AI 讓普通人也能生成出還不錯的音樂。全球 5.89 億音樂流媒體付費訂閱使用者的龐大使用者群,比圖片生成對應的繪畫市場大不少,這個市場一旦解鎖是非常可觀的。
而對於音樂產業工作者,這能讓音樂製作環節融合,讓每個創作者成為“全棧音樂人”,讓音樂平臺的內容供給大大增加。10年代的流媒體平臺變革了音樂分發方式變革,20年代的 AI 生成式創作將變革音樂生產方式。
3. Suno 團隊背景出色, roadmap 清晰,執行力優秀
Suno 團隊從開源 TTS 模型 Bark 開始,轉型做音樂模型,從 Discord 伺服器到自己的 UX 互動流媒體播放器,都行動非常快在半年內釋出了成熟的產品。
產品釋出後,社群運營很優秀, Suno 創作的音樂有病毒式傳播的機會,且 Discord 社群是 AI native 產品中最為活躍的。目前社群中呼聲最高的是可控性更強、更自然的互動方式,比如打節拍、哼唱旋律交給 AI 生成,期待團隊下一步的執行力。
4. Suno 將音樂創作者和消費者聚集在同一個平臺上,這是別的 AI-native 產品沒有做到的
AI 音樂可能帶來的市場增量空間很大,一方面可能出現 AI-Native 的流媒體平臺,將更多的聽眾變成了創作者;同時透過更深層次的個性化推薦,實現即時創作和消費一體化。
AI 音樂可能帶來的市場增量空間很大,一方面可能出現 AI-Native 的流媒體平臺,將更多的聽眾變成了創作者;同時透過更深層次的個性化推薦,實現即時創作和消費一體化。
Key risk
1. 激烈的市場競爭
這個領域一方面存在著 OpenAI 或大量計算資源的公司 “大力出奇跡”訓練出音樂生成領域的 Sora,顛覆 Suno 的可能性。OpenAI 可能在多模態生成模型中將音樂作為一個模態,畢竟他們早在 2019 年就做過音樂模型 Jukebox 是當時的 SOTA。但 Suno 也有明顯的使用者資料和音樂審美優勢,可能是 OpenAI 無法專注做好的。
同時也面臨著擁有大量歌曲版權的 label record 公司和大使用者基數的 Spotify 等流媒體平臺。這兩類公司佔據了流量入口和頂尖藝術家,Suno 上創作的歌曲已經一部分開始在 Spotify 上傳播。不過創新者的窘境可能讓他們很難放開手腳和版權限制進行開發。
2. 音樂是個頭部效應很強的市場,個性化、長尾市場規模難以驗證
音樂市場本身頭部效應明顯,有成熟的版權公司和流媒體公司;且音樂是一個反覆收聽次數最多的內容形態,因為這需要大眾的情感共鳴,造成使用者消費心智對新歌的需求頻次低,對老歌的反覆收聽次數高。長尾、個性化的 AI 創作市場比較難以驗證。
頭部效應也是明星效應。record label 唱片公司提供的價值不僅在於製作,還包括包裝、推廣,形成大眾影響力、更進一步挖掘商業價值等等。在 AI 音樂時代,頭部打榜歌曲會像精心編排的 “fine-dining”,而 AI 生成音樂更像“預製菜”,從商店、影片背景音等慢慢擴散開。
02.
音樂生成技術分析
聲音領域在 2015 年左右由於 Seq2Seq 的成熟曾有過識別技術的突破,但在生成方向的成熟比影像和文字更晚一些。其背後的原因主要是聲音領域的資訊密度更低:一個文字,一句歌詞可以對應著很多種聲音的表達形式,且生成的聲音比文字本身的資料量要大很多。
直到去年,技術路線基本收斂到 Autoregressive Transformer 和 Diffusion model 並存的模型結構。Transformer 架構對音樂生成的質量提升幫助很大,因為音樂是一個有長距離結構(多次主歌+副歌,且有呼應)的內容形態。Diffusion model 的加入,能有效避免避免了自迴歸模型容易產生的韻律/節奏不穩定、詞語重複/遺漏等問題。
2023 年 Google 團隊提出了 MusicLM 使用了 Autoregressive 結構,實現了從文字描述生成高保真音樂片段,並支援對音高、速度等的精細控制。同一年 Stability 團隊的 Stable Audio 工作中也開始有 Diffusion model 的加入,使音樂生成的效果更加穩定,Stable Audio V2 中使用了和 Sora 一樣結合 Transformer 和 Diffusion 的 DiT(Diffusion Transformer 結構)。以下是最近一年中的重要模型整理:

Suno AI 音樂生成對語義有著很好的理解能力,對不同風格的規律、長距離的結構都能比較好地捕捉,我們判斷 Suno 一定用了 Transformer 結構,帶來了能 scale up 的智慧。同時,Suno 生成的穩定性也遠好於其他模型,Diffusion 模型架構應該在其中使用。音樂生成的模型結構會與 Sora 的 DiT 結構比較接近,由幾個部分組成:
1. Audio encoder: 對原始音訊進行壓縮,並將其量化到一個更低維度的潛在空間,該空間包含多個離散標記序列,每個序列代表音訊的不同方面(例如,粗略和精細的聲學細節)。最常見的選擇是 Encodec 音訊編碼器(在 Meta MusicGen 論文中開源,用於 Suno 早期的 Bark 專案),或者 VAE model(在 diffusion model 設定中很受歡迎)

2. Text Encoder: 使用 T5、FLAN-T5 或 CLAP 作為文字編碼器來調節音樂生成過程。這些預訓練的語言模型將輸入的文字提示編碼成密集的向量表示,然後在生成過程中用來引導 Transformer 模型。
3. DiffusionTransformer(DiT)model 或 autoregressive language model,基於之前壓縮的潛在空間生成音樂。在 Transformer 模型中使用的壓縮離散音訊標記,有可能作為擴散模型的條件資訊,而不是原始音訊。這可以允許在利用擴散的去噪能力的同時,生成更長連貫的音訊序列。
這個模型結構看起來很簡單,和 LLM 和影片生成有很多相似之處,這可以被 Suno 創始人在訪談中的一個分享驗證:Suno 團隊在訓練模型的時候,儘量不讓模型中融入關於音樂或音訊的先驗知識,比如融入聲素等元素,而是讓模型自主學習。這種方法起初優勢並不明顯,但隨著 scaling up 的推移優勢開始顯現。
談到 scale,根據其他 tts 模型引數量和目前的定價預估, Suno AI 的音樂生成模型的預估引數最大不超過 5-10b。音樂生成模型在數十億引數量級就能做好很不錯的效果了,與引數量相比同樣重要的還有資料。
音樂生成的評估中有兩個評估指標和資料質量息息相關:音質、風格多樣性。
音樂的資料收集並不簡單,因為音訊資源的公共爬取和積累相對較少,且處理起來更為複雜。Suno 效果好可能很大程度上來源於高質量的資料,如高取樣率(44kHz 或 48kHz),並在處理音訊資料壓縮時儘可能做了保真。
Suno 在資料預處理、特徵提取等方面做了大量最佳化工作,讓模型儘可能理解 discrete audio tokens,以及如何將大家對高質量、多風格的音樂透過 labeling 注入模型中。同時訓練資料中不僅僅是音樂,也包含了很多語音錄音,用以學習人類聲音的特質。
另外,在音樂風格上,團隊不僅關注模型的定量指標(如引數、資料等),還非常重視透過用耳朵“傾聽”,對生成音樂的"美學"把控,對資料集的美學風格做了專門最佳化,目前的風格傾向於最擅長近 10 年內的歐美流行舞曲風格,所以生成出來的歌曲較為符合使用者的審美。
但是受限於訓練資料多為混音後的音樂(缺少音軌、元資料),模型難以生成達到錄音室專業水準的音軌,所以音質目前能達到"網紅歌曲"水平。
隨著音樂生成模型達到一定的水準之後,最關鍵的就是如何提升從其他模態(旋律、圖片)生成音樂的能力,和更強的音樂生成的可控性和 instruction following。這樣才能進一步降低音樂生成的門檻解鎖更多 use case,達到手機攝像頭髮布時 Instagram 那樣的效果。
03.
音樂 × AI 市場
為什麼說音樂生成模型是攝像頭一樣的民主化工具,這就要從複雜的音樂製作工作流談起。
音樂市場規模及產業鏈
音樂的應用廣泛,除了音樂專業製作,廣告、影視、遊戲、動漫、企業宣傳都會用到音樂。音樂專業製作市場(the recording industry)的產業鏈主要分為以下環節:

• 上游 – 音樂創作與錄製:包括進行詞曲創作、編曲、錄音、混音等製作環節。參與的人有作曲家、編曲家、錄音工程師、音訊編輯師、混音師、母帶製作師等。
• 中游 – 音樂的出版運營、宣傳推廣:發行人會對音樂作品進行版權運營、數字分銷。在宣傳推廣環節,通常會製作音樂 MV,透過各類媒體進行音樂推廣。
• 下游 – C 端使用者消費音樂:主要透過流媒體平臺等渠道向聽眾傳播音樂,同時開辦演唱會、製作文創產品等,實現音樂 IP 的商業化。經紀公司也會對藝人進行宣傳,組織演出等。
AI 生成音樂的應用機會不僅在為上游為音樂的製作環節降本增效,而且有機會將多個音樂製作參與角色合一,讓每個創作者成為“全棧音樂人”,同時打通上游、下游,再造創作、消費一體化的 AI 音樂平臺,也是我們期待的 Suno 的未來形態。下文針對受到 AI 生成音樂影響的上游和下游市場展開分析。
音樂製作市場
音樂製作為音樂產業鏈的上游環節,涵蓋創作、編曲、錄音和混音等環節,需要使用的工具包括 DAW、虛擬樂器、錄音裝置、音訊效果器、MIDI 鍵盤、混音裝置等,目前部署一套基礎的裝置需要約幾千美元,更早期需要的投資更多。製作週期取決於音樂型別和規模,從幾天~幾個月不等,成本從幾千~幾十萬美金不等。根據多家諮詢公司的估算,市場空間大致為 $5-10B 左右,主要業務包括銷售軟體許可證、外掛、硬體裝置以及提供相關服務。
AI 有望進一步降低成本、縮短製作週期,將多個音樂製作參與角色合一,讓每個創作者成為“全棧音樂人”。Suno 已經可以幫助使用者生成音軌等元件,加速音樂創作流程。但本身該市場空間並不大,且比較分散,引入 AI 可能會導致 ToB 音樂製作市場的進一步縮水。
根據 A16Z 的判斷,還有可能出現基於 AI 技術自動生成音樂的“生成性樂器”。硬體裝置有可能與 AI 模型互動。例如,一個 DJ 控制器可能能夠根據現場的氛圍和節奏,自動生成鼓點或旋律,輔助 DJ 進行即興創作。
ToC 消費市場趨勢
根據國際唱片業協會聯合會(IFPI)統計,2022 年全球音樂市場規模達到 262 億美元,增長 9%,其中流媒體收入佔 67%,增長 10.3%。包括兩塊業務,一塊是廣告支援流媒體(Ad-supported streams),佔 18.7%,透過展示廣告來為使用者提供免費的音樂流媒體服務,一塊是訂閱音訊流媒體(Subscription audio streams),如 Spotify Premium、Apple Music 訂閱,佔 48.3%,約 130 億美元。全球有 5.89 億流媒體付費訂閱使用者,佔全球總人口 7.5%。根據市場格局可以看出,流媒體音樂平臺是音樂市場中最大的組成部分。

流媒體平臺將音樂市場從 2000-10 年代之間的下降趨勢中解救出來,並且逆勢增長。與 AI 生成音樂類似的,在流媒體平臺誕生初期,大家會擔心流媒體平臺威脅到音樂的發展。但隨著平臺發展和社群的成熟,流媒體平臺徹底改變了音樂的分發形式。流媒體音樂平臺頭部公司包括 Spotify、Youtube Music、QQ 音樂、網易雲音樂等。以 Spotify 為例,2022 年總收入達 117 億歐元(2023 年 Q3 收入達 33.57 億歐元) 。

近十年音樂市場增長的另一個重要趨勢來自於短影片。國際唱片業協會(IFPI)調研發現使用者聽音樂的時間顯著增長,每週聆聽音樂的時間從 2021 年的 18.4 小時增加到 20.1 小時,個性化需求也日益明顯。國際唱片業協會(IFPI)也統計了使用者聽音樂的方式,發現人們在聽音樂的時候,經常會和視覺相結合,很多情況下帶有社交屬性。

儘管分發渠道和使用者消費形式出現了變化,但生產製作側的壟斷趨勢還是比較明顯:在 2022 年財報中,向索尼、環球等 record label companies 支付的版權費用佔了 Spotify 收入的七成左右,因此流媒體平臺當前還很難直接盈利。而當 AI 音樂生成降低了生產的製作與成本,是否能帶來生產關係的變化呢?我們能期待 AI 有可能讓版權優勢不只被大公司壟斷,而來自更多長尾、個性化的創作者。
AI Music 產品格局
下表詳細的展現了我們對於 AI Music 現有市場格局的 mapping 以及市場機會的判斷:

AI 音樂相關產品中,我們認為應該重點關注有能力直接 AI 生成音樂、面向 ToC 使用者的產品。下文分析的 Suno 就是該領域的代表性產品。
04.
Suno AI 的產品及競爭
Suno AI 公司位於 Cambridge, Massachusetts。團隊以自己訓練的開源語音生成模型 Bark 為基礎,開發了 state-of-art 的 AI 音樂生成產品。Suno 團隊認為目前音樂聽眾數量遠遠超過音樂製作者是“失衡”的,期待用 Suno 讓每個人都能將自己的想法轉化成音樂,打破普通人與想象中音樂之間的障礙。
產品
團隊首先訓練並在 23 年 4 月推出的開源 TTS 模型 Bark。Bark 使用了 Transformer 架構,可以生成各種型別的音訊,包括多語言的語音、音樂、背景噪音和簡單音效,以及笑聲、嘆息和哭泣等非語言交流。當用戶輸入的文字具有一定的音樂性質時,Bark 會選擇將其生成為音樂,但有時候會出現歧義。為了明確指示 Bark 生成音樂,使用者需要在輸入文字的歌詞周圍新增音樂符號,比如音符或樂譜。bark 在 Github 中熱度很高,截至 2024 年 3 月,bark 被 fork 了 3.6k 次,有 30.9k star。
開源 Bark 後,Suno 團隊發現社群使用者都想要一個“音樂生成器”,於是在 bark 的基礎上訓練了針對音樂生成場景的模型,並開發了產品。23 年 7 月,Bark 增加了生成人聲的功能,23 年 9 月推出了 Discord 版本產品 Chirp V1。

2023 年 12 月 20 日 Suno 推出網頁版產品 V2。產品一經推出,產品效果被使用者稱讚為“the next level of music generation"。Suno 生成的旋律,音調絲毫不遜色於專業作曲家,雖然仍缺少一些靈性,在歌詞上有些模糊,但已經達到了 average 音樂人的水平。使用者表示“是一個極好的工具,為創作打下基礎” “生成的歌曲太吸引人了,又有趣又讓人感到畏懼”“已經沉迷於它了”。
Suno 網頁版本的產品形態很簡單,遠沒有到達 Spotify 等產品的複雜度。主要由 Explore、Create、Library 組成。Microsoft copilot 也集成了 suno,使用者可以透過 chat 的方式來進行音樂創作。
Explore 介面,會展示歌曲創作的 prompt 指引,以及使用者創作的最火、或最新的 AI 歌曲。暫不清楚推薦邏輯,但不同使用者登入後看到的歌曲是一樣的,可見還沒有針對使用者偏好進行個性化推薦。


Create 介面,使用者透過輸入 Song description 直接生成音樂,也可以選擇 Custom mode,輸入 lyrics 、style of music、title 三部分資訊來更細緻的創作音樂。使用者的使用情況顯示,超過一半的使用者喜歡使用 custom mode,深入調整和創造音樂。


Suno 在音樂風格的選擇上十分靈活。輸入想要的音樂風格,suno 就可以生成相應風格的歌曲。所有大眾風格,比如搖滾都生成的很好;年代比較新的小眾風格例如 K-pop 或 OPM 也都生成的不錯。
但是目前還無法做到對於生成音樂的精細化控制。部分使用者表示“如果沒有其他音樂技能,腦海中的旋律仍然無法被創作出來”,期待“未來幾年能夠利用技術從各個方面對音樂的生成進行控制”。
Library 介面,展示使用者自己創作的歌曲以及使用者自己建立的歌單,歌單中也可以包括其他使用者用 Suno 創作的歌曲。

Suno產品和模型迭代速度很快,2024年2月23日推出 V3 Alpha 版本,並在3月向全體使用者釋出。V3 在音質、創作速度、語言和樂器種類均有提顯著升,最長可生成兩分鐘的歌曲片段。儘管如此,V3版在處理特定指令、混音質量、以及處理簡短提示時的“幻覺”現象等方面仍有待改進。
關於未來的產品,Suno 希望去專注非專業市場,對齊非專業使用者的創作需求來擴充套件音樂體驗。團隊在開發一些尚未公開的功能,可能包括自定義模型,使用自己的音樂或聲音進行訓練,以及讓AI可以根據個人的反饋不斷學習和改進,從而生成越來越符合個人口味的音樂。
團隊正在努力思考如何推出新的與 AI 模型的互動方式,來激發人們的創作慾望,並幫助他們表達出來。除了傳統的寫歌詞方式,可能還會推出透過“敲擊節奏”或“唱入旋律”的生成方式,以及如何將使用者的生活片段轉化為音樂創作的靈感,例如透過模型展示一天中發生的隨機事件。Suno 也可能結合遊戲元素,如建立聊天室,讓使用者透過投票決定音樂的下一步動作。
社交媒體平臺的出現改變了音樂消費模式。流媒體支付模式使得歌曲被壓縮到兩分半到三分鐘的時間,而 TikTok 等平臺的出現使得使用者傾向於使用歌曲的片段進行創作和分享,這使得音樂進一步變短。AI 預計將加速這一過程,如果音樂在不久的將來創作和動態個性化,音樂消費模式可能進一步發生變化,比如人們可能不再完整地聽完一首歌,而是選擇性地聽取片段。全新的音樂消費模式也是 Suno 在探索的方向。
透過追蹤 Discord 社群,我們發現 Suno 使用者大致分為:
• 音樂愛好者,他們本不會寫歌,Suno 帶給他們創作歌曲的能力。這類使用者希望透過 AI 輔助創作出有趣的音樂作品,用於個人娛樂或社交媒體分享。他們的需求常常類似於,為自己的貓寫一首 Taylor Swift 風格的歌。
• 專業音樂製作人,他們將 Suno 作為創作的靈感來源,或生成音樂素材,結合自己的專業知識進行後期製作。Suno 幫助專業音樂人更高效的輸出作品,他們也開始將 Suno 應用在商業場景。
• AI 創作工具探索者,對音樂生成的技術感興趣,嘗試使用 Suno 進行實驗性創作。、
在與使用者的交流過程中,我們發現部分使用者對於 Suno 非常沉迷,Discord 社群中也保持了持續的高活躍。根據 Smiliarweb,Suno AI 的 MAU 持續增長,2024 年 2 月 MAU 已經達到約 220 萬,Suno 的國家分佈並不集中,其中美國、波蘭的使用者最多,各佔約 10%。以男性使用者居多,佔據了約 68%,在年齡以 18-34 歲的年輕人為主。
具體使用場景較為廣泛,並不僅僅侷限在專業音樂作曲,可以做如下劃分:

商業模式上,Suno 採取訂閱付費的模式,Suno 目前更像一個創作工具,參考工具類產品的訂閱比例,簡單假設目前 Suno 約 220 萬的 MAU 有 10% 是付費使用者,其中 8% 為 Pro Plan、2% 為 Premier Plan,Suno 的月收入大致估算為 250 萬美金。創作生態的豐富,Suno 平臺也有機會出現廣告和內容訂閱價值,為 UGC 提供收入渠道;或為音樂創作提供增值服務,比如提供一站式的音樂創作和分發解決方案。
團隊
Suno 團隊由音樂家和 AI 專家組成,目前僅有約 12 名員工。Suno 官網上寫道公司文化以音樂為核心,鼓勵聲音的實驗和創新,在辦公環境中音樂無處不在。聯合創始人包括 Mikey Shulman、Georg Kucsko、Martin Camacho 和 Keenan Freyberg,四人此前共同在被收購的金融資料 AI 科技創業公司 Kensho 工作。其中 Shulman 和 Camacho 是音樂愛好者,他們在 Kensho 工作時常常一起即興演奏。
從經歷來看,創始人有成功的創業退出經歷,並且在物理、科學領域有極強的造詣。創始成員還有在 Tiktok、Meta 等網際網路公司的從業經驗。AI、物理領域的造詣以及對音樂的熱愛,使得團隊對開發 AI 音樂生成產品具有很強的適配性。

競爭格局
Suno 最大的競爭來自於兩個方面,一是 OpenAI 釋出音樂生成領域的“Sora",直接在產品效果上的碾壓;一是版權公司和 Youtube、Spotify 等音樂平臺公司,利用其資料和流量優勢推出競爭產品,但他們面臨更高的資料版權風險。同時,Suno 還面臨著其他創業公司及開源體驗的競爭。
• OpenAI 是否會重現音樂生成的 “Sora”?
音樂生成模型的效果很大程度上是由資料質量決定的,這一方面取決於團隊是否能擁有充足的資料來源,懂得處理資料的方式,另一方面是否有充足的 GPU 進行訓練。OpenAI "大力出奇跡” 的 Sora 一推出,對其他影片生成公司的打擊有目共睹。OpenAI 目前已經註冊了商標 Voice Engine™,包括"基於自然語言提示、文字、語音、視覺提示、影像和/或影片建立和生成語音和音訊輸出",很可能包括了音樂生成產品。

如果 OpenAI 在音樂生成領域重現“Sora"將是 Suno 很大的競爭威脅。
• 來自版權公司和音樂音樂平臺的競爭
現有音樂公司對 AI 進行了積極的嘗試,也採取了很多防禦性的策略,包括 Spotify 剛剛推出的 Gen-Playlist,以及 QQ 音樂推出了 Suno 專區,但目前並沒有出現類似 Suno 的出圈產品。一方面是 Suno 的產品具有一定技術壁壘,大公司的行動速度遠慢於創業公司;另一方面大公司受限更多,會有更多版權、倫理上的限制。以及,我們所認為的平臺、版權公司擁有的資料積累優勢可能並不成立。生成高質量的 AI 音樂需要歌曲原始的分軌資料,但這是音樂平臺也不擁有的,而原始分軌資料分散在各個版權公司和明星演藝公司,獲得大量的資料很困難,購買成本也非常高。
長期來看,我們認為 Spotify、Youtube 等現有大公司將對 Suno 產生更大的挑戰。如使用者在 Youtube 可以實現多模態音樂創作→釋出的一體化,這其實與我們對影片生成格局的判斷類似。Suno 的取勝關鍵是持續保持最好的生成效果、以及找到自己獨特的產品形態。
• 其他創業公司及開源體驗
Udio 是第一家在質量上對 Suno 形成挑戰的產品,核心團隊也十分豪華,4 位 co-founder 都來自 Deepmind。根據反饋,使用者普遍覺得 Udio 的音質更高、可控性更好,但 Suno 更具創造性、表現力更強、生成的歌曲更多樣,這應該與模型的架構和使用的資料集不同有關。其他值得關注的 AI 音樂生成創業公司還包括 Sonauto AI、Soundraw 及 Riffusion 等。

至於與音樂生成開源模型的競爭,我們相信成熟的音樂生成產品將超越開源模型。音樂生成的增量主要是讓 C 端使用者也能夠根據自己的喜好創作音樂,這類使用者更偏好簡單、直觀的產品。但也有專業音樂製作人表示,Stable Audio 等經過反覆的嘗試也可以得到非常好的結果,多功能更豐富。這可能類似於 Midjourney 和 Stable Diffusion 的區別,專業使用者或團隊可能會根據自己的獨特需求微調開源音樂模型。
05.
對 Suno 的猜想
• Upside:Suno 有可能將 AI 生成音樂作為核心 feature,發展成為 UGC 內容+社交平臺。
根據 Discord 中的使用者調研,我們發現使用者喜歡 Work together with AI to write and iterate on lyrics,而不是僅僅自己提供、或全部由 AI 生成,所以平臺中增加使用者與 AI 的互動體驗是不可或缺的。
同時,使用者使用 Suno 並不僅僅為了創作自己喜歡的歌曲,也對聽其他的 UGC 作品十分感興趣,這意味著 Suno 有發展成為 UGC 平臺、歌曲分享和社交平臺的潛力。但音樂相比圖片、影片、聊天等媒介並不直接,更適合音樂的互動方式和產品形態是什麼?


在競爭中,OpenAI 的資料、訓練資源,以及大公司的流量優勢和資料積累都會對 Suno 帶來挑戰。而 Suno 擁有行業領先的技術水平和靈活的團隊,受版權的限制小,在快速迭代和適應 AI 發展變化方面可能更具靈活性。最好的情況下,Suno 能夠利用先發優勢,持續根據使用者反饋和積累的使用者生成資料保建立自己的護城河,保持最好的使用者體驗,以及找到自己獨特的產品定位。
• Open Questions
1)市場格局 Unclear。OpenAI、獲得豐厚資金支援的 startup、其他佔據流量入口的大公司,利用更豐富的資料和訓練資源推出效果更好的音樂生成模型,或音樂生成技術的發展遭遇瓶頸,導致 Suno 難以持續提供創新和突破性的產品體驗,都可能導致 Suno 變成曇花一現的產品。
2)雖然目前使用者對於 AI 音樂興趣高漲,但能否持續吸引使用者並保持高活躍度是一個未知數。只有 AI 創作的歌能真正吸引使用者,才能保持創作者持續創作和平臺的持續活躍。生成音樂再好,是不是最終大部分人還是更喜歡真實的人的作品?聽眾喜歡一首歌的原因,包括旋律、歌詞表達的情感和心情、歌手本人、第一次聽這首歌的場景等等。使用者欣賞音樂也寄託著對歌手本人的喜歡,有種文化情懷。這和文生圖、文生影片不一樣,人們在音樂上寄予的情感確實會更多、更 personal。不過生成音樂與人類創作並不一定是完全涇渭分明的。音樂人可以將 AI 作為手段,提升創作效率和創新性。同時,即便是使用 AI 創作的歌曲,也會帶有創作者本身的風格特點。隨著使用者對於 AI 接受度的增強,我們相信 AI 的“無情感”會被弱化。
3)Suno 是否會面臨版權問題?環球音樂集團及多個出版商組成的維權團隊曾對 Anthropic 提起侵權訴訟,指控其“非法複製和傳播大量受版權保護的作品(包括歌詞)”,以建立 AI 模型,Midjourney 也曾被多個畫家訴訟。相信隨著 Suno 的發展,未來也會面臨類似的問題,但是文生圖、文生影片等等領域的發展證明了,版權問題並不能阻礙 AI 創新的發展和繁榮。
4)生成音樂如何與人類創作共存也是一個值得探討的話題。我們認為 AI 更可能成為內容生態的一部分,而非替代者。AI 音樂會導致“水平平均”音樂供給量大大增長,藝術家和個人也可以利用 AI 探索新音樂元素,創作出更具創意的作品。
06.
附錄
音樂製作概念與管線
音樂基礎概念

製作管線
創作錄製
• 創意和策劃:確定音樂的風格、主題和目標受眾,聘請創作人員。
• 創作和編曲:創作音樂的樂譜、編曲,決定樂器和聲部的安排。
• 音訊錄製:錄製樂器、人聲等音訊素材。
後期製作
• 編輯:對錄音素材進行修剪、整理和調整,確保音訊質量。
• 混音:將各個音軌混合在一起,調整音量、平衡和效果。
• 母帶製作:最終處理,確保音樂在不同裝置上播放時保持高質量。
音樂製作工具演進如下:
• 模擬錄音裝置:早期的音樂製作依賴於模擬錄音裝置,如磁帶錄音機和混音臺,這些裝置操作複雜,成本高昂。
•
數字音訊工作站(DAW):
隨著計算機技術的發展,數字音訊工作站(DAW)的出現極大地簡化了音樂製作流程。DAW 提供了多軌錄音、編輯、混音和母帶處理等功能,使得音樂製作更加便捷和經濟。
• 軟體合成器和取樣器:軟體合成器和取樣器的出現使得音樂製作人能夠模擬各種樂器聲音,創造出前所未有的音色,極大地擴充套件了音樂創作的邊界。
• 音樂製作軟體:如 Ableton Live、FL Studio、Logic Pro 等,這些軟體提供了豐富的音樂製作工具,使得音樂創作和製作更加民主化,即使是業餘愛好者也能創作出專業水平的音樂。
使用者評論總結
Suno 提升音樂創作效率,可以用在創作的多個環節:
• 創作初期:“我發現它是一個極好的工具,可以幫助我為寫歌想出點子…它仍然足夠打下基礎。”
• 使用 suno 生成的內容作為元素:“Jimothy 說到他的流程:‘i extract vocals, edit them a bit to make them sound a little better, then rewrite all music from the ground up。’
• “我用在 Chirp 生成的歌曲與免費 AI 音訊工具結合,從歌曲中提取某些元素。’”
Suno 產品效果好,具有靈活性:
• ‘人們沒有意識到這有多重要,Suno 變得不可思議,能在 2 分鐘內生成一首好歌真是太震撼了。’”
• “你可以輸入風格,如‘搖滾’或‘流行’,更小眾的風格如‘K-pop’或‘OPM’,描述如‘旋律’或‘歡快’,或者混合以上任何風格。” — Suno 在音樂風格選擇上的靈活性。
• ‘作為一個作曲家,我覺得這很可怕——而且非常有趣。你創作的這首歌真的很吸引人!’”
• “我用 Suno 進行實驗、獲取靈感和娛樂。我能聽出它們是由 AI 生成的,但說實話…我喜歡它們。”
• ”suno 可以滿足我的 create desire”
Suno 使用技巧:
• Jimothy 說:‘ive found it does better with lyrics if you make up a song title。’” — 在生成歌詞時使用具體標題的重要性。
Suno 目前的不足和期待:主要集中在控制性上
• “使用者期待音樂生成結果的質量和連貫效能得到改進。”
• “sinepuller:‘但無論如何,輸出的內容聽起來就像垃圾。’”
• ‘想象一下,Suno 創作了一首歌,附帶樂譜和 DAW 檔案。然後你可以保留舊的部分重新滾動每個部分。’” — 使用者建議 Suno 提供更多音樂風格和樂器支援。
• ‘作為一個沒有音樂技能的人,我想這意味著我腦海中的旋律仍然無法被創作出來。’”
• ‘我自己會很高興有這樣的工具與 Ableton 一起使用,但目前看來這是一個非常複雜的問題。’”
• ‘讓我們希望未來幾年的研究能夠利用技術從各個方面進行控制。’”
用 Suno 賺錢:
• 用 Suno 生成音樂,再訂購 distrokid 音樂分銷服務,分發到各大流媒體平臺如 Spotify、Apple Music,期待透過這種方式賺取版稅
對新版本 V3 的評價:
1)積極評價:
• 音樂創作更加高效,減少了不滿意作品的情況。
• 聲音更加清晰。
• 在表達上更加豐富,超越了 V2。
• 一些使用者表示,V3 是他們願意為之付費的功能,因為它提供了更好的音樂創作體驗。
2)疑問和擔憂:
• 一些使用者對 V3 的對歌詞的處理不滿,認為它在處理副歌部分時不如 V2 穩定。
• 使用者認為 V3 的某些特定風格(如 synthpop)過於“哀傷”。
Reference
1. https://a16z.com/the-future-of-music-how-generative-ai-is-transforming-the-music-industry/
2. https://arxiv.org/abs/2308.12982 A Survey of AI Music Generation Tools and Models
3. https://www.ifpi.org/our-industry/industry-data/

延伸閱讀