這AI絕對偷了格萊美獎盃!直接把LLaMA喂成樂壇頂流:開源版Suno來了!

家人們震驚了!現在 AI 成精啦,不僅能寫能畫,現在連唱功都是格萊美級的了!
魅惑空靈電音女聲,也太好聽了吧!
酷佬街頭說唱,怎麼有一股八方來財的味兒?
強混嘹亮歐美女高,像極了阿黛爾~
極端的金屬核嗓也不在話下!
日韓女團風,日韓英三語無縫切換!
還有這首 AI 新編版《世界贈與我的》!模仿王菲空靈仙嗓也太到位了吧,完全不一樣的旋律,一樣的嘎嘎好聽,寧靜中帶一點哀傷的意境拿捏得簡直了!
模仿碧梨的慵懶聲線,確定不是碧梨本人在唱?
網友爆改 rap 版 YouTube 億播神曲《Plastic Love》:
YuE(樂):開源版 Suno AI
上述所有讓網友跪著聽的炸裂神曲,全都出自港科大和音樂圈 DeepSeek —— Multimodal Art Projection(MAP)聯手開源音樂生成基座 —— YuE(樂)。
  • 論文標題:YuE: Scaling Open Foundation Models for Long-Form Music Generation
  • 專案地址:https://github.com/multimodal-art-projection/YuE
  • Demo:https://map-yue.github.io
  • Arxiv:https://arxiv.org/abs/2503.08638
這個模型可太強啦,直接對標 Suno AI,自春節期間放出以來 GitHub 已飆星 4500+,推特累計瀏覽上百萬次!老外刷著 demo 直接給 Suno 和 Udio 開起追悼會:閉源音樂生成這是藥丸!
作為第一個開源的全曲級歌曲生成基座,YuE 做到了連 Google 家的 MusicLM、Meta 家的 MusicGen 都做不到的事:不僅能建模長達 5 分鐘的歌曲,又能同時生成專業級歌聲和伴奏!
這是怎麼實現的呢?
YuE 其實是一個雙 LLaMA 語言模型架構(下圖),因此無痛適配大部分大語言基建,非常容易 scale up。
  • 其中大的 Stage-1 LM 聯合建模文字條件和粗粒度音訊離散 token 序列。
  • 而小的 Stage-2 LM 基於大 LM 給出的粗粒度離散 token 合成剩餘的(殘差)細粒度 token。
  • 最後得到的多碼本離散音訊序列會送入 tokenizer decoder 重建迴音頻,並送入一個輕型上取樣器重構 44.1khz 的音訊。
在 YuE 之前,主要的學界工作還是把歌聲合成(Singing Voice Synthesis)和音樂生成(Music Generation)分開做的,只有像 Suno AI、Udio 這樣的閉源玩家們成功探索出來了端到端的歌曲生成,把兩種任務合併到一起建模。有個別學界工作會分階段對人聲和伴奏分別建模,但是效果距離商業閉源還是差距較大,也沒有開源。這裡就不得不提 YuE 的雙軌版 Next-Token Prediction(Dual-NTP)策略了。

YuE 的 Stage-1 LM 利用聲伴分離先驗,把人聲和伴奏軌在同一個時間步分別用兩個 token 建模(上圖虛線框),巧妙地實現了歌聲合成和音樂伴奏生成的聯合建模。這不僅避免了離散 token 的資訊損失問題,得以精準捕捉細膩人聲,還保證了軌間對齊和端到端。
  • 如果使用 ΔWER 來表示語音內容重構損失,那麼利用分離先驗得到的人聲軌(下左圖橙)的損失顯著小於合軌(下左圖藍),甚至在極端的金屬風格下也能維持較低的語音內容重構損失。
  • 基於 Dual-NTP 訓練的 LM 在相同的訓練成本下也表現出比 NTP 更低的 loss(下右圖橙 vs 藍)。
但為了達成數分鐘級的歌曲建模,研究團隊又對 Stage-1 LM 提出了另一個改進:結構化漸進生成(Structural Progressive Generation,縮寫為 CoT),將歌曲拆分成主副歌段落後,透過文字 token(方形)、音訊 token(圓形)在同上下文內交替排布的方式,避免了文字條件控制遠端衰減的問題,使得人聲軌能在全曲範圍內準確跟隨歌詞控制。

消融顯示,這種帶有文字中間態的 CoT 在 0.5B 下比其它方法(原版、課程學習、ABF)具有更低的 Whisper 轉錄歌詞錯誤率(橙線),並在 scale up 到 7B 之後得到更顯著的收益(藍線)。受限於 Whisper 的歌聲轉錄效能,20% 的錯誤率已經接近 groundtruth 原曲的錯誤率。

不僅如此,團隊還專門為音樂開發了特有的上下文學習(Music In-Context Learning,Music ICL)。與此前 TTS 領域的續寫型 ICL 不同,音樂創作常常要求從一個動機出發向左右兩邊發展構造成曲,要避免抄襲鼓勵創作。為此,Music ICL 將曲中任意 20~40 秒片段的音樂拼接到 CoT 資料開頭,並在 Stage-1 LM 退火階段利用約 2% 的計算量延遲啟用這種格式。
團隊發現,過早地啟用 Music ICL 容易導致捷徑學習(Shortcut Learning),讓模型成為洗歌機器,對音樂創作能力有損。而延遲啟用策略極大地節約了計算量,並且保護了模型的音樂性和創造力。這也帶來了本文開頭的風格克隆(Style Cloning)、聲音克隆(Voice Cloning)、風格遷移(Style Transfer)的相應能力,模仿王菲、碧梨甚至爆改 Rap 版 City Pop。在測試時開啟 ICL 和 CFG(Classifier Free Guidance)模式後,模型音樂性暴漲!

團隊將 Stage-1 LM 擴充套件到 1.75T token,7B 的規模後,在人類偏好評測中獲得了閉源級的音樂性和綜合評分。
在人聲音域上(下圖數字越大音域越寬廣),YuE 與國際領先的 Suno、Udio 處於同一水平線。

在生成時長上,YuE 也位於國際領先水平。

抄襲檢測顯示,即使提供訓練集內樣本,YuE 的查重率甚至低於學術資料集 GTZAN 的同流派內不同曲目相似度,更是遠低於人類翻唱、改編曲目。
不僅如此,YuE 還有非常不錯的 embedding 質量。作為一個生成模型,它的單軌無條件模式可用於抽取全曲級 embedding,而且表徵質量和 SOTA 表徵學習模型處於同一水平,甚至在調性識別上還超過了最新自監督學習 SOTA MuQ。這下確認 YuE 唱歌不會跑調啦!

還等什麼,快來玩玩看吧~
  • 專案地址:https://github.com/multimodal-art-projection/YuE
  • Demo:https://map-yue.github.io
  • Arxiv:https://arxiv.org/abs/2503.08638
  • B 站講解:https://b23.tv/YaYtvVi
互動式 Demo(非官方):
  • https://huggingface.co/spaces/fffiloni/YuE
  • https://yueai.app/zh/playground
  • https://yueai.ai
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章