2025 年第一款現象級的 AI 音樂爆品,就這麼華麗麗地來了!
國產大模型在技術實力上,又一次站在了世界前沿。
3 月 26 日,國內「All in AGI 與 AIGC」的科技公司 —— 崑崙萬維,釋出了最新音樂大模型 Mureka V6 和 O1,給全球音樂圈帶來了不小的震撼。
最值得關注的是,崑崙萬維帶來了全球首個引入 CoT 的音樂推理大模型 Mureka O1。在文字、視覺任務之外,「強推理、慢思考」的風終於吹到了音樂生成領域。
得益於生成過程中加入思考與自我批判能力,前者使得生成音樂的風格流派更符合使用者預期、音樂整體結構和連貫性更強、旋律更好聽,後者透過自動、客觀的評分來驗證生成曲風、結構和旋律的好壞。如此一來,Mureka O1 創作的音樂質量大幅度提高,達到了 SOTA 級別的生成效果。
在與 Suno V4 的直接較量中,Mureka O1 不僅絲毫不怵,還在主客觀評測的多項指標上完成了超越。其中在主觀評測中,Mureka O1 的整體聽感超過了 Suno V4,人聲(Vocal)、背景音樂(BGM)和混音(Mixing)質感明顯超越了後者,並在配器豐富度(Instrumentation Richness)、作曲結構(Composition Structure)和旋律動機質量(Motif Quality)方面實現了顯著提升。

對於客觀評測,包括髮音準確率、音樂片段連貫性、文字相關性以及包括內容享受度、內容可用度、製作複雜度在內的製作質量指標上,Mureka O1 相較於 Suno V4 均實現了不同程度的領先。


音樂質量更高的同時,生成速度同樣更快了。從完整歌曲生成時長來看,Mureka O1 甚至要比 Suno V4 縮短了 1/2。

這意味著,隨著思考能力的加入,AI 音樂生成在創作邏輯性與連貫性、創作自由度與個性化、情感表達、生成速度等多個方面邁入一個全新的階段。
Mureka O1 依託的是崑崙萬維此次升級的音樂生成基座模型 Mureka V6,不僅支援 10 種語言的歌詞和歌曲生成,同時支援純音樂生成、音色克隆等功能。可以說,國產 AI 音樂生成產品能玩的花樣更多了。此外,Mureka V6 還創下了兩個「全球前列」:
-
全球首批開放(五種)API 服務的高質量 AI 音樂生成平臺。開發者和音樂平臺可以將 Mureka 的音樂生成能力無縫整合到自家產品或平臺中,加速 AI 音樂創作的應用並實現商業價值。 -
全球首個開放模型微調功能的 AI 音樂生成平臺。使用者藉助 Mureka 基礎模型可以訓練符合自己需求的專屬音樂模型,增強了 AI 音樂創作的靈活性和個性化,在滿足具體音樂場景需求的過程中為音樂人、製作人乃至品牌和遊戲開發者提供定製化的 AI 音樂解決方案。
目前,Mureka O1 和 Mureka V6 已經全面上線,感興趣的小夥伴可以在 Mureka 官網體驗。
Mureka 官網地址:https://www.mureka.ai
上手實測
AI 也有潛力成為神曲製造機
Mureka 的創作介面如下圖所示,我們可以自由切換 Mureka V6 和 Mureka O1,選擇最適合自己想要生成的音樂風格的模型版本。

我們首先測試了一番 Mureka V6。首次實現支援 10 種語言之外,Mureka V6 生成的人聲更清晰、編曲更出色、歌詞也更準確。
都說音樂無國界,但歌手的口音不標準非常影響歌曲聽感,換成 Mureka,這個問題就完全不存在了。如此一來,全世界都能聽到你靈感的迴響。我們讓 Mureka V6 根據同一段中文提示詞創作中文、英文和日文歌,這是 Mureka V6 的答卷:
提示詞:一首悠閒、夢幻的浪漫歌曲、適合跳舞,充滿感染力的能量、強烈的節拍和歌詞,歌詞是關於春天、美好的生命,時間飛逝,珍惜春光的中 / 英 / 日文歌。
旋律清新,尤其是這首日文歌,不標明是 AI 生成,還以為是某個熱播動漫的片頭曲呢!
Mureka V6 的另一個亮點是支援生成純音樂。

機器之心影片號每天都在面對一個剛需,要為影片新增 BGM 來豐富內容。輸入提示詞:「帶有合成器音波的充滿活力的電子流行音樂,適合科技向影片」,我們得到了這樣的結果:
感覺 Mureka V6 生成的這首,質量絲毫不遜色於平時在無版權網站上精心挑選半天后選出的那首最佳 bgm。
加持了思考能力的 Mureka O1 就像是一個口袋裡的專業音樂工作室。大部分 AI 生成的音樂都有幾個通病:旋律特別簡單,或者是聽感奇怪的和絃湊夠了時長,不符合歌曲的「起承轉合」結構。
Mureka O1 的思維鏈能力為它注入了連貫的中間推理和決策步驟,賦予其生成更具深度和層次感的音樂的能力。與 V6 以及其他音樂生成模型相比,Mureka O1 的編曲更加豐富,旋律起伏自然,結構也更加合理,真正做到了「有理有據」的音樂創作。
它的操作簡單到甚至不需要提示詞,就能跳過歌詞、編曲、錄音和混音的複雜步驟,享受給自己寫歌的樂趣。我們只需要選擇簡單模式,在輸入框內輸入想要的風格,或者點選右下角的骰子,隨機搖出一些風格選項。

等待一下,就能得到一首聽起來有望衝進 billboard 年度前 200 的抒情歌:
當然,我們也可以切換到高階模式,輸入歌詞,再新增一些歌曲描述:


在別人還在用千篇一律的 bgm 發短影片的時候,用上 Mureka O1 的使用者,每個想要記錄的瞬間就擁有了量身打造的旋律:
Mureka O1 不僅簡化了複雜的音樂編輯任務,還保留了專業級的控制選項。無論你是經驗豐富的音樂人,還是五線譜都看不懂的小白,它都能在你的工作流中上大分。
首先是參考歌曲功能。都說 AI 生圖需要抽卡,其實 AI 作曲也一樣,不是每次結果都能讓人滿意。
相比影像,單純用語言更難描述出音樂的感覺,但插上耳機,聽到重金屬搖滾和 rap 之間的那段古典鋼琴,我們就能立刻辨認出:「這就是周杰倫的感覺!」
Mureka O1 還支援上傳歌曲,作為 AI 的創作參考,讓我們的腦洞不再受技術限制。
想知道華語流行音樂天王為《APT》作曲會不會更高階?開啟 Mureka O1 試試就知道了,操作也很簡單。
第一步,先輸入《APT》的歌詞,再點選參考歌曲,上傳周杰倫的一首代表作。在此,我們選擇了《青花瓷》。


按下創作按鈕,就可以靜待中國風滿滿的《APT》出爐了。
聽一下效果,編曲層次豐富,還設計了合聲,就連困擾 AI 音樂生成已久的人聲不清晰問題也解決了。人聲質感更為自然,整體混音設計也更加到位。
此外,Mureka O1 充分考慮到了歌曲創作的自由度,我們可以右鍵點開選單,選擇區域性重新生成或延長,延長 AI 靈感乍現的一瞬間。
編曲講究「ABAAB」的結構,正好這首《春の踴り》前奏很不錯,想延長几個小節來作「Intro」。我們不需要再跳轉到音樂編輯軟體中擷取,就可以得到這樣的效果了:
作為全球首個正式開放五種 API 服務的音樂生成模型,Mureka 確實也是把探索深度拉滿了。接入 API 後,就能在 Mureka 的基礎上,微調專屬音樂模型。音樂人、製作人、品牌和遊戲開發者想要定製 AI 音樂,也更加自由和高效。
除了音樂,Mureka API 還支援日常對話,其中預置了多種音色,結合音色克隆技術,連播客節目也能自己做。
這波體驗下來,我們最大的感受是:剛上手時,零基礎也能輕鬆搞定專業效果;深入探索,成熟的工具鏈蘊含無限可能,人聲的清晰度和旋律的聽感都已經超越 Suno,神曲也可信手拈來。
CoT 思考能力加身
音樂生成邁入 O1 時代
在 AI 音樂生成中引入 CoT 思考能力,為什麼會對生成的質量提升如此之大?從昆侖萬維公開的技術報告以及對 Mureka 演算法負責人 Max 的專訪中,我們對 Mureka O1 的先進性有了深刻的洞見。

專案主頁:https://MusiCoT.github.io/
在談到為何要在音樂生成加入思考能力時,Max 表示,以前的音樂生成模型(比如自迴歸 AR 模型)更多采用的是類似語言大模型中的「下一個 token」預測正規化,這不太符合人類音樂創作和製作的方式與過程。因此,雖然 AR 模型在高保真音樂生成中展現出了卓越的能力,但這種偏離人類創作模式的做法可能會限制生成結果的結構一致性和音樂性。
針對 AR 模型存在的侷限性,崑崙萬維打造出了一套與眾不同的解法,以 MeLoDy 音樂生成框架為主幹並受到語言建模中 CoT 提示技術的啟發,為音樂生成量身打造了一種新穎的 CoT 提示詞技術 —— MusiCoT。
不同於文字與視覺任務,音樂生成中引入思考能力需要克服一些不一樣的技術難點,包括:1)連續複雜的音訊訊號輸入、2)跨模態的文字輸入到音訊輸出、3)高維特徵的學習與高維資料的處理、4)音樂理論知識的融入以及 5)即時生成質量與速度的權衡。因此,為了在 AI 音樂生成中發揮作用,MusiCoT 針對這些難點做到了有的放矢,並形成了自己的技術優勢。
利用 MusiCoT,AR 模型的生成正規化發生了變化,引入了中間推理。模型可以先定義好整體音樂結構以及與生成作品相關的一些元素(比如風格、樂器等),然後再生成音訊 token,從而更加貼合人類的創作模式。
同時,透過使用對比語言 – 音訊預訓練(CLAP)架構來定義音樂思維鏈,MusiCoT 在同一個空間中對文字與音訊進行學習和訓練,實現二者更強的匹配性,使音樂結構(如樂器編排)得到分析。基於這種思維鏈的可分析性,可以將推理到的 CLAP 特徵與指定的文字進行空間上的距離分析,並讓思維鏈過程中模型創作的曲風、樂器、調性等變得透明可知。
此外,MusiCoT 可以自然地為 AR 模型提供音樂參考功能,將輸入的可變長度的音樂音訊作為可選風格參考。一方面可以將參考歌曲變成 CLAP 中的音訊嵌入,然後直接提取來替代要推理的思維鏈過程,這樣跳過中間推理直接過渡到音訊生成;另一方面引入殘差向量量化(RVQ)對音訊向量資訊進行量化處理,讓音訊資訊更模糊,從而更容易規避直接抄襲的風險。最後,MusiCoT 相較於其他 CoT 方法實現了可擴充套件性並且可以不依賴人工標記的資料。
下圖為原始 AR 音樂生成(上)與基於 MusiCoT 的 AR 音樂生成(下)流程對比,並以樂器編排為例說明。其中箭頭的不同顏色表示相應樂器的不同強度,顏色越深、樂器強度越高,反之亦然。

接下來,我們將對 MusiCoT 的實現過程進行逐一分解,主要由以下三個階段組成:
首先是將 CLAP 音訊嵌入視為可分析的音樂思考。MusiCoT 並沒有使用自然語言來描述音樂內容,而是提出使用對比訓練的跨領域嵌入模型(即 CLAP)來表徵中間音樂思考。具體來講,CLAP 模型將每 10 秒的音樂音訊編碼為了一個連續值嵌入。因此,給定一首 3 分鐘時長的典型歌曲,可以從 CLAP 中獲得一個音訊嵌入序列

並作為音樂思維鏈,其中每個嵌入都對應一段 10 秒的音樂片段。
其次是透過預測由粗放到精細的展平 RVQ 來實現更穩定的 MusiCoT 訓練。建立音樂思維鏈之後,又出現了一個重大阻礙:由於 CLAP 音訊嵌入為高維連續特徵,典型訓練目標(如均方誤差損失、L1 損失和對比 infoNCE 損失)在音樂生成中皆效果不佳。
為了克服 MusiCoT 中的訓練問題,崑崙萬維設計了一種基於 RVQ 的粗放到精細 tokenization 方法,具體如下圖所示。RVQ 模型由 L 個碼本組成,而 RVQ token 以粗放到精細的順序被展開以進行 LM 預測,較粗放的 token(靠前碼本)總是在較精細的 token(靠後碼本)之前預測。
不過,與傳統 CoT 將複雜任務拆解為更小步驟不同,音樂生成需要作為一個整體來看待(因為任何一塊的區域性修改都可能影響整體的音樂性效果)。崑崙萬維對中間音樂思考的定義滿足了這一標準,每個 token 序列與生成的整體音樂片段實現了精確時間對齊。此外,L 個碼本可以看作是 L 個粒度級別,生成這些中間 token 類似於從粗放到精細的方式來設計音樂結構。

在實際訓練中,語義 LM 將展平 CLAP RVQ token 作為了額外的預測目標,如下圖所示。與典型的 CoT 訓練類似,這些預測的 token 採用了與音訊 token 相同的處理方式,即用來計算交叉熵損失。唯一的區別是添加了兩個新的特殊 token(<cot_bos> 和 < cot_eos>),以預測何時從生成 MusiCoT token 轉換為音訊 token。
根據 CLAP 嵌入的性質,預測的 RVQ token 可以在聯合語言音訊潛在空間中進行分析,因此可以檢查音樂音訊中每 10 秒片段的音樂特徵。以樂器編排為例,透過計算生成嵌入與不同樂器的文字嵌入之間的餘弦相似度,對樂器編排進行分析,從而瞭解不同樂器在生成的音樂中隨時間切換的情況。

最後是 MusiCoT 的雙重取樣策略。在 MusiCoT 中,來自三個領域的 token,即文字 token、展平 CLAP RVQ token 和音訊 token,被整合到了一個 LM 中。這引發了一個重要的取樣策略問題:應該對後兩種模型預測的 token 使用相同的取樣方法還是採用不同的取樣策略?
崑崙萬維提出了兩種新穎的 MusiCoT 取樣配置。一個是雙溫度取樣,選擇溫度值作為取樣超引數對於提升語言模型效能至關重要,在音樂生成領域同樣如此。MusiCoT 採用了雙溫度取樣方法,即為語義 LM 配置了兩組取樣溫度,一組用於取樣展平 CLAP RVQ token,另一組用於取樣音訊 token。雙溫度取樣的有效性得到了實驗驗證。
另一個是雙尺度無分類器指導。無分類器指導(CFG)是擴散生成模型常用的一種方法,在 AudioGen 和 MusicGen 等語言建模中取得了成功。MusiCoT 設計了一種可以改變對數機率的雙尺度取樣策略,公式如下:

得益於以上技術先進性,MusiCoT 在主客觀指標中持續產生出色的生成效能,實現了超越當前 SOTA 音樂生成模型的效果。
結語
去年 3 月,Suno V3 橫空出世,成為一款現象級的 AI 音樂生成產品。使用者可以使用簡單的提示詞建立從歌詞、人聲到伴奏的所有內容,一方面降低了音樂創作門檻,讓門外漢也能體驗一把當音樂製作人的樂趣;另一方面,專業音樂人開始探索將 AI 工具融入到音樂創作過程中,提升效率,推動 AI 在音樂領域的應用和發展。
此後,音樂大模型邁上了快車道,有實力的玩家開始在這個領域狂奔。在國內,崑崙萬維入局非常早,並且拉開了與其他競品廠商的差距。基於早期在音樂賽道上的積累,2024 年 4 月崑崙萬維推出了 AI 音樂商用創作平臺 Mureka V1,逐漸成長為了這條賽道的行業引領者。
截至目前,Mureka 訪問使用者遍佈全球 100 多個國家和地區。並且,崑崙萬維圍繞 Mureka 形成了多樣化的變現路徑,包括 C 端使用者付費、B 端合作、API 服務和模型微調能力。
此次推出的 Mureka V6 以及思考能力加身的 Mureka O1,在帶來更高生成質量、更多樣創作模式的同時,無疑會鞏固崑崙萬維在 AI 音樂生成領域的領先性,並進一步促進 AI 音樂創作的普及,為音樂產業帶來了更多的創新和盈利機會。
未來,崑崙萬維會繼續加大在模型能力上的投入,讓音樂大模型保持全球第一梯隊。同時,依託 Mureka 基座模型可以期待更豐富的音樂功能,包括音樂生成的二次編輯、歌曲二創等。
當然,在持續最佳化和迭代 Mureka 功能之外,崑崙萬維同樣看重 AI 音樂創作的開發者生態與合作伙伴建設。如今的大模型競爭不再只是技術層面的較量,更是生態的比拼,更強大、更活躍的 AI 生態會助力降低開發門檻、加速各行業的深度應用落地和擴充套件商業模式,從而在市場競爭中立於不敗之地。
在「實現通用人工智慧,讓每個人能夠更好地表達自我」的使命驅使下, 崑崙萬維近年來立足於「AI 前沿基礎研究 —— 基座模型 ——AI 矩陣產品 / 應用」的全產業鏈,在 AIGC 創作領域積極佈局,陸續推出了涵蓋文字、影片和音樂等多個方面的創新產品。
AIGC 的美好想象正一步步走向現實。
最後來欣賞一段全網首發的《Mureka》AI 音樂人 MV,歌手為 Mureka。該作品由 AI 生成,其中音樂由 Mureka 生成,影片由 SkyReels 技術支援生成。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]