
(來源:MIT Technology Review)
1956 年,計算領域的頂尖科學家齊聚達特茅斯學院參加夏季會議時,“人工智慧”一詞剛剛出現。
近 70 年後,在該領域經歷了數次興衰迴圈之後,處於蓬勃發展階段。過去三年,生成文字的大語言模型發展迅猛,而基於擴散模型的另一類人工智慧,正以前所未有的態勢衝擊創意領域。擴散模型能將隨機噪聲轉化為有序模式,在文字提示或其他輸入資料的引導下,生成全新的影像、影片或語音。頂尖的擴散模型生成的內容,與人類創作難分伯仲,也能產出奇異、超現實,一看就不似人類創作的作品。
如今,這些模型正在進軍音樂領域。人工智慧創作的音樂作品,從交響樂到重金屬,正全方位融入我們的生活。這些歌曲可能會出現在流行媒體平臺歌單、派對和婚禮播放列表、影視配樂中。

音樂形象
擴散模型在音樂創作中的原理與影像生成類似,但它並非像樂隊創作那樣,從鋼琴和絃開始,逐步加入人聲、鼓等元素,而是一次性生成所有音樂元素。這一過程基於這樣一個事實:歌曲的諸多複雜特徵可以在單個波形中直觀呈現,波形表示的是聲波幅度隨時間的變化,它實際上包含了所有不同樂器和音色的頻率總和。
由於波形或類似的頻譜圖可以像影像一樣進行處理,因此可以基於它們建立擴散模型。訓練模型時,會向其輸入數百萬段現有歌曲片段,併為每個片段新增描述標籤。生成新歌曲時,模型從純隨機噪聲開始,根據提示詞中的描述反向生成新的波形。
人工智慧音樂公司Udio與Suno 公司在音樂生成模型領域競爭激烈。兩家公司都致力於開發讓非專業音樂人也能創作音樂的 AI 工具。Suno 規模更大,使用者超過 1200 萬,並在 2024 年 5 月獲得了 1.25 億美元融資,還與知名音樂人 Timbaland 展開合作;Udio 則在 2024 年 4 月獲得了來自 Andreessen Horowitz 等知名投資機構以及音樂家的 1000 萬美元種子輪融資。
目前來看,Udio 和 Suno 的成果顯示,相當一部分人似乎並不在意自己聽的音樂是由人類創作還是機器生成。Suno 為創作者提供了藝術家頁面,部分頁面吸引了大量粉絲,這些創作者完全藉助 AI 生成歌曲,還常常搭配 AI 生成的藝術家形象。他們並非傳統意義上的音樂人,而是精通提示詞輸入的高手,他們創作的作品很難歸屬於某一位作曲家或歌手。

(來源:MIT Technology Review)
然而,音樂產業對此持抵制態度。2024 年 6 月,這兩家公司被主要唱片公司起訴,相關訴訟仍在進行中。環球、索尼等唱片公司指控 AI 模型在訓練過程中使用了大量受版權保護的音樂,生成的歌曲“模模擬實人類錄音品質”。
在針對 Suno 的訴訟案例中,就提到了一首類似 ABBA 風格的歌曲《Prancing Queen》。Suno 未回應訴訟置評請求,但在 8 月釋出的宣告中,執行長Mikey Shulman在公司部落格上表示,公司在公開網路獲取音樂用於訓練,其中確實包含受版權保護的內容,但他認為“學習並不構成侵權”;Udio 的代表則表示,公司不會對未決訴訟發表評論。訴訟發生時,Udio 釋出宣告稱,其模型設有過濾器,可確保不會複製受版權保護的作品或模仿藝術家的聲音。
美國版權局在 1 月份釋出的指導意見讓情況更加複雜。該意見指出,如果人工智慧生成的作品融入了大量人類投入,就可以獲得版權。一個月後,紐約的一位藝術家獲得了在 AI 輔助下創作的視覺藝術作品的首個版權。或許不久後,第一首 AI 生成的歌曲也將獲得版權。

新穎性和模仿性
這些法律案件陷入了一個模糊地帶,與其他 AI 相關的法庭爭端類似。核心問題在於,是否允許 AI 模型使用受版權保護的內容進行訓練,以及生成的歌曲是否構成對人類藝術家風格的不當複製。
無論法院最終如何判決,AI 音樂都有可能以某種形式蓬勃發展。有報道稱,YouTube 一直在與主要唱片公司洽談,希望獲得音樂授權用於 AI 訓練。Meta 近期也擴大了與環球音樂集團的合作協議,這意味著 AI 生成音樂的授權或許已提上日程。
如果 AI 音樂持續發展,它究竟有哪些價值?這涉及3個關鍵因素:訓練資料、擴散模型本身以及提示詞。模型的質量取決於其學習的音樂庫及其描述的豐富程度,描述越精準,模型效果越好。模型的架構決定了它如何運用所學知識生成歌曲。而輸入模型的提示詞,以及模型對提示詞的“理解”程度,同樣至關重要。
AI 生成的音樂究竟是創作還是簡單複製訓練資料?可以說,最關鍵的問題在於訓練資料的廣泛性、多樣性以及標註的準確性。Suno 和 Udio 都未公開其訓練集中包含哪些音樂,不過在訴訟過程中,這些細節可能會被披露。
Udio 表示,歌曲的標註方式對模型極為重要。簡單的描述可能只是確定歌曲的流派,而更細緻的描述還可以包括歌曲的情感基調,比如憂鬱、振奮或平靜等,專業描述則可能涉及 2-5-1 和絃進行或特定音階。Udio 稱,他們透過機器標註和人工標註相結合的方式來實現。
競爭激烈的 AI 音樂生成平臺還需要不斷學習新的歌曲,否則其生成的作品會逐漸過時。目前,AI 生成的音樂依賴於人類創作的藝術作品,但未來,AI 音樂模型或許會利用自身的輸出成果進行訓練,這一方法已在其他 AI 領域展開試驗。
由於模型從隨機噪聲取樣開始生成音樂,結果具有不確定性,即便輸入相同的提示詞,每次生成的歌曲也會不同。許多擴散模型開發者,包括 Udio,還會在生成過程中額外新增隨機性,即對每一步生成的波形進行微調,希望藉此讓輸出結果更具趣味性或真實感。

(來源:MIT Technology Review)
如果創造性產出的定義是既新穎又有用,那麼機器或許能在“有用”這一標準上與人類媲美,但在“新穎性”方面,人類更勝一籌。
為了驗證這一觀點,我花了幾天時間體驗 Udio 的模型。使用該模型生成 30 秒的音樂樣本大約需要一兩分鐘,如果是付費版本,則可以生成完整的歌曲。我選擇了 12 種音樂流派,為每種流派生成歌曲樣本,並找到人類創作的類似風格歌曲。然後我設計了一個測驗,讓同事們分辨哪些歌曲是 AI 創作的。
最終測試結果的平均正確率為 46%。對於某些流派,尤其是器樂曲,聽眾常常判斷錯誤。在觀察大家測試的過程中我發現,他們認為是 AI 合成歌曲的特徵,比如奇怪的發聲效果、詭異的歌詞,往往並不可靠。不出所料,人們對不太熟悉的音樂流派判斷準確率更低。有些人對鄉村音樂或靈魂樂的判斷比較準確,但很多人在爵士樂、古典鋼琴曲或流行樂的判斷上表現不佳。創造力研究專家Beaty的測試正確率為 66%,作曲家Brandt的正確率為 50%(不過他在管絃樂和鋼琴奏鳴曲的測試中回答得很準確)。
需要明確的是,這些 AI 生成的歌曲並非完全歸功於模型本身,如果沒有人類藝術家的作品作為訓練資料,這些歌曲根本無法誕生。但僅透過簡單的提示詞,該模型就能生成很多人難以辨別是否為機器創作的歌曲。在聚會上播放這些歌曲,也不太容易被人察覺異樣。我還發現了兩首自己很喜歡的歌曲,即使是專業音樂人或對音樂很挑剔的人,也不會覺得突兀。不過,聽起來真實並不等同於聽起來有創意。這些歌曲缺乏獨特的風格,沒有貝多芬式的“神來之筆”,也沒有突破流派限制或展現出主題上的大膽創新。在測試中,人們有時很難判斷一首歌究竟是 AI 生成的,還是質量欠佳的人類作品。
人們或許會好奇這些音樂背後的創作者是誰。但歸根結底,無論其中有多少人工智慧成分,也無論有多少人類成分,它終究是藝術,人們會根據其美學價值的優劣來評判它。
原文連結:
https://www.technologyreview.com/2025/04/16/1114433/ai-artificial-intelligence-music-diffusion-creativity-songs-writer/
