音畫同步,AI影片也能有完美「原聲音」,可靈AI剛上線的!

機器之心報道
編輯:澤南
AI 生成的「最後一道關卡」已經突破?
因為生成式 AI,火遍全球的 Labubu 有了超萌專屬 BGM:
影片來自可靈 AI 創意圈使用者。
複雜的自然環境也可以獲得相應的背景音。
影片來自 X。
現在還可以生成各種 ASMR,比如切開炸彈的外殼:
影片來自可靈 AI 創意圈使用者。
最近,人們都在談論一種給 AI 生成影片加音效的大模型。
它主打一個「全能」:不論輸入的是文字還是靜音的影片,它都會給你生成配套的音效或音樂,節奏踩點準確,細節到位合理。更有趣的是,它還能配合影片場景裡面的環境,呈現出立體聲。
相比之前的一些音效生成 AI,格局一下開啟。
這個新突破來自可靈 AI,他們提出的多模態影片生音效模型名叫 Kling-Foley,能夠透過大模型自動生成與影片內容同步的高質量立體聲音訊。

輸入的是影片和文字,輸出的是音效和 BGM。
簡單來說,Kling-Foley 支援基於影片內容與可選文字提示自動生成與影片畫面語義相關、時間同步的高質量立體聲音訊,涵蓋音效、背景音樂等多種型別聲音內容。它支援生成任意時長的音訊內容,還具備立體聲渲染的能力,支援空間定向的聲源建模和渲染。
少海外網友已經用上了,並在社交平臺上大加稱讚。
可靈 AI 已經發布了 Kling-Foley 的技術報告,有關它背後的技術我們可以一探究竟。

  • 論文:https://www.arxiv.org/pdf/2506.19774
  • 專案主頁:https://klingfoley.github.io/Kling-Foley/
  • GitHub 連結:https://github.com/klingfoley/Kling-Foley
  • Benchmark:https://huggingface.co/datasets/klingfoley/Kling-Audio-Eval
看影片就能「腦補」背景音
可靈 AI 用了什麼方法?
音影片的同步輸出,可謂是生成式 AI 的下一個關鍵節點。
生成式 AI 正在全球範圍內持續爆發,僅影片生成領域裡,技術可以說是日新月異。就說可靈 AI 自己,最近更新的 2.1 系列模型,生成的人物運動和細節讓人歎為觀止。
影片來自X博主@Artedeingenio
不過 AI 生成影片已經出現了兩年,大多數生成的內容還是缺乏同步音效的,如果人工加配音、BGM 的話,效率會被直線拉低,畢竟大多數人無法像專業配音師一樣掌握複雜的工具。
如何能讓大模型更好地給影片配音呢?
這方面的研究其實早已出現,但傳統的 AI 文字生成音訊(Text-to-Audio, T2A)方法在實際應用的過程中面臨著不少挑戰,比如它僅限於文字輸入,難以精確地「理解」影片,經常出現生成的音效和影片內容不同步的情況。
相比之下,影片生成音訊(Video-to-Audio, V2A)方法可以更加直接地結合影片和文字,提升音效生成的相關性和準確度。這就要求訓練 AI 模型的資料集既包括影片,也包括配套標記好的音訊和文字,從資料規模和多模態標註質量上來看都是一個艱鉅的任務。
在 Kling-Foley 模型身上,我們能看到一系列創新。它的整體結構如下:

具體來說,Kling-Foley 是一個多模態控制的流匹配模型。在音訊生成的流程中,文字、影片和時間提取的影片幀作為條件輸入;隨後這些多模態特徵會透過多模態聯合條件模組進行融合,並輸入到 MMDit 模組進行處理;該模組預測 VAE 潛在特徵,隨後由預訓練的梅爾解碼器將其重建為單聲道梅爾聲譜圖;然後,渲染為立體聲梅爾聲譜圖;最後,透過聲碼器生成輸出波形。
為了解決影片、音訊和文字三種模態間的互動建模問題,Kling-Foley 架構中很大程度上借鑑了 Stable Diffusion 3 的 MM-DiT 塊設計,實現了在文字、影片和音訊任意兩種模態組合下的靈活輸入。
而讓 AI 生成的聲音在時間點上與影片對齊是重中之重。為此,模型框架中還引入了視覺語義表示模組和音影片同步模組,能在幀級別上對齊影片條件與音訊潛層元素,從而提升影片語義對齊與音影片同步的效果。這些模組與文字條件共同作用,以精準控制生成與影片內容相匹配的擬音。為了支援可變長度的視音訊生成並增強時間控制,Kling-Foley 還引入了離散時長嵌入作為全域性條件機制的一部分。
另外,在音訊 Latent 表徵層面,Kling-Foley 也應用了一種通用潛層音訊編解碼器 (universal latent audio codec),能夠在音效、語音、歌聲和音樂等多樣化場景下實現高質量建模。

潛在音訊編解碼器的主體是一個 Mel-VAE,它聯合訓練了一個 Mel 編碼器、一個 Mel 解碼器和一個鑑別器。VAE 結構使模型能夠學習到連續且完整的潛在空間分佈,從而顯著增強了音訊表徵能力。
實驗結果表明,採用流匹配目標 (stream matching objective) 進行訓練的 Kling-Foley,在音訊質量、語義對齊和音影片同步方面,於現有公開模型中取得了全新的 SOTA(業內最佳)效能。
從無到有,打造多模態資料集
可靈打造 Kling-Foley 做的另一件重要的事就是從無到有構建資料集。其自建的多模態資料集樣本總數高達 1 億 +,每個樣本都包含一個原始影片片段、對應的單聲道音訊片段,以及關於音訊的結構化文字描述。它們來源於真實的線上影片內容,且三種模態緊密對齊。
在如此體量的資料處理過程中,可靈使用了一套自建的多模態大模型自動化資料處理系統,輔以嚴格的人工標註流程。

其中,音訊和影片資料經過質量篩選,以獲得高質量的單事件音訊和影片片段。隨後,系統透過資料增強生成多事件音訊樣本,同時利用上更多短資料,並使用多模態大模型為音訊和影片生成詳盡描述。最後,使用大模型將各種描述資訊結合起來,生成最終的結構化描述。
把訓練集中高層級聲音類別的分佈視覺化一下,可以看到它覆蓋了真實世界中大量的聲學場景,包括自然環境、人類活動、動物聲音、機械操作、交通工具等,這就為學習多樣的生成模式,提升合成音訊的真實感和可控性提供了紮實的基礎。

可靈還構建了一個名為 Kling-Audio-Eval 基準資料集並將其開源。其中同時包含影片、影片描述、音訊、音訊描述和聲音事件多級標籤。它包含 20935 個精細標註的樣本,覆蓋了交通聲、人聲、動物聲等九大類主要的聲音事件場景。它是業界首個包含音影片雙模態描述以及音訊標籤的音效生成基準,其涵蓋不同維度的多項評估指標,能支援對模型效能進行全面和多角度的評估。
最後,可靈在一些公開基準上對 Kling-Foley 與一些業界主流方法進行了對比,可見其在語義對齊、時間對齊和音質方面水平領先。

如果比較音效、音樂、語音和歌唱四種場景的編解碼能力,Kling-Foley 也在大部分指標上拿到了最優成績。

看起來,可靈 AI 提出的這個新技術不僅生成的音訊在頻譜上準確無誤,而且在感知上也更接近真實的原始音效。
可靈 AI 的音效生成能力,逐漸實用化
今年 3 月,可靈 AI 平臺上線了「文生音效」能力,其中新增了「音效生成」入口,支援使用者透過輸入文字生成相應音效,並可以基於可靈生成的影片內容進行理解,自動生成匹配的音效內容。
到了這個月初,可靈在推出 2.1 版影片生成模型時,添加了「影片音效」的開關,大家在生成影片的同時,系統也會自動生成與影片匹配的音效,增強了整體視聽體驗。
從現在開始,「影片音效」功能將全面擴充套件至可靈平臺所有版本的影片模型,覆蓋了文生影片、圖生影片、多圖參考生成影片、影片續寫、多模態編輯,基本做到了有影片,就能配音。
與此同時,「音效生成」也進行了一番升級,現在使用者可以直接上傳本地影片或選擇可靈生成的影片,一鍵生成與影片內容語義貼合、時間同步的音效內容。
可靈 AI 的音效生成介面。
透過可靈的新模型,平臺能夠自動對影片語義與音訊片段實現幀級對齊,「所見即所聽」,大幅降低了人們的的音訊後期製作成本。AI 生成的音效還是立體聲的,能夠適配動作、自然環境等多種場景,給足了沉浸感。
當然最重要的是,足夠方便簡單。
看起來,AI 影片生成的最後一個坎,已經被可靈跨過去了。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章