阿里通義開源首個CoT音訊模型,音·畫同步被狠狠拿捏了

一水 發自 凹非寺量子位 | 公眾號 QbitAI
AI音效已經進化成這樣了嗎??
開啟聲音🦻,來快速感受一下最新feel:
模擬嬰兒哭聲,那叫一個高低起伏、蕩氣迴腸,整個節奏和嬰兒表情姿態神同步了。
一輛火車由遠及近駛來,整個背景音也頗具空間層次感,毫不違和。
甚至連小號這種樂器演奏,聲音也能和演奏者的動作一一對上。
沒錯,這就是阿里通義語音團隊最新開源的泛音頻生成模型ThinkSound,主要用於影片配音,主打讓每一幀畫面都有專屬匹配音效
據介紹,它首次將今年大熱的CoT思維鏈推理引入了音訊領域,解決了傳統影片配樂技術往往只能生成單調的背景音,而難以捕捉畫面中的動態細節和空間關係的難題。
就是說,AI現在也能像專業音效師一樣逐步思考,透過捕捉視覺細節來生成音畫同步的高保真音訊。
官方測評顯示,ThinkSound在業界知名的音影片資料集VGGSound上,對比6種主流方法(Seeing&Hearing、V-AURA、FoleyCrafter、Frieren、V2A-Mapper和MMAudio),在核心指標上均實現了顯著提升。
p.s. ↓ 表示越低越好,↑ 表示越高越好
目前ThinkSound一共有三種型號(1.3B、724M、533M)可選,開發者可在GitHub、HuggingFace、魔搭社群下載體驗。

會思考後,音畫同步更強了

為什麼需要“會思考”的音訊生成模型?
其實這主要是因為,現有端到端影片-音訊(V2A)生成技術難以捕捉音畫細節
比如對於貓頭鷹何時在輕聲啾啾、何時振翅準備起飛,或者樹枝在振動時發出的輕微摩擦聲,由於缺乏對視覺—聲學細節的深入理解,生成的音訊往往顯得過於通用,有時甚至會出錯,導致音畫不匹配。
而引入鏈式思維(CoT)推理後,整個過程可以拆解為:先分析視覺動態、再推斷聲學屬性,最後按照時間順序合成與環境相符的音效。
這一模仿人類音效師的多階段創作流程,能精準建立起聲音和畫面之間的對應關係。
一言以蔽之,正如推理能力能提升語言模型的回答質量,CoT也能增強AI生成音效的真實感與同步性。
從更多生成結果也能看到,當音訊模型懂得“思考”後,音畫同步這事兒也就變得更加簡單了。
玩法也很easy,使用者僅需上傳一段影片,模型就能自動“按幀匹配音效”——
給一段Sora模型生成的影片,各種地上跑的、水裡遊的都能一鍵自動生成音效,仔細聽還能發現真實的環境噪音。
值得一提的是,理論上ThinkSound不限制上傳影片的時長,但考慮到生成效果,當前團隊建議最佳影片時長為10s。

三階思維鏈驅動音訊生成

那麼,鏈式思維推理具體如何發揮作用的呢?概括而言,ThinkSound擁有兩大核心模組:
  • 鏈式推理的多模態大語言模型(MLLM)
  • 基於流匹配的統一音訊生成模型
基於以上模組,實現了一個三階思維鏈驅動的音訊生成過程
按照團隊介紹,這一過程核心面臨兩個挑戰:
如何構建符合預期的CoT?以及如何將CoT有效地注入到音訊流匹配模型中?

技術架構:三階思維鏈驅動音訊生成

第一階段,基礎音效推理鏈構建(Foundational Foley CoT Generation)。
首先,ThinkSound會同時分析音訊和影片,從聲音、時間順序和內容三個角度理解發生了什麼。
具體而言,團隊首先透過VideoLLaMA2生成CoT推理鏈,分別提取畫面中的運動動態(如貓頭鷹振翅瞬間)與場景語義(如夜晚森林環境)。
然後結合Qwen2-Audio生成的初步音訊描述,由GPT-4.1-nano輸出結構化的CoT步驟,確保推理包含事件識別、屬性推斷與因果順序,為後續合成模組提供時空對齊精度。
第二階段,面向互動的物件級推理鏈構建(Interactive Object-Centric CoT Generation)。
接下來使用者可以點選影片裡的某個部分,ThinkSound會找出影片中具體的聲音來源區域(如煙花、鳥、車等),進行單獨分析。
這時會用到Grounded SAM-2(開源影片目標定位與追蹤框架),來標註並跟蹤影片中的“感興趣區域”(ROI)。
所謂“感興趣區域”,是指影片中那些可能發出聲音或與音訊內容緊密相關的可見物件或區域,如一隻正在叫的貓頭鷹(←ROI)對應著貓頭鷹鳴叫。
之後再把這些區域與原始聲音對照,分析具體哪一部分該保留、哪一部分是干擾;並融合其他影片的CoT資訊,輔助判斷應該怎麼處理音訊。
第三階段,基於指令的音訊編輯推理鏈構建(Instruction-Based Audio Editing CoT Generation)。
最後使用者可以一句話(如“加點爆炸聲”“去掉人聲”)下達編輯指令,ThinkSound將根據原始音訊和推理鏈,執行編輯操作。
具體而言,它把指令與當前音訊對應的推理鏈進行融合,利用GPT-4.1-nano生成一套結構化的音訊編輯步驟。
最終,所有CoT指令都會被傳遞給統一音訊基礎模型,該模型基於條件流匹配 (conditional flow matching) 技術實現高保真音訊合成。
簡單來說,在音訊生成的底層實現上,ThinkSound採用了一種結合視覺、語言和上下文資訊的多模態流式建模方法
就是說,它能同時理解影片畫面、文字描述和聲音上下文,並將這些資訊融合起來,以逐步生成真實自然的音效。

AudioCoT:首個帶思維鏈標註的音訊資料集

與此同時,團隊還專門為ThinkSound構建了一個鏈式音訊推理資料集——AudioCoT
資料集主要包括兩大類,時長總計2531.8小時
第一類:源自VGGSound (453.6小時) 和AudioSet (287.5小時),經9.1秒固定長度分段、剔除靜音片段、並特別排除了含人聲片段後精選而來的影片—音訊對,涵蓋動物鳴叫、機械運轉、環境音效等真實場景。
第二類:源自AudioSet-SL (262.6小時)、AudioCaps (112.6小時)、Freesound (1286.6小時) 與BBC Sound Effects (128.9小時),利用多樣化的字幕/標籤描述加深模型對聽覺語義的理解。
有了以上資料後,團隊繼續透過一套精細的處理流程,來確保模型真正實現音畫同步。
這個流程分為三個主要階段:
  • 音訊-文字對齊過濾:首先檢查音訊和文字描述是否匹配,如果其匹配度低(CLAP分數小於0.2),就會重新生成匹配,直到達到較好的質量,並且持續低分音訊樣本將被剔除。
  • 目標跟蹤一致性:然後確保影片中的物體與音訊對應,如果影片中的目標在整個片段中都能保持可見,才會保留下來。那些影片目標不清晰或者無法穩定跟蹤的片段會被去掉。
  • 音訊元件的語義配對:最後透過GPT-4.1-nano來分析音訊的標籤,基於語義區分性(避免音訊提取和移除任務混淆)和上下文合理性(確保配對聲音在同一聲學場景中共現合理)兩個標準,確保音訊對語義明確且實用。
總之,藉助以上架構和資料集,ThinkSound能同時完成音訊生成和編輯任務

更多實驗結果

除了在VGGSound上超越6種主流音訊生成方法,團隊還進行了消融實驗。
他們核心驗證了兩件事:
  • 有推理和無推理,是否影響音訊生成質量?
  • 在輸入音訊和影片特徵時,不同整合方法是否有影響?
結果發現,對比單純的CLIP文字編碼和T5鏈式推理,後者所生成音訊的真實感和質量大大提高。
此外,將CLIP的視覺特徵和T5的文字推理結合起來,能進一步最佳化音訊的理解和表現。
其次,把影片和音訊的特徵在同一時間點進行對齊和合並,能比單獨輸入音訊更好地同步聲音和畫面。
而且門控融合(一個智慧融合音訊和影片特徵的機制)能達到最好的效果,它在各個指標上都表現最優。

來自通義語音團隊

這項研究來自阿里通義語音團隊。
仔細梳理這個團隊在語音生成領域的一系列動作,不難發現他們已經在開源社群佔據了一席之地
就在上個月,團隊釋出了語音生成大模型Cosyvoice 3.0,透過大規模資料預訓練和特殊設計的強化學習後訓練,它能提供多語言語音生成、零樣本語音復刻等功能。
加上其1.0、2.0系列,Cosyvoice已在GitHub攬星14.9k,廣受開源社群喜愛。
更早之前,團隊還推出了基於模態對齊實現的端到端音訊多模態大模型MinMo
它在廣泛的音訊理解生成類任務,如語音對話、語音識別、語音翻譯、情感識別上均獲得良好效果,且延遲較低。
相關論文也早已在HuggingFace上公開。
再到這次的ThinkSound,團隊依舊延續了開源路線,除了能在幾個開源社群體驗模型功能,他們後續還計劃在完善模型後釋出相應API。
最後順便介紹一下論文作者。
論文唯一一作劉華岱,研究方向為AI音訊生成與多模態理解,至今為止在ICML、ICLR、ACL等國際頂級學術會議發表論文十餘篇。
其中,他還以一作身份主導了OmniAudio(ICML)、FlashAudio(ACL Oral)、AudioLCM(ACM MM)等開源音訊生成工作。
專案主頁:
https://thinksound-project.github.io/
論文:https://arxiv.org/pdf/2506.21448開源地址:https://github.com/liuhuadai/ThinkSoundhttps://huggingface.co/liuhuadai/ThinkSoundhttps://www.modelscope.cn/studios/AudioGeneral/ThinkSound
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
專屬AI產品從業者的實名社群,只聊AI產品最落地的真問題

掃碼新增小助手,傳送「姓名+公司+職位」申請入群~

進群后,你將直接獲得:
 👉 最新最專業的AI產品資訊及分析 🔍 
 👉不定期發放的熱門產品內測碼 🔥
 👉內部專屬內容與專業討論 👂
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章