AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報道。投稿郵箱:[email protected];[email protected]
在嘈雜的環境中,人類能夠專注於特定的語音訊號,這種現象被稱為「雞尾酒會效應」。對於機器來說,如何從混合的音訊訊號中準確分離出不同的聲源是一個重要的挑戰。
語音分離(Speech Separation)能夠有效提高語音識別的準確性,通常作為識別的前置步驟。因此,語音分離模型不僅需要在真實音訊上輸出分離良好的結果,同時還要滿足低延遲的需求。
近年來,深度學習在語音分離任務中的應用受到了廣泛關注。儘管許多高效能的語音分離方法被提出,但仍有兩個關鍵問題未能得到充分解決:一是許多模型計算複雜度太高,未充分考慮實際應用場景的需求;二是常用的語音分離資料集與真實場景存在較大差距,導致模型在真實資料上的泛化能力不足。
為了解決這些問題,清華大學的研究團隊設計了一種名為 TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction network)的輕量級語音分離模型,並提出了一個新的資料集 EchoSet,旨在更真實地模擬複雜聲學環境中的語音分離任務。
實驗結果表明,TIGER 在壓縮 94.3% 引數量和 95.3% 計算量的同時,效能與當前最先進的模型 TF-GridNet [1] 相當。

-
論文標題:TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation -
論文連結:https://arxiv.org/pdf/2410.01469 -
專案主頁:https://cslikai.cn/TIGER -
GitHub 連結:https://github.com/JusperLee/TIGER -
資料鏈接:https://huggingface.co/datasets/JusperLee/EchoSet
方法
語音分離任務的核心是從混合的音訊訊號中恢復出每個說話者的清晰語音。傳統的語音分離模型通常直接在時域或頻域進行處理,但往往忽略了時間和頻率維度之間的互動資訊。為了更高效地提取語音特徵,TIGER 模型採用了時頻交叉建模的策略,結合頻帶切分和多尺度注意力機制,顯著提升了分離效果。
TIGER 模型的整體流程可以分為五個主要部分:編碼器、頻帶切分模組、分離器、頻帶恢復模組和解碼器。首先,透過短時傅立葉變換(STFT)將混合音訊訊號轉換為時頻表示。接著,將整個頻帶劃分為多個子帶,每個子帶透過一維卷積轉換為統一的特徵維度。分離器由多個時頻交叉建模模組(FFI)組成,用於提取每個說話者的聲學特徵。最後,頻帶恢復模組將子帶恢復到全頻帶範圍,並透過逆短時傅立葉變換(iSTFT)生成每個說話者的清晰語音訊號。

TIGER 整體流程
頻帶切分
語音訊號的能量分佈在不同頻帶上並不均勻,中低頻帶通常包含更多的語音資訊,而高頻帶則包含更多的噪聲和細節資訊。為了減少計算量並提升模型對關鍵頻帶的關注,TIGER 採用了頻帶切分策略,根據重要性將頻帶劃分為不同寬度的子帶。這種策略不僅減少了計算量,還能讓模型更專注於重要的頻帶,從而提升分離效果。
分離器
語音訊號的時間和頻率維度之間存在複雜的互動關係。為了更高效地建模這種互動關係,TIGER 引入了時頻交叉建模模組(FFI)。為了減少引數,分離器由多個共享引數的 FFI 模組構成。每個 FFI 模組包含兩個路徑:頻率路徑和幀路徑。
每個路徑都包含兩個關鍵子模組:多尺度選擇性注意力模組(MSA)和全頻 / 幀注意力模組(F³A)。透過交替處理時間和頻率資訊,FFI 模組能夠有效地整合時頻特徵,提升語音分離的效果。

FFI 模組內部細節
多尺度選擇性注意力模組(MSA)
為了增強模型對多尺度特徵的提取能力,TIGER 引入了 MSA,透過多尺度卷積層和選擇性注意力機制,融合區域性和全域性資訊。MSA 模組分為三個階段:編碼、融合和解碼。
以頻率路徑為例,在編碼階段,透過多個一維卷積層逐步下采樣頻率維度,提取多尺度的聲學特徵。在融合階段,使用選擇性注意力機制將區域性特徵和全域性特徵進行融合,生成包含多尺度資訊的特徵。在解碼階段,透過上取樣和卷積操作逐步恢復頻率維度,最終輸出增強後的頻率特徵。

MSA 模組內部細節(以頻率路徑為例)
全頻 / 幀注意力模組(F³A)
為了捕捉長距離依賴關係,TIGER 採用了全 / 頻幀注意力模組(F³A)。同樣以頻率路徑為例,首先採用二維卷積將輸入特徵轉換為查詢(Query)、鍵(Key)和值(Value),然後將特徵維度和時間維度合併,得到每個頻帶對應的全幀資訊。
透過自注意機制計算頻率維度上的注意力權重,用於加強頻帶間關係的捕捉,提升語音分離的效果。

F³A 模組內部細節(以頻率路徑為例)
EchoSet:更接近真實聲學場景
的語音分離資料集
現有的語音分離資料集往往與真實世界的聲學環境存在較大差距,導致模型在實際應用中的泛化能力不足。為了更真實地模擬複雜聲學環境中的語音分離任務,研究團隊提出了 EchoSet 資料集,該資料集不僅包含噪聲,還模擬了真實的混響效果(如考慮物體遮擋和材料特性),並且說話人之間語音重疊比例是隨機的。

不同資料集特性對比
EchoSet 資料集的構建基於 SoundSpaces 2.0 平臺 [2] 和 Matterport3D 場景資料集 [3],能夠模擬不同聲學環境中的語音混響效果。透過隨機取樣語音和噪聲,並考慮房間的幾何形狀和材料特性,EchoSet 資料集生成了包含 20,268 條訓練語音、4,604 條驗證語音和 2,650 條測試語音的高保真資料集。
實驗表明,使用 EchoSet 訓練的模型在真實世界資料上的泛化能力顯著優於其他資料集訓練的模型,驗證了 EchoSet 的實用價值。

常見語音分離模型在不同資料集上訓練後,在真實世界採集資料上的泛化效能比較
實驗
研究團隊在多個數據集上對 TIGER 進行了全面評估,包括 Libri2Mix、LRS2-2Mix 和 EchoSet。實驗結果顯示,隨著資料集的複雜性增加,TIGER 的效能優勢越加顯著。在 EchoSet 資料集上,TIGER 的效能比 TF-GridNet 提升了約 5%,同時引數量和計算量分別減少了 94.3% 和 95.3%。在真實世界採集的資料上(見上圖),TIGER 同樣表現出了最佳的分離效能。


常見語音分離模型效能和效率比較
研究團隊透過進一步壓縮引數,探索了 TIGER 的輕量化潛力。在 100K 的引數規模下,TIGER(tiny)在 Echoset 上的效能顯著優於基 GC3 方法 [4] 壓縮的 SudoRM-RF 模型 [5],表明 TIGER 在引數量和計算成本較低的情況下,仍能提供卓越的語音分離效能。

SudoRM-RF + GC3 與 TIGER (tiny) 的效能和效率比較
此外,TIGER 在電影音訊分離任務中也表現出了強大的泛化能力。實驗結果顯示,TIGER 在分離電影音訊中的語音、音樂和音效時,在保持輕量的情況下,效能顯著優於其他模型,進一步驗證了其在複雜聲學環境中的適用性。

TIGER 在電影音訊分離任務上的效能和效率
《流浪地球 2》宣傳片原片
用 TIGER 分離出《流浪地球 2》宣傳片中人聲的效果
用 TIGER 分離《流浪地球 2》宣傳片中音效的效果
用 TIGER 分離《流浪地球 2》宣傳片中背景音樂的效果
結論
TIGER 模型的提出為語音分離任務提供了一種新的解決方案,透過頻帶切分和基於多尺度注意力機制的時頻交替建模模組,在保持高效能的同時,顯著降低了引數量和計算成本。EchoSet 資料集的引入也為語音分離模型的訓練和評估提供了更接近真實世界的資料支援。實驗結果表明,TIGER 在複雜聲學環境中的表現優於現有模型,並且在計算資源受限的場景下具有廣泛的應用前景。
參考文獻
[1] Zhong-Qiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeong-Yeol Kim, and Shinji Watanabe. Tf-gridnet: Making time-frequency domain models great again for monaural speaker separation. In International Conference on Acoustics, Speech and Signal Processing, pp. 1–5. IEEE, 2023.
[2] Changan Chen, Carl Schissler, Sanchit Garg, Philip Kobernik, Alexander Clegg, Paul Calamia, Dhruv Batra, Philip Robinson, and Kristen Grauman. Soundspaces 2.0: A simulation platform for visual-acoustic learning. In Advances in Neural Information Processing Systems, volume 35, pp. 8896–8911, 2022.
[3] Angel Chang, Angela Dai, Thomas Funkhouser, Maciej Halber, Matthias Niebner, Manolis Savva, Shuran Song, Andy Zeng, and Yinda Zhang. Matterport3d: Learning from rgb-d data in indoor environments. In International Conference on 3D Vision, pp. 667–676. IEEE, 2017.
[4] Yi Luo, Cong Han, and Nima Mesgarani. Group communication with context codec for lightweight source separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29: 1752–1761, 2021.
[5] Efthymios Tzinis, Zhepei Wang, and Paris Smaragdis. Sudo rm-rf: Efficient networks for universal audio source separation. In IEEE 30th International Workshop on Machine Learning for Signal Processing, pp. 1–6. IEEE, 2020.
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]