新智元報道
新智元報道
編輯:LRST
【新智元導讀】視覺+語音=更強的語音識別!BPO-AVASR透過最佳化音影片輸入和輸出偏好,提升語音識別在真實場景中的準確性,解決了傳統方法在噪聲、口語化和視覺資訊利用不足的問題。
在日常生活中,你是否遇到過這樣的情況:在嘈雜的環境中,語音助手聽不清你的指令?或者在視訊通話時,對方的發音不夠清晰,讓你難以理解?
自動語音識別(ASR)技術正在不斷進步,但在真實世界的影片場景中,ASR仍然面臨許多挑戰,如噪聲干擾、口語化表達、以及同音詞混淆等問題。
那麼,人們能否利用視覺資訊來增強語音識別的準確性呢?
最近,來自中國人民大學及卡耐基梅隆大學的學者們在AAAI 2025會議上正式釋出了他們最新的研究——BPO-AVASR(Bifocal Preference Optimization for Audiovisual Speech Recognition)。
這是一種全新的雙焦點偏好最佳化方法,能夠有效提升多模態語音識別(AV-ASR)系統的效能,使其在真實世界影片場景下的表現更加強大!

論文連結:https://arxiv.org/pdf/2412.19005
程式碼地址:https://github.com/espnet/espnet
語音識別的「視覺外掛」:為什麼要結合視覺?
傳統的ASR系統僅依賴音訊輸入進行語音識別,但在現實場景中,單靠音訊往往不足以精準識別使用者的語音。例如:
-
背景噪聲問題:咖啡廳、地鐵、機場等嘈雜環境會干擾ASR的準確性。
-
口語化表達:自發性語音中包含大量連讀、省略等非標準表達,例如「gonna」代替「going to」。
-
同音詞歧義:例如,「dark」和「duck」,僅依賴音訊可能會導致錯誤識別。
視覺資訊,尤其是影片中物體、背景資訊、文本等,能提供額外的線索來幫助ASR模型更精準地理解語音內容。例如,看到螢幕上出現了一瓶「可口可樂」,ASR 識別「cola」而非「caller」的可能性會更高。因此,AV-ASR(音影片語音識別)應運而生,結合視覺與語音資訊,提升識別準確性。
雙焦點偏好最佳化(BPO)
雖然多模態ASR近年來取得了顯著進展,但目前的方法仍然存在一些關鍵問題:
-
未充分利用視覺資訊:許多AV-ASR模型雖然引入了視覺特徵,但並未明確最佳化模型在視覺線索上的利用能力。
-
難以適應真實世界的影片場景:大多數方法僅在乾淨的資料集上訓練,泛化能力有限。
-
忽略真實環境中的常見錯誤:例如噪聲影響、口語化表達、視覺資訊缺失等問題。
為了解決這些問題,研究者們提出了一種全新的雙焦點偏好最佳化(Bifocal Preference Optimization, BPO)方法,以BPO-AVASR模型為核心。這篇工作的創新點包括:
輸入端偏好最佳化(Focal I):透過遮擋音訊或擾動影片資訊,模擬現實世界中的干擾因素,使模型學會如何在音影片資訊缺失時做出更準確的預測。
輸出端偏好最佳化(Focal II):透過引入AI生成的錯誤文字(如同音詞替換、語音模糊重寫等),讓模型學習如何避免這些常見的識別錯誤。
換句話說,不僅要讓模型學會「看」和「聽」,更讓它學會如何在資訊不完整或錯誤的情況下做出更好的決策,從而更好地在多模態的場景下同時利用視覺和聽覺資訊識別出準確的文字。
如何構造偏好資料?

BPO-AVASR架構概覽
BPO-AVASR透過構造偏好資料來最佳化ASR,主要涉及輸入端最佳化和輸出端最佳化。
輸入端偏好資料構造(Focal I)
目標:讓模型學會如何處理不完整的音影片資訊,提升對噪聲、模糊資訊的適應能力。
-
掩蔽音訊(Masked Audio):隨機遮擋部分音訊幀,模擬噪聲環境。
-
翻轉視覺(Flipped Vision):對影片幀進行翻轉,使視覺資訊變得更難解析,以模擬視角變化的影響。
輸出端偏好資料構造(Focal II)
目標:讓模型學習如何避免常見的識別錯誤,最佳化ASR預測文字的準確性。
-
同音詞替換(Homophone-based Generation):生成同音詞錯誤,如「die」→「dye」。
-
口語化改寫(Spontaneous-based Generation):生成口語化改寫錯誤,如「gonna」→「goingto」。
-
視覺資訊忽略(Vision-based Generation):讓ChatGPT生成忽略視覺資訊的錯誤文字,例如影片中的「dylon」被誤識別為「dylan」。

偏好資料構造方法
實驗結果與結論:BPO-AVASR讓ASR更強大!
為了驗證BPO-AVASR的效果,研究者們在多個基準資料集上進行了測試,包括:How2,VisSpeech和Ego4D,在不同領域的多模態資料上驗證了方法的有效性。
實驗結果表明,BPO-AVASR在大部分測試資料集上取得了SOTA(State-of-the-Art,最優)效能,尤其在嘈雜環境和複雜影片場景下表現出色。例如:
-
在Ego4D資料集上,相比於現有的AV-ASR模型,BPO-AVASR的識別錯誤率(WER)降低了12.5%!
-
在How2資料集上,BPO-AVASR僅使用300小時的資料,就超越了使用131K小時資料訓練的SOTA模型AVFormer!


未來展望:讓 AI 更懂「看」與「聽」
BPO-AVASR的成功,不僅讓ASR模型在複雜環境下更加穩定,同時也為未來的多模態學習提供了新的思路。未來,研究者們希望:
-
構建更大規模的開放域 AV-ASR 資料集,提升模型在各種場景下的泛化能力。
-
探索更復雜的音影片理解,以多模態語音識別為基礎,在更多的跨模態互動任務上提升複雜場景理解的能力。
參考資料:
https://arxiv.org/pdf/2412.19005

