​ACL2024|28倍離線解碼加速!用非自迴歸架構實現高質量同聲傳譯

導讀
同聲傳譯員在聯合國大會、新聞釋出會等國際交流場景中扮演著不可或缺的角色。如何使用人工智慧模型自動、高質量地完成同聲傳譯任務,當前已成為眾多科研機構關注的熱點。
本文介紹了中國科學院計算技術研究所開發的語音到語音翻譯模型 NAST-S2X。該模型實現了高質量的同聲傳譯功能,能夠與演講者同步生成翻譯語音,並提供了 28 倍的離線解碼加速能力。該工作已被 ACL 2024 收錄。
論文題目:
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Any Translation
論文連結:
https://arxiv.org/abs/2406.06937
專案連結:
https://github.com/ictnlp/NAST-S2x
NAST-S2X 進行同聲傳譯的示例如下:
▲ 左聲道輸入語音;右聲道為同傳系統的即時輸出語音;更多樣例請在 https://github.com/ictnlp/NAST-S2x 檢視
背景
相較於離線語音到語音翻譯,同聲傳譯系統不僅需要實現高質量的翻譯,還必須儘量減少翻譯的“延遲”,以使生成的語音與輸入語音儘量“保持同步”。這種需求使得當前主流的基於 Seq2Seq 或 LLM 的翻譯系統都無法滿足要求,因為它們都需要源端的輸入是完整的。
同聲傳譯模型的延遲由兩個部分組成:一是演算法延遲,二是計算延遲。“演算法延遲”指的是模型決定等待更多的輸入再開始輸出翻譯所產生的延遲;而“計算延遲”則是模型在決定開始輸出後,生成翻譯所需時間所導致的延遲。近年來,一些研究指出“計算延遲”與“演算法延遲”同等重要 [1]。由於需要生成的語音單元序列通常非常冗長 [2],透過自迴歸模型生成這些序列所帶來的“計算延遲”可能與“演算法延遲”相當。
另一方面,早期的同聲傳譯模型主要是級聯模型 [3],由一個流式語音到文字翻譯模型和一個語音合成模型組成。然而,級聯模型通常會面臨錯誤傳播和延遲積累的問題。中間文字作為資訊瓶頸,限制了後續級聯元件對源端資訊的訪問和錯誤的糾正。此外,每個元件都採用獨立的流式策略,導致延遲積累,從而削弱了演講者和聽眾之間的同步性。鑑於這些挑戰,端到端的同聲傳譯模型開始受到研究者的關注。
在這樣的背景下,NAST-S2X 模型的目標是構建一個兼顧“演算法延遲”、“計算延遲”和“翻譯質量”,能夠相容同聲傳譯和離線翻譯的端到端語音翻譯模型
模型總覽
NAST-S2X 由基於塊的單向聲學編碼器和基於塊的非自迴歸流式解碼器組成。總體而言,該模型透過塊內的非自迴歸並行生成來降低計算延遲,透過 CTC 解碼自適應地平衡演算法延遲,並透過訓練中的非單調對齊目標和 Glancing 策略來提升非自迴歸生成的翻譯質量
模型架構
NAST-S2X 的聲學編碼器為基於塊的單向聲學編碼器,透過設定一個塊大小 來操作。我們從流式語音中每隔 毫秒提取一次梅爾譜特徵進行塊編碼。聲學編碼器由兩層因果卷積和多個標準 Transformer 層構成,對每個塊內的特徵進行雙向編碼,並能夠回溯所有歷史資訊。
NAST-S2X 的非自迴歸解碼器包括堆疊的語言學和聲學元件,這兩個部分透過上取樣語言學元件的特徵向量來連線。與之前的兩階段模型相比 [4,5]NAST-S2X 在解碼時不再需要生成任何中間文字序列。這一特性使其能夠端到端地將輸入語音的梅爾譜特徵對映到目標語音的聲學單元,從而避免了錯誤傳播的問題。
每當最新的塊被編碼後,我們將其特徵塊下采樣,並用作非自迴歸解碼器的輸入。非自迴歸解碼器同樣以塊的方式工作,當前塊的解碼僅依賴於前序塊的隱狀態,而不是任何已生成的標記。堆疊的語言學和聲學元件均可以直接關注編碼器,使其在生成語音單元序列以及讀寫決策時能夠結合更廣泛的輸入語音資訊,例如節奏、音高和能量。
在預測輸出序列時,詞彙表中包含了一個額外的空白標記。模型透過 CTC 解碼 [6] 生成重複或者空白標記動態地調整每個塊的輸出長度,以自適應的平衡演算法延遲。每個單元塊的解碼結果會直接傳送到一個獨立的聲碼器,用於合成波形,並立即播放給聽眾。
由於 NAST-S2X 整體在塊級別操作,一種控制同聲傳譯系統延遲的直接方法是調整塊的大小。而當所設定的塊大小超出了源端語音長度時,我們的模型將自動轉換為離線模型,進行雙向編碼和雙向非自迴歸解碼。
模型訓練
儘管 NAST-S2X 受益於非自迴歸生成的優勢,但訓練它非常具有挑戰性。已有的研究表明 [7],非自迴歸模型不具備擬合多峰分佈的能力。而在語音到語音翻譯上,這一問題尤其嚴重:
首先,語音輸入到文字翻譯的對映可能是一對多的,因為不同的詞彙選擇和語法結構可以表達相同的語義。
其次,在給定文字的情況下,語音的分佈可能是多峰的,表現為音高、節奏和能量的變化。為了應對這些挑戰,我們提出了以下策略來訓練 NAST-S2X。
  1. 我們使用了基於 CTC 的非單調潛在對齊損失 [8] 來訓練 NAST-S2X。這一損失函式旨在最大化目標和輸出之間的期望 2-gram 匹配的 F1 分數,用於引導模型收斂於一個熵值較低的分佈上,從而緩解語音到語音翻譯中的多峰分佈問題。
  2. 為了進一步簡化分佈擬合的複雜度,我們在訓練中引入了 Glancing 策略 [9],在當前模型的輸出分佈中找到最可能的目標路徑給予模型提示。
實驗結果
首先,本文考察了 NAST-S2X 在離線情況下的翻譯質量(ASR-BLEU),並透過與基線自迴歸模型對比解碼時間來考察模型的計算延遲(Speedup)
在離線情況下,有如下結論:
  • NAST-S2X 的翻譯質量已經超越了基線自迴歸模型 S2UT,可以媲美兩階段自迴歸模型 UnitY。
  • 相較於 S2UT 和 UnitY,NAST-S2X 能夠實現高達 28.3 倍與 17.7 倍的解碼加速。
其次,本文考察了 NAST-S2X 在同聲傳譯場景下翻譯質量(ASR-BLEU)演算法延遲(Average Lagging)之間的關係。在評估同聲傳譯場景下的生成質量時,為了貼合真實的使用場景,我們參照文獻 [10] 的做法,保留了不同時刻輸出的語音波形片段之間的“靜默間隔”,並在保留靜默的完整合成語音上進行評估。
在同聲傳譯場景下,有如下結論:
  • NAST-S2X 的同傳生成質量大幅超越了之前的級聯模型。
  • 在保留靜默的情況下,NAST-S2X 的生成質量會明顯隨著延遲的降低而衰減(如圖中紅色“★”折線所示)。然而,若在不保留靜默的情況下評估生成質量(如圖中紅色“×”折線),模型在極低延遲(AL < 1s)時的生成質量仍然與離線情況相媲美。
這一觀察給我們帶來了重要的啟示:實際上,NAST-S2X 在極低延遲(AL < 1s)下也展現出強大的目標語音單元序列生成能力。ASR-BLEU 分數的下降主要是由於輸出語音波形片段播放時機的影響
舉例來說,考慮目標單詞 “Richardson”,它包含多個音節。如果 “Richard” 的波形部分在一個塊中生成並立即播放,而 “son” 音節則在後續塊中生成,潛在的靜默期(靜默期長度等於塊大小減去前一個塊中生成波形的長度)可能導致聽者感知到口吃效應,進而影響 ASR-BLEU 分數。關於這一現象的詳細分析,我們在論文的 4.2.3 節提供了更加完整和全面的版本,敬請參閱。
總結
本文提出了採用非自迴歸架構的語音到語音翻譯模型 NAST-S2X。該模型實現了與當今最先進的自迴歸模型媲美的高質量語音翻譯,能夠即時與演講者同步生成翻譯語音,並且提供了高達 28 倍的離線解碼加速能力,是一個兼顧“演算法延遲”、 “計算延遲”和“翻譯質量”的端到端模型。
參考文獻
[1] Ma et al. SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation
[2] Seamless Communication et al. Seamless: Multilingual Expressive and Streaming Speech Translation
[3] Sudoh et al. Simultaneous Speech-To-Speech Translation System with Neural Incremental ASR, MT, and TTS
[4] Inaguma et al. UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
[5] Fang et al. DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation
[6] Graves et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks
[7] Huang et al. On the Learning of Non-Autoregressive Transformers
[8] Shao et al. Non-Monotonic Latent Alignments for CTC-Based Non-Autoregressive Machine Translation
[9] Qian et al. Glancing Transformer for Non-Autoregressive Neural Machine Translation
[10] Ma et al. Direct Simultaneous Speech-to-Speech Translation with Variational Monotonic Multihead Attention
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章