

同聲傳譯員在聯合國大會、新聞釋出會等國際交流場景中扮演著不可或缺的角色。如何使用人工智慧模型自動、高質量地完成同聲傳譯任務,當前已成為眾多科研機構關注的熱點。

論文連結:
專案連結:
▲ 左聲道輸入語音;右聲道為同傳系統的即時輸出語音;更多樣例請在 https://github.com/ictnlp/NAST-S2x 檢視

背景
相較於離線語音到語音翻譯,同聲傳譯系統不僅需要實現高質量的翻譯,還必須儘量減少翻譯的“延遲”,以使生成的語音與輸入語音儘量“保持同步”。這種需求使得當前主流的基於 Seq2Seq 或 LLM 的翻譯系統都無法滿足要求,因為它們都需要源端的輸入是完整的。
同聲傳譯模型的延遲由兩個部分組成:一是“演算法延遲”,二是“計算延遲”。“演算法延遲”指的是模型決定等待更多的輸入再開始輸出翻譯所產生的延遲;而“計算延遲”則是模型在決定開始輸出後,生成翻譯所需時間所導致的延遲。近年來,一些研究指出“計算延遲”與“演算法延遲”同等重要 [1]。由於需要生成的語音單元序列通常非常冗長 [2],透過自迴歸模型生成這些序列所帶來的“計算延遲”可能與“演算法延遲”相當。
另一方面,早期的同聲傳譯模型主要是級聯模型 [3],由一個流式語音到文字翻譯模型和一個語音合成模型組成。然而,級聯模型通常會面臨錯誤傳播和延遲積累的問題。中間文字作為資訊瓶頸,限制了後續級聯元件對源端資訊的訪問和錯誤的糾正。此外,每個元件都採用獨立的流式策略,導致延遲積累,從而削弱了演講者和聽眾之間的同步性。鑑於這些挑戰,端到端的同聲傳譯模型開始受到研究者的關注。

模型總覽


模型架構
由於 NAST-S2X 整體在塊級別操作,一種控制同聲傳譯系統延遲的直接方法是調整塊的大小。而當所設定的塊大小超出了源端語音長度時,我們的模型將自動轉換為離線模型,進行雙向編碼和雙向非自迴歸解碼。

儘管 NAST-S2X 受益於非自迴歸生成的優勢,但訓練它非常具有挑戰性。已有的研究表明 [7],非自迴歸模型不具備擬合多峰分佈的能力。而在語音到語音翻譯上,這一問題尤其嚴重:
首先,語音輸入到文字翻譯的對映可能是一對多的,因為不同的詞彙選擇和語法結構可以表達相同的語義。
其次,在給定文字的情況下,語音的分佈可能是多峰的,表現為音高、節奏和能量的變化。為了應對這些挑戰,我們提出了以下策略來訓練 NAST-S2X。
-
我們使用了基於 CTC 的非單調潛在對齊損失 [8] 來訓練 NAST-S2X。這一損失函式旨在最大化目標和輸出之間的期望 2-gram 匹配的 F1 分數,用於引導模型收斂於一個熵值較低的分佈上,從而緩解語音到語音翻譯中的多峰分佈問題。 -
為了進一步簡化分佈擬合的複雜度,我們在訓練中引入了 Glancing 策略 [9],在當前模型的輸出分佈中找到最可能的目標路徑給予模型提示。


在離線情況下,有如下結論:
-
NAST-S2X 的翻譯質量已經超越了基線自迴歸模型 S2UT,可以媲美兩階段自迴歸模型 UnitY。 -
相較於 S2UT 和 UnitY,NAST-S2X 能夠實現高達 28.3 倍與 17.7 倍的解碼加速。

在同聲傳譯場景下,有如下結論:
-
NAST-S2X 的同傳生成質量大幅超越了之前的級聯模型。 -
在保留靜默的情況下,NAST-S2X 的生成質量會明顯隨著延遲的降低而衰減(如圖中紅色“★”折線所示)。然而,若在不保留靜默的情況下評估生成質量(如圖中紅色“×”折線),模型在極低延遲(AL < 1s)時的生成質量仍然與離線情況相媲美。
舉例來說,考慮目標單詞 “Richardson”,它包含多個音節。如果 “Richard” 的波形部分在一個塊中生成並立即播放,而 “son” 音節則在後續塊中生成,潛在的靜默期(靜默期長度等於塊大小減去前一個塊中生成波形的長度)可能導致聽者感知到口吃效應,進而影響 ASR-BLEU 分數。關於這一現象的詳細分析,我們在論文的 4.2.3 節提供了更加完整和全面的版本,敬請參閱。


參考文獻

[1] Ma et al. SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation
[2] Seamless Communication et al. Seamless: Multilingual Expressive and Streaming Speech Translation
[3] Sudoh et al. Simultaneous Speech-To-Speech Translation System with Neural Incremental ASR, MT, and TTS
[4] Inaguma et al. UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
[5] Fang et al. DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation
[6] Graves et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks
[7] Huang et al. On the Learning of Non-Autoregressive Transformers
[8] Shao et al. Non-Monotonic Latent Alignments for CTC-Based Non-Autoregressive Machine Translation
[9] Qian et al. Glancing Transformer for Non-Autoregressive Neural Machine Translation
[10] Ma et al. Direct Simultaneous Speech-to-Speech Translation with Variational Monotonic Multihead Attention
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
