CellPatterns重磅綜述!473篇文獻全面解析多語言大模型最新研究進展

本文系統總結了多語言大模型的相關工作,探討了跨語言大模型對⻬⽅法,包括引數調整對⻬和引數凍結對⻬。同時該綜述也涵蓋了多語⾔⼤模型的訓練資料和未來⽅向,希望幫助研究者全面瞭解多語言大模型的研究現狀。該工作目前發表在 Cell Patterns 上
論文標題:
A Survey of Multilingual Large Language Models
論文連結:
https://www.cell.com/patterns/fulltext/S2666-3899(24)00290-3
主頁連結:
https://multilingual-llm.net](https://multilingual-llm.net/
專案連結:
https://github.com/LightChen233/Awesome-Multilingual-LLM
背景
近年來,LLM 發展迅速,在各個自然語言處理任務中都取得了卓越的表現。此外,LLMs 還表現出了強大的湧現能力,如 CoT(chain-of-thought)、ICL(in-context Learning)、甚至 planning。然而,目前大多數的 LLM 都是以英文為中心,且主要關注英語方面的任務。然而世界上有超過 7000 種語言,隨著全球化的加速,LLMs 應該將不同地區的語言和文化都考慮在內,而多語言大模型憑藉著對多種語言的強大處理能力,受到了研究者的極大關注。
資料集資源
按照訓練階段的不同,可以將資料集劃分為三大類:多語言預訓練資料、多語言指令微調資料以及多語言指令 RLHF 資料。常用的構造方法有人工構造、網路爬取、機器翻譯、Benchmark 清洗、MLLM 輔助生成等。
分類方法
多語言對齊方面,可以按照模型在跨語言對齊的過程中是否進行了引數調整進行劃分為以下兩個類別:
引數調整對齊(Parameter-Tuning Alignment,PTA):對大模型引數進行調整,來進行多語言的對齊。進一步地,按照訓練階段的不同,可以分為:
  • 預訓練對齊:透過在預訓練資料集中加入一些多語言資料,或預訓練完成後再使用多語言資料集進行新的預訓練,來實現不同語言之間的對齊,代表模型有 mT5、BLOOM、PaLM、LLaMa、Mixtral、FinGPT、X-Gen 等;
  • 指令微調對齊:利用各類多語言任務資料集進行指令微調,代表模型有 BLOOMz、Flan-PaLM、Chinese-Alpaca 等;
  • RLHF 對齊:使用多語言 RLHF 資料來訓練多語言的打分模型,獲取多語言對齊訊號,最佳化模型效能,代表模型有 Chat-GLM、MOSS、InternLM、Qwen 等;
  • 下游微調對齊:將模型在下游任務上進行全引數微調或引數高效微調,來適應下游場景的各類多語言任務。
引數凍結對齊(Parameter-Frozen Alignment,PFA):凍住大模型的引數,利用大模型的湧現能力實現多語言的對齊。進一步地,按照方法的不同,可以分為:
  • 直接提示:讓模型直接輸出目標語言,不使用任何額外指令,利用模型自身多語言能力進行隱式對齊;
  • Code-Switching 提示:讓模型輸出類似於 “Chinglish” 的不同語言混雜的句子,從而完成淺層的跨語言對齊;
  • 翻譯對齊提示:先讓模型進行翻譯,之後再給出應答,從而完成更深層次的跨語言對齊;
  • 檢索增強對齊提示:模型檢索外部多語言資訊,再給出應答,藉助外部多語言進行跨語言對齊。
多語言表現評估
為了便於模型間的比較和效能評估,人們已經投入了大量精力來探索針對多語言情景的評估方法。本節將闡述多語言大模型的評估,包括評估指標評估基準
評估指標:
  • 傳統的自動化指標:指使用傳統的基於機率、預訓練模型的 logits 來進行評估,例如 BLEU、BLEURT、chrF++、COMET、ROUGE 等。為了評估生成文字的質量,人們一般會使用 BERTScore 來作為多語言情景下的 metric。
  • 基於多語言大模型的自動化指標指使用穩定的多語言大模型來為生成的輸出進行打分或對比。
  • 人類評估:指以人工的方式來為模型輸出進行評估。
評估基準:
目前的 MLLM 傾向於把更多關注點放在模型在非英語語言的對齊上。基於對齊的不同角度,現有的 Benchmark 在評估內容上可以分為兩大類:自然語言理解(Natural Language Understanding)與自然語言生成(Natural Language Generation)。
  • 自然語言理解:評估內容包括語言分析(Linguistics Analysis)、語義理解(Semantic Understanding)、文化理解(Cultural Understanding)、知識理解(Knowledge Understanding)等方面。
  • 自然語言生成:評估內容包括文字翻譯、推理、程式碼生成、文字總結、對話等任務。
未來方向
綜述探討了目前大語言模型知識蒸餾的問題以及潛在的未來研究方向,主要包括:
  • 幻覺(hallucination)問題:如何有效地檢測多語言大模型中的幻覺現象;如何避免多語言大模型出現幻覺問題;
  • 知識編輯(Knowledge Editing)問題:如何能夠連續地擴充多語言大模型知識,並與此同時維持住模型原本的知識,使其不被遺忘;如何平衡普遍知識與某一具體語言下的知識;
  • 安全問題:如何去除資料集中不安全的內容;如何構建能夠評估模型安全性的 benchmark;
  • 公平問題:如何改善模型在低資源語言上的表現;如何改善 tokenizer 在不同語言上的代價差異;
  • 語言擴充套件問題:如何高效且動態地擴充套件多語言大模型的語言種類,同時維持模型在原本語言上的表現;
  • 模態擴充套件問題:如何讓多模態多語言模型完成複雜的推理任務;如何構建詳細的基準。
  • 多模態可解釋性問題:如何構建理論框架以解釋多模態對齊的有效性,並提供清晰的因果關係;如何提升模型在多語言和多模態下的透明度和可解釋性,使其能夠更好地應用於敏感領域,如醫療和法律。
  • 部署效率問題:如何在資源受限裝置(如移動裝置、邊緣裝置)上高效部署多語言大模型,解決其高計算資源需求和記憶體佔用問題;如何克服低資源語言由於資料和計算資源不足導致的效能瓶頸。
  • 更新一致性問題:如何在模型更新時有效平衡多語言和單語言模型效能,確保在整合新語言、資料或最佳化過程中,維持語言間的一致性,特別是在資料稀缺的低資源語言場景下。
總結
該綜述對多語言大模型的進展進行了全面系統的總結。綜述從對齊的角度提供了一個新的多語言大模型分類方法,可以為相關研究人員提供一個統一的視角,以瞭解多語言大模型的進展。最後,綜述探討了多語言大模型中一些新興趨勢和前沿,以及它們對應的挑戰,希望這項工作能促進相關領域研究人員更好地進行研究,做出更多的突破。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章