如何理解和探索大模型的多語言能力?

(本文閱讀時間:7分鐘)
編者按:大語言模型在未使用多語言平行語料庫進行預訓練的情況下,依然表現出了卓越的多語言能力。但大模型如何處理多語言文字的底層機制仍是一個具有挑戰性的問題。對此,微軟亞洲研究院聯合中國人民大學提出了語言啟用機率熵,用於識別大模型中的語言特定神經元。該研究為理解和探索大模型的多語言能力提供了重要依據,並被自然語言處理領域的國際頂級學術會議 ACL 2024 收錄。
全球共有超過7000種語言,提升機器的多語言能力是學術界和工業界共同追求的一個重要的研究目標,旨在打破語言壁壘,促進知識和資訊的交流與傳播。mBERT 和 XLM-R 等預訓練語言模型的出現,標誌著大模型多語言理解能力的顯著進步。尤其最近,儘管 GPT-4 和 PaLM-2 主要基於英語語料庫進行訓練,但它們仍然在語言理解、推理和生成方面展現出了極強的多語言能力。
現有的研究主要關注多語言預訓練模型,探究它們如何在沒有平行語料庫的情況下實現跨語言的語義對齊,但對模型本身處理不同語言的內在機制缺乏探討。為了深入理解大模型的多語言能力,微軟亞洲研究院同中國人民大學合作,借鑑神經生物學對人類語言能力的研究基礎,研究探索了大語言模型中語言特定神經元的識別、分佈以及語義空間對映機理等問題,實驗驗證了語言特定神經元真實存在於大語言模型中,並影響著模型的多語言能力。相關論文已被自然語言處理領域的國際頂級學術會議 ACL 2024 接收。
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models
論文連結:
https://arxiv.org/abs/2402.16438
參考人腦中支援特定語言功能的區域(如布羅卡區和韋尼克區),研究員們假設大模型的內部區域也可以分為兩大部分:包含通用知識和語用原則的語言無關區域,以及處理特定語言詞彙、語法和習語表達的語言特定區域。圖1展示了假設中的大模型區域分佈概念圖。由於語言無關區域已在現有研究中得到了充分的討論,所以研究員們將重點錨定在了語言特定區域,尤其是支援多語言能力的區域。
圖1:模型處理語義相同但語言不通的文字時,內部神經元的啟用情況
LAPE:使用語言啟用機率熵識別語言特定神經元
為了解決這一問題,研究員們提出了一種新穎的檢測方法——語言啟用機率熵(Language Activation Probability Entropy,LAPE),用於識別大模型中的語言特定神經元。研究員們首先統計了每個神經元對不同語言文字的啟用機率,然後選擇機率分佈熵較低的神經元作為語言特定神經元,即那些對一兩種特定語言有較高啟用機率,而對其它語言啟用機率較低的神經元。
具體來說,現有的大模型都基於 Transformer 架構,其由若干多頭注意層和前饋網路層堆疊而成,每個前饋網路層中又包含了若干神經元。現有工作一般認為,神經元的輸出值大於0,則代表該神經元被啟用。因此,對於第 i 層的第 j 個神經元,研究員們將其在語言 k 的大量文字上的啟用機率計算為:
其中,h ̃^i 是隱藏層狀態,W_l^i 和 act_fn 是前饋網路層中的引數矩陣和啟用函式。隨後即可得到每個神經元在不同語言上的啟用機率分佈。在對其進行 L1 歸一化後,計算其資訊熵,也稱之為語言啟用機率熵,用於量化每個神經元的啟用反應:
研究員們將 LAPE 分數較低的神經元看作語言特定神經元,因為它們傾向於只對一兩個語言有較高的啟用機率,而對其他語言啟用機率較低。
8個大模型測試:神經元失活影響大模型多語言能力
研究員們基於英文、中文、法語、西班牙語、越南語、印度尼西亞語和日語的維基百科,選擇了神經元總量的1%作為語言特定神經元,並測試了其在 LLaMA-2、BLOOM、OPT、Mistral、Phi-2 等開源大模型上的表現。
圖2中展示了 LAPE 方法在8個模型上的表現,其中每個子圖的第 i 行第 j 列代表了失活語言 i 的神經元對語言 j 建模的 PPL 變化,PPL 變化越大則說明影響越明顯。可以清晰看到,8個圖均展現出了明顯的“對角化”現象,即失活該語言的神經元對該語言的建模能力有顯著影響,但對其他的語言影響較小。這符合該研究中語言特定神經元的初衷,也證實了 LAPE 方法的有效性。同時,對於不同大小的模型(7B、13B、70B)和不同種類的模型(LLaMA-2、BLOOM、OPT、Mistral、Phi-2),LAPE 方法也均有明顯效果,說明了該方法的通用性。
圖2:失活語言特定神經元對模型多語言能力的影響
圖3展示了一個具體的例子。研究員們使用了一個簡體中文問題提問 LLaMA-2(70B)模型,然後讓其在簡體中文神經元失活的情況下進行回答。可以發現,相比正常的回答,失活後的回答包含了很多的繁體中文和重複的英文短語,這進一步說明了模型簡體中文生成能力的下降。
圖3:失活簡體中文神經元后,LLaMA-2(70B)的回答
最後,研究員們還分析了語言特定神經元的層間分佈。從圖4可以發現,這些語言特定神經元高度集中在模型的底層和頂層。具體地,第2層有大約7000個語言特定神經元,而第5至47層每層只有大約100個,模型的最後4層每層也都有超過1000個語言特定神經元。
圖4:LLaMA-2(70B)語言特定神經元的層間分佈
為了進一步解釋該現象,研究員們使用了語言不同但語義相同的文字,來計算這些平行語料的句向量在模型不同層的距離。圖5可以看到,不同語言的向量一開始距離較遠,經過底層處理後迅速靠近達到頂峰,然後在頂層距離又很快下降。這一趨勢與語言特定神經元高度一致,因此可以猜測:大模型的底層會將不同語言的文字對映到同一個語義空間,因此需要大量的語言特定神經元;隨後,模型的中間層對統一的語義空間進行了相似的處理,這時需要的語言神經元便較少;最後,模型的底層需要將語義映射回各自的語言進行生成,因而又需要大量的語言神經元。
圖5:平行語料在不同語言間平均句向量距離的層間分佈
綜上所述,語言特定神經元在大語言模型中真實存在,並影響著模型的多語言能力。該研究提出的語言啟用機率熵方法可以有效識別模型中的語言特定神經元。未來,微軟亞洲研究院的研究員們將繼續探索語言和語義的對齊關係、多語言模型的高效訓練和除錯方法以及一致性和安全性等問題,努力提升大模型的多語言能力。
你也許還想看:

相關文章