ACL上新|6篇精選論文帶你看最新LLMs進展

（本文閱讀時間：14分鐘）

編者按：歡迎閱讀“科研上新”欄目！“科研上新”匯聚了微軟亞洲研究院最新的創新成果與科研動態。在這裡，你可以快速瀏覽研究院的亮點資訊，保持對前沿領域的敏銳嗅覺，同時也能找到先進實用的開源工具。

下週，自然語言處理領域的國際頂級學術會議 ACL 2024 將在泰國曼谷舉辦。本屆大會上，微軟亞洲研究院共有14篇論文入選，這一期的“科研上新”欄目精選了其中的六篇為大家進行簡要介紹。

歡迎大家參與文末的論文投票，該投票包含2024年微軟亞洲研究院發表在 ACL 2024 上的所有論文，我們將根據投票結果選出大家最感興趣的研究進行直播分享！

「本期內容速覽」

基於微調大語言模型的生成式推薦系統

大語言模型驅動的資料科學代理的基準測試

BitDistiller：透過自蒸餾釋放低於4位元大模型的潛力

PIN：使用強化學習最佳化得到可解釋提示詞

提高大型語言模型在事件關係邏輯預測中的表現

E5-Mistral：大語言模型增強的文字嵌入

基於微調大語言模型的生成式推薦系統

論文連結：

https://arxiv.org/pdf/2403.05063

GitHub 連結：

https://github.com/microsoft/recai

在數字化時代，傳統推薦系統雖便捷，卻常顯被動，難以滿足使用者日益增長的個性化、互動性需求。其可解釋性的缺失與可控性的不足，也成為了使用者體驗升級的瓶頸。大語言模型（LLMs）以其卓越的語言理解、知識儲備、推理和問題解決能力，有望成為下一代推薦系統的新引擎。

受此啟發，微軟亞洲研究院和深圳大學的研究團隊合作，打造了以使用者為中心的新一代推薦系統。它由大語言模型驅動，能更自然地理解使用者需求的動態變化並提供更加精準的個性化服務。其中，針對領域知識和領域指令的大語言模型微調與對齊成為關鍵。研究團隊為此設計了一個兩階段訓練框架：監督學習（SL）階段和強化學習（RL）階段。

在監督學習階段，研究團隊設計了一系列針對性任務，如物品資訊問答、物品推薦、類別控制等，用來增強大語言模型對新知識的匯入，以及提高推薦相關的複雜指令的遵從能力。同時，傳統推薦模型（例如 SASRec）還作為教師模型，幫助生成監督學習所用的標籤，有效解決了訓練資料稀疏的問題。在強化學習階段，研究團隊希望進一步提高模型的泛化能力，讓大語言模型去響應開放性的使用者指令，並透過精心設計的獎勵機制，讓模型不斷朝著更優的方向迭代，使其能夠更精準地服從使用者指令意圖，並減少輸出的格式錯誤。

圖1：方法概覽

實驗表明，這種生成式推薦系統能夠很好地響應多種使用者的推薦請求，為互動式智慧推薦系統打下基礎。研究團隊在生成式推薦方向上的研究工作也將持續在 GitHub 中開源分享。

大語言模型驅動的資料科學代理的基準測試

論文連結：

https://arxiv.org/pdf/2402.17168

GitHub 連結：

https://github.com/MetaCopilot/dseval

資料科學透過分析大量資料可以幫助個人和組織做出明智決策、預測趨勢和改進流程。然而，資料科學的複雜性需要廣泛的分析工具和專業知識，對專家也構成了挑戰。近期，大語言模型及其驅動的代理在增強資料科學能力方面顯示出巨大潛力，但由於 LLMs 的限制、不明確的上下文或缺乏故障恢復機制，其在實際應用中仍面臨可靠性和準確性的問題（如忽略列、誤解資料型別、未按指定格式輸出結果或修改原始資料）。現有的評估方法在衡量資料科學代理的能力和侷限性方面還有很大的進步空間。

圖2：資料科學代理的典型工作流程圖

為此，微軟亞洲研究院的研究員們提出了一個新型基準框架 DSEval，旨在全面評估 LLMs 驅動的資料科學代理。其透過引入新的註釋過程和語言（DSEAL，DSEval Annotation Language），顯著提高了基準的可擴充套件性和覆蓋範圍。該框架不僅覆蓋了資料科學代理的整個生命週期，從接收查詢、檢索上下文、生成程式碼到執行程式碼並返回結果，還包括一個驗證模組，可以持續監控生成的程式碼、執行的結果和執行時會話，並與參考程式碼片段進行比較，確保準確性。

圖3：資料科學代理的生命週期和 DSEval 框架

此外，DSEAL 還被用於描述和配置問題集，確保與 DSEval 框架相容，並易於理解和除錯。問題集由系統自動生成並經專家修訂，確保了其多樣性和準確性，從而減少了人工的工作量，提高了基準測試的質量。

實驗結果顯示，DSEval 框架在評估資料科學代理方面表現優異。透過對不同代理方法的比較，實驗還發現上下文提取方法對 LLMs 效能有顯著影響。並且，透過多輪自我修復嘗試，低能力模型（如GPT-3.5）在處理複雜任務時的表現優於高能力模型（如GPT-4），展示了自我修復方法的巨大潛力。

DSEval 目前已開源該框架和資料集，未來研究員們也將繼續深入探索這一領域。

BitDistiller：透過自蒸餾釋放低於4位元大模型的潛力

論文連結：

https://arxiv.org/pdf/2402.10631

GitHub 連結：

https://github.com/DD-DuDa/BitDistiller

大語言模型在自然語言處理任務中隨規模擴大表現出色，然而，模型的記憶體和計算需求激增使它們的部署變得越來越具挑戰性。權重量化是目前解決該問題的常見模型壓縮方法，能夠提升推理部署的效率。但低於4位元的量化方法會顯著降低模型權重的精度，進而影響模型效能，尤其是在較小的模型或需要複雜推理的任務中。

現有的量化方法，如後訓練量化（PTQ），由於沒有經過重訓練，難以保持模型的準確性。相比之下，量化感知訓練（QAT）透過最佳化低位元權重，雖能保持模型的準確性，但仍然面臨挑戰：如何在低位元量化過程中最大程度地保持權重的精度，以及如何在訓練中高效地學習低位元表示。

為解決這些問題，微軟亞洲研究院的研究員們提出了基於自我蒸餾的 QAT 框架，即 BitDistiller（見圖4左）。BitDistiller 採用了定製的非對稱量化和 Clipping 技術來提升量化效果。非對稱量化對浮點數的正負數採用不同的縮放方式，並對整型資料新增零點，以確保非對稱性；Clipping 技術則透過自動擷取正負數的離群值來最佳化模型表現。此外，研究員們還提出了一種置信度感知的 Kullback-Leibler 散度（CAKLD）目標，透過自我蒸餾更好地擬合教師模型的分佈，從而實現更快的收斂和更優的模型效能。

圖4：BitDistiller 的框架圖（左）和程式碼生成模型的量化 Scaling Law （右）

實驗結果表明，BitDistiller 在3位元和2位元量化配置下，在通用語言理解和複雜推理基準測試中顯著超越了現有的 PTQ 和 QAT 方法。特別是在複雜的程式碼生成任務中，BitDistiller 展現了顯著優勢（見圖4右）。該方法不僅在資源受限的裝置上實現了高效部署，而且只需較少的訓練資料和資源，顯示出了其在成本效益方面的優越性。

低位元量化已經成為高效部署大語言模型的標準方法。為了更好地支援低位元大語言模型在 GPU 和 CPU 上的部署，研究團隊還開發了 BitBLAS（microsoft/BitBLAS）和 T-MAC（microsoft/T-MAC）系統，並對由 BitDistiller 蒸餾的2位元模型提供了端到端的推理支援，展示了其在降低成本和提升效能方面的顯著優勢和巨大潛力。

PIN：使用強化學習最佳化得到可解釋提示詞

論文連結：

https://www.arxiv.org/pdf/2407.14733

預訓練的大語言模型在應用到具體下游任務（如文字分類）之前通常需要進行微調。提示詞微調（hard prompt tuning）是一種有效的微調方法，其透過搜尋合適的提示詞，可以提升模型在特定任務上的表現，並且具有成本低、適用範圍廣，無需調整模型內部引數的優點。作為一個離散最佳化問題，目前針對提示詞微調採取的主流方法是強化學習，其透過每步選擇一個提示詞來最佳化一系列提示詞在特定任務上的效能。然而，現有方法生成的提示詞通常是一些低頻且語義不明的詞彙，往往解釋性較差。

為了改進這一問題，微軟亞洲研究院的研究員們提出使用 Tsallis 熵來約束強化學習過程 PIN，從而在取樣和價值函式估計階段關注出現機率最高的候選提示詞。這不僅加快了對提示詞價值的評估，還避免了生成低頻、語義模糊的詞彙。PIN 演算法是大語言模型微調領域的一項重要進展，有望提升模型在各種工業場景中的應用效果。

具體而言，研究們員在 RLPrompt 的基礎上進行了兩點改進：在取樣階段避免選擇出現機率較低的提示詞（見紅框）以及在計算目標價值函式時避免最佳化低機率候選提示詞的價值函式。這些改進透過 PIN 演算法得以實現（見藍框）。

圖5：PIN 演算法框圖

透過在文字分類、文字風格遷移、圖片標註等提示詞生成任務上的詳細實驗。PIN 演算法不僅在這些任務上取得了更好的效能，而且最佳化效率更高，能以更少次數的語言模型呼叫最佳化得到更好的提示詞組合。

圖6：（上）在文字分類任務上，PIN 生成的提示詞效能優於其他基線方法；（下）在圖片標註任務上，PIN 的強化學習過程效率更高並且效能更好。

提高大語言模型在事件關係邏輯預測中的表現

論文連結：

https://arxiv.org/pdf/2310.09158

大語言模型雖然在許多領域取得了突破性進展，但在處理複雜事件關係邏輯時仍存在困難，常表現為一致性不足或推理能力有限。當前的研究表明，現有 LLMs 在需要嚴謹推理的任務上表現不佳，邏輯一致性較差。

針對這些現象，來自微軟亞洲研究院的研究員們提出了幾種提升 LLMs 邏輯推理能力的策略（圖7），包括：生成式方法，即透過引入連貫的邏輯約束指導 LLMs 的推理；檢索式方法，即透過判斷模型初始答案來檢索相關邏輯約束並新增到模型指令中；微調式方法，即透過邏輯推理引擎來構建高階事件關係邏輯預測資料集（LLM-ERL），並以此對模型進行微調。

圖7：透過使用生成、檢索和微調方法，將邏輯約束納入 LLMs 中。虛線框表示 LLMs 輸出的答案，下劃線文字表示邏輯約束。

然後，研究員們在多個數據集上進行了廣泛的定量和定性分析並發現：首先，在需要有嚴謹邏輯推理的任務上直接使用 CoT 會受到 LLMs 固有問題的限制（如幻覺問題），但在推理過程中納入邏輯約束是有益的。其次，檢索式方法能顯著減少 LLMs 回答中的不一致，其中較強的模型如 GPT-4 可以有效地自行進行檢索，而較弱的模型則需要輔助篩選相關資訊。最後，當檢索迭代次數增加時，隨著上下文資訊的增多，LLMs 可能會出現「過度思考」現象，最終傾向於輸出保守的、沒有邏輯衝突的、但也沒有任何語義的答案（比如，判斷所有事件之間都沒有任何關係）。研究員們還提出，在進行 few-shot in-context learning 時，告訴模型“是什麼”（demonstrations）和“為什麼”（logical constraints）都及其重要。

該研究深入探討了大語言模型在事件預測、邏輯推理等問題上的不足，為未來設計有效的方法以及如何將大模型應用到實際任務中提供了新的思路和解決方法。

E5-Mistral：大語言模型增強的文字嵌入

論文連結：

https://arxiv.org/pdf/2401.00368

Github連結：

https://github.com/microsoft/unilm/tree/master/e5

文字嵌入模型將一段連續的文字對映成低維的稠密向量，是搜尋引擎、推薦系統中召回模組的重要元件，對於最終的排序結果有著直接的影響。其還可以對語言模型進行檢索增強（RAG），幫助語言模型在推理階段訪問最新的資訊和私有知識庫。然而，現有的文字嵌入工作所採用的基礎模型泛化能力弱，且訓練資料多樣性不足，限制了嵌入模型的質量。

為解決上述問題，本篇論文從兩個方面挖掘了大語言模型在文字嵌入方面的潛力。一方面，針對現有標註資料多樣性不高的問題，研究員們設計了一種兩階段的提示策略，透過 GPT-4 等強大的語言模型合成數十萬種嵌入任務的資料並覆蓋93種語言，極大緩解了許多長尾任務缺乏訓練資料的問題；另一方面，針對 BERT 等小編碼器模型出現的泛化能力弱的問題，研究員們採用了 Mistral 等經過廣泛預訓練的解碼器模型作為基座，實驗表明，只需要不超過1k步梯度更新，就可以達到很好的泛化效果。同時，與主流的多階段對比學習預訓練相比，整個訓練流程也會大大簡化。