
(本文閱讀時間:16分鐘)
大語言模型(LLMs)能力與效率的提升,將重塑人工智慧技術的邊界。在 ICLR 2025 的第一期精選論文中,微軟亞洲研究院透過理論創新與工程最佳化雙輪驅動的方式,系統性地解決了 LLMs 在推理、對齊、資料利用及實際應用中的關鍵挑戰。這些突破不僅讓大模型更“聰明”,也將推動其向實用化、普及化邁出關鍵一步。
歡迎大家參與文末投票,選出你最感興趣的論文!我們將於近期邀請論文的作者們與你在直播間進行前沿技術的交流與探討!


透過最優控制進行語言模型的資料選擇
Differential Transformer
Integrative Decoding:隱式自洽解碼技術,突破大模型幻覺瓶頸
SeCom:面向個性化對話代理的記憶構建與檢索方法
透過偽反饋最佳化大語言模型的推理能力
SCBench:以KV快取為中心的長文字方法分析
利用合成偏好實現大語言模型的自助對齊
透過二進位制詞袋索引實現半引數化檢索
透過最優控制進行語言模型的資料選擇

論文連結:
https://arxiv.org/abs/2410.07064
由於對高質量預訓練資料的需求不斷增加,大語言模型在計算成本和可用網路抓取語料庫的“庫存”方面面臨重大挑戰。為解決這些問題,微軟亞洲研究院的研究員們透過探索選擇最佳預訓練資料來提高 LLMs 在下游任務中的表現。研究動機是希望提高資料利用效率,加速 LLMs 的學習過程,從而減少整體的計算負擔。
該研究採用的方法是將資料選擇表述為一個廣義的最優控制問題。這種方法利用龐特里亞金最大值原理(PMP)推匯出描述最佳資料選擇與 LLMs 訓練動態關係的必要條件。引入基於 PMP 的資料選擇(PDS)框架,研究員們可以透過求解 PMP 條件來近似最佳資料選擇。而且 PDS 框架被應用於從 CommonCrawl 語料庫中選擇資料,並透過各種實驗評估其有效性。
該研究的主要發現表明,PDS 選擇的語料庫顯著加速了 LLMs 的學習,並在各種下游任務和模型規模上持續提高其效能。值得注意的是,PDS 的好處能夠擴充套件到大規模模型,包括那些在大約10萬億個標記上訓練的約4000億引數的模型。研究還表明,當預訓練資料有限時,PDS 提高了資料利用率,將資料需求減少了1.8倍。這種減少緩解了可用網路抓取語料庫的快速耗盡,使預訓練過程更加可持續。

圖1:PDS 在下游任務上的平均準確率曲線
該研究為 LLMs 的預訓練資料選擇提供了一種新穎且有效的方法,在學習效率和效能方面取得了顯著成效。
Differential Transformer

論文連結:
https://arxiv.org/abs/2410.05258
微軟亞洲研究院提出了一種全新的 Transformer 架構 DIFF Transformer(差分 Transformer)。透過差分注意力機制,DIFF Transformer 能夠增強對關鍵資訊的關注,同時減少對噪聲的干擾,從而在多項語言任務中取得了顯著優於 Transformer 模型的效能提升。DIFF Transformer 與此前微軟亞洲研究院釋出的 BitNet(b1.58)、Q-Sparse 和 YOCO 等工作,正交且互補。研究員們致力於從基礎研究角度為大語言模型的發展帶來變革,為大語言模型的理論研究以及未來的實際應用帶來更多新的可能性。
Integrative Decoding:隱式自洽解碼技術,突破大模型幻覺瓶頸

論文連結:
https://arxiv.org/abs/2410.01556
在大語言模型席捲全球的當下,幻覺(hallucination)問題始終是制約其廣泛應用的阿喀琉斯之踵。微軟研究院聯合多所高校提出的 Integrative Decoding(ID)技術,利用隱式的模型自洽性(self-consistency)進行生成解碼,在 TruthfulQA 等三大基準實現了最高15.4%的事實性躍升,為破解開放生成幻覺難題開闢了新路徑。
ID 解碼技術能夠巧妙地將自洽性隱式地融入解碼目標,有效突破幻覺瓶頸,並在計算開銷、事實性提升、方法穩健性等方面具備顯著優勢。

圖2:整合式解碼的工作流程
ID 的實際工作流程極其簡潔,只涉及兩個步驟。首先,從大語言模型中進行多次取樣,生成多個輸出。然後,將每個取樣的輸出與原始輸入連線,形成一組新的輸入,並同時處理這些輸入重新做一次推理生成。在這一輪解碼過程中,ID 透過整合所有輸入的預測,選擇每一步中最自洽的詞元,從而生成更為自洽的輸出。
在實驗部分,ID 在六種大模型上進行實驗,均獲得了顯著的提升。而且,與同類型方法相比,ID 具有極強的魯棒性,在不同文字長度的生成任務上都取得了穩定提升,並突破了傳統方法中生成資訊量與事實性難以平衡的困境。
透過引入隱式自洽性,ID 為突破大語言模型的幻覺問題提供了一種高效的解決方案。實驗結果表明,ID 不僅大大改善了模型在多個基準測試中的事實性表現,還展現出了強大的擴充套件性和穩健性,能夠在不同模型規模和取樣策略下穩定提升效能。透過在解碼過程中整合多次取樣的響應,ID 在不顯著增加輸入長度的情況下,實現了事實性的最佳化,極大增強了模型在開放生成任務中的實用價值。
SeCom:面向個性化對話代理的記憶構建與檢索方法

論文連結:
https://arxiv.org/abs/2502.05589
專案連結:
https://aka.ms/SeCom
對話式智慧體應如何處理並檢索過去的對話內容,為使用者提供更連貫、更個性化的體驗?來自微軟亞洲研究院的最新研究成果 SeCom 記憶構建與檢索方法,正是針對這一問題而提出的探索和嘗試。
現有方法通常基於歷史對話構建記憶庫,進而以檢索增強的方式生成智慧體回覆。這些記憶庫中的記憶單元既可能是單條對話 (turn-level),也可能是某段時間內的完整對話(session-level)或其摘要(summarization based)。在 SeCom 中,研究員們提出了兩個關鍵發現:
(1) 記憶單元的顆粒度至關重要,基於上述三種方法構建的記憶單元在檢索準確性和檢索內容的語義質量方面均存在侷限性:turn-level 記憶單元過於細粒度,容易造成上下文不完整;session-level 記憶單元過於粗粒度,其中可能包含過多與當前對話不相關的內容;summarization based 記憶單元則容易在摘要生成過程中發生資訊丟失。
(2) 大模型提示壓縮方法(如 LLMLingua-2)能夠有效地充當一種去噪機制,提高不同粒度下的記憶檢索準確性。
基於上述發現,研究員們提出了 SeCom 方法。該方法透過引入一個對話分割模型,將使用者與智慧體間的歷史對話劃分為若干個主題連貫的片段,以單個片段作為記憶單元構建記憶庫(segment-level),並對記憶單元應用大模型提示壓縮方法來進行去噪,有效提高了記憶檢索的準確性和最終生成的回覆質量。實驗結果表明,SeCom 在長期對話基準測試 LOCOMO 和 Long-MT-Bench+ 上表現顯著優於現有的基線方法。

圖3:不同記憶粒度的檢索增強生成示意圖,包括回合粒度、會話粒度、總結粒度和片段粒度(SeCom)。
透過偽反饋最佳化大語言模型的推理能力

論文連結:
https://arxiv.org/abs/2411.16345
推理任務缺乏高質量、人類驗證的標籤,使得大語言模型推理能力的增強面臨著極大挑戰。這一限制阻礙了依賴這些標籤生成偏好對的偏好最佳化技術(如直接偏好最佳化,DPO)的有效性。本篇論文希望透過開發可以生成可靠偽反饋的方法來克服這些挑戰,從而減少對大量人工標註的依賴。
對此,研究員們提出了一種全新方法,透過將推理問題解決方案的標註視為針對相關測試用例的評估,為推理任務生成偽反饋。研究員們探索了兩種形式的偽反饋:一種由前沿 LLMs 生成,另一種是將自一致性擴充套件到多測試用例場景來生成。其生成方法是在數學推理和編碼任務上進行實驗,然後再使用這些偽反饋形式進行偏好最佳化。

圖4:基於偽反饋推理的偏好最佳化方法的訓練流程
該研究的主要發現表明,推理任務取得了顯著的改進。以 Mathstral-7B 為基礎模型,研究員們觀察到 MATH 結果從58.3提高到68.6,超過了 NuminaMath-72B 和 GPT-4-Turbo-1106-preview 等模型的效能。在其他基準測試如 GSM8K 和 College Math 中,分數分別從85.6提高到90.3以及從34.3提高到42.3。此外,基於 Deepseek-coder-7B-v1.5,研究在 LiveCodeBench 上取得了24.6的分數,高於21.1,超過了 Claude-3-Haiku。
這些結果展現了偽反饋在增強 LLMs 推理能力方面的潛力。該方法的提出也為應對人工標註的高成本問題提供了一個可行的替代方案。
SCBench:以KV快取為中心的長文字方法分析

論文連結:
https://arxiv.org/abs/2412.10319
專案連結:
https://aka.ms/SCBench
資料集連結:
https://huggingface.co/datasets/microsoft/SCBench
長上下文視窗已成大模型標配,極大地提升了程式碼理解、長文件問答、多輪對話和長推理等任務的能力。然而,隨著上下文擴充套件,計算和記憶體壓力劇增,海量 KV 快取的生成與儲存對效率提出了嚴峻挑戰。
現有的研究主要圍繞 KV 快取的高效生成、管理與利用,提出了稀疏注意力、快取丟棄、量化、檢索、載入及提示壓縮等最佳化技術,以降低推理開銷。在實際生產中,KV 快取複用是減少首字延遲(TTFT)的關鍵,但現有基準多聚焦單次請求,忽視多輪互動中的快取複用,難以反映真實效能。

圖5:SCBench 示意圖
為此,微軟亞洲研究院的研究員們提出了 SCBench 評測基準,從 KV 快取生成、壓縮、檢索、載入四個階段構建完整評估體系,其中涵蓋了12項任務(如字串檢索、語義檢索、全域性資訊處理和多工處理),並模擬了多輪對話和多請求共享的上下文場景。
在實驗中,SCBench 對包括門控線性RNN、混合模型以及多種高效最佳化技術(如稀疏注意力、KV 快取丟棄、量化、檢索、載入和提示壓縮)在內的八類長上下文解決方案進行了詳細評測。評測覆蓋了六種基於 Transformer 架構的長上下文大語言模型,如 Llama-3.1-8B/70B、Qwen2.5-72B/32B、Llama-3-8B-262K 和 GLM-4-9B。
實驗結果顯示,採用 sub-O(n) 記憶體方法的方案在多輪互動場景中表現較差,而基於稀疏編碼、採用 O(n) 記憶體和 sub-O(n²) 預填充計算的方案則具有更高的魯棒性。此外,動態稀疏策略相比於靜態稀疏模式,能生成更具表達力的 KV 快取,在混合架構中,引入層級稀疏性不僅有效降低了記憶體消耗,同時也保持了出色的效能。值得注意的是,在長生成任務中,研究員們還觀察到注意力分佈的偏移問題,這可能進一步影響生成質量。
利用合成偏好實現大語言模型的自助對齊

論文連結:
https://arxiv.org/abs/2410.06961
將大語言模型對齊於人類偏好對於生成誠實、無害且有幫助的回應至關重要。然而,傳統方法在很大程度上依賴於大量人工標註的偏好資料,這既耗費資源,又難以擴充套件。為了解決這一問題,研究員們提出了一種名為 SynPO 的全新自助增強正規化,旨在透過合成偏好資料提升模型對齊效果。
SynPO 採用了一個迭代流程,由兩個核心模組組成——自生成提示器和回應改進器。自生成提示器由 LLMs 自主生成多樣化的提示詞,使用三個隨機關鍵詞作為引導,無需外部範例或更強大的模型參與。對於每一個生成的提示,LLMs 會首先給出初始回答,隨後回應改進器對其進行最佳化,生成更優的版本。該方法利用了模型自身識別文字分佈差異的能力,並透過“改進已有內容”這一較簡單的任務來替代“從零生成高質量回答”的難點。透過對這些合成偏好對進行訓練,模型能夠在多個回合中持續提升回答質量。

圖6:SynPO 迭代流程
在 Llama3-8B 和 Mistral-7B 兩個模型上迭代應用 SynPO 四輪後,模型在 AlpacaEval 2.0 和 ArenaHard 等基準測試中的勝率提升超過22.1%。此外,在 Open LLMs 排行榜中的平均分數提升達3.2至5.0,這表明模型在各類任務中的整體表現都顯著增強。實驗結果顯示,SynPO 能夠在無需大量人工資料的情況下,自主、高效地提升 LLMs 的表現,為模型的持續最佳化提供了可擴充套件的解決方案。
透過二進位制詞袋索引實現半引數化檢索

論文連結:
https://arxiv.org/abs/2405.01924
如今,資訊檢索領域已經發生了翻天覆地的變化,從獨立系統轉變為各種先進應用的核心元件。這一改變帶來了與索引效率、成本效益和資料新鮮度相關的一系列挑戰,儘管這些問題日益重要,但往往被忽視。
對此,微軟亞洲研究院的研究員們提出了一種新穎的雙編碼器檢索框架 SiDR(半引數解耦檢索),旨在將檢索索引與神經引數解耦,從而實現高效、低成本以及與引數無關的索引,來適用於新興的使用場景。
SiDR 的研發主要支援基於嵌入和基於標記的索引。基於嵌入的索引是利用神經檢索的方法,而基於標記的索引則採用類似於傳統術語檢索方法(如 BM25)的非引數方法。這種雙重方法使 SiDR 能夠實現 BM25 索引的複雜性,同時提高其有效性。該研究還引入了一種後期引數機制,其準備時間與 BM25 索引相匹配,同時在有效性方面優於其他神經檢索基準。

圖7:(左)不同檢索器的訓練框架;(右)SiDR 的不同推理流程
在16個檢索基準上的全面評估顯示,SiDR 在相同的索引工作負載下優於神經和術語檢索基準。具體來說,使用基於嵌入的索引時,SiDR 在保持類似訓練複雜度的同時,超過了傳統神經檢索器的效能。使用基於標記的索引時,SiDR 大幅降低了索引成本和時間,匹配了傳統術語檢索方法的複雜性,並在所有域內資料集上始終優於 BM25。此外,SiDR 引入的後期引數機制在 BM25 索引準備時間上匹配,同時在有效性方面優於其他神經檢索基準。
快來為你希望直播分享的論文投上一票吧!
你也許還想看:
