NeurIPS上新|提升、增強大語言模型的效率與能力

（本文閱讀時間：7分鐘）

編者按：歡迎閱讀“科研上新”欄目！“科研上新”匯聚了微軟亞洲研究院最新的創新成果與科研動態。在這裡，你可以快速瀏覽研究院的亮點資訊，保持對前沿領域的敏銳嗅覺，同時也能找到先進實用的開源工具。

12月10日至12月15日，全球最負盛名的人工智慧盛會之一 NeurIPS 大會將在加拿大溫哥華舉辦。因此，我們將透過三期“科研上新”為大家帶來多篇微軟亞洲研究院入選 NeurIPS 2024 的精選論文解讀，涉及內容涵蓋大模型最佳化、生成式人工智慧、跨模態學習、社會責任人工智慧、特定領域基礎模型等。

增強和提高大語言模型（LLMs）的能力與效率是推動人工智慧技術進步的關鍵。在第一期 NeurIPS 2024 精選論文解讀中，大家將瞭解到微軟亞洲研究院的研究員們不僅透過提升 LLMs 的邏輯推理、魯棒性和組合能力來拓寬其應用邊界，從而應對日益複雜的任務，同時，也在探索提高速度和最佳化資源利用率的方法，使 LLMs 更實用、更易於被廣泛採用。

「本期內容速覽」

BPQP：一種用於高效端到端學習的可微分凸最佳化框架（Spotlight）

圖學習可以提升大語言模型智慧體的規劃能力嗎？

ERBench：自動可驗證的大模型幻覺評測框架（Spotlight）

大模型的“心靈之眼”，VoT激發大語言模型的空間推理能力

MInference 1.0：助力長上下文大語言模型高效推理的動態稀疏注意力解決方案（Spotlight）

YOCO：打破傳統Decoder-only架構（Oral）

xRAG：基於模態融合的高效檢索增強生成框架

BPQP：一種用於高效端到端學習的可微分凸最佳化框架

論文連結：

https://arxiv.org/abs/2411.19285

GitHub 連結：

http://github.com/microsoft/qlib

近年來，深度神經網路被越來越多地用於解決資料驅動的決策問題。但在很多場景中，為了滿足工業場景的各種約束，直接端到端地學習並生成最終決策存在困難。這類問題在最後進行決策的時候常常需要進行帶有約束的凸最佳化問題（在投資組合最佳化、控制系統和訊號處理等領域很常見）。解決該問題的一類方法是選擇進行兩個階段的最佳化，先對一些中間未知變數進行預測，最後再生成決策。這種分階段最佳化相比於端到端最佳化，容易與最終目標出現偏差。所以又出現了各種方法，將決策模組變成一個可學習的神經網路層來直接端到端地學習。

實現這種最佳化層的內部蘊含著一個凸最佳化問題，它通常缺乏通用的閉式解，因此，計算相關引數的梯度需要更復雜的方法。使用隱函式定理進行最佳化、實現梯度傳導支援端到端學習是相對精確、高效的技術方向。但是這種技術在較大規模的資料上仍然存在效能瓶頸。

對此，研究員們在這一技術方向上提出了一個通用的、一階可微分的凸最佳化框架 Backward Pass as a Quadratic Programming（BPQP）。具體來說，BPQP 透過將一階條件矩陣重新表述為一個簡單的二次規劃（QP）問題，簡化了最佳化層引數的反向傳播（BP）。同時，這也將前向和反向傳播解耦，並建立了一個可以利用的現有高效求解器框架。簡化和解耦反向傳播顯著降低了前向和反向傳播的計算成本。

圖1：BPQP的關鍵思想

實驗結果顯示，BPQP 大大減少了整體計算時間，在100維線性規劃、二次規劃和二階錐規劃上分別實現了高達13.54倍、21.02倍和1.67倍的效能提升。這種效率的提高為 BPQP 在大規模真實世界端到端學習場景中的應用鋪平了道路。

圖學習可以提升大語言模型智慧體的規劃能力嗎？

論文連結：

https://arxiv.org/abs/2405.19119

程式碼連結：

https://github.com/WxxShirley/GNN4TaskPlan

隨著技術的快速發展，大語言模型智慧體如今已經可以充當個人助手、自動打遊戲、自動進行一些科學發現了。在這些應用中，規劃能力必不可少。本篇40頁的論文以工具智慧體為例，第一次研究了圖建模與圖學習能否提升大語言模型的推理規劃能力。

大模型的推理規劃一般是把一個複雜的問題拆解為若干個簡單的問題，然後逐一解決。比如，在 JARVIS 中，把使用者的需求拆解為可以被 HuggingFace 上的 API 解決的需求。而圖建模可以把子任務看成圖上的節點，任務之間的依賴性看成圖上的邊。然後，規劃就是在圖上找到一個路徑或者子圖來滿足使用者需求，可以看作是一個圖上的決策問題。

圖2：語言智慧體（如 HuggingGPT）中任務規劃示意圖

研究員們測試了四種圖方法：(1) 圖提示詞、（2）長推理過程、（3）具有圖輸入能力的語言模型、(4) 用圖神經網路完善大模型的輸出，發現四種方法都能提升語言模型的規劃能力，其中方法(4)效果最佳。此外，研究員們還證明了 Transformer 擁有足夠的表達能力可以解決圖決策問題，但自然語言和自迴歸損失函式的歸納偏置影響了它的整體效能。

實驗結果顯示，在 zero-shot 和帶訓練的場景下，規劃效能都得到了極大的提升，在 ultratool 上 Llama 模型任務的完成率從13%提升到了28%，GPT-4 的任務完成率從28%提升到了37%。

ERBench：自動可驗證的大模型幻覺評測框架

論文連結：

https://arxiv.org/abs/2403.05266

程式碼連結：

https://github.com/DILAB-KAIST/ERBench

近年來，大語言模型的生成能力和應用場景不斷擴充套件。然而，“幻覺”問題一直是科研人員和開發者面臨的一大挑戰。所謂幻覺，是指模型生成虛假、未經驗證或不存在的資訊，尤其在知識密集型或安全關鍵型的應用中，這一問題尤為突出。這不僅削弱了模型的可靠性，還使模型在實際場景中的應用也受到了限制。

為此，韓國科學技術院（KAIST）與微軟亞洲研究院聯合開發了一種名為 ERBench（Entity-Relationship Benchmark）的新方法。該方法利用實體關係模型（ER Model）構建了一個基準測試框架，為幻覺評估提供了新的視角。

傳統評估方法主要依賴於手工構建的基準測試集或自動生成的知識圖譜問答任務。這些方法面臨構建成本高、不可擴充套件的問題，或者問題過於簡單，無法深入評估模型的推理過程。ERBench 首次將關係型資料庫引入 LLMs 評估，透過功能依賴（functional dependency, FD）和外部索引鍵約束（foreign key constraint, FKC）兩個關鍵特性實現了評估方法的創新。其中，功能依賴透過關係模式中屬性之間的依賴關係生成複雜、層次分明的問答任務；外部索引鍵約束則允許多個表之間的聯合查詢，生成多跳推理問題。透過這兩種機制，ERBench 能夠自動生成可驗證的單選、多選甚至多模態問題，並對模型答案和推理過程進行精確評估。

圖3：ERBench 利用關係型資料庫中的功能依賴構建可驗證的資料集

在實驗中，ERBench 使用了電影、足球、機場、音樂和圖書五大領域的公共資料庫構建評估集。實驗結果顯示，ERBench 不僅關注答案的正確性，還進一步驗證了推理過程中關鍵詞的正確性，這種“雙重驗證”有效捕捉了模型潛在的幻覺問題。此外，ERBench 支援評估集的自動擴充套件，可適配多模態資料以及多種提示工程技術，展現了其擴充套件性與即時性。

儘管 ERBench 作為基於實體關係模型的大模型評估框架，開闢了新的研究方向，但其依賴資料庫完整性約束進行驗證的機制也存在侷限性，尤其是在資料庫資料質量較低或完整性約束不足的情況下，可能會影響評估的準確性。未來，ERBench 將探索全面推理驗證、跨領域應用以及模型最佳化反饋等方向。

大模型的“心靈之眼”，VoT激發大語言模型的空間推理能力

論文連結：

https://arxiv.org/abs/2404.03622

專案主頁：

https://microsoft.github.io/visualization-of-thought

人類具有透過“心靈之眼” （Mind's Eye）來想象未見之物的認知能力，這使得我們能夠在腦海中構建複雜的空間關係和場景佈局。雖然大語言模型在語言理解和各種推理任務上取得了令人矚目的成果，但它們在空間推理方面的能力尚未得到充分探索。受“心靈之眼”能力的啟發，研究員們提出了一種名為“思想視覺化”（VoT）的新型提示方法，旨在激發 LLMs 的空間推理能力。

圖4：人類和大語言模型的“心靈之眼”

VoT 提示方法的核心思想是讓 LLMs 在每個推理步驟中生成當前狀態的視覺化結果，從而指導後續的推理。這種方法不依賴樣本示例或基於文字的影像生成技術，而是利用 LLMs 自身的能力使用文字字元進行推理狀態的視覺化。研究員們分析認為，這種能力的來源可能與 LLMs 在程式碼預訓練過程中的程式碼註釋有關，這其中包含了特殊字元 ASCII Art 構成的視覺表示，這些資料可能增強了 LLMs 在空間理解和視覺化方面的泛化能力。

圖5：VoT 提示方法

為了驗證 VoT 的有效性，研究員們在三個涉及多步空間推理的任務上進行了測試，包括自然語言導航、二維網格中的導航與拼圖。實驗結果顯示，VoT 顯著提升了 LLMs 在這些任務上的表現，甚至超越了當前 SOTA 的多模態大語言模型。

表1：不同提示方法在三個空間推理任務中的實驗結果

研究員們分析了 LLMs 在這些任務中的推理過程，可以發現：在二維網格導航任務中，模型透過視覺化路徑有效避開了障礙物；在拼圖任務中，模型會嘗試拼接形狀來判斷可行性；在自然語言導航任務中，模型則能根據自然語言描述重建地圖，並模擬出相應的運動軌跡。由此可見，“思想視覺化”（VoT）提示方法為 LLMs 的空間推理能力帶來了突破性提升，同時為 LLMs 的能力擴充套件提供了新的視角。

圖6：VoT 方法在三個任務中推理過程的視覺化結果。注：視覺化結果由文字字元構成。

MInference 1.0：助力長上下文大語言模型高效推理的動態稀疏注意力解決方案

論文連結：

https://arxiv.org/abs/2407.02490

專案連結：

https://aka.ms/MInference

程式碼連結：

https://github.com/microsoft/MInference

Demo連結：

https://huggingface.co/spaces/microsoft/MInference

長文字處理已成為大語言模型的標配功能，其支援的上下文長度逐步從128K擴充套件至10M。這一進步解鎖了眾多下游應用場景，包括倉庫級程式碼理解、長文件問答、自我對弈推理以及長曆史任務 agent 等。然而，長文字大語言模型的推理開銷十分巨大，尤其是在預填充階段，由於注意力機制的平方複雜度特性，隨著上下文長度增加，延遲會呈指數級增長。以 Llama-3-8B 模型為例，在單張 A100 GPU 上執行時，處理300K上下文需要3分鐘，而處理1M上下文則需耗時30分鐘。

為了解決這一問題，研究員們開發了 MInference 1.0，透過引入動態稀疏注意力機制顯著加速了長上下文 LLMs 的預填充階段。MInference 1.0 的核心在於利用注意力矩陣中的三種稀疏模式（A 形模式、垂直斜線模式和塊稀疏模式）動態構建稀疏索引，並透過最佳化的 GPU 核心實現高效稀疏計算。相比現有方法，MInference 無需改變模型的預訓練設定或額外微調，直接適配即可。

具體而言，MInference 利用長上下文大語言模型中注意力矩陣的動態稀疏特性，將其歸納為三種 GPU 核心友好的模式。透過離線識別最優注意力模式，在推理時動態生成稀疏索引，並基於 PIT、Triton 和 FlashAttention 等工具開發的 GPU 核心，大幅減少稀疏注意力計算的浮點運算量（減少95%）。

圖7：MInference 1.0 原理和結果示意圖

MInference 1.0 目前的主要成果有：一，顯著降低首字時延（TTFT），在單張 A100 GPU 上，MInference 將處理100萬標記提示的時間從30分鐘縮短至3分鐘，實現了高達10倍的速度提升；二，保持高精度，在一系列任務（如 InfiniteBench、RULER、PG-19 等）中，MInference 與基線方法相比無明顯精度損失，甚至在部分任務中表現更佳；三，最佳化通用性，適用於多種模型（如LLaMA-3-1M、GLM-4-1M、Qwen2、Phi-3），無論是單任務還是多工場景，均表現優異。

YOCO：打破傳統Decoder-Only架構

論文連結：

https://arxiv.org/abs/2405.05254

微軟亞洲研究院推出了一種創新性的 Decoder-Decoder 架構 YOCO（You Only Cache Once）。透過自解碼器和交叉解碼器的獨特架構，YOCO 僅需快取一次鍵值對，從而顯著降低 GPU 記憶體的使用。在模型評估中，YOCO 展現出與同規模 Transformer 模型相媲美的效能，並在語言建模評估、模型大小擴充套件以及長上下文處理方面具有顯著優勢。特別是在降低 GPU 記憶體佔用和縮短預填充延遲方面，YOCO 實現了線性複雜度的預填充延遲，併成量級地減少了鍵值對記憶體需求，為大語言模型下一代架構指明瞭方向。

xRAG：基於模態融合的高效檢索增強生成框架

論文連結：

https://nips.cc/virtual/2024/poster/96497

GitHub 連結：

https://github.com/Hannibal046/xRAG

檢索增強生成（RAG）近來在知識密集型任務中展現出了顯著優勢，其透過從非引數知識庫中檢索領域特定及最新資訊，將語言模型的能力擴充套件到了更廣泛的問題解答和推理任務中。然而，傳統 RAG 方法由於直接將整篇文件插入提示中，不僅顯著增加了推理時的計算成本，還面臨模型上下文長度的限制。例如，在生成準確回覆時，模型需要處理包含原始查詢及多倍擴充套件文件的上下文，帶來了推理效率上的巨大挑戰。

為應對這些問題，微軟亞洲研究院的研究員們提出了一種創新的上下文壓縮方法 xRAG，專為檢索增強生成任務設計。不同於傳統壓縮方法關注於文件的表面形式（如LLMLingua、AutoCompressor），xRAG 從多模態融合的視角重新定義了文件嵌入的使用方式。透過獨特的檢索模態特徵方法，xRAG 可以將原本用於檢索的文件高維嵌入直接融合到語言模型的表示空間中，無需再引用文件的文字內容，從而實現了極高的壓縮率（從數百個 Token 壓縮為單個 Token）。

圖8：xRAG 方法示意圖

在 xRAG 的設計中，檢索器和語言模型均保持凍結狀態，只通過一個小型的 modality bridge 實現特徵整合。這一設計不僅支援離線使用預構建的文件嵌入，還維護了 RAG 系統的即插即用屬性。在訓練階段，xRAG 採用了兩階段的最佳化策略——段落重述預訓練及上下文感知指令微調，從而提升了模型對嵌入特徵的理解與利用能力。

表2：主實驗結果

實驗結果顯示，在廣泛的知識密集型任務測試中（如 Open-Domain QA、Multi-hop QA 等），xRAG 在大幅降低計算成本的情況下，效能持續超過現有壓縮方法，甚至在部分資料集上達到了與未壓縮模型相當的水平。詳細分析表明，其在減少推理開銷方面表現突出，與傳統 RAG 模型相比，xRAG 平均減少了3.53倍的 FLOPs，同時推理速度提升約1.64倍。更重要的是，xRAG 在面對冗餘或誤導性檢索內容時表現出了更高的魯棒性，較大程度上避免了因錯誤檢索內容導致的回答偏差。

你也許還想看：