MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 知乎

作者丨南門子

文章題目：A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS

Arxiv 連結：https://arxiv.org/pdf/2503.06072v1

普遍認為，真正的智慧賦予我們推理能力，使我們能夠檢驗假設，併為未來的可能性做好準備。—— Jean Khalfa，《什麼是智慧？》，1994

摘要

大型語言模型（LLMs）的出現從根本上改變了自然語言處理，使其在從對話系統到科學探索等多個領域不可或缺。然而，它們的預訓練架構在特定情境下常常暴露出侷限性，包括推理能力有限、倫理不確定性以及領域特定效能不佳等問題。這些挑戰需要先進的後訓練語言模型（PoLMs）來解決這些不足，例如 OpenAI-o1/o3 和 DeepSeek-R1（統稱為大型推理模型，或 LRMs）。本文首次全面綜述了 PoLMs，系統地追溯了它們在五個核心正規化中的演變：微調（Fine-tuning），提高任務特定準確性；對齊（Alignment），確保倫理一致性和與人類偏好的對齊；推理（Reasoning），儘管在獎勵設計方面存在挑戰，但仍推進多步推理；效率（Efficiency），在複雜性不斷增加的情況下最佳化資源利用；以及整合與適應（Integration and Adaptation），擴充套件跨多種模態的能力，同時解決一致性問題。從 2018 年 ChatGPT 的基礎對齊策略到 2025 年 DeepSeek-R1 的創新推理進展，我們展示了 PoLMs 如何利用資料集減輕偏差、深化推理能力和增強領域適應性。我們的貢獻包括對 PoLM 演變的開創性綜合、對技術和資料集的結構化分類，以及強調 LRMs 在提高推理能力和領域靈活性方面的戰略議程。作為這一範圍內的首個綜述，本研究整合了最近的 PoLM 進展，併為未來的研究建立了嚴格的理論框架，促進在科學和社會應用中精確、倫理穩健且多功能的 LLMs 的發展。

引言

語言模型(LMs) 是設計用於建模和生成人類語言的複雜計算框架。這些模型透過使機器能夠以接近人類認知的方式理解、生成和與人類語言互動，徹底改變了自然語言處理(NLP) 領域。與人類透過與環境的互動和接觸自然習得語言技能不同，機器必須經過廣泛的資料驅動訓練才能發展出類似的能力。這提出了一個重要的研究挑戰，因為使機器能夠理解並生成人類語言，同時進行自然、上下文恰當的對話，不僅需要巨大的計算資源，還需要精細的模型開發方法。

大型語言模型(LLMs) 的出現，如 GPT-3、Instruct GPT 和 GPT-4，標誌著語言模型進化的一個變革階段。這些模型以其廣泛的引數化和先進的學習能力為特徵，旨在捕捉複雜的語言結構、上下文關係和大規模資料集中的細微模式。這使得 LLMs 不僅能夠預測後續單詞，還能在包括翻譯、問答和摘要在內的各種任務中生成連貫且上下文相關的文字。LLMs 的發展引發了廣泛的學術興趣，可以分為兩個主要階段：預訓練(pre-training) 和後訓練(post-training)。

預訓練

預訓練的概念源自計算機視覺(CV)任務中的遷移學習。其主要目標是使用大量資料集開發一個通用模型，以便輕鬆微調以適應各種下游應用。預訓練的一個重要優勢是能夠利用任何未標註的文字語料庫，從而提供豐富的訓練資料來源。然而，早期的靜態預訓練方法，如神經網路語言模型(NNLM) 和 Word2vec，難以適應不同的文字語義環境，促使了動態預訓練技術的發展，如 BERT 和 XLNet。BERT 透過利用 Transformer 架構並在大規模未標註資料集中使用自注意力機制，有效解決了靜態方法的侷限性。這項研究建立了“預訓練和微調”的學習正規化，啟發了眾多後續研究，引入了多種架構，包括 GPT-2 和 BART。

後訓練

後訓練是指模型經過預訓練後所採用的技術和方法，旨在細化和適應特定任務或使用者需求。隨著具有 1750 億個引數的 GPT-3 的釋出，後訓練領域經歷了顯著的興趣和創新激增。出現了多種方法來提高模型效能，包括微調(fine-tuning)，即使用標註資料集或特定任務資料調整模型引數；對齊策略(alignment strategies)，即最佳化模型以更好地與使用者偏好對齊；知識適配技術(knowledge adaptation techniques)，即使模型能夠納入領域特定知識；以及推理改進(reasoning improvements)，即增強模型的邏輯推理和決策能力。這些技術統稱為後訓練語言模型(PoLMs)，催生了如 GPT-4、LLaMA-3、Gemini-2.0 和 Claude-3.5 等模型的開發，標誌著 LLM 能力的重大進展。然而，後訓練模型通常難以不經重新訓練或重大引數調整而適配新任務，這使得 PTM 開發成為活躍的研究領域。

正如所強調的，預訓練語言模型(PLMs) 主要旨在提供一般知識和能力，而 PoLMs 則專注於將這些模型適應特定任務和需求。一個顯著的例子是最新一代的 LLM，DeepSeek-R1，它展示了 PoLMs 在增強推理能力、與使用者偏好對齊以及提高跨領域適應性方面的演變。此外，開源 LLMs（例如 LLaMA、Gemma 和 Nemotron）和領域特定的大規模資料集（例如 Prompt Source 和 Flan）的日益可用，正在推動學術研究人員和行業從業者開發 PoLMs 的趨勢。這一趨勢突顯了在 PoLMs 領域中定製適應性的重要性。

圖1：大型語言模型後訓練技術的演變，展示了從初始方法到先進方法的進展，特別強調 DeepSeek 模型的貢獻（用藍色突出顯示）

在現有文獻中，PLMs 已被廣泛討論和綜述，而 PoLMs 很少被系統地審查。為了推進這些技術，有必要徹底審查現有的研究成果，以識別關鍵挑戰、差距和進一步改進的機會。本調查旨在填補這一空白，透過提供一個結構化的框架來研究後訓練的演變。如圖1所示，它探討了後訓練的多個階段，特別關注從 ChatGPT 到 DeepSeek 所採用的方法。這些技術涵蓋了廣泛的方法，包括微調、LLM 對齊、推理增強和效率改進。圖中的藍色部分特別突出了 DeepSeek 應用的一組後訓練方法，強調了為其成功適應使用者偏好和領域特定需求做出貢獻的創新策略。

1.1 主要貢獻

本文是關於PoLMs的首個全面綜述，提供了該領域最新進展的詳盡、結構化的探索。儘管先前的綜述通常集中於LLM開發的具體方面，例如偏好對齊、引數高效的微調[39]和LLM的基礎技術[40]，但它們大多集中在狹窄的子主題上。相比之下，本綜述採取了整體方法，全面回顧了後訓練中常用的核⼼技術，並系統地對這些技術進行了分類。此外，我們研究了這些方法所依賴的資料集和實際應用，如圖2所示，並指出了未來研究的開放挑戰和有前景的方向。本綜述的主要貢獻如下：

全面的歷史綜合。我們首次深入綜合了PoLMs的發展歷程，從ChatGPT最初的基於人類反饋的強化學習(RLHF)到DeepSeek-R1創新的冷啟動RL方法。這一綜合涵蓋了關鍵技術（即微調(Fine-tuning)、對齊(Alignment)、推理(Reasoning)、效率(Efficiency)和整合與適應(Integration and Adaptation)），分析了它們的發展及相關的挑戰，如計算複雜性和倫理考慮。透過將這一發展過程呈現為一個連貫的敘述，並輔以必要的參考文獻，我們為研究人員提供了近年來後訓練發展的全面概述，成為該領域的基礎資源。
結構化的分類和框架。我們引入了一個結構化的分類體系，如圖2所示，將後訓練方法分為五個不同的類別，並將資料集組織成七種型別，同時在專業、技術和互動領域框定了應用。這一框架明確了這些方法之間的相互關係及其實際意義，提供了對其發展的系統視角。透過提供明確定義的類別和分析見解，我們提高了初學者和專家的訪問和理解能力，建立了一本全面的指南，幫助他們應對後訓練研究的複雜性。
未來方向。我們突出了新興趨勢，特別是大型推理模型(LRMs)如 o1 和 DeepSeek-R1 的興起，這些模型利用大規模的強化學習推動了推理能力的邊界。我們強調，持續的技術進步對於進一步提升推理能力和領域適應性至關重要。我們的分析識別了關鍵挑戰，包括可擴充套件性限制、倫理對齊風險和多模態整合障礙。我們提出了自適應RL框架和公平性最佳化等研究方向。這些方向旨在推動後訓練的發展，確保LLMs實現更高的精確度和可信度，以滿足未來的需求。

1.2 本文組織

本綜述系統地組織，全面探討了後訓練語言模型(Post-training Language Models, PoLMs)，涵蓋了其歷史演變、方法論、資料集、應用及未來趨勢。第2節提供了PoLMs的歷史概述。第3節考察了微調技術，包括第3.1節的監督微調(Supervised Fine-Tuning, SFT)和第3.3節的強化微調(Reinforcement Fine-Tuning, RFT)。第4節討論了對齊問題，涵蓋第4.1節的人類反饋強化學習(Reinforcement Learning from Human Feedback, RLHF)、第4.2節的人工智慧反饋強化學習(Reinforcement Learning from AI Feedback, RLAIF)以及第4.3節的直接偏好最佳化(Direct Preference Optimization, DPO)。第5節聚焦推理能力，包括第5.1節的自精煉方法(Self-Refinement Methods)和第5.2節的推理強化學習(Reinforcement Learning for Reasoning)。第6節調查了提高效率的方法，包括第6.1節的模型壓縮(Model Compression)、第6.2節的引數高效微調(Parameter-Efficient Fine-Tuning, PEFT)和第6.3節的知識蒸餾(Knowledge Distillation)。第7節研究了整合與適應技術，涉及多模態方法、領域適應和模型融合。第8節回顧了後訓練中使用的資料集。第9節探索了大型語言模型的應用。第10節評估了開放問題和未來方向。最後，第11節以總結和研究展望作為結尾。

概覽

2.1 PoLMs 的歷史

大型語言模型（LLM）的發展構成了自然語言處理（NLP）領域的一個重要篇章，其中後訓練方法作為關鍵催化劑，推動了這些模型從通用預訓練架構向專門化任務適應系統的演變。本節概述了後訓練語言模型（PoLM）的歷史軌跡，追溯其發展從以 BERT 和 GPT 代表的預訓練里程碑到現代模型如 o1 和 DeepSeek-R1 所體現的複雜後訓練正規化。如圖3所示，這一進展反映了從建立廣泛的語言能力到增強任務特定適應性、倫理一致性、推理複雜性和多模態整合的轉變，標誌著LLM能力的變革之旅。

現代PoLM歷史的開端與2018年的預訓練革命相吻合，當時 BERT 和 GPT 的釋出重新定義了NLP基準。BERT的雙向自動編碼框架利用了Transformer架構和自注意力機制，在諸如問答等任務中出色地捕捉了上下文依賴關係；而GPT的自迴歸設計則側重於生成連貫性，為文字生成設定了先例。這些模型確立了“預訓練和微調”正規化，隨後在2019年透過T5 進一步完善，該模型統一了多種任務的文字到文字框架，促進了多工學習併為後訓練進步奠定了堅實基礎。

從2020年起，PoLM的格局開始顯著演變，這主要是由於需要高效地將預訓練模型適應於各種任務並在資料有限的情況下進行。早期創新如字首調優和提示調優引入了輕量級適應策略，透過修改模型輸入而不是重新訓練整個架構來實現多工靈活性，從而節省計算資源並擴大應用範圍。這一時期還見證了以使用者為中心最佳化的關鍵轉變，即2021年引入的人類反饋強化學習（RLHF），該技術利用人類評估使模型輸出與主觀偏好對齊，增強了對話場景中的實用性。到2022年，隨著近端策略最佳化（PPO）的採用，RLHF進一步成熟，改進了對齊穩定性和減輕了對噪聲反饋的過擬合。2022年底 ChatGPT 的釋出凝聚了這些進步，展示了RLHF在建立響應迅速且使用者對齊的LLM方面的變革潛力，並催化了 PoLM 研究的激增。同時，思維鏈（Chain-of-Thought, CoT）提示作為一種推理增強策略出現，鼓勵模型在複雜任務中闡述中間步驟，從而提高了透明度和準確性，特別是在邏輯推理和問題解決領域。

2022年至2024年間，PoLM多樣化發展，以應對領域特異性、倫理穩健性和多模態整合的需求，反映出對LLM改進越來越細緻的方法。領域適配技術如檢索增強生成（Retrieval-Augmented Generation, RAG）出現，旨在整合外部知識庫，使專門領域的輸出更加豐富，而無需進行全面再訓練——這對於需要最新資訊的專業應用至關重要。倫理對齊努力加強，2023年直接偏好最佳化（Direct Preference Optimization, DPO）簡化了RLHF，直接針對人類偏好最佳化模型輸出，繞過了中間獎勵建模，提高了效率和穩健性。與此同時，多模態能力的追求也取得了進展，PaLM-E 和 Flamingo 等模型開創了視覺-語言整合的先河，隨後 BLIP-2 和 LLaVA 將這些努力擴充套件到了更廣泛的領域，如醫學成像。效率創新與這些發展並行，特別是透過專家混合（Mixture of Experts, MoE）架構；2022年，Google 的 Switch-C Transformer 引入了1.6萬億引數跨2048個專家的稀疏啟用，而 Mixtral 進一步完善了這一正規化，平衡了可擴充套件性和效能。期間的推理增強，如自我博弈和蒙特卡洛樹搜尋（Monte Carlo Tree Search, MCTS）與CoT的結合，透過模擬迭代推理路徑進一步增強了LLM的決策能力，為高階推理導向模型奠定了基礎。

一個重要的架構進步是專家混合（MoE）模型的興起，這些模型透過動態啟用選擇性的引數子集，從傳統的密集架構中脫穎而出，從而最佳化計算效率並容納龐大的引數規模。這一正規化由 Google 的 Switch-C Transformer 在2022年率先提出，該模型擁有1.6萬億引數分佈在2048個專家中，這是一種平衡資源需求與效能提升的開創性方法。後續迭代，如Mixtral 和 DeepSeek V2.5 ——後者利用2360億總引數，其中21億活躍於160個專家中——進一步完善了這一框架，在LMSYS基準上取得了最先進的結果，並證明稀疏MoE架構可以在可擴充套件性和效能方面與密集模型相媲美。這些發展突顯了向效率導向的PoLM的轉變，使LLM能夠以較低的計算開銷處理複雜任務，這是擴大其實用性的關鍵一步。到2025年，DeepSeek-R1 成為了PoLM創新的里程碑，它擺脫了傳統監督微調（SFT）的依賴，轉而採用鏈式思維（CoT）推理和探索性RL策略。以DeepSeek-R1-Zero為例，該模型集成了自我驗證、反思和擴充套件的CoT生成，驗證了在開放研究正規化中RL驅動的推理激勵，引入了蒸餾技術將複雜的推理模式從較大的架構轉移到較小的架構。這種方法不僅比單獨的RL訓練表現出更高的效能，還預示了一種可擴充套件的、以推理為中心的LLM正規化，旨在解決後訓練方法中持續存在的計算效率和任務適應性挑戰。

圖3：大型語言模型訓練後技術開發時間表（2018-2025），描繪了其歷史程序中的關鍵里程碑

2.2 PoLM的公式基礎

2.2.1 策略最佳化原理

近端策略最佳化(PPO)演算法是一種關鍵的強化學習技術，特別適用於需要保持穩定性和效率的場景，例如基於人類反饋的強化學習(RLHF)。PPO透過限制策略更新的幅度來實現這些目標，確保模型行為的變化是漸進和可控的，從而防止效能的災難性下降。這在微調大規模語言模型時尤為重要，因為劇烈的策略更新可能導致不可取或不可預測的行為。

定義。 在PPO的上下文中，狀態表示時間的狀態，包括模型做出決策所需的所有相關資訊。動作表示模型在給定狀態時所做的選擇。這個動作是模型所做的一系列決策的一部分。執行動作後，智慧體接收獎勵，這是來自環境的反饋，表明所採取行動的成功或失敗。優勢函式衡量在當前策略下，在狀態中採取動作的優勢，相對於該狀態下所有動作的期望值。它正式定義為動作價值函式和狀態價值函式之間的差異：

其中表示在狀態中採取動作並遵循策略所獲得的預期累積獎勵，而是從狀態開始並遵循策略所獲得的預期累積獎勵。這兩個函式都考慮了未來的獎勵，並透過因子進行折現。

策略更新。PPO演算法透過基於優勢函式進行增量更新來最佳化策略。策略更新使用剪下目標函式：

其中表示在當前策略下采取動作的機率與舊策略下采取動作的機率之比。該比率定義為：

是在時間步的估計優勢，而剪下函式將策略更新限制在一個安全範圍內，由超引數控制。這種剪下機制確保更新不會與之前的策略相差太大，從而在訓練過程中保持穩定性。

價值函式更新。價值函式估計在給定狀態下，根據策略獲得的預期累積獎勵。為了確保價值函式提供準確的估計，它透過最小化預測值與實際獎勵之間的均方誤差來最佳化：

其中是從狀態獲得的實際累積獎勵，而是當前策略下的估計值。目標是調整引數以最小化預測值與實際獎勵之間的差異，提高價值函式的準確性。

2.2.2 RLHF 原理

強化學習結合人類反饋（Reinforcement Learning with Human Feedback, RLHF）是透過在學習過程中利用人類生成的反饋來使模型與人類偏好對齊的關鍵方法。這種方法引入了一個獎勵函式，該函式顯式地捕捉了人類輸入，使得模型能夠更好地適應使用者偏好和實際應用。

定義。在 RLHF 中，語言模型生成一個關於詞彙表的序列的機率分佈。模型從輸入空間中生成一系列的標記，其中每個標記都條件依賴於之前的標記。模型的輸出由以下條件機率分佈定義：

$$\rho\left(x_0 \cdots x_{n-1}\right)=\prod_{0 \leq k<n} \rho\left(x_k="" \mid="" x_0="" \cdots="" x_{k-1}\right)="" $$=""

模型在一個由輸入空間、資料分佈和輸出空間定義的任務上進行訓練。例如，在文字摘要任務中，如文獻［16］所示，GPT－2 模型使用 RLHF 進行訓練，任務涉及基於 CNN／DailyMail 和 TL；DR 等資料集預測文字摘要。

目標函式。策略是一個與原始模型結構相同的語言模型。最初，策略被設定為等於。目標是透過最佳化策略來最大化輸入輸出對的預期獎勵。獎勵函式為每個輸入輸出對分配一個標量值，最優策略透過解決以下最大化問題獲得：

這個目標函式代表了一個標準的強化學習問題，其中模型透過與環境的互動並在人類反饋的引導下學習最大化預期獎勵。

2.2.3 DPO 原理

直接偏好最佳化(Direct Preference Optimization, DPO) 基於強化學習與人類反饋(RLHF)，透過直接根據人類偏好最佳化模型的輸出來改進模型。這些偏好通常以成對比較的形式表達。DPO 消除了傳統獎勵函式的需要，而是透過最大化基於偏好的獎勵來最佳化模型行為。

目標函式

在一般獎勵函式下，KL 約束下的獎勵最大化目標的最優解由下式給出：

其中是確保輸出在所有可能動作上歸一化的分割槽函式。即使使用真實獎勵的最大似然估計，分割槽函式也可以近似，從而簡化最佳化過程。這種表述透過直接根據人類反饋調整策略，使得偏好最佳化更加高效。

偏好模型

使用 Bradley－Terry 模型，該模型描述了兩個輸出和之間的偏好，最優策略滿足以下偏好模型：

其中表示在給定輸入的情況下，人類更喜歡輸出而不是的機率。這種方法有效地將人類偏好納入模型的最佳化過程中。

2.2.4 GRPO 原理

組相對策略最佳化（Group Relative Policy Optimization, GRPO）演算法是強化學習中近端策略最佳化（Proximal Policy Optimization, PPO）演算法的一種變體，首次在 DeepSeek 的前期工作《Deep Seek Math: 推動開放語言模型中的數學推理極限》中提出。GRPO 省略了評估模型（critic model），而是使用組得分來估計基線，這與 PPO 相比顯著減少了訓練資源消耗。

定義。 GRPO 和 PPO 演算法之間最顯著的區別在於優勢函式的計算方法。從第 2．2．1 節中的公式 1 可以看出，PPO 中優勢函式的值是從 Q 值和 V 值之間的差異得出的。

目標函式。 具體來說，對於每個問題，GRPO 從舊策略中取樣一組輸出，然後透過最大化以下目標來最佳化策略模型：

其中和是超引數，是基於每組內部輸出的相對獎勵計算的優勢，詳細內容將在第 5.2 節中介紹。

PoLMs 微調

微調構成了將預訓練大型語言模型（LLMs）適應特定任務的核心，透過有針對性的引數調整來最佳化其能力。這一過程利用標註資料集或任務特定資料集來最佳化效能，彌合通用預訓練與領域特定需求之間的差距。本章探討三種主要的微調正規化：監督微調（§3.1），使用標註資料集來提高任務特定的準確性；自適應微調（§3.2），透過指令微調和基於提示的方法來定製模型行為；以及強化微調（§3.3），將強化學習整合進來，根據獎勵訊號迭代地最佳化輸出，透過動態互動促進持續改進。

3.1 有監督微調

監督微調(Supervised Fine-Tuning, SFT) 透過利用特定任務的標註資料集，將預訓練的大型語言模型(LLMs)適應於特定任務。不同於依賴指令提示的指令微調，SFT直接使用標註資料調整模型引數，生成既精確又具有上下文感知能力的模型，同時保留廣泛的泛化能力。SFT彌合了預訓練期間編碼的廣泛語言知識與目標應用的細微需求之間的差距。預訓練的LLMs透過接觸大量語料庫，獲得了一般的語言模式，減少了對大量領域特定資料進行微調的依賴。模型選擇至關重要：較小的模型如 T5 在資源受限且資料集有限的環境中表現出色，而較大的模型如 GPT-4 則利用其卓越的容量，在複雜且資料豐富的任務中表現出色。

3.1.1 SFT 資料準備

構建高質量的SFT資料集是一個多方面的過程，對於微調的成功至關重要。

SFT 資料集構建

SFT 資料集通常結構化為 , 其中是一條指令, 是其對應的例項。這種配對使大語言模型（LLM）能夠識別任務特定的模式並生成相關輸出。諸如 Self-Instruct 等方法透過合成新的指令-輸出對來豐富多樣性，並使用如 ROUGE-L 等指標過濾重複項以保持多樣性。

SFT 資料集篩選

篩選確保只有高質量的指令－例項對保留在最終的資料集中。使用篩選函式來評估每對的質量，從而得到一個精選子集：

表1：2018年至2025年各組織釋出的預訓練大語言模型概覽。該表詳細列出了Meta、DeepSeek、OpenAI及其他機構的關鍵模型，包括它們的引數規模、訓練資料規模（如有報道）、開源狀態和釋出時間線。開源狀態用 ⊙˘⊙˘ 表示對研究社群公開的模型，用 ⊛ 表示閉源專有模型

其中是使用者定義的質量閾值。例如，指令跟隨難度（Instruction Following Difficulty, IFD）度量量化了一條給定的指令如何有效地引導模型生成預期響應。IFD 函式表示為：

其中表示指令，是預期響應，代表模型的學習引數。該度量透過比較在有無指令的情況下生成響應的可能性，提供了一個歸一化的度量，表明指令在促進響應生成方面的有效性。未達到選定IFD閾值的指令－例項對將被排除在外，從而得到一個精煉的資料集。

SFT 資料集評估

評估SFT資料集涉及選擇一個高質量的子集作為模型效能的基準。這個子集可以從精選資料集中抽樣，或從獨立部分中派生以確保公正性。傳統的SFT評估方法，如 FewShot GPT 和微調策略，資源密集型，而指令挖掘提供了一種更高效的替代方案。指令挖掘使用線性質量規則和一組度量來衡量資料集質量，如響應長度和平均獎勵模型得分，以評估這些度量與整體資料集質量之間的相關性。

3.1.2 SFT 過程

如圖4所示，一旦資料集準備就緒，微調過程便從一個預訓練的語言模型開始，該模型通常透過在大規模原始資料集上進行無監督或自監督預訓練獲得。此預訓練階段的目標是獲取適用於各種任務的一般特徵表示。隨後，在微調階段，使用特定任務的標註資料調整模型引數，使模型與給定應用的需求對齊。此階段常用的最佳化目標函式是交叉嫡損失。對於一個具有個樣本和個類別的分類任務，它可以表示為：

其中是樣本在類別中的真實標籤，而表示模型預測樣本屬於類別的機率。最小化這個損失函式促使模型更好地與真實標籤對齊，從而提高在目標任務上的效能。

一個顯著的例子是 BERT 模型，它在廣泛的語料庫（如Books Corpus和Wikipedia）上進行了廣泛的預訓練。在微調階段，這些廣泛表示透過使用特定任務的資料（例如，用於情感分析的IMDB資料集）進行細化，使BERT能夠專門處理諸如情感分類和問答等任務。

3.1.3 全參微調

全引數微調指的是調整預訓練模型所有引數的過程，與LoRA 或Prefix-tuning 等引數高效方法形成對比，後者僅修改部分引數。全引數微調通常用於需要高精度的任務，例如醫療和法律領域，但其計算開銷較大。例如，微調一個650億引數的模型可能需要超過100 GB的GPU記憶體，這在資源受限的環境中構成了挑戰。為了緩解這些約束，引入了LOMO 等記憶體最佳化技術，這些技術減少了梯度計算和最佳化器狀態的記憶體佔用。模型引數根據以下規則更新：

其中，表示第次迭代時的模型引數，是學習率，表示損失函式的梯度。記憶體最佳化技術包括混合精度訓練和啟用檢查點，這些技術有助於減少記憶體需求，使大型模型能夠在硬體資源有限的系統上進行微調。

從GPT-3到InstructGPT。 全引數微調的一個顯著例子是從 GPT-3 到 InstructGPT 的過渡，其中使用設計用於指令跟隨任務的資料集對模型的整個引數集進行了微調。這種方法能夠實現最佳效能，但由於需要更新所有引數，因此計算成本較高。

3.2 自適應微調

自適應微調（Adaptive Fine-tuning）修改了預訓練模型的行為，以更好地滿足使用者特定需求並處理更廣泛的任務。這種方法引入了額外的線索來指導模型的輸出生成，提供了一個靈活的框架來定製模型的響應。自適應微調中值得注意的方法包括指令微調和基於提示的微調，這兩種方法透過引入任務特定的指導，顯著增強了大語言模型的適應性。

3.2.1 指令微調

指令微調是一種透過在專門構建的指令資料集上對基礎大語言模型（LLM）進行微調來改進其效能的技術。這種方法顯著提升了模型在各種任務和領域中的泛化能力，提高了其靈活性和準確性。如圖5所示，該過程首先將現有的自然語言處理（NLP）資料集（例如，文字分類、翻譯和摘要資料集）轉換為包含任務描述、輸入示例、預期輸出和示例演示的自然語言指令。自動生成更多指令-輸出對的技術，如Self-Instruct ，進一步增強了這些資料集的多樣性，擴充套件了模型對更廣泛任務的接觸。微調過程調整模型的引數以適應這些特定任務的指令，從而生成一個在熟悉和先前未見過的任務中均表現出色的大語言模型。例如，Instruct GPT 和 GPT-4 在廣泛的應用中展示了指令跟隨能力的顯著提升。

指令微調的有效性很大程度上取決於指令資料集的質量和廣度。高質量的資料集應涵蓋廣泛的語言、領域和任務複雜性，以確保模型具有廣泛的適用性。此外，指令的清晰性和組織性在使模型能夠有效解釋和執行任務方面發揮著關鍵作用。整合示例演示，包括思維鏈提示（Chain-of-Thought prompting）等技術，可以顯著提高需要複雜推理的任務的效能。此外，在微調階段確保任務分佈的平衡是避免過擬合或因任務覆蓋不平衡而導致模型效能下降的關鍵。比例任務取樣或加權損失函式等技術有助於解決這些問題，確保每個任務在微調過程中做出公平的貢獻。因此，透過精心構建和管理指令資料集，研究人員可以大大增強微調後大語言模型的泛化能力，使其在廣泛的任務和領域中表現出色。

3.2.2 字首微調

字首調優(Prefix-tuning) 是一種引數高效的微調方法，涉及在語言模型的每個 Transformer 層中新增一系列可訓練的字首標記（連續向量），同時保持核心模型引數不變。如圖 6(a) 所示，這些字首向量是任務特定的，並充當虛擬標記嵌入。為了最佳化字首向量，使用了一種重新引數化技巧，即學習一個小的多層感知器（MLP）函式，將一個較小的矩陣對映到字首引數，而不是直接最佳化字首向量。這種方法已被證明可以穩定訓練過程。一旦字首向量被最佳化，對映函式將被丟棄，只保留匯出的字首向量以增強任務特定效能。

圖 6：字首調優和提示調優的比較，展示了它們在引數微調方面的不同方法：a) 字首調優和 b) 提示調優

透過在輸入序列前附加一個已學習的連續提示並利用分層提示，模型的行為可以被引導到任務特定的輸出，而無需對整個模型進行微調。由於只有字首引數被調整，這導致了一種更引數高效的方法。在此基礎上，P-Tuning v2 在 Transformer 架構中引入了分層提示向量，專門用於自然語言理解任務。該方法還利用多工學習來最佳化跨任務的共享提示，提高不同引數規模下的模型效能。字首調優在促進大型語言模型快速高效地適應特定任務方面的潛力顯而易見，使其成為需要靈活性和效率的應用中的一個有吸引力的策略。

3.2.3 提示微調

提示調優（Prompt-Tuning）是一種旨在透過最佳化輸入層的可訓練向量而非修改模型內部引數來高效適應大規模語言模型的方法。如圖6(b)所示，該技術在離散提示方法的基礎上引入了軟提示標記，這些標記可以以無限制格式或字首的形式進行結構化。這些學習到的提示嵌入與輸入文字嵌入結合後被模型處理，從而在保持預訓練權重不變的情況下引導模型的輸出。兩種代表性的提示調優實現是 P-tuning 和標準prompt-tuning。

Ptuning 使用靈活的方法結合上下文、提示和目標標記，使其適用於理解和生成任務。該方法透過雙向 LSTM 架構增強軟提示表示的學習。相比之下，標準提示調優採用了更簡單的設計，其中字首提示附加到輸入中，並且僅在訓練過程中根據任務特定的監督更新提示嵌入。

研究表明，提示調優在許多工上可以達到與全引數微調相當的效能，同時需要的可訓練引數顯著減少。然而，其成功與底層語言模型的容量密切相關，因為提示調優僅修改輸入層的一小部分引數。在此基礎上，諸如 P-Tuning v2 等新方法已經證明，提示調優策略可以在各種模型大小上有效擴充套件，處理以前認為需要全微調的複雜任務。這些發現確立了提示調優作為傳統微調的高度高效替代方案，提供相當的效能並降低計算和記憶體成本。

3.3 強化學習微調

強化微調（Reinforcement Fine-Tuning, ReFT）是一種先進的技術，它將強化學習（RL）與監督微調（SFT）相結合，以增強模型解決複雜動態問題的能力。與傳統的 SFT 不同，後者通常為每個問題使用單個鏈式思維（CoT）註釋，而 ReFT 使模型能夠探索多個有效的推理路徑，從而提高其泛化能力和問題解決技能。ReFT 過程從標準的 SFT 階段開始，在此階段，模型透過監督註釋在標註資料上進行初步訓練，以學習基本的任務解決能力。經過這一初始微調後，模型使用強化學習演算法（如近端策略最佳化（Proximal Policy Optimization, PPO)）進行進一步的精煉。在強化階段，模型為每個問題生成多個 CoT 註釋，探索不同的潛在推理路徑。這些生成的路徑透過將模型預測的答案與真實答案進行比較來評估，正確輸出會獲得獎勵，錯誤輸出則受到懲罰。這一迭代過程促使模型調整其策略，最終改進其推理策略。

圖 7：強化微調（ReFT）的過程，展示了迭代的監督微調（SFT）預熱階段，隨後在同一資料集上進行強化學習（RL）訓練

如圖 7 所示，ReFT 過程分為兩個階段。上部表示 SFT 階段，模型在訓練資料上迭代，透過多個週期學習每個問題的正確 CoT 註釋。下部引入了 ReFT 階段：從 SFT 訓練的模型開始，模型根據當前策略生成替代的 CoT 註釋，並將其預測的答案與真實答案進行比較。正確答案會獲得正向獎勵，錯誤答案則受到負向獎勵，這促使模型提高效能。這些獎勵訊號隨後用於透過強化學習更新模型的策略，增強其生成準確和多樣化的 CoT 註釋的能力。

最近的研究表明，ReFT 顯著優於傳統的 SFT 方法。此外，整合推理時間策略（如多數投票和重新排序）可以進一步提升效能，使模型在訓練後能夠最佳化其輸出。值得注意的是，ReFT 在不增加或增強訓練資料的情況下實現了這些改進，僅從 SFT 階段使用的現有資料集中學習。這突顯了模型的優越泛化能力，因為它能夠更高效和有效地從可用資料中學習。

PoLMs 對齊

在大語言模型中實現對齊涉及引導模型輸出以符合人類期望和偏好，特別是在安全關鍵或面向使用者的應用中。本章討論了實現對齊的三種主要正規化：基於人類反饋的強化學習（§4.1），該方法使用人工標註的資料作為獎勵訊號；基於人工智慧反饋的強化學習（§4.2），該方法利用人工智慧生成的反饋來解決可擴充套件性問題；以及直接偏好最佳化（§4.3），該方法直接從成對的人類偏好資料中學習，而無需顯式的獎勵模型。每種正規化在其追求穩健對齊的過程中都提供了不同的優勢、挑戰和權衡。這些及相關方法的簡要比較總結在表2中。

表2：大語言模型對齊方法的比較概述（2022–2024）。該表評估了八項指標下的主要對齊技術：RM1（顯式或隱式獎勵模型）、RM2（點獎勵或偏好機率模型）、RM3（響應級或令牌級獎勵）、RM4（正或負獎勵模型）、F（反饋型別：人類或AI）、RL1（參考模型或無參考模型的強化學習）、RL2（線上策略或離線策略的強化學習）和O（線上/迭代或離線/非迭代最佳化）。

4.1 人工反饋的強化學習

監督微調(Supervised Fine-Tuning, SFT) 一直作為指導大語言模型(LLMs)遵循人類指令的基礎技術。然而，在純監督場景中，標註資料的多樣性和質量可能參差不齊，且監督模型捕捉更細微或適應性更強的人類偏好的能力往往有限。為此，基於強化學習(Reinforcement Learning, RL)的微調方法被提出以解決這些不足。在RL方法中，基於人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF) 作為最早且最具影響力的RL後訓練對齊方法之一脫穎而出。

如圖8所示，RLHF首先收集以偏好標籤或獎勵訊號形式的人類反饋，然後利用這些資訊訓練獎勵模型。在該獎勵模型的引導下，策略透過迭代調整以更好地匹配人類偏好。與SFT相比，RLHF融入了連續的、偏好驅動的更新，從而實現更強的對齊效果。值得注意的是，現代大語言模型如 GPT-4、Claude 和 Gemini 均受益於這些機制，展示了在指令遵循、事實一致性及使用者相關性方面的改進。以下，我們將討論RLHF的主要組成部分，包括反饋機制、獎勵建模及策略學習策略。

4.1.1 RLHF 的反饋機制

人類反饋是基於人類反饋的強化學習(RLHF)的核心，它向獎勵模型傳達使用者偏好，並指導策略更新。本小節採用了文獻[124]的分類法來對常見的人類反饋形式進行分類。表3展示了這些反饋型別在粒度、參與程度和明確性等維度上的分佈。每種反饋模式對模型最佳化的不同方面都有貢獻，提供了不同水平的可解釋性、可擴充套件性和噪聲容忍度。

圖8：基於人類反饋的強化學習(RLHF)工作流程，概述了大型語言模型與人類偏好對齊的整體訓練過程

表3：大型語言模型後訓練方法中的反饋型別分類。該表提供了常見反饋類別的概覽及其在六個指標上的定義屬性：粒度（範圍：場景、段落或步驟）、參與度（參與度：觀察、主動或協同生成）、元數（例項數：單個、多個或三元）、抽象層次（目標：特徵或例項）、意圖（目的：評估、描述或字面意義）和明確性

主要反饋。 這一類別包括最直接塑造RLHF中獎勵模型的反饋型別。例如，批評(Critique)專注於對代理行為的顯式人類評估，通常透過二元或多標籤註釋來減輕噪聲。比較(Comparisons)允許評估器比較多個輸出或軌跡；雖然更大的選擇集可以提供更豐富的訊號，但也可能導致因果混淆。時間反饋(Inter-Temporal Feedback)透過在不同時間步長提供判斷來細化軌跡評估，而代理獎勵(Proxy Rewards)則結合近似獎勵函式，引導模型朝向使用者定義的目標。社會行為(Social Behavior)利用隱含線索（如面部表情）來使代理目標與使用者情感對齊。改進(Improvements)強調即時人類干預以逐步完善策略。最後，自然語言反饋(Natural Language Feedback)利用文字資訊傳達偏好和改進建議。

補充反饋。 除了主要反饋之外，還有兩類進一步加強獎勵建模過程。緊急停止(Emergency stops, e-stops)允許人類在代理行為中進行干預，透過停止其軌跡而不提供替代方案來防止不良行為。這種反饋的特點是隱含參與和單一的防止不良行為的焦點。相比之下，重要性標籤(Importance labels)指示特定觀察對於實現目標的重要性，提供不直接改變行為的顯式反饋。這種反饋因上下文而異，作為補充輸入，加強獎勵模型的整體學習過程。

表示特定反饋。 某些反饋型別主要增強表示學習，而不是直接塑造獎勵函式。特徵軌跡(Feature Traces)提示人類操作員展示給定特徵的單調變化，從而實現特徵集的動態擴充套件。相似性查詢(Similarity Queries)比較軌跡的三元組，透過軌跡空間中的成對距離引導表示學習。透過利用這些表示特定的反饋形式，RLHF可以實現對新任務和上下文的更魯棒泛化。

4.1.2 RLHF 的獎勵模型

真正的獎勵函式通常未知，因此需要基於人類提供的偏好構建一個可學習的獎勵模型。該模型預測候選輸出在給定輸入下與人類期望的一致程度。為了獲得訓練資料以訓練，人類評估者根據輸出對的相對適宜性進行比較或標註，模型通常使用這些比較上的交叉嫡損失進行訓練。為了防止策略過度偏離初始模型，引入了一個由超引數控制的懲罰項到獎勵函式中：

其中是微調後的策略在給定輸入時生成輸出的機率，而是在初始模型下相應的機率。這一項確保了在適應人類反饋的同時，仍受到中捕獲的先驗知識的約束。

評估獎勵函式至關重要，因為它直接影響學習效果和策略效能。準確評估此函式有助於識別適合將模型輸出與人類偏好對齊的獎勵結構。然而，在安全敏感領域，由於線上互動的風險、偏差以及對真實獎勵的需求，標準的滾動方法和離策略評估可能不可行。為了解決這些挑戰，通常採用兩種主要方法：

距離函式。 最近的研究集中在考慮潛在變換（如潛在塑形）的獎勵評估距離函式上。例如，EPIC 測量在各種變換下的獎勵函式等價性，而 DARD 透過細化規範化確保評估基於可行的轉換。EPIC 類似的距離透過允許規範化、標準化和度量函式的變化來推廣 EPIC 的方法論，而 STARC 保留了 EPIC 的理論性質，同時提供了額外的靈活性。

視覺化和人工檢查。 其他方法依賴於解釋性和精心策劃的資料集來評估學習到的獎勵函式的有效性。PRFI 使用預處理步驟簡化獎勵函式，同時保持等價性，從而增強其透明度。與此同時，CONVEXDA 和 REWARDFUSION 提出了設計用於測試獎勵模型對提示語義變化響應一致性的資料集。這些技術共同促進了對獎勵函式更可靠的評估，強化了大語言模型與人類偏好的對齊。

4.1.3 RLHF 的策略學習

強化學習中的人類反饋策略學習（Reinforcement Learning with Human Feedback, RLHF），如圖9所示，涉及透過線上和離線環境中的真人反饋最佳化策略。

線上學習

在線上RLHF中，系統即時收集人類對新生成模型軌跡的偏好。DPS 等演算法使用貝葉斯更新來管理對抗過程，而PPS和PEPS 將動態規劃和多臂賭博機思想結合以改進策略行為。在LPbRL 中，特徵嵌入捕捉獎勵結構的變化，PbOP 整合最小二乘估計方法，用於轉換動態和偏好訊號的估計。最近，PARL 透過將反饋獲取視為策略最佳化的組成部分，提高了資料收集效率。

圖9：線上與離線RLHF的比較，展示了線上RLHF中策略執行期間的連續反饋收集與離線RLHF中預先收集的軌跡利用的對比

離線學習。 在離線RLHF中，使用先前收集的帶有偏好標籤的軌跡來學習或最佳化策略。例如，文獻 [151] 研究了基於成對比較資料的悲觀最大似然估計策略學習，並建立了效能界限。FREEHAND 和DCPPO 等擴充套件方法適用於未知偏好模型，探討了離線資料覆蓋範圍與策略泛化之間的相互作用。此外，文獻 [154] 解決了成對比較中Boltzmann模型的過擬合問題，而DCPPO 進一步研究了動態離散選擇模型，以提高反饋效率。

線上與離線學習的融合。 混合方法結合了離線預訓練和線上偏好聚合，充分利用已收集的資料，同時仍能納入即時更新。PFERL 採用兩階段方法以減少人類查詢次數，而PERL 探索了樂觀最小二乘策略以進行主動探索。Dueling RL 及其擴充套件（如PRPRL 中的REGIME）透過仔細劃分資料獲取與反饋收集，減少了人類標註需求，從而優化了樣本效率、標註成本和策略效能之間的權衡。

4.2 AI 反饋的強化學習

強化學習與人工智慧反饋(Reinforcement Learning with AI Feedback, RLAIF)擴充套件了RLHF正規化，透過使用大語言模型(LLMs)生成反饋訊號。這種方法可以補充或替代人類反饋，在人類標註稀缺、昂貴或不一致的任務中提供更具可擴充套件性和成本效益的偏好資料。

4.2.1 RLAIF vs RLHF

在大規模應用強化學習與人類反饋（RLHF）時，一個主要挑戰在於其依賴於人工生成的偏好標籤，這需要大量資源來收集、整理和標註資料。資料標註過程既耗時又昂貴，且人工評估者可能會引入不一致性，從而使得在整個模型輸出中實現大規模、一致的標註變得複雜。這些限制顯著影響了RLHF的可擴充套件性和效率。為了解決這些挑戰，[105] 提出了強化學習與人工智慧反饋（RLAIF），該方法結合了人類反饋和人工智慧生成的反饋，透過強化學習訓練模型。透過利用大語言模型（LLM）作為反饋來源，RLAIF減少了對人工標註者的依賴，提供了一種傳統RLHF的可行替代方案。這種方法實現了連續的反饋生成，顯著增強了可擴充套件性，同時保留了人類指導下的模型最佳化靈活性。

如圖10所示，RLHF和RLAIF之間的關鍵區別在於反饋來源：RLHF依賴於人工生成的偏好，而RLAIF使用人工智慧生成的反饋來引導策略更新。實證研究，例如[157]的研究表明，RLAIF可以達到與RLHF相當甚至更優的效能，經由人工評分員評估。值得注意的是，RLAIF不僅超越了傳統的監督微調基線，而且在偏好標籤器規模與策略模型相同的情況下實現了這一點，突顯了該方法的高效性。

圖10：RLHF和RLAIF方法的比較，展示了它們在大語言模型偏好對齊方面的不同方法

4.2.2 RLAIF 訓練流水線

RLAIF 訓練流程遵循幾個關鍵階段，在這些階段中，利用 AI 生成的反饋迭代地改進模型的行為。該流程促進了 LLM 輸出與人類期望的對齊，並且能夠擴充套件到各種任務，如 [108] 所詳述。這些階段如下：

AI 反饋收集

在這一階段，AI 系統根據預定義的標準生成反饋，這些標準可能包括特定任務的指標、響應的正確性或模型輸出的適當性。與需要解釋和手動標註的人類反饋不同，AI 反饋可以在廣泛的模型輸出中一致生成。這一特性使得 AI 反饋可以持續提供，顯著擴充套件了反饋迴圈。

獎勵模型訓練

隨後，使用 AI 生成的反饋來訓練或最佳化獎勵模型。該模型將輸入-輸出對對映到相應的獎勵，使模型的輸出與反饋所指示的期望結果對齊。傳統的基於人類反饋的強化學習 (RLHF) 依賴於直接的人類反饋來評估輸出，而 RLAIF 則利用 AI 生成的標籤，儘管這可能會引入一致性問題和偏見，但在可擴充套件性和獨立於人力資源方面具有優勢。

策略更新

最後階段涉及根據前一步驟中訓練的獎勵模型更新模型的策略。使用強化學習演算法調整模型的引數，最佳化策略以在多種任務中最大化累積獎勵。這一過程是迭代的，獎勵模型指導模型的輸出向更高的目標對齊度發展。

RLAIF 的主要優勢在於其能夠在不需持續人類干預的情況下擴充套件反饋迴圈。透過用 AI 生成的反饋替代人類反饋，RLAIF 促進了 LLM 在多個任務中的持續改進，緩解了人類標註工作帶來的瓶頸。

4.3 直接偏好最佳化

如前所述，基於人類反饋的強化學習(RLHF) 通常包括三個階段：監督微調(Supervised Fine-Tuning)、獎勵建模和強化學習（通常透過近端策略最佳化(PPO)實現）。儘管其效果顯著，RLHF 可能會變得複雜且不穩定，特別是在擬合獎勵模型並用於微調大型語言模型的階段。難點在於建立一個能夠準確反映人類偏好的獎勵模型，以及在最佳化這一估計獎勵的同時，使語言模型保持接近原始模型的挑戰。為了解決這些問題，直接偏好最佳化(Direct Preference Optimization, DPO) 被引入作為一種更穩定且計算效率更高的替代方案。DPO 透過直接將獎勵函式與最優策略聯絡起來，簡化了獎勵最佳化過程。它將獎勵最大化問題視為基於人類偏好資料的單階段策略訓練問題，從而避免了獎勵模型擬合的複雜性和布拉德利-特里模型(Bradley-Terry model) 的依賴性。

4.3.1 DPO 基礎

強化學習與人類反饋（RLHF）涉及訓練一個獎勵模型（RM）和透過強化學習微調一個語言模型（LM）。直接偏好最佳化（DPO）簡化了這一過程，透過直接使用人類偏好資料訓練LM，隱式地在策略中捕捉獎勵模型。

KL正則化獎勵最大化目標

DPO從已建立的KL正則化獎勵最大化框架開始，如下目標函式所示：

其中表示獎勵函式，是一個控制接近參考策略程度的係數，表示Kullback－Leibler散度。這裡，表示從資料分佈中抽取的輸入，表示從策略中取樣的輸出。

匯出最優策略

在適當的假設下，方程 (14) 的解以玻爾茲曼分佈的形式給出：

其中配分函式

作為歸一化項，確保仍然是一個有效的機率分佈（即其機率之和為1）。

重引數化獎勵

取方程 (15) 兩邊的自然對數，可以將獎勵與最優策略聯絡起來。得到：

其中是一個不影響獎勵成對比較的常數。如果已知最優策略，則可以確定真實獎勵，最大為這個常數。

布拉德利-特里偏好

根據布拉德利－特里模型，兩個輸出和之間的人類偏好由它們的獎勵值差異決定。偏好而非的機率為

將方程 (17) 代入方程 (18)，我們得到最終的偏好模型：

該表示式將成對的人類偏好機率與最優策略和參考策略的比值聯絡起來。

DPO的目標

DPO透過直接從偏好資料中學習策略，避免了顯式的獎勵建模。給定一組偏好三元組，其中是首選輸出，是次選輸出，對於提示最大化觀察到的偏好的似然。形式上，DPO採用以下目標函式：

其中是sigmoid函式，表示和參考策略之間的重引數化獎勵差異。透過最大化，策略在不需單獨獎勵模型的情況下與人類偏好對齊。由於DPO目標繼承了來自RLHF的KL正則化公式，它保留了重要的理論保證一一例如，在明確定義的偏好假設下的一致性一一同時將訓練過程統一為一個階段。因此，DPO為使語言模型與人類評估對齊提供了更直接的路徑，減少了系統複雜性並提高了訓練穩定性。

4.3.2 DPO 的訓練細節

DPO框架建立在兩個核心模型之上：參考策略和目標策略。參考策略通常是一個預先訓練並經過監督微調的語言模型，在整個訓練過程中保持不變。相比之下，目標策略從初始化，並透過基於偏好的反饋進行迭代更新，從而提高與人類判斷的一致性。圖11展示了這一整體流程。

圖11：直接偏好最佳化(DPO)的工作流程，展示了基於人類偏好的大型語言模型輸出最佳化的訓練流程

資料收集和準備

DPO 依賴於一個精心策劃的偏好資料集，該資料集透過從中為每個提示抽取多個候選響應而獲得。人類標註者隨後根據連貫性、相關性和清晰度等標準對這些響應進行比較或排名。由此產生的偏好標籤作為最佳化的核心訓練訊號。

訓練過程

目標策略透過一系列旨在最小化損失的梯度更新進行精煉。具體步驟如下：1）生成：為每個提示生成候選輸出。2）標註：人類標註者比較生成的輸出，確定它們的相對偏好。3）最佳化：利用這些成對偏好，進行迭代更新，以更好地模仿人類偏好的輸出。在整個過程中，保持不變，提供一個穩定的基線，以便衡量改進。

實踐考慮

選擇一個穩健的參考策略通常是有效初始化DPO的關鍵。監督微調(SFT)通常會產生一個表現良好的基線，確保後續基於偏好的更新可以集中在精煉而非基本技能的獲取上。此外，偏好資料必須足夠多樣，以捕捉使用者期望的變化，從而促進模型的適應性並防止過度擬合到狹義定義的任務中。

4.3.3 DPO 的變種

多種DPO變體已經出現，以應對特定的對齊挑戰並最佳化文字生成的不同方面。表2概述了這些方法，範圍從詞元級生成最佳化到控制冗長性和處理列表或負面偏好。

最佳化生成的DPO

詞元級和迭代DPO策略有助於更精細地或連續地與人類偏好對齊。將問題重新表述為一個強盜問題，詞元級DPO 採用了由定義的馬爾可夫決策過程(Markov Decision Process, MDP)。這種方法緩解了諸如對不受歡迎的詞元產生過高的KL散度等問題。TDPO 應用了順序前向KL散度而不是逆向KL散度，從而在文字生成中同時提高了對齊性和多樣性保持。迭代DPO 採用多輪方法，透過重複的偏好評估不斷最佳化輸出，通常由模型本身執行。成對厭惡最佳化(Pairwise Cringe Optimization, PCO) 將二元反饋擴充套件到成對設定，使用軟邊界來平衡探索和利用。逐步DPO (Step-wise DPO) 將偏好資料集劃分為多個部分，並應用迭代更新，每一輪更新後的策略作為下一輪的基線。

可控且靈活的DPO

一些DPO變體旨在管理冗長性並減少對固定參考策略的需求。R-DPO 透過在目標函式中引入正則化項來懲罰輸出長度，解決了過於冗長或冗餘的響應問題。SimPO 透過規範化響應長度並簡化損失函式來處理期望和不期望的輸出，消除了對參考策略的需求。RLOO 利用REINFORCE演算法而無需訓練價值模型，大幅減少了計算開銷。它將整個響應視為單個動作，並從稀疏獎勵中學習，相比傳統的基於PPO的方法簡化了實現。

列表DPO

與將偏好資料限制為成對比較不同，列表DPO方法在一組輸出上進行最佳化。列表偏好最佳化(Listwise Preference Optimization, LiPO) 直接在候選響應的排名列表上應用排序學習技術，相對於重複的成對比較提高了效率。RRHF 將偏好對齊整合到SFT中，消除了對單獨參考模型的需求。PRO 將列表偏好分解為更簡單的二元任務，簡化了SFT期間的對齊。

負面DPO

某些任務需要從不期望或有害的輸出中學習：否定負例(Negating Negatives, NN) 丟棄積極響應並最大化與較少偏好的輸出之間的差異。負面偏好最佳化(Negative Preference Optimization, NPO) 對負面偏好應用梯度上升，有效減少了有害輸出並緩解了災難性崩潰。

PoLMs 推理

推理是使大語言模型（LLM）能夠處理涉及多步驟邏輯、複雜推理和複雜決策任務的核心支柱。本章探討了兩種增強模型推理能力的核心技術：自精煉推理（Self-Refine for Reasoning）（§5.1），該方法指導模型自主檢測並修正其推理步驟中的錯誤；以及強化學習推理（Reinforcement Learning for Reasoning）（§5.2），該方法透過基於獎勵的最佳化來提高模型思維鏈的一致性和深度。這些方法共同使得模型在長期決策、邏輯證明、數學推理等具有挑戰性的任務中能夠更加穩健地處理。

5.1 自精煉推理

推理仍然是最佳化大語言模型（LLMs）以應對需要複雜邏輯推理和情境依賴決策任務的核心挑戰。在這一背景下，自精煉(self-refine)作為一種強大的機制，能夠在文字生成過程中或之後迭代地識別和糾正錯誤，顯著提高推理深度和整體可靠性。如圖12所示，自精煉方法可以分為四類：內在自精煉(Intrinsic Self-refine)，依賴於模型內部的推理迴圈；外在自精煉(External Self-refine)，結合外部反饋資源；微調內在自精煉(Fine-tuned Intrinsic Self-refine)，基於自動生成的校正迭代更新模型的推理過程；以及微調外在自精煉(Fine-tuned External Self-refine)，利用外部訊號和微調以更適應性、長期的方式改進推理。表4進一步展示了每種類別如何在各種任務中增強LLM的推理能力。

表4：大型語言模型中的自精煉方法概述（2022-2025）。此表總結了突出的自我精煉技術，詳細介紹了它們的主要LLM、任務和釋出時間表，包括三個指標：ET（外部工具：× 表示使用情況，√表示缺失）、FT（微調：×指示應用程式，√表示非應用程式）和SR（自我精煉型別：IS表示內在自我精煉，ES表示外部自我精）

內在自精煉

內在自精煉方法側重於使模型本身能夠檢測並內部修復錯誤，而無需藉助外部工具。例如，RCI Prompting [190] 只在檢測到矛盾或錯誤時觸發校正，避免對輕微不確定性做出過度反應。CAI Revisions [105] 糾正不希望的輸出（例如，冒犯性文字），同時教導模型自我調節其響應。同樣，Self-Refine [164] 透過從低質量提示過渡到高保真指令來改進中間邏輯，提高一致性。CoVe [169] 透過將多答案問題分解為子任務，並分別驗證每個子任務，確保整個推理鏈的精確性和一致性。弱到強泛化(Weak-to-Strong Generalization, W2SG)方法利用高階演算法，使強大的學生模型能夠從較弱的教師模型產生的嘈雜演示中有效學習 [191]。該框架已在不同領域看到了幾個關鍵的發展和應用。最近的研究透過各種創新增強了W2SG。例如，整合學習技術已成功應用於提高W2SG方法的魯棒性和有效性 [192]。[193] 採用弱到強外推法來增強LLM的對齊。

外在自精煉

這些方法涉及外部反饋源或計算工具來指導和糾正模型的推理。CRITIC [177] 系統地檢查逐步輸出，提高複雜推理任務的可靠性。Reflexion [172] 和 Self-Debug [173] 分別將生成的答案與參考解決方案或少量示例進行比較，迭代地改進邏輯。像 FLARE [170] 和 Logic-LM [171] 這樣的技術透過引用外部文件或符號求解器，從而減少邏輯錯誤。RARR [165] 和 SelfEvolve [166] 顯示，驗證中間狀態（例如，編譯器訊息或相關知識來源）是早期修剪錯誤路徑並引導模型向正確解決方案發展的強大方法。文獻 [194] 提出了一種基於人類反饋的迭代偏好學習方法，包括線上設定下的直接偏好最佳化(DPO)演算法的迭代版本，以及離線場景下的多步拒絕取樣策略。PIT [195] 從人類偏好資料中隱式學習改進目標。

微調內在自精煉

透過專門針對內部修訂對基礎模型進行微調，這些方法系統地加強了LLM的自我校正迴圈。Self-Critique [161] 旨在透過自我審查改進總結，而 SelFee [174] 使用迭代反饋迴圈以確保更高的邏輯一致性。Volcano [180] 透過在LLM架構中微調一個專用校正模組來減少多模態幻覺，RL4F [167] 利用基於強化學習的批評迴圈，在需要深入推理的基準測試中平均提高了 10% 的效能。REFINER [176] 同樣專注於中間推理路徑，而不改變模型的原始生成過程，表明透過訓練模型仔細重新檢查其部分輸出，可以實現一致的改進。此外，從易到難泛化的概念作為W2SG的一個有前途的變體，已經出現，其中模型最初在易於驗證的示例上進行訓練，然後處理更復雜的任務 [196]。一種值得注意的實現方法是在人類可驗證的示例上訓練一個強大的獎勵模型，然後引導更強大的模型處理具有挑戰性的任務 [197]。此外，W2SG的有效性超越了LLM，在計算機視覺任務中也有成功的應用[198]。

微調外在自精煉

在需要長期改進的情況下，模型引數透過外部反饋機制進行更新。例如，Self-Edit [168] 基於執行結果重新生成程式碼輸出，從而逐步提高正確性。Baldur [163] 透過新增或修改上下文來加強定理證明，而 CodeRL [162] 利用基於測試的批評來驗證程式合成任務的功能準確性。這些技術共同表明，將外部資源與有針對性的微調相結合，可以促進模型整體推理效能的可靠、逐步提升。

5.2 用於推理的強化學習

在第5.1小節中，我們探討了自精煉方法，這是一種廣泛使用的方法，透過區域性調優和最佳化來改進大語言模型的推理能力。這種技術通常應用於單步任務或輸出精煉，例如文字生成和問答，能夠提供快速的推理增益。然而，它在處理需要多步邏輯的複雜長期推理任務時顯得力不從心。OpenAI釋出的o1系列[41]突顯了強化學習（Reinforcement Learning, RL）作為一種強大的替代方案，透過基於獎勵的反饋來訓練大語言模型進行高階推理，最佳化內部的長鏈因果關係（Chain of Thought, CoT）。這在數學證明和戰略規劃等複雜任務中顯著提升了效能。o1的成功激發了對大規模強化學習的研究，諸如QwQ-32B-Preview [199]在數學和程式設計方面表現出色，而DeepSeekR1 [28]則與o1的能力相當。本小節將考察強化學習在增強推理能力中的作用，重點關注領先的開源模型DeepSeek-R1和DeepSeek-R1-Zero。

5.2.1 將推理表述為MDP

在大語言模型（LLMs）中的推理可以被優雅地建模為一個順序決策過程，在該過程中，模型針對輸入查詢迭代地構建一系列中間步驟，以最佳化到達正確最終答案的可能性。這種概念化將推理轉化為一個適合強化學習（RL）的結構化框架，特別是透過馬爾可夫決策過程（MDP）的視角，記為。MDP封裝了狀態、動作、轉換、獎勵和時間折現之間的動態相互作用，為訓練LLMs處理複雜推理任務提供了堅實的數學基礎。透過將推理視為一系列有意的選擇，這種方法使模型能夠系統地探索並精煉其邏輯路徑，類似於遊戲或機器人領域中的決策制定，但適應了語言和概念推理的獨特挑戰。最終目標是推匯出一個最優策略，以最大化預期累積獎勵，表示為，利用RL技術如近端策略最佳化（Proximal Policy Optimization，PPO）或優勢行動者－評論家（Advantage Actor－Critic，A2C）來根據環境反饋迭代地增強推理能力。

狀態空間

狀態空間構成了這個MDP的骨幹，每個狀態代表了在時間步處的當前推理軌跡，這是一個由語言和結構元素組成的豐富複合體，對推理過程至關重要。具體而言，包括初始查詢、先前的推理步驟序列以及編碼邏輯依賴和中間結論的內部記憶表示，例如部分解決方案或推斷的關係。隨著推理的展開，這種狀態會動態演變，透過整合生成步驟中明確表述的路徑和從上下文中提煉的潛在知識，反映了思維的進展。例如，在數學證明中，可能包括問題陳述、先前推導的方程和適用定理的記憶，使模型能夠在步驟之間保持連貫性。這種多方面的狀態表示確保了LLM能夠自適應地跟蹤其推理上下文，這是處理需要持續邏輯連續性的任務（如多步驟問題解決或文字生成中的敘事連貫性）的前提。

動作空間

動作空間定義了每個步驟中可能的決策範圍，其中動作對應於選擇下一個推理步驟，為推進推理過程提供了靈活的工具包。這些動作可能包括生成自然語言中的一個詞或短語來表達推理段落、應用預定義的邏輯或數學變換（如代數簡化）、從知識庫中選擇相關定理或規則以擴充套件推理鏈，或在達到結論性答案時停止過程。動作空間的性質因任務而異：在形式證明中選擇有限邏輯規則集時可能是離散的，而在開放性推理場景中產生自由形式文字時則是連續的，反映了LLM的生成靈活性。這種雙重性使模型能夠在結構化領域（如符號邏輯）和非結構化領域（如常識推理）之間導航，同時適應任務需求，保持向解決方案的連貫軌跡。

轉移函式

轉移動力學由函式封裝，決定了每次動作後狀態如何演變，界定了推理軌跡在MDP框架內的進展。與傳統RL環境中由於外部變數（如環境噪聲）引起的隨機性不同，LLMs中的推理轉移主要是確定性的，由模型的自迴歸輸出或結構化推理規則驅動，例如在證明中應用演繹步驟。然而，不確定性源於模型固有的侷限性——如不完美的知識、模糊的中間狀態或文字生成中的機率取樣——引入了RL必須應對的變化。對於自迴歸LLMs，轉移遵循可預測的序列生成過程，但錯誤累積或解釋分歧的可能性需要穩健的設計以確保可靠性。這種確定性但不確定的動力學強調了需要適應性策略，以在從精確數學推導到細緻入微的敘事構造的各種情境中穩定推理。

獎勵函式

獎勵函式 R(s_{t},a_{t}) 作為MDP的評估核心，提供了對每個推理步驟質量的關鍵反饋，以指導模型的學習過程。與具有顯式獎勵（如遊戲中得分）的傳統RL任務不同，推理獎勵必須精心設計以平衡稀疏性和密集性，反映任務的複雜性和目標。稀疏獎勵，如僅在達到正確最終答案時分配值，提供簡單性但可能在多步驟情景中延遲學習；而密集獎勵，如評估逐步正確性、邏輯有效性或與人類偏好的一致性，則提供詳細的指導，如§5.2.2所述。這種靈活性使獎勵函式能夠適應多樣化的推理需求——無論是獎勵證明中有效推理規則的應用還是敘事段落的一致性——確保模型接收到有意義的訊號，以在其即時和擴充套件推理範圍內精煉其策略。

折扣因子

一個標量，決定了即時獎勵和未來獎勵之間的權衡。較高的鼓勵多步驟推理最佳化，促進深度推理鏈而非短期啟發式。基於這種MDP公式，目標是學習一個最優推理策略，以最大化預期累積獎勵：

這一框架使得可以應用強化學習技術，如近端策略最佳化（PPO）或優勢行動者－評論家（A2C），透過根據推理環境的反饋迭代調整策略來精煉LLM的推理能力。

5.2.2 推理獎勵設計

與具有明確獎勵（如遊戲得分）的傳統強化學習任務不同，大型語言模型（LLM）中的推理需要結構化的獎勵設計，以反映正確性、效率和資訊量。常見的方法包括：

二元正確性獎勵，對於正確的最終答案分配, 否則分配，這種方法簡單但因稀疏反饋而引入高方差；
分步準確度獎勵，基於推理規則的有效性或中間步驟的一致性等指標提供增量反饋，以引導多步推理；
自一致性獎勵，測量多個推理路徑的穩定性，並對一致性強的情況分配更高的獎勵，以增強魯棒性；
基於偏好的獎勵，從基於人類反饋的強化學習（RLHF）或基於人工智慧反饋的強化學習（RLAIF）中得出，其中模型經過人類或人工智慧反饋訓練，評估推理質量，為複雜任務提供細緻的指導。

5.2.3 基礎模型上的大規模 RL

大規模強化學習作為提升大型語言模型（LLM）推理能力的一種變革性後訓練正規化，已經嶄露頭角。這一方法將重點從傳統的監督微調（SFT）轉向動態、自我演化的最佳化策略。透過利用廣泛的計算框架和基於獎勵的迭代反饋，該方法能夠直接精煉基礎模型，無需預先標註的資料集，從而實現複雜推理技能的自主發展。透過整合大規模強化學習，LLMs可以解決複雜的多步推理任務（例如數學問題求解、邏輯演繹和戰略規劃），而傳統SFT由於依賴靜態、人工策劃的資料往往難以勝任這些任務[45]。DeepSeek-R1 模型是這一正規化的典型代表，它採用了先進的強化學習技術，在最佳化資源效率的同時實現了頂級的推理效能，如圖13所示。本小節概述了支撐 DeepSeek-R1 成功的關鍵方法，包括新穎的最佳化演算法、自適應探索和軌跡管理，這些共同重新定義了強化學習驅動的LLM推理潛力。

圖13：DeepSeek-R1中推理強化學習的工作流程，說明了最佳化大型語言模型中推理能力的過程

組相對策略最佳化

DeepSeek-R1-Zero 模型利用了一種複雜的近端策略最佳化（PPO）變體，稱為組相對策略最佳化（GRPO），以減輕傳統強化學習訓練中對大規模計算和資源的需求。與依賴於廣泛批評網路的標準PPO不同，GRPO採用基於組的基線估計來簡化最佳化過程，顯著減少訓練開銷，同時保持策略更新的穩健性。這種效率使得在資源受限系統上部署大規模強化學習成為可能，促進跨長時間段的推理策略迭代最佳化。透過在可控計算範圍內最佳化策略，GRPO使 DeepSeek-R1-Zero 成為增強推理能力的可擴充套件解決方案，如圖13所示，使其成為當代強化學習驅動推理研究的基石。

DeepSeek-R1-Zero

DeepSeek-R1-Zero 展現了大規模強化學習在不依賴傳統SFT作為初始步驟的情況下提升LLM推理能力的巨大潛力，而是採用純強化學習驅動的自我演化正規化。這種方法使模型能夠透過獎勵反饋迭代地最佳化其內部鏈式思維（CoT），從而自主發展複雜的推理技能，避免了SFT通常需要的預標註資料集。結果是在複雜的多步推理任務（例如數學問題求解和邏輯推導）中表現出顯著的效能提升，展示了強化學習從基礎模型中解鎖高階推理能力的能力。作為最強大的開源推理模型之一，DeepSeek-R1-Zero 的成功證明了冷啟動強化學習策略的可行性，提供了一種資源高效的替代傳統訓練管道的方法，同時達到了與頂級基準相當的水平。

分步獎勵建模

為了引導軌跡上的推理，DeepSeek－R1採用了一個分步獎勵模型，在每個時間步提供詳細的反饋，定義為，其中包含帶有步驟級正確性標籤的人工標註CoT序列。這種密集的獎勵結構與稀疏的序列末尾獎勵形成對比，透過提供即時、可操作的關於單個推理步驟質量的見解，使模型能夠精確地調整其策略。透過利用專家策劃的資料，獎勵模型確保反饋與人類推理標準一致，促進在擴充套件推理鏈中的連貫性和準確性，這是處理需要長時間邏輯合成的任務的關鍵特徵。

自適應探索

DeepSeek-R1 透過整合自適應探索機制來增強策略最佳化，其目標函式如下：

其中熵項由一個自適應係數調製，根據軌跡上的獎勵方差動態調整。這種方法平衡了探索和利用，鼓勵模型在訓練早期探索多樣化的推理路徑，隨著方差減小逐漸收斂到最優策略，從而在推理最佳化中提高魯棒性和效率。

軌跡剪枝

為了在推理過程中最佳化計算效率，DeepSeek－R1 實現了一個雙注意力批評器，評估每個狀態的區域性步驟評估和全域性軌跡上下文。當時，剪枝低價值的推理路徑，集中資源於有前景的軌跡。這一機制減少了無效探索，加速了收玫，並確保模型優先考慮高質量的推理序列，從而在其複雜推理任務中表現出色。

5.2.4 冷啟動推理強化學習

DeepSeek-R1-Zero 進一步推進了強化學習(RL)的應用，透過採用冷啟動方法，放棄了監督微調(SFT)，完全依賴於從未經訓練的基礎模型進行大規模RL。這種自我進化策略透過迭代反饋來最佳化推理，生成強大的鏈式思維(CoT)序列，而無需依賴預標註資料。透過直接在推理任務上進行訓練，DeepSeek-R1-Zero 展示了RL的靈活性，其效能可與使用SFT初始化的模型（如其DeepSeek-R1對等模型）相媲美甚至超越。這種方法不僅減少了對大量標註資料集的依賴，還展示了RL自主開發複雜推理能力的潛力，為未來的大型語言模型(LLM)發展提供了一個可擴充套件的正規化。總體而言，RL為增強推理提供了一個有前景的框架，有效的獎勵設計、策略最佳化（例如GRPO）和探索策略仍然是關鍵。未來的研究可以探索結合模仿學習或自監督目標的混合方法，以進一步完善這些能力，鞏固RL在推進LLM推理中的作用。

PoLMs 效率

基於前幾章討論的後訓練最佳化技術，後訓練效率特別針對大型語言模型（LLMs）在初始預訓練後的操作效能。主要目標是最佳化關鍵部署指標（例如處理速度、記憶體使用和資源消耗），從而使 LLMs 更適用於實際應用。實現後訓練效率的方法主要分為三類：模型壓縮(§6.1)，透過剪枝和量化等技術減少整體計算足跡；引數高效微調(§6.2)，僅更新模型的一部分引數或採用專用模組，從而最小化再訓練成本並加速對新任務的適應；以及知識蒸餾(§6.3)，將較大預訓練模型的知識轉移到較小的模型上，使較小模型能夠在減少資源需求的情況下實現相當的效能。

6.1 模型壓縮

模型壓縮包括一系列旨在減少大語言模型（LLMs）的大小和計算需求的技術，其中包括訓練後量化、引數剪枝和低秩近似。

6.1.1 後訓練量化

對於大語言模型（LLMs）而言，一種關鍵的壓縮方法是量化，它將高精度資料型別（30位浮點數）轉換為低精度格式（8位整數）［201］。這種轉換可以表示為：

其中表示量化常數，absmax 指的是元素的最大絕對值。函式 Round 將浮點數轉換為整數。大語言模型的量化包括訓練後量化（PTQ）和量化感知訓練（QAT）。PTQ 使模型權重和啟用在預訓練後進行調整，使用一個小的校準資料集來最佳化計算效率和效能，如圖14所示。此外，表5列出了幾種主要的大語言模型量化方法的效能指標。

表5：大型語言模型量化方法概述（2021-2025）。此表總結了代表性的量化技術，詳細介紹了它們的主要LLM、位寬、困惑度差異、加速和三個指標的釋出時間線：位寬（權重、啟用和KV快取的位）、困惑度差（Wikitext-2和C4資料集的效能變化）和加速（相對於基線模型的計算速度提高）

僅權重量化（WOQ）。WOQ 專注於壓縮模型權重以提高效率。GPTQ [230] 使用逐層量化和最優大腦量化（Optimal Brain Quantization, OBQ），將權重減少到3或4位，以降低記憶體使用和處理時間。為了進一步提高效率，QuIP [203] 引入了不一致性處理，實現2位量化，提供更緊湊的表示。同樣，AWQ [204] 和 OWQ [205] 透過保持對特別敏感權重的高精度，來最小化推理過程中的潛在精度損失。最後，SpQR [201] 結合稀疏量化和解碼，實現在保持模型響應性的前提下高效地逐令牌推理。

權重-啟用共量化（WAQ）。WAQ 將權重和啟用整合在一起以提高效率。LLM.int8() [214] 透過精確儲存解決啟用異常值問題，並量化為8位，同時保持效能。Smooth Quant [218] 實現每通道縮放，將量化難題從啟用轉移到權重，實現無損結果。此外， OS+ [219] 透過通道級移位和縮放減輕異常值的影響，從而提高效率。OmniQuant [220] 將量化難題從啟用轉移到權重，並微調極端值的裁剪閾值。為了進一步提高效率，RPTQ [231] 對相似通道進行分組，確保量化引數的一致性。

鍵值快取量化（KVQ）。鍵值快取量化解決了大語言模型中輸入令牌數量增加帶來的記憶體最佳化挑戰。KVQuant [224] 引入了針對長上下文長度高效推理的定製方法，保持效能的同時最小化損失。KIVI [228] 透過應用不同的量化策略來最佳化鍵和值快取的記憶體節省，實現2位量化而無需微調。WKVQuant [225] 進一步改進了這一點，採用了二維量化策略和跨塊正則化，實現了與權重-啟用量化相當的記憶體效率，且效能幾乎相同。

6.1.2 引數剪枝

引數剪枝[232]是提高大語言模型（LLMs）效率的關鍵技術，透過最小化模型大小和複雜度而不犧牲精度。如圖15所示，剪枝可以分為非結構化剪枝和結構化剪枝。

非結構化剪枝

非結構化剪枝透過消除不重要的權重來增強大語言模型的稀疏性。已知的方法SparseGPT[230]透過一次剪枝實現了高達 60% 的稀疏性，同時保持最小的損失。Wanda[233]基於權重大小和啟用值進行剪枝，無需重新訓練。與此同時，SAMSP[234]利用Hessian矩陣的敏感性進行動態調整稀疏性，旨在最小化誤差。DSnoT[235]透過使用迭代剪枝週期提高了效能。最後，Flash-LLM[236]從全域性記憶體中檢索稀疏權重，並在晶片上的緩衝區中重建為密集形式，以促進高效計算。

結構化剪枝

這種方法側重於修剪大語言模型中的整個引數組，以提高硬體效率並簡化結構。例如，LLM-runer[237]評估了LLaMA[65]的重要性，並使用LoRA[92]在剪枝後恢復精度。FLAP[238]使用結構化指標最佳化壓縮，無需微調。此外，SliceGPT[239]使用PCA進行剪枝，同時保持效率。Sheared LLaMA[240]透過基於正則化的剪枝最佳化模型形狀。LoRAPrune[241]透過基於LoRA重要性的迭代結構化剪枝提高效率。此外，Deja Vu[242]透過預測關鍵注意力頭和MLP引數，使用上下文稀疏性減少延遲，同時保持精度。

低秩近似

低秩近似透過將權重矩陣近似為較小的矩陣和，即，從而壓縮大語言模型。這種方法不僅減少了引數數量，還提高了操作效率。例如，TensorGPT[243]使用張量列車分解（Tensor-Train Decomposition, TTD）開發了更高效的嵌入格式。LoSparse[244]將低秩近似與剪枝結合，特別針對壓縮連貫神經元元件。FWSVD[245]實現了一種加權SVD方法，而ASVD[246]提供了一種無訓練的SVD替代方案，兩者均針對訓練後的效率。最後，SVD-LLM[247]透過建立奇異值與壓縮損失之間的直接關係進一步改進了壓縮效果。

6.2 引數高效微調

引數高效微調(PEFT)的過程包括凍結完整的LLM主幹，同時僅修改少量新增的引數。如圖16所示，PEFT方法分為四類：加法PEFT、選擇性PEFT、重引數化PEFT和混合PEFT。

6.2.1 加性 PEFT

加法式引數高效微調（Additive PEFT）在大型語言模型（LLM）中引入新的可訓練模組，而不改變原有引數，從而實現在保留基礎模型知識的同時進行特定任務的調整，這對於微調來說非常高效。

圖16：引數高效微調（PEFT）的插圖，展示了大型語言模型中資源高效的適應方法。

介面卡（Adapters）。 介面卡在變壓器塊內整合緊湊層，定義為：

其中，是下投影矩陣，是非線性啟用函式，是上投影矩陣。這裡，是隱藏層維度，是瓶頸維度，透過減少複雜度同時保持效能。基於這種結構，Serial Adapter［248］在每個變壓器塊中引入了兩個模組。Adapter Fusion［249］透過在 Add \＆Norm 之後放置介面卡來提高效率。Parallel Adapter（PA）［250］並行執行介面卡和子層，而 CoDA［251］透過並行執行介面卡和子層來最佳化效能。與 Adapter Fusion 不同，MerA ［252］使用最優傳輸技術統一介面卡的權重和啟用。

軟提示（Soft Prompt）。軟提示透過在輸入序列中新增可調向量而不是最佳化離散令牌來增強模型效能 [253]。這種方法的形式化表示為：

其中，表示軟提示令牌，表示原始輸入令牌。和分別是軟提示和原始輸入令牌的數量。Prefix Tuning［254］在變壓器層之間引入可學習向量，並透過重新引數化和 P－Tuning v2［99］及 APT［255］進行最佳化。與此同時，Prompt Tuning［44］專注於初始嵌入層，以低計算成本最佳化大型模型。Xprompt［256］和 IDPG［257］簡化了提示生成和插入。 SPoT［258］和 PTP［259］解決了穩定性和收斂速度問題，而 DePT［260］和 SMoP［261］透過最佳化提示結構減少了計算需求。

其他加法式方法。除了早期的技術，諸如（LA）［262］和 SSF［263］等方法透過引入最小但強大的模型引數調整來關注訓練後的效率。自注意力和前饋網路（FFN）操作在數學上定義為：

其中，表示哈達瑪積，尺度向量和可以平滑地融入和的權重矩陣中。此外，IPA［264］使像 GPT－4 這樣的大型語言模型與使用者特定需求對齊。此外，它不需要對底層模型進行更改，因此在微調過程中保持了效率。

6.2.2 選擇式 PEFT

選擇性引數高效微調（Selective PEFT）透過僅對引數的一個子集進行微調來提高效率，如圖 16（b）所示。這涉及到將一個二元掩碼應用到引數上，其中每個表示是否被選中進行微調。更新後的引數集表示為：

其中 leta 是學習率，是損失函式的梯度。只有被選中的引數（即）會被更新，從而在保持效果的同時減少計算成本。早期的方法包括差分剪枝（Diff pruning）［265］，該方法使用可微的－範數對可學習的二元掩碼進行正則化；以及 FishMask［266］，該方法基於 Fisher 資訊選擇引數以提高相關性。LT－SFT［267］應用了彩票假設（Lottery Ticket Hypothesis）來識別重要的引數。SAM［268］使用二階近似進行選擇，而 Child－tuning ［269］在子網路中動態選擇引數。此外，FAR［270］和 BitFit［271］進一步展示了選擇性引數高效微調（Selective PEFT），透過專注於最佳化特定的引數組。

6.2.3 重引數 PEFT

重新引數化的PEFT（Parameter－Efficient Fine－Tuning）主要採用低秩引數化來提高效率，如圖16（c）所示。LoRA（低秩適應）［92］引入了兩個可訓練矩陣，和，修改輸出為：

其中是一個縮放因子。這種方法允許在保持核心知識的同時高效地適應新任務。基於LoRA，Intrinsic SAID [272] 最小化微調引數空間，進一步減少計算需求。動態變體包括DyLoRA [273] 和AdaLoRA [274]，根據特定任務的需求動態調整秩，而AdaLoRA還結合了基於SVD的剪枝以提高效率。SoRA [275] 透過去除正交性約束簡化過程，Laplace-LoRA [276] 應用貝葉斯校準進行微調。Compacter [277] 和VeRA [278] 進一步減少了引數複雜度。此外，DoRA [279] 在方向分量中最佳化更新，HiRA [280] 使用Hadamard積進行高秩更新，從而提高了效率和效能。為了處理多個任務和不斷變化的領域，Terra [281] 集成了一個時變矩陣，ToRA [282] 利用Tucker分解進一步改進LoRA結構。除了結構設計，PiSSA [283] 和LoRA-GA [284] 使用SVD和梯度對齊最佳化LoRA的初始化。同時， [285]、LoRA-Pro [286] 和CopRA [287] 進一步細化了梯度更新策略。此外，ComLoRA [288] 採用競爭學習選擇表現最佳的LoRA元件。

6.2.4 混合 PEFT

混合 PEFT 方法透過整合或最佳化各種微調策略來提高訓練後效率。一種突出的技術是 UniPELT [289]，它在變壓器塊中集成了 LoRA、字首調優和介面卡。該方法透過由前饋網路 (FFNs) 管理的門控機制動態啟用元件，這些 FFNs 生成標量，最終最佳化引數利用。另一種創新方法是 MAM Adapter [250]，它透過在自注意力層中戰略性地定位字首調優，並在前饋層中使用縮放並行介面卡來改進這一技術。此外，基於 NAS 的方法如 NOAH [290] 和 AUTOPEFT [291] 透過識別特定任務的最佳 PEFT 配置來提高訓練後效率。HeadMap [292] 使用貪婪方法識別一系列在某些任務中起關鍵作用的注意力頭（即知識電路），並透過將這些注意力頭的輸出映射回 LLM 的殘差流中，高效地提升模型效能。最後，LLM-Adapters [293] 提供了一個框架，用於在 LLM 中整合各種 PEFT 技術，確保最有效的模組放置以維持不同模型規模下的效率。

6.3 知識蒸餾

知識蒸餾(KD)是大型語言模型(LLM)後訓練最佳化中的關鍵技術，能夠將大型預訓練教師模型的知識轉移到緊湊的學生模型中，從而提高效率而不犧牲效能。最初在模型壓縮背景下提出，KD因其能夠將複雜知識提煉到資源高效的架構中而受到廣泛關注，使得其能夠在邊緣裝置和嵌入式系統等受限制環境中部署。透過利用教師模型的細膩輸出分佈——比傳統的硬標籤更豐富——KD使學生不僅能夠複製類別預測，還能複製類間關係和教師表示中固有的細微模式。這一過程通常涉及最佳化一個複合損失函式，該函式平衡監督學習目標與蒸餾特定目標，顯著減少計算和記憶體需求，同時保持泛化能力。

KD的基本機制在於最小化一個混合損失，該損失集成了傳統分類損失與蒸餾項。形式上，給定教師模型的軟輸出機率和學生模型的預測，以及真實標籤和學生輸出，KD損失表示為：

其中表示捕捉與真實標籤對齊的交叉熵損失，表示測量教師和學生分佈之間差異的Kullback－Leibler散度［294］，是一個調節目標的超引數。軟目標通常由溫度引數調整（即，其中是教師的logits），編碼了更豐富的機率資訊，使學生能夠模擬教師的決策細微之處，而不僅僅是標籤準確性。

KD廣泛用於資源受限環境下的模型壓縮和遷移學習，其中預訓練的教師指導特定任務的學生。其有效性取決於教師容量、學生架構和蒸餾損失設計等因素。最近的進展將KD擴充套件到輸出蒸餾之外，使得在後訓練最佳化中實現更高效和適應性強的LLM。根據對教師模型內部引數和中間表示的訪問程度，KD方法大致可以分為黑盒KD和白盒KD。

表6：大型語言模型(2020–2025年)知識蒸餾方法總結。此表概述了關鍵的蒸餾技術，詳細列出了它們的技能、教師和學生模型、目標及釋出時間線，並按黑盒KD（訪問限於教師輸出，通常來自閉源LLM）和白盒KD（訪問教師引數或分佈，通常來自開源LLM）分類。指標包括IF（指令跟隨）、CoT（鏈式思維）、ICL（上下文學習）、SFT（監督微調）、D&S（差異與相似性）、RL（強化學習）、TP（思考模式）、NLU（自然語言理解）和NLG（自然語言生成）。

表6：大型語言模型的知識提煉方法總結（2020-2025）。本表概述了關鍵的蒸餾技術，詳細介紹了它們的技能、教師和學生模型、目標和釋出時間表，分為黑盒KD（僅限於教師輸出，通常來自閉源LLM）和白盒KD（通常來自開源LLM，訪問教師引數或分佈版）。指標包括IF（指令遵循）、CoT（思維鏈）、ICL（情境學習

如表6所示，知識蒸餾方法大致可以分為兩類：黑盒KD和白盒KD。我們提供了各種大型語言模型(LLMs)中的知識蒸餾技術的系統總結，以及它們相應的技能、教師模型和學生模型。

黑盒KD

黑盒KD是指學生模型僅從教師的輸出logits學習，而無法訪問其內部表示或架構細節的情況。這種方法最初由Hinton[321]提出，符合經典的KD正規化，由於其靈活性而被廣泛採用。黑盒KD的一個關鍵優勢是將教師模型視為不透明函式，即使教師是一個專有或預訓練模型且訪問受限，也能實現知識轉移。實際上，大型教師LLM（如ChatGPT和GPT-4[9]）通常用於生成高質量輸出。與此同時，較小的語言模型(SLM)，包括GPT-2[14]、T5[322]、Flan-T5[323]和CodeT5[324]，作為學生模型。這些SLM經過最佳化以提高效率，同時保持強大的泛化能力，使其適合在資源受限環境中部署。

白盒KD

白盒KD透過利用教師模型的內部表示，擴充套件了傳統的蒸餾正規化。當教師模型的架構已知且可訪問時，這種方法是有益的，允許進行更豐富的監督形式。與將教師視為不透明函式的黑盒KD不同，白盒KD允許學生模型不僅從教師的輸出logits學習，還可以從中間啟用、隱藏層甚至注意權重[325]學習。

DeepSeek-R1：推理模式的直接蒸餾

DeepSeek-R1展示了KD透過將大規模模型中的複雜推理模式蒸餾到緊湊架構中，顯著增強了小型LLM的推理能力，而無需承擔直接在這些模型上進行強化學習(RL)的計算負擔。這種方法稱為直接蒸餾，利用由大型教師模型生成的大約80萬樣本的精心策劃資料集，其中包括從DeepSeek-V3派生的20萬非推理例項和由DeepSeek-R1-Stage1檢查點生成的60萬推理例項。這些樣本構成了應用於開源基礎模型（如Qwen和LLaMA的小型變體）的SFT的基礎，使學生模型能夠繼承通常為其較大對應物保留的複雜推理能力。

圖17：DeepSeek-R1中的知識蒸餾工作流程，展示了從大型模型到緊湊模型的推理模式轉移過程

DeepSeek-R1中的直接蒸餾過程如圖17所示，展開在一個結構化的管道中。最初，教師模型——在大量資料集上預訓練——生成一個包含推理和非推理輸出的多樣化語料庫，捕捉邏輯模式和事實知識的譜系。非推理資料（約20萬樣本）提供了一般知識的基線，而推理資料（約60萬樣本）封裝了多步推理鏈，透過教師的高階功能進行了細化。然後，在SFT階段使用該資料集，學生模型在此過程中被訓練以使其輸出分佈與教師對齊，使用推理資料直接微調較小模型以蒸餾出緊湊的推理模型。與直接應用於小模型的傳統RL不同，後者可能因容量有限而導致次優推理，DeepSeek-R1的直接蒸餾透過轉移預先最佳化的推理行為，克服了這些限制，實現了更高的效能並減少了資源需求。

DeepSeek-R1的KD方法的一個顯著特點是強調在不同模型規模下保持推理完整性。透過整合從DeepSeek-R1-Stage1——透過大規模RL精煉的檢查點——提取的推理軌跡，學生模型不僅複製了事實準確性，還模擬了複雜的推理過程，例如數學問題解決或邏輯演繹所需的推理過程。這種有針對性的轉移與傳統的KD形成對比，後者通常優先考慮分類任務，突顯了DeepSeek-R1在面向推理的蒸餾方面的創新。此外，該方法減少了對學生進行大量RL迭代的需求，利用教師預先計算的推理輸出簡化訓練，從而提高效率和可擴充套件性。這一方法論將DeepSeek-R1定位為將高階推理蒸餾到緊湊LLM的典範，為未來的後訓練最佳化工作提供了藍圖。

PoLMs 整合和適配

整合和適應技術對於增強大語言模型（LLMs）在各種實際應用中的靈活性和有效性至關重要。這些方法使 LLMs 能夠無縫處理異構資料型別，適應特定領域，並利用多種架構優勢，從而應對複雜、多方面的挑戰。本章詳細介紹了三種主要策略：多模態整合 (\S7.1) ，使模型能夠處理文字、影像和音訊等不同的資料模態；領域適應 (\S7.2) ，對模型進行最佳化以適用於特定行業或用例；以及模型合併 (§7.3)，將不同模型的能力融合在一起以最佳化整體效能。總體而言，這些方法增強了 LLMs 的適應性、效率和魯棒性，拓寬了它們在不同任務和場景中的應用範圍。

7.1 多模態整合

在前幾章闡述的後訓練最佳化策略基礎上，本節探討旨在增強大型語言模型（LLMs）和大型多模態模型（LMMs）有效處理多模態資料的高階方法。雖然監督微調提高了LLMs在特定任務上下文中的能力，但其在充分利用多模態能力方面的侷限性需要更復雜的後訓練方法。這些技術透過將不同資料型別整合到統一框架中，使LMMs能夠應對複雜的跨模態任務（例如，從視覺輸入生成網頁程式碼[326]、解釋複雜的文化符號如表情包[327]以及在不依賴光學字元識別的情況下進行數學推理[50]）。通常，LMMs包括一個模態編碼器、預訓練的LLM主幹和一個模態聯結器[328]，如圖18所示。這種架構構成了後訓練方法的基礎，這些方法透過最佳化每個元件，促進穩健的多模態整合和效能提升。

7.1.1 模態連線

模態連線方法在將多模態資料綜合成一個連貫的表示框架中起著關鍵作用，可以分為三種主要策略：基於投影的方法、基於查詢的方法和基於融合的方法[328]，如圖19所示。

基於投影的模態連線

基於投影的方法將不同的模態輸入轉換為統一的文字嵌入空間，使它們的特徵與大語言模型（LLMs）的語言維度對齊，實現無縫整合。LLaMA-Adapter[329]透過引入影像編碼器，將LLMs擴充套件到多模態系統中，實現了影像條件下的指令跟蹤。其後續版本LLaMA-Adapter V2[330]透過將視覺標籤嵌入到早期LLM層中，進一步改進了這一過程，促進了視覺知識的更好吸收。FROMAGe[331]透過對凍結的LLM和視覺編碼器框架中的輸入和輸出層進行微調，實現了跨模態互動，而LLaVA-1.5[332]則利用雙線性多層感知機（MLP）增強了多模態處理的魯棒性。最近的發展，如Shikra[333]，透過整合空間座標來增強自然語言對話，而VILA[334]優化了視覺-語言預訓練，以實現卓越的零樣本能力。DetGPT[335]透過將推理驅動的物件檢測與自然語言互動相結合，進一步推進了這一正規化，利用投影技術促進了有效的多模態通訊。SOLO[336]使用單一的Transformer架構進行統一和端到端的視覺-語言建模，接受原始影像塊（以畫素形式）和文字作為輸入，而無需使用單獨的預訓練視覺編碼器。MiniGPT-4[326]透過單個投影層將凍結的視覺編碼器與Vicuna對齊，實現了類似GPT-4的能力，並採用了兩階段訓練過程。Idefics[337]憑藉自迴歸設計和多階段預訓練，在高效推理方面表現出色。LaVIT[338]透過離散視覺分詞器統一了視覺和語言，實現了無縫生成。DeepSeek-VL2[339]透過動態平鋪和多頭潛在注意力增強了高解析度影像理解。最後，Qwen2.5-VL[340]透過重新設計的視覺Transformer，提高了多模態任務的效能，在感知和影片理解方面表現出色。

基於查詢的模態連線

基於查詢的方法透過使用可學習的查詢令牌從不同模態中提取結構化資訊，彌合文字和非文字資料之間的差距，從而增強多模態整合。BLIP-2[52]率先採用了查詢Transformer，實現了文字和視覺輸入的有效整合。Video-LLaMA[341]透過組合視覺編碼器將這一技術擴充套件到影片理解，而Instruct BLIP[342]透過改進查詢機制確保了對指令的精確遵循。X-LLM[343]透過專用介面對齊多模態輸入，而隨後的創新如mPLUG-Owl[344]和Qwen-VL[345]優化了Q-Former架構以提高計算效率。LION[346]進一步展示了基於查詢方法的有效性，透過提升視覺知識整合，強調了其在各種任務中增強LMM效能的實用性。Qwen-VL[345]是一系列大規模視覺-語言模型，基於Qwen-7B構建，集成了視覺接收器、位置感知介面卡和三階段訓練管道，實現了多語言、細粒度的視覺-語言理解。Lyrics[347]是一個細粒度的視覺-語言預訓練和指令微調框架，透過視覺細化器（影像標註、物件檢測和語義分割）和多尺度查詢Transformer（MQ-Former），增強了大型視覺-語言模型（LVLMs）的功能。

基於融合的模態連線

基於融合的技術透過直接將多模態特徵嵌入到LLM架構中，加深了跨模態互動，促進了推理層面更豐富的整合。Flamingo[51]透過交叉注意力層在標記預測過程中融合視覺特徵，實現了動態多模態處理。Open Flamingo[348]在此基礎上，允許凍結的LLMs關注視覺編碼器的輸出，增強了靈活性。Otter[349]引入了指令調優，以改善多模態指令的遵循，而CogVLM[350]透過在Transformer層中整合視覺專家模組，實現了無縫特徵合成。Obelics[351]利用交錯的影像-文字訓練資料，突顯了基於融合的方法在實現連貫多模態效能方面的穩健性。InternVL[352]是一個大規模的視覺-語言基礎模型，將視覺編碼器擴充套件到60億引數，並透過語言中介軟體（QLLaMA）逐步與LLMs對齊。Llama 3[25]是Meta開發的一系列多語言、工具使用的基礎模型，引數規模達到4050億，具有128K標記上下文視窗，透過改進的資料質量、更大規模的訓練和結構化的後訓練策略進行了最佳化。

表7：2022-2025年各模態編碼器和大規模多模態模型概覽。該表總結了關鍵的多模態模型，詳細列出了它們的編碼器類別、大小、輸入投影器、LLM骨幹和釋出時間線，涵蓋了視覺、音訊和其他模態。指標包括C-a（交叉注意力）、Q-F（Q-Former）、MQ-F（多查詢Q-Former）和LP（線性投影器），代表輸入投影機制。

7.1.2 模態編碼器

模態編碼器將原始多模態輸入壓縮成緊湊且語義豐富的表示，使各種任務和模態的處理更加高效。這些元件對於將異構資料轉換為與大語言模型（LLM）主幹相容的格式至關重要，支援從視覺推理到音訊理解的各種應用。表7提供了在視覺、音訊及其他模態中廣泛使用的編碼器的全面總結，詳細描述了它們的特點及其對多模態整合的貢獻。

視覺編碼器

視覺編碼器是多模態學習的基礎，有助於在大規模多模態模型（LMMs）中解釋和生成視覺資料。CLIP [372] 透過對比學習建立了影像-文字的聯合表示，增強了跨模態對齊。EVA [373] 優化了視覺注意力機制，提高了效率；而 ImageBind [374] 建立了一個統一的嵌入空間，跨越多個模態，提升了零樣本識別能力。SigLIP [375] 引入了一種配對的Sigmoid損失來最佳化影像-文字預訓練，DINOv2 [376] 則利用無監督學習從多樣化的來源中提取魯棒的視覺特徵。LLaVA [53] 採用自指導策略將影像轉換為文字描述，使用先進的大語言模型生成新的資料集。Video-ChatGPT [354] 支援大規模指令資料集下的對話影片理解，BT-Adapter [355] 透過高效的時序建模優化了影片理解。VideoChat [353] 專注於時空推理，利用專門的資料集和模型，如 CoDi-2 [369] 和 Mipha [358]，在多模態處理中實現了效率提升。VL-Mamba [357] 和 Cobra [359] 引入了狀態空間模型以最佳化推理，SPHINX-Tiny [356] 則強調資料多樣性和訓練效率。

音訊編碼器

音訊編碼器增強了大規模多模態模型（LMMs）處理和解釋聽覺輸入的能力，擴充套件了其多模態範圍。SpeechGPT [364] 將大規模語音資料集與卷積和變換器架構 [377] 結合，實現了強大的指令跟隨能力。AudioPaLM [363] 結合了文字和語音處理，使用通用語音模型（USM）編碼器 [378]，在零樣本語言翻譯等任務中表現出色。WavCaps [379] 使用 CNN14 [380] 和 HTSAT [381] 來緩解音訊-語言資料的稀缺問題，利用先進的大語言模型改進資料集質量和增強學習效果，突顯了音訊模態在多模態系統中的關鍵作用。

其他編碼器

除了視覺和音訊，其他模態的編碼器，如3D理解和多模態融合，也是全面的大規模多模態模型（LMMs）的重要組成部分。NEXT-GPT [368] 促進了文字、影像、影片和音訊之間的跨模態內容生成，透過最小的引數調整推進了類人AI能力的發展。ImageBind-LLM [366] 對齊了視覺和語言嵌入，以提高跨模態的指令跟隨能力。LL3DA [370] 處理點雲資料，用於3D推理和規劃，引入了新的空間理解方法。X-LLM [343] 使用 Q-Former [52] 處理影像和影片輸入，使用 C-Former [343] 處理語音，將音訊特徵壓縮成詞級別的嵌入，以提高多模態學習的效率。

7.2 領域適配

領域適應（DA）是最佳化大型語言模型（LLMs）以在特定領域內表現出色的關鍵後訓練策略，確保其在目標應用中的有效性。基於遷移學習［382，383］的原則，DA透過適應函式將初始模型轉換為領域特定模型，如圖所示：

這一過程使能夠應對指定領域的獨特需求和複雜性，從而最佳化其效能和相關性。透過提高LLMs在程式設計[384, 385]和數學推理[386]等領域的熟練度，DA不僅提升了領域特定能力，還提高了計算效率，緩解了通用模型在處理領域特定術語和推理正規化時的侷限性。此外，DA顯著減少了從頭開始訓練領域特定模型通常所需的大量標註資料集和計算資源[387]，使其成為後訓練方法的核心。

7.2.1 知識編輯

知識編輯代表了一種複雜的後訓練方法，旨在修改大語言模型（LLMs）以滿足特定領域的需求，同時不損害其基礎能力。該技術促進了目標引數調整，保留了模型的現有效能，同時整合了新的或更新的領域知識[388]。透過實現對不斷變化的知識景觀的快速適應，知識編輯成為了後訓練管道中不可或缺的組成部分。表8展示了主要方法的概述（例如，包括外部知識利用、整合和內在編輯）。

表8：在LLMs中進行知識編輯的代表性方法的比較分析。編輯區域指定了模型中要修改的元件；編輯器引數數表示編輯過程中需要更新的引數。表示受修改影響的層數，表示變壓器架構中隱藏層的維度，指的是上投影和下投影階段之間的中間維度，表示每層中需要更新的神經元總數。

知識編輯的形式定義。 考慮一個由引數化的原始LLM，預先在資料集上訓練。令表示包含新或更新的資訊的資料集。知識編輯的目標是透過應用調整來推匯出修訂後的引數集，有效地同化同時最小化對的退化。正式地，這被表述為一個約束最佳化問題，其中更新後的引數定義為：

其中表示評估模型在上質量的損失函式（例如，交叉熵）。為了保護在原始資料集上的效能，施加了一個約束：

其中是一個小的正常數，限制在上的效能損失。這種公式確保了同化了同時保留了模型的先前知識庫。實際上，可能被限制在特定的架構元件（例如，注意力層（Attn）或前饋網路（FFN）），減少了計算開銷並避免了全面重新訓練，從而保留核心功能。

知識識別。知識編輯的初始階段集中在檢測並將新資訊融入模型。PokeMQA [390] 使用可程式設計範圍檢測器和知識提示來解析查詢，高效檢索相關事實。相反，SERAC [389] 集成了反事實模型和分類器來確定新知識源的適用性，提供了一種最小侵入的方法，無需廣泛的結構修改即可保留基礎模型的完整性。[406] 分析了為什麼LLM知識更新會建立混亂的連鎖反應。現實世界中的編輯通常源自新興事件，這些事件涵蓋了新事實與過去事實之間的邏輯聯絡。基於這一觀察，EvEdit [407] 提出了一種基於事件的知識編輯方法，用於確定知識錨點和知識更新邊界。

知識關聯。在識別之後，這一階段將新獲取的資訊與模型現有的知識框架關聯起來。Transformer-Patcher [392] 適應變壓器架構以整合更新的事實，而CaliNET [391] 重新校準引數以與事實內容對齊。諸如Eva-KELLM [395]、MELO [396] 和REMEDI [393] 等方法精煉特定行為以進行精確更新，GRACE [394] 在知識插入後增強預測準確性，確保與先前表示的無縫整合。

內在知識編輯。最後階段將關聯的事實嵌入模型的內部結構，確保全面同化。雖然傳統的微調可能資源密集，但先進的技術減輕了這一負擔。約束微調 [397] 和元學習 [399] 最小化了知識損失和過擬合風險。可編輯訓練 [398] 和知識編輯器 [399] 能夠迅速調整引數，同時最小化效能影響，而SLAG [400]、MEND [401] 和MALMEN [402] 解決編輯衝突並支援大規模更新，同時保持基礎能力並納入新的領域見解。LLM Surgery [403] 透過應用逆梯度移除過時資料、梯度下降整合新事實，並引入KL散度項以保留現有知識，實現了顯著的計算效率。KNE [404] 引入了一種知識神經元集合方法，該方法僅定位和更新與新插入事實強烈相關的神經元，實現更準確的編輯同時保留無關知識。OVERTONE [405] 透過引入一種逐詞平滑技術解決知識編輯中的異構詞過擬合問題，自適應地細化訓練目標，從而保留預訓練知識並提高模型對新插入事實的推理能力。這些有針對性的技術確保了模型在整合新獲取資訊的同時保留其基礎能力。

7.2.2 檢索增強生成

檢索增強生成(Retrieval-Augmented Generation, RAG)將傳統資訊檢索與現代大語言模型(LLMs)結合，以提高生成輸出的相關性和事實準確性[48, 408, 409]。透過動態地從外部源檢索相關資訊並將其嵌入生成過程，RAG解決了LLMs在特定領域知識上的不足，並減少了生成幻覺內容的傾向。這種方法在需要精確、最新資訊的領域特別有效，例如問答系統[48]、科學研究[410]和醫療保健[411]，這些領域能夠處理複雜的查詢和知識密集型任務。此外，RAG減少了對話系統中誤導性響應的頻率，提高了基於知識的自然語言生成的保真度[411, 412]。

本小節重點介紹基於訓練的RAG方法[413]，認識到無訓練的RAG方法[414, 415, 416]可能因缺乏任務特定最佳化而影響知識利用效率。三種主要的訓練策略——獨立訓練(Independent Training)、順序訓練(Sequential Training)和聯合訓練(Joint Training)——增強了模型的適應性和整合能力，如圖20所示。

獨立訓練

該策略將檢索器和生成器作為獨立模組進行訓練，使根據任務需求靈活使用稀疏或密集檢索器成為可能。例如，DPR[417]使用雙BERT網路分別對查詢和段落進行編碼，透過對比學習最佳化檢索，而不涉及生成器的互動。同樣，[418]提出了Reward-RAG，利用獎勵模型根據GPT反饋僅微調檢索器，而不改變生成器。

順序訓練

順序訓練透過一次最佳化一個模組來提高效率，促進檢索器和生成器之間的協同作用。它包括檢索器優先方法[419, 420, 421, 422, 423]，

圖20: 檢索增強生成(RAG)訓練方法的分類，包括獨立訓練、順序訓練和聯合訓練策略

如RETRO[424]，它首先預訓練一個基於BERT的檢索器，然後訓練一個編碼器-解碼器以無縫整合檢索到的內容，從而提高效能。另一種方法是語言模型優先方法[425, 426, 427]，如RA-DIT[428]，首先微調語言模型以有效利用檢索到的知識，然後再最佳化檢索器以實現更好的對齊和連貫性[419, 425]。

聯合訓練

聯合訓練在一個端到端框架中同步最佳化檢索器和生成器。RAG[48]透過最小化負對數似然來共同訓練這兩個元件，而REALM[429]則透過最大內積搜尋(MIPS)[430]提高檢索精度。這些方法適應特定任務的需求，最大化外部知識的好處，同時最小化生成錯誤。

7.3 模型合併

模型合併已成為提高大語言模型（LLM）在訓練和推理階段效能和效率的重要後訓練策略[431, 432]。這種方法將專門化的模型整合到一個統一的架構中，避免了大量重新訓練的需求，並解決了大型模型尺寸和計算需求帶來的挑戰。與在混合資料集上進行訓練不同，模型合併將單任務模型整合為一個多工能力的協調實體，提供了一種資源高效的多工學習正規化。透過簡化訓練管道並促進在各種應用中具有強大泛化能力的多功能模型的開發，該技術優化了LLM在不同場景中的部署。

給定一組候選模型，目標是設計一個合併函式，生成一個統一模型，可能以基礎模型為針點，如圖所示：

7.3.1 分層模型合併

模型融合技術被系統地劃分為三個層次——權重級、輸出級和模型級融合——如圖21所示。

圖21: 模型融合技術的分類，展示了包括權重級、輸出級和模型級方法在內的層次結構，適用於大型語言模型

權重級模型融合

權重級融合直接操作引數空間，對於具有相似架構或在相關任務上訓練的模型特別有效。形式上，給定引數集，線性融合方案將這些引數集聚合為統一的集合，表示為：

Model Soup [433, 434] 透過線性組合在不同任務上微調的模型權重，生成一個單一且高效的模型，體現了這一點。Task Arithmetic (TA) [435] 透過引數的算術運算擴充套件了這種靈活性，提高了效能適應性。為了緩解對齊問題，TIESmerging [436] 確保引數的一致性，而 DARE [437] 透過機率調整引數增量來最小化干擾，最佳化融合過程的連貫性和效率。

輸出級模型融合

當模型在架構或初始化上存在差異，使得權重級方法不切實際時，輸出級融合變得有利。這種方法聚合輸出分佈而非內部引數，表示為：

其中和分別代表來自模型和的機率分佈。類似於整合策略，此方法將模型預測綜合為統一輸出。LLMBlender [438] 透過生成獨立輸出並使用排名和生成過程進行融合來實現這一點，而 FuseLLM [439] 將組合輸出機率蒸餾到單個網路中以保持分佈的保真度。FuseChat [440] 透過將多個大型語言模型的知識轉移到一個整合的目標模型中，結合了權重級和輸出級融合，增強了跨模型的協同效應。

模型級模型融合

模型級融合透過路由機制整合子模型或層，通常在混合專家（MoE）框架內實現，表示為：

其中 Merge 表示硬路由或軟路由函式。Switch Transformer [54] 透過離散門控選擇性啟用專家層，減少了計算負載，但可能因剛性路由而導致效能折衷。SoftMoE [441] 和 SMEAR [442] 利用連續門控促進專家之間的平滑過渡，增強元件整合和模型一致性。

7.3.2 預合併方法

預合併方法透過最佳化獨立模型的權重空間、架構一致性及引數對齊，為模型合併建立相容基礎，從而減少後續融合階段中的衝突和干擾。這些技術提高了合併過程的有效性，確保最終統一的模型保留其組成部分的優勢，同時減輕潛在的效能下降。

線性化微調。這種方法在預訓練模型的切線空間內精煉模型，避免使用原始的非線性引數空間以實現權重解耦，從而減少合併過程中的干擾。例如，部分介面卡的線性化（如TAFT [443]）或注意力層 [444] 將權重更新對齊到不相交的輸入區域，保持合併模型中的獨立功能 [445]。透過將更新限制線上性框架內，該方法促進了不同模型之間的無縫整合。

架構轉換。這種策略將具有不同架構的異構模型轉換為適合直接引數合併的同質形式。方法包括知識蒸餾，如FuseChat [440] 所示，以及身份層插入，如CLAFusion [446]。GAN Cocktail [447] 初始化目標模型以吸收來自不同架構的輸出，實現有效橋接結構差異的統一合併過程。

權重對齊。此方法透過置換將模型對齊到共享的權重盆地，利用線性模式連通性（LMC）屬性增強相容性。技術包括最優傳輸（OTFusion [448]）、啟發式匹配（Git re-basin [449]）和基於學習的對齊（DeepAlign [450]）。REPAIR [451] 減輕了缺乏歸一化層的模型中的對齊失敗，確保在融合前實現穩健的引數收斂。

7.3.3 合併中方法

在合併過程中，動態最佳化引數融合策略的方法旨在解決任務衝突，減輕干擾，並提升合併後模型的效能和泛化能力。這些方法應對即時整合不同模型的挑戰，增強統一架構的適應性和魯棒性。

基本合併

該方法利用簡單的引數平均或任務向量算術，定義任務向量為第個任務微調後的引數與初始預訓練引數之間的偏差：

並透過以下公式促進多工學習：

雖然計算效率高且概念簡潔，但這種方法通常會遇到未緩解的引數互動導致的任務干擾，限制了其在需要複雜任務協調場景中的實用性。

加權合併

該策略根據各個模型的重要性動態分配合並係數，調整貢獻以最佳化融合結果。MetaGPT [452] 透過歸一化每個任務向量的平方 L2 範數來計算最優權重：

從而賦予具有較大引數變化的任務更大的影響，如較高的所示。SLERP [432] 使用球面插值確保平滑的引數過渡，保持模型連續性，而 Layer-wise AdaMerging [453] 透過逐層最佳化係數來改進這一過程，提高合併架構中任務特定的精度。

子空間合併

該方法將模型引數投影到稀疏子空間，以最小化干擾並保持計算效率，解決引數貢獻的重疊問題。TIESMerging [436] 保留按大小排序的前 20% 的引數，解決符號衝突以保持一致性，DARE [437] 縮放稀疏權重以減少冗餘，而 Concrete [454] 利用雙層最佳化建立自適應掩碼，確保任務間干擾減少的模型元件細緻整合。

基於路由的合併

該技術根據輸入特定屬性動態融合模型，實現上下文響應的整合過程。SMEAR [442] 計算樣本依賴的專家權重以優先考慮相關特徵，Weight-Ensembling MoE [455] 採用輸入驅動的線性層路由進行選擇性啟用，而 Twin-Merging [456] 融合任務共享和任務私有知識，構建一個靈活的合併框架，適應多樣化的輸入需求並增強多工魯棒性。

後校準

該技術透過將統一模型的隱藏表示與獨立組成部分的隱藏表示對齊，糾正合並後的表示偏差，減輕效能下降。Representation Surgery [319] 透過改進表示一致性，增強了合併模型的魯棒性和準確性。

資料集

訓練後技術精心設計以最佳化大語言模型（LLM）對特定領域或任務的適應性，利用資料集作為這一最佳化過程的基石。對先前研究[457, 82]的深入審查表明，資料的質量、多樣性和相關性深刻影響模型的有效性，通常決定著訓練後工作的成敗。為了闡明資料集在這一背景下的關鍵作用，我們對用於訓練後階段的資料集進行了全面回顧和深入分析，並根據其收集方法將其歸類為三種主要型別：人工標註資料、蒸餾資料和合成資料。這些類別反映了不同的資料管理策略，模型可以採用單一方法或結合多種型別的混合方法，以平衡可擴充套件性、成本和效能。表9提供了這些資料集型別的詳細概述，包括它們的來源、大小、語言、任務和訓練後階段（例如SFT和RLHF），我們在後續部分中探討了它們在提升LLM能力方面的貢獻和挑戰。

8.1 人工標註的資料集

人類標註的資料集以其卓越的準確性和上下文保真度而著稱，這些屬性源自標註者的任務複雜性的細緻理解及其能夠做出精確、上下文敏感的調整的能力。這些資料集是最佳化指令微調的基礎，透過提供高質量、專家策劃的訓練訊號，顯著提升了大型語言模型在多種任務中的效能。在這個類別中，Flan [17]、P3（公共提示池）[459]、Sup-Natinst（超級自然指令）[462] 和 Dolly-15K [468] 等突出資源被廣泛應用於大型語言模型的後訓練階段，每個資源都透過人類專業知識為模型能力的最佳化貢獻了獨特的優勢。

用於 SFT 的人類標註資料

在 SFT 階段，人類標註的資料集發揮著不可或缺的作用，這一點從 Flan、Sup-Natinst 和 Dolly-15K 的貢獻中得到了體現，這些資料集提供了精心設計的提示-響應對和任務特定的指令，以提升大型語言模型在各種自然語言處理基準測試中的效能。

Flan. Flan 資料集 [17] 是一個基礎資源，最初涵蓋了 62 個廣受認可的自然語言處理基準測試——如 HellaSwag [482]、MRPC [483] 和 ANLI [484]——透過其 180 萬個示例促進英語中的穩健多工學習。最近，FlanV2 [34] 作為其前身的高階迭代版本，透過整合 Flan [17]、P3 [459]、Sup-Natinst [462] 和大量其他資料集，形成了一個綜合全面的語料庫，從而增強了其在多樣化語言和任務領域中的 SFT 實用性。
Sup-Natinst. 超級自然指令（Sup-Natinst）[462] 提供了涵蓋 55 種語言的 76 種任務型別的廣泛多樣資源，成為多語言大型語言模型後訓練的多功能資源。每種任務都精心配有一個包含明確任務定義的指令——概述了從輸入文字到期望輸出的對映關係——以及一組示例，展示了正確和錯誤的響應，為指導模型進行精確的任務執行並增強跨語言適應性提供了強大的框架。
Dolly-15K. 由 Databricks 員工開發的 Dolly-15K [468] 是一個精選的包含 15,000 個高質量、人類生成的提示-響應對的語料庫，專門設計用於大型語言模型的指令微調。該資料集涵蓋了廣泛的主題和場景——包括頭腦風暴、內容生成、資訊提取、開放式問答和總結——反映了豐富的任務型別多樣性，使模型能夠靈活適應各種教學情境，並提高上下文相關性。

人類標註資料集在 SFT 中的強大作用源於其對任務和場景的廣泛覆蓋，這一特點在上述語料庫中得到了充分體現。此外，Open Assistant [466] 提供了一個來自全球眾包努力的多語言對話語料庫，免費用於推進研究，而 OpenOrca [472] 在 FlanV2 [34] 的基礎上增加了數百萬個 GPT-3.5 和 GPT-4 的完成結果，構成了一個動態擴充套件的資源，用於微調和任務對齊。然而，儘管它們對模型泛化做出了重要貢獻，確保一致的標註質量和多樣性仍然是一個挑戰，需要嚴格的質量控制以最大化其影響。

用於 RLHF 的人類標註資料

對於 RLHF，人類標註的資料集如 P3、其多語言擴充套件 xP3 [463] 和 SHP [460] 提供了關鍵的人類標註評估，優化了大型語言模型與使用者偏好的對齊，提供了獎勵建模的細緻反饋機制。

P3： P3 資料集 [459] 是一個精心策劃的指令調優資源，彙集了來自 Hugging Face Hub 的 2300 萬個多工提示，每個提示都配有手動編寫的指令，涵蓋了多樣化的自然語言處理任務，為 RLHF 提供了豐富的基礎，以增強大型語言模型在不同應用中的適應性和精確性。
xP3： xP3（跨語言公共提示池）[463] 將 P3 擴充套件到多語言框架中，涵蓋了 46 種語言和 16 個自然語言處理任務的提示和監督資料，旨在支援像 BLOOMZ 和 mT0 這樣的模型的多工提示微調。其內容整合了英語 P3 資料集、四個新的英語任務（如翻譯、程式合成）和 30 個多語言自然語言處理資料集，為跨語言 RLHF 最佳化提供了全面的資源。
SHP：SHP [460] 包含了 349,000 個人類偏好註釋，涉及 18 個主題領域的提問和指令的響應評估，用於訓練 RLHF 獎勵模型並評估自然語言生成（NLG）的質量，其獨特之處在於完全依賴於人類編寫的註釋，使其區別於 HH-RLHF 等混合資料集。

這些資料集透過提供多樣化的、人類標註的評估，增強了 RLHF，精煉了模型與使用者偏好的對齊。OpenAI 總結 [458] 和 WebGPT [461] 提供了結構化的、基於比較的反饋和李克特量表評分，有助於更緊密地將模型輸出與人類期望對齊。HH-RLHF [104] 進一步強化了這一框架，包括了對有用性和無害性的評估，為旨在確保安全和道德響應的模型奠定了堅實的基礎。同時，StackExchange [473] 貢獻了特定領域的使用者生成內容，豐富了訓練資料，特別有利於需要技術領域專業知識的模型。然而，這些資料集面臨諸如可擴充套件性、人類標註中的潛在偏差以及在其特定領域之外的有限適用性等挑戰。因此，儘管它們非常有價值，但可能需要補充更廣泛的資料集，以實現跨多樣化現實任務的全面模型對齊。

8.2 蒸餾資料集

蒸餾資料（distilled dataset）源自將龐大的原始資料集提煉成緊湊、最佳化的子集的複雜過程，這些子集保留了對大語言模型訓練至關重要的資訊，同時在保持效能的前提下提高了訓練效率並減少了計算需求。該方法生成的資料集通常在效能上能匹敵甚至超越未經過精煉的原始資料集，加速模型收斂並減少資源消耗，特別是在強化學習人類反饋（RLHF）階段。關鍵示例包括 ShareGPT [469] 和 HC3（人類-ChatGPT 對比語料庫）[467]，這些資料集透過將真實世界互動和比較見解提煉成有效的訓練訊號，成為廣泛採用的大語言模型微調資源。

ShareGPT： ShareGPT [469] 作為一個動態資料收集平臺，透過其 API 收集了約 90,000 次來自使用者與 ChatGPT 或 GPT-4 的真實互動對話。該資料集包含了真實的人類指令和查詢及其對應的 AI 回答，將自然對話模式濃縮成一個集中資源，使 RLHF 能夠以高相關性和高質量改進大語言模型的對話流暢性和上下文響應能力。
HC3： HC3 資料集 [467] 是專門設計用於對比 ChatGPT 生成的 AI 回答與人類撰寫的答案，包含跨開放性話題、金融、醫學、法律和心理學等領域的 161,000 個問題-回答對。這個精煉的語料庫有助於分析回答特徵和質量的差異，使研究人員能夠在 RLHF 過程中提升大語言模型輸出的真實性和領域特定準確性，同時突出人類與 AI 生成內容之間的區別。

8.3 合成數據集

合成數據（Synthetic Datasets）在大型語言模型（LLM）後訓練的SFT階段中構成了一種變革性的資產，透過AI模型生成，提供成本效益高、可擴充套件且保護隱私的人類標註資料集替代方案。透過自動化建立指令-響應對和對話，合成數據能夠生成廣泛的訓練語料庫，增強模型的適應性，Self-Instruct-52K [86]、Vicuna [465] 和Baize [478] 是廣泛用於提升LLM指令跟隨和對話生成能力的主要示例。

基於自我指令方法的資料集

使用自我指令方法的合成數據集從少量手工製作的種子示例開始，利用LLM生成大量指令跟隨資料，增強模型對多樣化指令的響應能力，例如Self-Instruct-52K、Alpaca和Magpie系列，這些資料集共同透過可擴充套件的自動化推進指令調優。

Self-Instruct-52K: Self-Instruct-52K [86] 為指令跟隨模型建立了基礎基準，使用多種提示模板從手工製作的種子生成52,000個示例，指導LLM，從而提高其解釋和執行特定任務指令的精確性和一致性。
Alpaca: Alpaca [464] 和Alpaca-GPT4 [18] 分別使用GPT-3和GPT-4將初始175個種子對擴充套件為52,000個高質量的指令-響應對，提高指令跟隨能力，而InstInWild [477] 將這種方法應用於多語言環境，生成英語和中文資料集，以增強跨語言適應性。
Magpie 資料集: Magpie資料集 [481] 利用對齊的LLM從預定義的模板生成指令-響應對，產生專門的系列，如Magpie Reasoning V2（強調鏈式思維推理）、Magpie Llama-3和Qwen-2系列（針對流行模型定製）、Magpie Gemma-2（適用於Gemma架構）以及結合偏好最佳化訊號的變體如Magpie-Air-DPO，這些資料集共同增強了SFT和指令調優在對話和推理任務中的應用。

除了這些資料集之外，如Unnatural Instructions [97]（240,000個示例）、Evol-Instruct [470]（透過迭代複雜度增強生成70,000至143,000個改進條目）和Belle [471]（從ChatGPT生成500,000至1,100,000箇中文對話）顯著擴大了指令生成規模，儘管在質量保證、複雜度校準和偏見緩解方面仍存在挑戰，需要持續改進以確保在複雜應用中的可靠性。

基於自我對話方法的資料集

自我對話資料集採用一種技術，使模型內部或與同伴模擬多輪對話，增強對話生成能力並解決現有語料庫的不足，Baize、UltraChat和OpenHermes透過自動互動策略展示了這一方法。

Baize: Baize [478] 利用ChatGPT的自我對話技術生成653,000個多輪對話，整合來自Quora、Stack Overflow和Alpaca的種子資料，豐富指令跟隨質量，從而最佳化LLM的對話連貫性和任務遵循性，用於SFT。
UltraChat: UltraChat [476] 使用多個ChatGPT API生成超過1200萬條高質量的對話記錄，涵蓋各種主題，克服了多輪資料集中常見的低質量和不準確註釋問題，為對話增強提供了強大的SFT資源。
OpenHermes: OpenHermes由Teknium開發，包括OpenHermes-1 [474]（243,000條記錄）及其擴充套件後續版本OpenHermes-2.5 [475]（100萬條記錄），提供高質量的SFT資料集，增加了數量和多樣性，涵蓋廣泛的主題和任務型別，增強對話和指令跟隨能力。

這些自我對話資料集使模型透過自我互動構建多輪對話，如Baize使用具有多樣種子的ChatGPT和UltraChat透過API驅動的廣泛對話，顯著提高了對話質量和填補了訓練資料可用性的關鍵空白。

基於真實使用者互動的資料集

基於真實使用者互動的資料集利用與LLM的真實對話交流，捕捉多樣且真實的輸入，增強模型處理現實場景的能力，Vicuna、WildChat和GenQA是這一方法的關鍵示例。

Vicuna: Vicuna [465] 在ShareGPT的公共API上約70,000次使用者共享的對話上進行微調，透過將HTML轉換為Markdown、過濾低質量樣本和分割長對話以適應模型上下文長度，確保高質量的SFT資料，用於現實互動建模。
WildChat: WildChat [479] 包含100萬次真實世界使用者與ChatGPT的多語言和多種提示型別的互動，包括獨特的交換如模糊請求和程式碼切換，既作為SFT資源又作為分析使用者行為的工具。
GenQA: GenQA [480] 提供一個超過1000萬個清理和過濾的指令樣本的龐大SFT資料集，完全由LLM生成，無需人工輸入或複雜管道，補充現有語料庫，透過快速生成合成資料來解決覆蓋缺口。

合成數據在成本、可擴充套件性和隱私方面的優勢受到與人類標註資料相比深度和真實性潛在不足的限制，存在偏差傳播和過度簡化的風險。依賴AI生成的內容可能延續模型固有的錯誤，強調了整合合成數據和人類生成資料以增強LLM魯棒性和在不同情境下適用性的必要性。

應用

儘管預訓練賦予了大型語言模型（LLMs）強大的基礎能力，但在特定領域部署時，這些模型仍經常面臨持續的限制，包括上下文長度受限、傾向產生幻覺、推理能力欠佳以及固有的偏見。這些不足在實際應用中顯得尤為重要，因為精確性、可靠性和倫理一致性是至關重要的。這些挑戰引發了根本性的疑問：（1）如何系統地提升 LLM 的效能以滿足特定領域的需求？（2）哪些策略可以有效緩解應用環境中固有的實際障礙？後訓練作為關鍵解決方案，透過最佳化 LLM 對特定領域術語和推理模式的識別，增強其適應性，同時保留其廣泛的綜合能力。本章闡述了後訓練 LLM 在專業、技術和互動領域的變革性應用，闡明瞭定製化後訓練方法如何應對這些挑戰並提升模型在不同背景下的實用性。

9.1 專業領域

法律助理

法律領域是利用後訓練賦予大語言模型（LLMs）專門知識的一個引人注目的領域，使它們能夠駕馭複雜的法律知識並應對法學中固有的多方面挑戰。越來越多的研究[485, 486, 487]探討了這一領域中LLMs的應用，涵蓋了法律問答[488, 489]、判決預測[490, 491]、文件摘要[492, 493]以及檢索增強和司法推理等更廣泛的任務[494, 495, 496]。以LawGPT[497]和Lawyer-LLaMA[498]為代表的後訓練法律助手展示了顯著的熟練度，不僅在各種法律事務中提供可靠的指導，還在專業資格考試中取得成功，這證明了其先進的解釋和分析能力。多語言支援，如LexiLaw[499]和SAUL[500]等模型，擴充套件了這種實用性的語言範圍，包括英語和中文，從而擴大了可訪問性。這些進展的核心是在精選的法律語料庫上進行後訓練，例如ChatLaw[501]，它將廣泛的法律文字整合到對話資料集中，使模型能夠精煉其推理能力和術語識別能力。

醫療保健和醫學

後訓練顯著提升了LLMs在醫療保健和醫學應用中的效能，透過特定領域的資料精確地滿足臨床和學術需求。在臨床環境中，LLMs促進了藥物發現[502]、藥物協同預測[503]和催化劑設計[504]、診斷支援、病歷生成和患者互動等任務；在學術界，它們在醫療報告合成[505]和問答[506]中表現出色，這得益於定製後訓練帶來的效能提升。例如，基於50萬條醫療諮詢記錄訓練的ChatMed[507]展示了增強的診斷和諮詢服務準確性；而PULSE[508]則透過400萬條涵蓋中文醫療和通用領域的指令進行了微調，展示了卓越的多工能力。這些模型透過利用後訓練適應嵌入細緻的醫學知識，超越了通用模型的表現，突顯了定製資料集在實現實際效用中的不可或缺性。這些進展不僅提高了特定任務的結果，還為將LLMs整合到醫療工作流程中鋪平了道路，在這些工作中，精度和上下文相關性是不可妥協的，突顯了後訓練對現實世界醫療應用的變革影響。

金融和經濟學

在金融和經濟學領域，LLMs在情感分析[509]、資訊提取[510]和問答[511]等任務中展現出巨大的潛力，後訓練透過特定領域的改進增強了其有效性。儘管通用LLMs提供了堅實的基礎，但像FinGPT[512]和DISC-FinLLM[513]這樣的專用模型在經過金融語料庫的後訓練後表現出顯著的改進，擅長需要細緻理解市場動態和術語的任務。同樣，XuanYuan[514]利用廣泛的金融資料集和先進的後訓練技術，提高了經濟建模和預測的準確性，超過了未調優的基準。這些發展展示了後訓練在適應LLMs以滿足金融應用複雜需求中的關鍵作用，其中精確解釋定量資料和定性見解至關重要，確保模型提供可靠且符合行業標準和期望的領域資訊輸出。

移動代理

大型多模態模型（LMMs）的發展推動了一個新興的代理研究領域，專注於基於LMM的圖形使用者介面（GUI）代理[515]。該領域旨在開發能夠在多種GUI環境中執行任務的AI助手，涵蓋網路介面[516, 517, 518, 519, 520]、個人計算平臺[521, 522, 523, 524, 525]和移動裝置[526, 527, 528, 529, 530]。在移動環境中，一個研究方向透過工具整合[526]和額外的探索階段[527, 528]來增強單個代理的感知和推理能力。最近的進展透過使用多代理系統進行決策和反思[531, 529]，顯示出巨大的潛力，從而提高了任務效率。特別是，Mobile Agent-E[532]引入了代理之間的分層結構，促進了穩健的長期規劃，並提高了低階動作的精度。這些發展突顯了多模態後訓練策略在培養適應性強、高效的複雜移動環境代理中的變革作用。

9.2 技術和邏輯推理

數學推理

大語言模型（LLM）在數學推理方面展現出顯著潛力，涵蓋代數操作、微積分和統計分析。通過後訓練，這些模型能夠彌合計算能力和人類水平之間的差距。GPT-4 [9] 在標準化數學測試中取得了高分，這歸功於其多樣化的預訓練語料庫，但後訓練進一步提升了這一能力。例如，Deep Seek Math [64] 利用專門的數學資料集和技術，如監督微調（Supervised Fine-Tuning, SFT）和組相對策略最佳化（Group Relative Policy Optimization, GRPO）[64]，以提高其推理精度，透過結構化的思維鏈（Chain of Thought, CoT）解決複雜問題。OpenAI 的 o1 [41] 透過強化學習（Reinforcement Learning, RL）進一步推進了這一領域，逐步最佳化推理策略，以在多步驟推導和證明中實現卓越效能。這種通過後訓練的持續改進不僅提高了準確性，還使 LLM 的輸出與嚴格的數學邏輯對齊，使其成為教育和研究領域中不可或缺的工具，特別是在需要高階推理的場景中。

程式碼生成

後訓練徹底改變了程式碼生成，使 LLM 能夠在自動化編碼、除錯和文件生成方面表現出色，從而變革了軟體開發工作流程。Codex [533] 基於龐大的多樣化程式碼庫進行訓練，支援 GitHub Copilot * ，提供即時編碼輔助，準確率極高。專門的模型如 Code Llama [384] 進一步提升了這一能力，透過針對程式設計特定資料集的後訓練，幫助開發者跨語言和框架進行開發。OpenAI 的 o1 [41] 將其數學推理能力擴充套件到程式碼生成，生成高質量且上下文感知的程式碼片段，與人類輸出相當。當前的研究重點是增強個性化、深化上下文理解，並嵌入倫理保障措施，以減輕程式碼濫用等風險，確保 LLM 在技術領域內最大化生產力的同時，遵循負責任的開發原則。

9.3 理解和互動

推薦系統

大型語言模型（LLMs）作為變革者出現在推薦系統中，透過分析使用者互動、產品描述和評論，以前所未有的細緻程度提供個性化建議 [534, 535, 536]。後訓練增強了它們整合情感分析的能力，使內容和情感細微差別的理解更加細膩，這一點在 GPT4 [9] 和專門系統如 LLaRA [537] 和 AgentRec [538] 中得到了證明。亞馬遜和淘寶等電子商務巨頭利用這些能力處理評論情感、搜尋查詢和購買歷史，最佳化客戶偏好模型並高精度地預測興趣 [535]。除了對專案進行排名，後訓練的 LLM 還參與對話推薦、規劃和內容生成，透過提供動態、上下文敏感的互動來適應不斷變化的偏好，從而提升使用者體驗，這證明了後訓練在連線資料分析與實際應用中的作用。

語音對話

後訓練的 LLM 重新定義了語音處理，將識別、合成和翻譯推進到自然度和準確性的新高度 [539]。這些模型處理諸如文字轉語音 [540]、文字轉音訊生成 [541] 和語音識別 [542] 等任務，支援了亞馬遜的 Alexa、蘋果的 Siri 和阿里巴巴的天貓精靈等普遍工具。Whisper [543] 以其高保真轉錄展示了這一進步，而 GPT-4o [78] 引入了即時語音互動，無縫融合多模態輸入。未來的發展方向包括多語言翻譯和個人化語音合成，其中後訓練使 LLM 能夠打破語言障礙並根據個人使用者檔案定製響應，增強全球背景下人機互動的可訪問性和參與度。

影片理解

LLM 在影片理解領域的擴充套件標誌著一個重要的前沿，後訓練使像 Video-LLaMA [341] 這樣的模型能夠執行字幕生成、總結和內容分析，簡化多媒體創作和理解。Sora [544] 進一步革新了這一領域，透過文字提示生成複雜影片，降低了技術門檻並促進了創新故事講述，使內容生產更加民主化。這些進展利用後訓練使 LLM 適應視覺-時間資料，提高了其解釋深度和在教育到娛樂等各種應用中的實用性。然而，它們也帶來了計算可擴充套件性、隱私保護和倫理治理方面的挑戰，尤其是在生成內容的濫用問題上。隨著後訓練方法的演變，解決這些問題將是確保影片相關應用可持續、負責任部署的關鍵，平衡創新與社會考慮。

開放問題和未來方向

在本節中，我們批判性地評估了大型語言模型（LLMs）後訓練方法中存在的未解決挑戰和未來的發展軌跡，將分析置於由OpenAI的o1 [41] 和DeepSeek-R1 [28] 的釋出所帶來的變革性進展的背景下。這些模型透過大規模強化學習（RL）重新定義了推理基準，但它們的出現也加劇了對後訓練技術中持續存在的限制進行解決的緊迫性。以下小節詳細闡述了六個關鍵的開放問題，每個問題都突顯了其對領域進展的重要性和迫切需要解決的問題，並提出了推動未來研究和確保LLM在各種應用中負責任發展的可行策略。

推理能力超越大規模RL

o1和DeepSeek-R1的引入標誌著LLM推理能力的正規化轉變，利用瞭如RLHF和Group Relative Policy Optimization (GRPO)等廣泛的RL框架，在多步問題解決（如數學證明和邏輯推導）中實現了前所未有的準確性。然而，依賴二元獎勵訊號和大量人工反饋暴露了一個關鍵限制：它們無法在複雜的開放式任務中有效泛化，例如科學假設生成或動態環境中的戰略決策。這一差距亟待解決，因為對LLM在現實世界情境中模擬人類推理的需求日益增長，其重要性在於解鎖其作為自主智慧代理的潛力，超越當前的基準。當前的RL方法在獎勵稀疏性和缺乏適應任務複雜性的能力方面存在困難，需要創新框架。可行的解決方案包括開發多目標RL系統，整合自監督一致性檢查（例如，驗證推理步驟之間的邏輯連貫性）和領域特定先驗知識，如數學公理或科學原理，以在無需詳盡的人工註釋的情況下指導推理 [545, 546]。這些進展可以減少對昂貴反饋迴圈的依賴，增強可擴充套件性，並使LLM能夠應對未知的推理領域，這一前景由DeepSeek-R1的冷啟動RL創新得以實現。

下一代LLM的後訓練可擴充套件性

隨著LLM規模和複雜性的增加，以下一代模型的引數密集型架構為例，後訓練的可擴充套件性成為了一個嚴峻而緊迫的挑戰。基於RL的方法的資源密集性，如DeepSeek-R1的冷啟動方法需要大量的計算基礎設施，這限制了其對資金充足的實體的可訪問性，並引發了顯著的可持續性問題，特別是在多模態應用（如影片分析）和即時系統（如對話代理）中。這個問題至關重要，因為它威脅到資源豐富和資源受限的研究社群之間的差距擴大，阻礙了LLM發展的公平進步。雖然引數高效微調（PEFT）[92] 減輕了一些開銷，但其效能在大規模資料集上往往會下降，突顯了對可擴充套件替代方案的需求。可行的未來方向 [547, 548, 549] 包括設計輕量級RL演算法——可能透過調整GRPO以減少記憶體佔用——聯邦後訓練框架，將計算負載分佈在去中心化的網路中，以及先進的蒸餾技術，保留推理和適應性的同時最小化資源需求。如果這些解決方案得以實現，將有助於民主化後訓練，與領域內對可持續和包容性創新的迫切需求相一致。

基於RL的模型的倫理對齊和偏見緩解

透過RL進行後訓練，如o1的謹慎對齊策略所展示的，放大了倫理風險，可能會強化嵌入在訓練資料集（如HH-RLHF [104] 或合成語料庫）中的偏見。鑑於LLM在敏感領域（如醫療診斷和司法決策）中的部署，這是一個極其緊迫的挑戰。倫理對齊的動態變化——在一種文化背景下被認為是公平的，在另一種文化背景下可能構成偏見——是實現普遍可信的LLM的重大障礙，這使得確保公平和安全的AI系統變得至關重要。當前的方法存在過度審查的風險，損害實用性（例如，抑制創造性輸出），或糾正不足，延續有害的偏見（例如，種族或性別差異）。解決這一問題需要開發公平意識的RL目標，納入多利益相關者的偏好模型（例如，聚合多樣化的人類判斷）和對抗性去偏技術，以在訓練過程中中和資料集偏見。這些方法的可行性 [550] 得到了最近解釋工具和多目標最佳化進展的支援，能夠在倫理穩健性和實際功能之間實現平衡，這是由o1在現實世界部署挑戰中強調的必要性。

無縫多模態整合以實現整體推理

向多模態LLM的軌跡，預示著o1的推理增強和GPT-4o的綜合能力 [78]，突顯了對後訓練方法的迫切需求，這些方法能夠無縫整合文字、影像、音訊和其他資料型別，以實現整體推理——這對於即時影片分析、增強現實和跨模態科學研究等應用至關重要。當前的方法在實現穩健的跨模態對齊方面失敗，主要是由於資料異質性和全面多模態訓練語料庫的稀缺，限制了LLM在不同輸入之間協同推理的能力。這一挑戰的重要性在於其潛在的變革應用，但在沒有可擴充套件框架的情況下，其解決仍然難以捉摸。DeepSeek-R1的冷啟動RL提供了一個有希望的起點，表明統一的模態編碼器（例如，能夠將異構資料編碼到共享的潛在空間中）和動態RL策略，能夠自適應地加權模態貢獻，可以彌合這一差距。未來的研究應優先建立多模態基準和合成資料集，建立在Magpie [481] 等努力的基礎上，以推動進展，鑑於最近在多模態預訓練和RL最佳化方面的進展，這是一個可行的努力。

上下文適應的信任框架

後訓練LLM的信任度越來越被視為一個動態的、上下文依賴的屬性，而不是靜態的質量，這一點在o1在教育等敏感領域謹慎的輸出與其在創意任務中更自由的響應之間的對比中得到了證明。這種變異性——在安全要求（例如，避免教育設定中的錯誤資訊）可能與實用需求（例如，促進寫作中的創造力）衝突的情況下——是一個緊迫的挑戰，鑑於其對使用者信任和LLM在各種現實場景中適用性的關鍵重要性。當前的後訓練方法往往過於重視安全，導致實用性的折衷，從而降低實際價值，或者未能適應特定上下文的需求，削弱可靠性。解決這一問題需要上下文敏感的RL模型，能夠動態調整安全與實用性的權衡，利用即時使用者反饋和可解釋的安全指標（例如，生成輸出的透明度分數）來確保適應性。這種方法的可行性 [551] 得到了自適應學習系統和即時監控進展的支援，提供了一條在信任度與功能性之間取得平衡的路徑，這是隨著o1等LLM擴充套件到高風險應用而迫切需要的。

後訓練創新的可訪問性和民主化

先進後訓練方法的計算強度，以DeepSeek-R1的RL驅動方法為代表，將其應用限制在資源豐富的實體中，成為一個阻礙可訪問性的緊迫障礙，抑制了小型研究社群和行業部門內的創新（即，對於促進AI領域的公平進步而言，這是一個極其重要的問題）。這種排他性不僅限制了貢獻的多樣性，還阻礙了領域應對全球挑戰的合作能力。民主化這些創新需要開發高效的開源工具和框架，降低進入門檻而不犧牲質量，這一目標透過可擴充套件的PEFT適應RL [92]、協作平臺共享後訓練模型（例如，Hugging Face樞紐）和類似於Magpie [481]的簡化合成資料生成管道得以實現。未來的工作應專注於最佳化這些解決方案，以實現廣泛採用，確保後訓練的變革潛力——由o1和DeepSeek-R1所體現——超越精英機構，豐富更廣泛的AI生態系統。

創造性智慧與系統2思維

將創造性智慧融入系統2推理代表了LLM演進的一個新興前沿，如 [552] 所強調的。儘管像OpenAI的o1和DeepSeek的R1這樣的推理LLM在刻意、逐步的邏輯分析中表現出色——模仿系統2思維——它們在創造性智慧方面的能力仍處於探索階段，創造性智慧涉及生成新想法、綜合不同概念和靈活應對非結構化問題。這一差距至關重要，因為創造性智慧支撐了藝術創作、科學發現和戰略創新等領域中的人類問題解決，這些領域中僅靠僵化的邏輯框架是不夠的。這一挑戰的緊迫性在於其潛力，可以將LLM從分析工具提升為自主創造代理，這是向通用人工智慧（AGI）邁出的變革性一步。下面，我們概述了這一開放問題，並提出了未來的方向，借鑑了調查的見解。

總結

本文首次全面綜述了後訓練語言模型(Post-training Language Models, PoLMs)，系統地追溯了從2018年ChatGPT的對齊起源到2025年DeepSeek-R1的推理里程碑的軌跡，並肯定了它們在推理精度、領域適應性和倫理完整性方面的變革性影響。我們評估了一系列廣泛的技術（即微調(Fine-tuning)、對齊(Alignment)、推理(Reasoning)、效率(Efficiency)和整合與適應(Integration and Adaptation)），綜合了這些技術在專業、技術和互動領域（從法律分析到多模態理解）的貢獻。我們的分析強調，PoLMs顯著提升了大語言模型(LLMs)的能力，從最初的對齊創新演變為複雜的推理框架；然而，它也揭示了持續存在的挑戰，包括偏見持續存在、計算可擴充套件性和情境變數的倫理對齊問題。這些發現被納入一個新穎的分類體系中，強調了將推理進展與效率和倫理要求相結合的綜合性方法的必要性。我們得出結論，實現LLMs作為可靠、負責任工具在各種應用中的潛力，需要持續的跨學科合作、嚴格的方法論評估以及適應性和可擴充套件框架的開發。作為此類研究的開創性綜述，本工作整合了近年來PoLMs的進步，奠定了堅實的知識基礎，激勵未來的研究培養能夠靈活結合精度、倫理穩健性和多功能性的LLMs，以滿足科學和社會背景不斷變化的需求。

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

摘要

預訓練

後訓練