MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 知乎

作者 | gwave

2025 年，“智慧體”（Agent）概念大熱，幾乎每家公司都在宣稱自己在做“智慧體”，許多大語言模型（LLM）也被 Prompt 包裝成所謂的“智慧體”，幾乎所有的助理類功能都“泛化”成智慧體了。

然而，真正意義上的Agent，早在強化學習（Reinforcement Learning）領域中，已存在了三十餘年，紮根於嚴謹的理論體系。從條件反射到類腦智慧，從神經連線的強化到LLM，人類對“學習”的理解早已超越了簡單的獎懲機制，並取得了耀眼的成果——從擊敗李世石的 AlphaGo，到拿下奧賽金牌的 AlphaEvolve。

強化學習，作為連線神經科學與人工智慧的橋樑，正沿著這條認知之路不斷推進，成為通往通用人工智慧（AGI）的關鍵路徑之一。本文旨在梳理RL的前世今生，讓您一文理解RL的核心概念和它們之間的關係及發展脈絡。

AlphaEvolve解決了56年懸而未決的問題，將某矩陣乘法問題（Strassen’s）的次數從49次減少到48次，這意味大量的能源將被節約https://devproai.com.au/2025/05/17/crikey-googles-new-ai-just-solved-a-56-year-old-problem-what-alphaevolve-means-for-your-business-and-humanity/

導語：為什麼要談“RL的十層境界”？

今天的人工智慧，早已不是當年只能執行規則的自動機。它擁有了“感知”、“計劃”、“探索”、“協作”甚至“推理”的能力——這些能力背後，都指向同一個核心問題：

智慧體（Agent）如何透過與環境的互動，不斷學習並最佳化自己的行為策略？

這正是強化學習（Reinforcement Learning, RL）所關注的核心命題。但 RL 並非憑空誕生，它的思想根基深植於行為心理學、神經科學與控制論的沃土之中：從巴甫洛夫的狗與 Hebb 的突觸可塑性法則，到桑代克的貓、斯金納箱中的老鼠等行為主義實驗，再到當代的多智慧體系統（Multi-Agent RL, MARL）與大語言模型（LLMs）。強化學習，是這條從生物智慧延伸至人工智慧的進化主線上的演算法結晶。

進入 21 世紀，RL 從早期的單體智慧體決策模型，拓展到多智慧體互動與博弈，並正邁向以語言驅動策略生成、認知對齊的新正規化。它一方面試圖擺脫對大規模監督資料的依賴，轉向經驗驅動的學習（Sutton），另一方面結合世界模型的構建（LeCun），朝向更具因果性與抽象性的智慧體發展。強化學習，正逐步成為連線神經科學原理與現代 AI 決策系統的橋樑。

強化學習的方法通常分為兩大“門派”：基於價值的方法（Value-based）與基於策略的方法（Policy-based）。經典教材通常從值函式、貝爾曼方程等數學推導起步，這雖然嚴謹且按歷史軌跡，但離當下的前沿實踐仍有距離，複雜的數學公式也容易勸退不少讀者。

因此，本文嘗試走一條不一樣的路徑。你將看到兩點特別之處：

1. 從歷史與概念的雙重視角，為你講述“強化學習的十重境界”。每一層，都是一次認知的飛躍。你可以選擇任何一層暫做停留，也可一路探索直至終點。
2. 先講策略方法（Policy-based），再講價值方法（Value-based）。我們將從現代強化學習實踐中更常用、更實用、更新穎的策略方法講起，隨後再回溯價值方法的基礎原理。這就像線性代數教材中將“行列式”一章安排在後面——幫助你先掌握“可操作的技能”，再理解其數學根基。透過對 RL 入門內容的重新排序，我們希望讓已有機器學習基礎（假設你瞭解梯度下降和大一微積分）的你，閱讀體驗更加自然順暢。

第一部分：行為心理學的引子

第1層：巴甫洛夫的狗 + Hebb 學習法則 —— 環境訊號與神經連線（爬行腦）

1.1 從鈴聲到流口水：條件反射

如果要追溯人類對“學習”這個行為的最早科學理解，伊萬·巴甫洛夫（Ivan Pavlov)的狗無疑是一個起點。在19世紀末到20世紀初，巴甫洛夫的實驗揭示了一個驚人的現象：狗在聽到鈴聲後，即使沒有看到食物，也會開始分泌唾液。起初，狗只會對食物產生唾液反應（這是一種天然的無條件反射），但當鈴聲與食物反覆配對後，鈴聲本身就成為了觸發唾液分泌的“訊號”。這種新形成的刺激—反應關聯，被稱為條件反射（Conditioned Reflex）。

在這個層面，智慧體的學習表現為對環境中某些訊號的響應習得，是一種典型的被動學習機制。

https://sites.psu.edu/siowfa16/2016/12/02/classical-conditioning/

1.2 Hebbian 法則：神經元之間的“聯絡加強”

1949年，加拿大心理學家Donald Hebb在其著作《行為的組織》中提出了一個生理學假設：

“Neurons that fire together, wire together.”—— 同時啟用的神經元，其連線將被加強。

這個後來被稱為Hebbian 學習法則的理論，描述了一種基於時間關聯的突觸可塑性。簡單說，如果在一段時間裡神經元A經常啟用神經元B，那麼它們之間的突觸連線會變得更強，從而在未來更容易一起啟用。Hebb 理論的核心在於：“學習=連線權重的變化”。

這不僅為巴甫洛夫的行為實驗提供了神經層面的解釋，也成為後來的神經網路、感知機（Perceptron）和突觸權重更新機制的生物啟發源泉。這可以說是今天如火如荼的深度學習的起源。

1.3 在強化學習中的對應

雖然強化學習（RL）最常與獎勵、策略、值函式等數學概念相關聯，但它的深層根基，正是來源於上述兩種早期認知機制：

• 巴甫洛夫的狗啟示我們，環境中的狀態可以預測未來的獎勵；
• Hebbian 學習啟示我們，大腦或網路可以透過“經驗”改變內部引數以適應這種預測。

在 RL 框架中：

• 狀態（如鈴聲）被編碼為輸入；
• 獎勵（如食物）是目標訊號；
• 模型會透過某種形式的權重更新（Hebb 或反向傳播）來調整狀態與獎勵之間的對映。

即便是在現代深度強化學習中，這一思想依然保留。例如，在深度強化學習DQN 中，神經網路透過梯度下降來更新引數，本質上也是 Hebbian 學習的計算機實現。

1.4 小結

這一階段的智慧體具備的能力非常有限：

• 感知輸入：能識別環境中的簡單訊號
• 獎勵關聯：狀態與獎勵之間的被動關聯學習，建立狀態與獎勵的靜態聯絡
• 這一階段智慧體不需要決策，僅僅透過環境訊號塑造行為反應，神經元連線強度會改變（權重更新）
• 是後續策略學習中價值函式構建的神經基礎
• 但智慧體沒有主動選擇的能力，也尚未形成主動行為策略。

https://www.structural-learning.com/post/ivan-pavlovs-theory

第2層：桑代克的貓與斯金納的老鼠 —— 主動行為與試錯探索（哺乳腦）

https://terriermandotcom.blogspot.com/2012/05/thorndikes-cat-box.html

2.1 桑代克的貓：嘗試—錯誤機制（Trial and Error）

20世紀初，美國心理學家愛德華·桑代克（Edward Thorndike）提出了“效果律（Law of Effect）”，他透過一系列著名的“貓逃出迷箱（Puzzle Box）”實驗發現：貓在被關進一個裝置中時，會不斷地抓撓、亂動，直到偶然觸碰開關而成功逃脫。多次重複之後，貓逃脫所需的時間明顯縮短，並越來越快速地做出“正確動作”。

這表明：

行為不是一次性學會的，而是在反覆嘗試錯誤的過程中，透過正向結果“篩選”出來的。

這種“Trial and Error（嘗試-錯誤）”學習機制，強調行為與後果之間的因果聯絡，是強化學習中最早出現的主動行為調整模式。智慧體不再只是被動響應，而是開始基於結果最佳化自己的行為。

2.2 斯金納的老鼠：行為塑造與強化機制

到了20世紀中葉，B.F. 斯金納（B.F. Skinner）在“操作性條件作用（Operant Conditioning）”理論中，進一步發展了行為主義。他設計了著名的“斯金納箱（Skinner Box）”：一個封閉的實驗裝置，老鼠被放置其中，環境中設定了一個可按壓的槓桿，按下後會觸發食物投放器。

最初，老鼠在箱中四處探索，偶然碰到槓桿得到食物獎勵。經過多次試驗後，它便會主動、有目的地按壓槓桿以獲取獎勵，這揭示了“行為的後果會影響未來的行為機率”這一核心規律，也就是強化學習中“行動—獎勵”的基本邏輯單元。

2.2.1 行為塑造（Shaping）：讓目標行為“逐步浮現”

真正體現斯金納理論深度的，是他提出的“行為塑造（Shaping）”策略。這個概念強調，複雜行為不應期待一次性學會，而應透過階段性地強化逐步接近目標的行為，讓智慧體沿著正確軌跡“攀升”。

在實驗中，這一過程通常如下：

• 第一階段：老鼠只要靠近槓桿，就給予食物獎勵；
• 第二階段：老鼠必須抬起前肢靠近槓桿，才能得到獎勵；
• 第三階段：只有當老鼠真正按下槓桿，才給予獎勵。

透過逐步強化更接近目標行為的動作，讓智慧體朝目標逐漸靠近。這種逐步引導式的策略，與今天深度強化學習中的稀疏獎勵（Sparse Reward）設計和探索—利用權衡（Exploration vs Exploitation）思想不謀而合。這種分層獎勵機制，使得智慧體在稀疏或難以探索的任務中也能逐漸學習複雜行為。這一思想後來被廣泛應用於Reward Shaping、Curriculum Learning（課程式學習），以及分層強化學習（Hierarchical RL）等現代方法中。

https://commercebizhub.com/learning-theories-in-organizational-behavior/

2.2.2 負強化（Negative Reward）：抑制不期望的行為

斯金納箱中還有另一個常見設定：雙按鈕機制。一個按鈕帶來獎勵，另一個按鈕觸發電擊、蜂鳴等不良刺激。

在這樣的實驗中，老鼠逐漸學會避開負面刺激源，這種基於“懲罰”訊號的學習過程被稱為負強化（Negative Reinforcement），或更廣義上的懲罰學習（Punishment Learning）。它不僅用於強化正確行為，也用於抑制錯誤策略，體現了“獎勵最大化 + 懲罰最小化”的聯合目標。

2.3 在強化學習中的對應

這一層級的智慧體學習方式，已從被動響應轉向主動試錯。其在強化學習中的對映：

• 試錯Trial & Error：Agent（老鼠/鴿子）會探索環境，嘗試不同動作（Action），並根據回報調整行為策略；
• 操作性條件作用（Operant Conditioning）[1]：對應現代 RL 中的“策略學習“（Policy Learning）思想，即透過試探行為與獎勵之間的關係，最佳化行為機率分佈；
• Shaping：透過設計階段性獎勵或分層任務，逐步引導學習過程，避免陷入稀疏獎勵困境。

經典的 REINFORCE 演算法就源自於這一思想：智慧體嘗試多種行為，根據行為帶來的回報大小，提升帶來好回報的動作機率。

2.4 小結

這一階段的智慧體，從被動反應者變成主動行為者，從“刺激—反應”走向“行為—結果“，已具有探索行為與行為後果評估的能力, 使智慧體首次具備了“主動探索—結果反饋—行為更新”的基本閉環，為強化學習提供了“試錯+反饋”這一最基本學習機制。在巴普洛夫的狗的環境感知、獎勵關聯的基礎上，開始輸出行為，並會根據獎勵結果強化某些行為（行為機率調整），實現的策略最佳化，具有初步的決策能力，但尚不具備精確策略建模能力。

本層代表了智慧體從“被動反射”邁向“主動行為”的關鍵一步，標誌著從神經反應走向決策策略的過渡。

第3層：托爾曼的迷宮老鼠與認知地圖 —— 探索行為與內在表徵的萌芽（大腦皮層）

在前兩個境界中，智慧體仍然是一個典型的“反應者”——它的行為完全依賴於當下的刺激和獎勵，沒有對未來的預期，也沒有對世界結構的理解。然而，到了第三境界，一位名叫愛德華·托爾曼（Edward Tolman 1886-1959）的美國心理學家，讓世界第一次見識到了“智慧體可以為將來而學習”。

托爾曼迷宮老鼠 https://pressbooks.online.ucf.edu/lumenpsychology/chapter/reading-cognition-and-latent-learning/

3.1 背離行為主義的“異類實驗”

在20世紀40年代，當斯金納的“操作性條件作用”理論大行其道之時，托爾曼卻提出了一個極具顛覆性的觀點：動物不是被動地對刺激作出反應，而是會主動形成對環境的“認知地圖”。托爾曼的經典實驗如下，他讓三組老鼠分別在迷宮中進行任務：

• 第一組：每次走到終點就獲得食物獎勵；
• 第二組：從不提供獎勵；
• 第三組：最初沒有獎勵，但在第11天開始提供獎勵。

實驗結果顯示：第三組老鼠在第11天開始獲得獎勵後，幾乎瞬間就達到了第一組的表現水平，甚至更快。這表明：老鼠在前10天雖然沒有外部獎勵，但它們並非“什麼也沒學到”——而是在無獎勵條件下主動探索並構建了環境的內部表示，一旦有了動機（獎勵），便迅速發揮出來。

3.2 從“Trial & Error”到“Latent Learning”

這項實驗挑戰了傳統行為主義的兩個核心假設：

• 1）學習必須有獎勵驅動；
• 2）學習是透過“嘗試—錯誤”逐步積累的。

托爾曼的研究表明：動物可以在沒有獎勵的情況下進行“潛在學習”（Latent Learning），並在之後的適當時機中將其釋放。這種能力的存在，預示著智慧體不再只是條件反射的集合，而是具備了一種更復雜的內在建模機制。這就是後人所稱的認知地圖（Cognitive Map）——對空間結構和環境狀態之間關係的內部建模。

3.3 在現代強化學習中的體現

托爾曼的觀點，在今天的強化學習系統中找到了多個重要對應：

• 模型建構（Model-Based RL）：智慧體不再只依賴“值函式”或“策略網路”來決定行動，而是顯式學習環境狀態轉移和獎勵模型，即“如果我這麼做，會發生什麼”，用數學公式表達就是兩個機率分佈：1）狀態轉移模型：，表示在當前狀態下采取動作後轉移到下一個狀態的機率；2）獎勵模型：，表示在狀態下采取動作後獲得獎勵的機率。
• 探索行為（Intrinsic Motivation）：鼓勵智慧體在沒有外部獎勵的情況下主動探索，比如透過獎勵“資訊增益”、“預測誤差”或“訪問新穎狀態”等內部激勵機制產生探索行為。最近一年RL領域出現了不少這個方向的文章。
• 表徵學習（Representation Learning）：透過神經網路自動提取狀態的低維嵌入表示，這可以被視為深度強化學習中的“認知地圖壓縮版本”。
• Zero-Shot / Few-Shot 遷移學習：一旦構建了認知地圖，智慧體就可以在新的任務或目標位置變化時迅速適應（類似迷宮終點變動後的重新路徑選擇）。

3.4 從“反應者”到“建模者”的飛躍

在前兩個境界中，智慧體仍然是一個典型的“反應者”——它的行為完全依賴於當下的刺激和獎勵，沒有對未來的預期，也沒有對世界結構的理解。然而，托爾曼的迷宮老鼠揭示了一個驚人的轉折：智慧體可以在沒有獎勵的情況下，自主探索環境，構建內在的“認知地圖”，並在未來使用這些地圖做出更高效的決策。

這種能力，標誌著智慧體從“刺激—反應”的生存機制，躍遷到了“建模—規劃”的認知機制。智慧，不再是被動地回應過去經驗，而是主動地預演未來可能的情境。托爾曼的實驗，為今天的“世界模型”（World Model）思想提供了最早的生物學雛形。這一思想如今被 Yann LeCun 等人視為邁向通用人工智慧（AGI）的核心路徑之一，也日益成為神經網路與強化學習研究的關鍵方向，可能也是通往AGI之路上的一塊重要基石。

3.5 從認知地圖到控制論：反饋與目標導向行為

托爾曼提出“認知地圖”的理念，打破了行為主義將動物視為“刺激-反應”機器的傳統，指出它們具備建立內部世界模型的能力。這一觀念也為後來的強化學習打下了基礎——智慧體不再僅靠外部獎懲塑造行為，而是可以預判環境變化、規劃未來路徑。這與20世紀40年代興起的控制論（Cybernetics）思想不謀而合。控制論由諾伯特·維納（Norbert Wiener）提出，強調透過反饋機制實現系統的自我調節與目標控制。在一個典型的控制系統中（如恆溫器、導彈制導），系統會感知自身狀態與目標之間的偏差，透過調整行為不斷接近目標，從而實現穩定控制。

https://www.mathworks.com/help/reinforcement-learning/ug/reinforcement-learning-for-control-systems-applications.html

這一理念正好對映到強化學習智慧體中：

• 當前狀態對應系統觀測；
• 策略對應控制器的調節機制；
• 價值函式或獎勵是衡量偏差的目標訊號；
• 行為 A的改變就是反饋控制的動作輸出。

在這個意義上，我們可以把現代強化學習看作是控制論在人工智慧領域的延伸：從動物行為的實驗室走向具備目標導向、自我調整能力的智慧體系統，而認知地圖、世界模型、Model-Based RL 正是這條路徑上的里程碑。

“控制的本質，是對未來的預測。” —— 諾伯特·維納

強化學習與控制論，雖然誕生於不同學科，但殊途同歸，都在試圖回答同一個問題：如何讓系統自主地行動，以實現長期目標。

P.S. 控制論是AI誕生的重要來源之一。

3.6 小結

至此，行為心理學的探索暫告一段落。我們從巴甫洛夫的狗，到斯金納的老鼠，再到托爾曼的迷宮，逐步見證了“學習”從被動反應到主動探索、再到建模預演的認知躍遷。它們不僅為強化學習打下了深刻的生物與心理學基礎，也揭示了智慧體從低階刺激反應到高階規劃推理的進化軌跡。

接下來，我們將正式進入“強化學習”的技術世界。但別擔心，這不是一本公式堆砌的教科書，我們不走尋常路。我們的目標，是把這些複雜的技術思想，講得儘量好懂、好用，特別是為新手讀者提供一條“認知友好”的學習路徑，把你一步步引向現代強化學習的核心地帶，甚至觸碰 AGI 的邊界。

請繫好安全帶，準備進入第二部分–RL基石篇章。

我們將從第四境界啟程：從直覺到策略，從試錯（Trial & Error）到策略梯度（Policy Gradient）。與絕大多數教材先講價值再講策略的經典書籍不同，這裡我們選擇直擊核心目標：如何直接最佳化策略本身，以最大化未來回報。

https://kitrum.com/blog/reinforcement-learning-for-business-real-life-examples/

第二部分：強化學習基石

第4層：基於策略的RL —— 從“試錯”到“期望提升”

在前三個境界中，智慧體的行為逐步進化：從條件反射式的被動響應（巴甫洛夫），到行為被獎勵塑造（斯金納），再到主動探索環境、形成認知地圖（托爾曼）。但這一切，仍然是經驗驅動下的“試錯學習”。智慧體或許知道“什麼行為有效”，卻並不理解如何系統地最佳化自己的行為策略。

而從本境界開始，真正的強化學習演算法首次登場 —— 一次意義深遠的正規化飛躍就此發生。我們為智慧體引入了可微分的目標函式（Objective Function），它就像一枚內在的指南針，指引行為的最佳化方向。策略不再依賴盲目的試錯，而是透過梯度上升，沿著最大化長期期望獎勵的方向不斷前進。這一機制，正是基於策略的方法（Policy-based Methods）的核心思想：從“憑經驗嘗試”走向“按目標最佳化”，從心理學啟發走入數學可導的演算法世界。

4.0 問題設定與與符號約定

強化學習（RL）描述的是一個智慧體（agent）在環境（environment）中透過與環境互動以最大化長期獎勵的問題。該問題通常被建模為一個馬爾可夫決策過程（Markov Decision Process, MDP），用一個五元組表示：，其中：

• ：狀態空間（State space），每個時刻的環境狀態記為；
• ：動作空間（Action space），智慧體在狀態下可選的動作為；
• ：狀態轉移機率（Transition function），表示在執行動作後從狀態轉移到下一個狀態的機率；
• ：獎勵函式（Reward function），表示在狀態下執行動作所獲得的即時獎勵；
• ：折扣因子（Discount factor），表示未來獎勵的衰減程度，越接近 1 越重視長期回報。

策略與回報

• 策略：智慧體的行為策略記作，表示在狀態下采取動作的機率。對於確定性策略，也可以寫作。
• Return：從某一時刻起始的總獎勵，記作：它是智慧體在某個軌跡上，未來獲得獎勵的總和(考慮折扣)。

4.1 策略是什麼？

所謂策略（Policy），就是智慧體在每一個狀態下采取某個動作的“傾向性”或“分佈”，通常記作：，這可以是一個確定性策略（Deterministic Policy），也可以是一個帶溫度（Softmax）的隨機策略（Stochastic Policy）。在這一境界，智慧體的目標不再是被動建模或形成價值判斷，而是直接對行為策略本身進行最佳化，使其在與環境互動中能獲得更高的長期獎勵。

https://gibberblot.github.io/rl-notes/single-agent/MDPs.html

4.2 從試錯到“期望提升”

相比早期的“盲目試錯”，這裡的學習過程更像是“透過反覆互動，試圖讓未來更好”。我們定義一個目標函式：

其中是策略的引數，是折扣因子，是在時刻的reward。該目標函式就是我們希望最大化的期望累積獎勵（Expected Return）。也可以加個負號，將最大化Return轉變了最小化損失，就可以採用熟悉的梯度下降方法來解了。目前我們還求（總回報）最大值，仍需採用梯度上升。

智慧體不再只通過“看看哪裡有獎勵”來調整行為，而是系統性地最佳化這個函式，使得策略引數逐漸趨向讓行為更優。這就是從“經驗主義試錯”進化到“梯度驅動最佳化”的躍遷。

引入策略函式：智慧體首次擁有了“行為藍圖”

在前兩個境界，智慧體主要透過試錯（Trial and Error）來學習——行為成功就加強連線或重複嘗試，失敗就避免。這雖然樸素有效，但缺乏一種明確的、可以系統最佳化的“行為表達形式”。

4.3 策略梯度（Policy Gradient）：策略最佳化的利劍

Policy Gradient 方法是基於策略最佳化的核心技術。它透過取樣狀態—動作軌跡，並根據獎勵反饋來估計目標函式對策略引數的梯度：

這一估計方法本質上使用了下面要介紹的 Monte Carlo 技術：透過取樣軌跡來近似目標函式的數學期望，類似於用樣本均值來估計總體均值，因為前者是後者的無偏估計。如希望瞭解具體公式推導，請見：

https://zhuanlan.zhihu.com/p/274906314

這個看似簡單的公式背後，是一個劃時代的思想：我們可以透過“梯度上升”來改進智慧體的行為傾向，使得它更有可能做出有利決策。這種方法最大的優勢是無需顯式建模環境，即使面對不可微分、不可逆或未知的環境動態，仍然可以進行策略改進。也不用計算各個狀態和動作的價值，就好像沒有地圖，也不耽誤我們爬山。

4.4 REINFORCE：策略梯度開山之作

1992 年，美國東北大學教授Ronald J. Williams (1945-2024) 提出了著名的 REINFORCE 演算法，它標誌著策略最佳化的正式誕生，他也是反向傳播的共同作者。這是第一種實現“策略梯度”（Policy Gradient）思想的強化學習方法，其核心思想非常直白卻極具啟發性：

直觀來說，這個公式的含義是：

如果某個行為最終帶來了高累積回報，那麼就提高採取這個行為的機率。在這個過程中，回報起到了一個權重的作用。它衡量了行為“值得被強化”的程度，也正體現了“強化學習”一詞的本質——強化好的行為，弱化壞的行為。

這像不像現實生活中“表現好就多獎勵”的原則？

REINFORCE 正是將這種“經驗塑造”轉化為了可微分的目標函式，使得智慧體可以直接對策略進行梯度更新，開啟了強化學習的“可最佳化時代”。REINFORCE 支援兩種策略表示方式：：

• 表格形式（Tabular）：適用於狀態和動作離散可列舉的簡單環境；
• 引數化形式（Parametric）：如透過神經網路建模策略，輸入狀態，輸出動作機率分佈。

本境界實現了從基於結果調整行為的“經驗反饋”，躍遷到透過策略函式事前預期的“行為傾向建模”。不同於以往依賴環境回報反覆修正行為的方式，基於策略的 Agent 可以在沒有顯式狀態值評估機制的前提下，直接學習“哪種行為在長期更可能帶來獎勵”。

這也意味著，我們終於可以擺脫那些“繁瑣又間接”的基於價值的方法，不再死守 Bellman 方程，不必反覆估計狀態值或動作值，“單刀直入”，直奔核心目標：最佳化行為策略本身。畢竟，智慧體的關鍵任務，不是先畫好一張地圖，而是儘快學會在複雜地形中活下來。

你可以把 Agent 想象成一位被空投到敵後、手上只有一把武器的特種兵——在沒有現成地圖的情況下，他仍然必須迅速判斷方向，佔領高地，達成目標。這時再回頭繪製環境模型，“遠水救不了近火”。

從心理學視角：這一階段的智慧體已經具備了“習得性、目標導向行為”的能力，不再只是應激反應，而是有內在行為偏好的決策者；

從機器學習角度：這是強化學習首次引入了梯度驅動的最佳化機制，也是向現代深度學習體系靠攏的起點。

4.5 減少方差的智慧：Baseline 技術的引入

儘管 REINFORCE 提供了一個簡單直接的策略最佳化路徑，但它也存在一個嚴重的問題：方差太大，學習不穩定。在 REINFORCE 中，軌跡的總回報 R 被用於“獎勵”或“懲罰”某個行為的 log-probability。但回報 R 本身波動極大，可能受到隨機事件的劇烈影響，從而導致策略更新方向劇烈擺動。你可以想象：同樣的行為，有時因為運氣好得分高、有時因為環境變化得分低，這種“情緒化”的反饋顯然不利於穩定學習。

為此，Baseline 技術應運而生。它的核心思想很簡單——減去一個“基線”值，使得更新方向只取決於“當前行為是否優於平均水平”。我們將策略梯度更新公式從：

變為：

其中就是 baseline，最常見的選擇是：該狀態下的平均回報，也就是下一境界要介紹值函式。此時被稱為優勢函式（Advantage Function），代表了“當前動作比平均水平到底好多少？”。引入 baseline 帶來了兩大好處：

• 減小方差：將策略更新集中在“真正優於平均水平”的行為上，提升學習穩定性。
• 保持無偏性：雖然減去了 baseline，但不會引入系統性偏差（因為 baseline 與行為無關，不影響期望）。

https://velog.io/@mmodestaa/HuggingFace-Deep-RL-Course-8.-Proximal-Policy-Optimization-PPO

正是這個小trick，使策略梯度方法從“概念驗證PoC”走向了“可實用系統”的關鍵一步。如今，幾乎所有主流策略梯度演算法（包括 A2C、PPO、TRPO 等）都引入了 baseline。

4.6 小結

在前三個境界中，智慧體的行為仍停留在基於經驗的被動反應與探索層面：它“知道什麼有效”，但並不“知道如何改進”。而第四境界帶來了正規化的躍遷——智慧體首次擁有了可微分的目標函式，可以透過梯度最佳化系統性地提升策略。REINFORCE 演算法揭開了策略梯度方法的序幕，讓智慧體從“反覆試錯”進化為“有方向地自我改進”。從此，學習不再只是結果的積累，更是學習過程本身的最佳化。

下一境界，我們將迎來值函式的登場，走進強化學習的另一核心思想——時序差分學習（TD Learning）。

第5層：TD 學習與 Bootstrapping —— 時間差分的悄然革命

在上一境界（第四層），我們初步實現了從試錯到策略最佳化的躍遷。策略梯度方法如 REINFORCE，確實開啟了用梯度最佳化策略的新時代，但它有一個顯著的缺點：它必須等到整條軌跡結束之後，才能計算累積回報，進而更新策略。然而，現實世界中的回報往往是延遲的，智慧體希望能在回合（episode）尚未結束時就儘早修正自己的行為傾向。甚至更理想的情況是：每一步都能更新一次策略（或者值函式）。這種“邊走邊學”的願望，正是時間差分學習（Temporal Difference Learning, TD）誕生的背景。

這就引出了一個類比：

• REINFORCE 的策略更新，就像 Batch Gradient Descent：只有在經歷完整軌跡後，才更新一次。不同點是：不同點是：因為未來回報的不確定性疊加，導致方差大，梯度估計波動性強，收斂效率較低。
• 而 TD Learning（特別是 TD(0)）則更像是 Stochastic Gradient Descent (SGD)：每走一步，就更新一步，誤差訊號快速傳播，效率更高。
• 更進一步，n-step TD 和 TD(λ) 則可以視作 Mini-batch Gradient Descent—— 在完整軌跡（Batch）與單步更新（SGD）之間，提供了一個可調節的折中方案，兼顧穩定性與響應速度。

正是由於 TD 學習能在不中斷任務的前提下，逐步修正估計，它成為現代強化學習中最具工程實用性的基礎技術之一，而且比策略梯度法更早被成功用於遊戲智慧體與機器人控制中。

於是，“及時學習”的需求催生了時間差分學習（Temporal Difference Learning, 簡稱 TD ——這是一場更貼近生命體認知節奏的革命。

5.1 未來的影子：從策略角度理解時間差分

REINFORCE 只能在軌跡終點總結“整場行動的得失”，再反向影響整條路徑，缺乏沿途的“早期訊號”。這就像一個士兵必須打完整場仗，回營後才能總結得失；而時間差分學習（TD Learning），則讓他可以邊打邊學，每走一步都獲得“即時反饋” —— 不再非得靠終點打分，而是讓每一步都蘊含對未來的預期。TD 學習帶來的思想轉變是：

“我不需要知道全部未來，我只需知道：下一步的大致方向。”

其中表示狀態的價值函式，作為 baseline 引入，用於降低策略梯度的方差而不引入偏差。基於此，Agent 不再依賴軌跡終點給出評價，而是在走的每一步中，就“感知下一步的未來”。

如果說 REINFORCE 是一種“經驗反饋”（retrospective）—— 只能在整條軌跡結束後，回顧性地調整策略；那麼 時間差分學習（TD Learning）則代表“預期引導”（prospective） —— 它利用對未來的估計，在當前就開始修正行為。這種方法 擺脫了對完整軌跡回報的依賴，轉而使用未來價值的預測（Bootstrapping）來引導當前更新。由此帶來兩大優勢：

• 更快的收斂速度，尤其是在訓練初期；
• 更穩定的更新過程，顯著減少方差；

這是一種真正意義上的“正規化變革”：智慧體從後驗總結經驗，進化為前瞻性地預估未來並調整行為，強化學習向更接近生命體認知節奏的方向邁進。

至於如何估計，涉及到Bellman方程，請參考下面連結，下面馬上也會介紹。

https://zhuanlan.zhihu.com/p/1923267407058830526

5.2 每步一調：最簡形式TD(0)

值函式的定義：值函式（Value Function）是強化學習中最核心的表徵之一。它回答了一個關鍵問題：

“如果我從某個狀態出發，遵循當前策略行動，未來預計能拿到多少回報？”

我們通常記作：

也就是說，值函式表示在當前策略下，從狀態出發，未來所能獲得的累計獎勵的期望值。它並不依賴未來真實發生了什麼——只要能預測預期的長期回報即可。這種對未來的“評估能力”就是強化學習中最關鍵的內部模型之一。

TD(0)是最簡單的時間差分估計（TD Learning)，智慧體在每一步都會更新其對當前狀態的值函式估計，更新公式為：

誤差

其中是學習係數。這背後的邏輯是：目標值不是完整的累計回報，而是當前獎勵加上下一狀態的估值，也就是上一節提到的的遞迴形式（貝爾曼方程有點嗯不住了，下個境界講）；

誤差項（TD Error）反映了“當前估計”和“從未來看回來”的差距；因為用的是自己的估計值，所以這類方法被稱為 Bootstrapping（自舉，是因為它們用自己的估計值來修正自身——就像“左腳踩右腳往上跳”，雖然聽起來有點悖論，但在數學上卻是完全可行的。它不依賴真實的完整回報，而是拿未來某個狀態的估值當作當前目標的一部分，以此逐步逼近真實的長期回報。

https://aarl-ieee-nitk.github.io/reinforcement-learning,/value-based-learning,/bootstrapped-learning,/sampled-learning/2019/12/19/Temporal-Difference-Learning.html

如果說TD(0) ≈ SGD：每走一步更新一步，噪聲大但更新快；REINFORCE ≈ Batch GD：全軌跡才更新一次，更新穩定但效率低；那有沒有折衷如mini-batch GD的TD呢？

5.3 n-step TD：mini-batch梯度下降式的預期更新

在 TD(0) 中，智慧體每走一步就用下一步的估值來更新當前狀態的估值，這種“邊走邊估”非常高效，卻往往受限於短視的反饋。而 REINFORCE 這類方法雖然考慮完整回報 R ，但每次更新都必須等待整個軌跡結束，樣本效率低，方差大。

有沒有一種方法能兼顧兩者？既不像 TD(0) 那樣“眼裡只有一步”，也不必像 REINFORCE 那樣“必須回顧全域性”？這正是 n-step TD 誕生的動機。我們可以推理，n-step TD 是：

“等步之後再更新估值，用這步內的真實獎勵，加上第步的預測，作為當前的目標”。

公式：

其中，前步是真實獎勵，最後一項是引導更新的未來估值，因此，這種形式也被稱作 n-step return。

5.4 Monte Carlo：等待終點的“整場總結”

在前幾小節中，我們介紹了 TD 學習如何“邊走邊學”，藉助對未來的預測（bootstrapping）實現更快速的學習。而與之形成鮮明對比的，是一種更“後驗”的方法——Monte Carlo 方法（MC）。其核心思想可以用一句話概括：

“不預判未來，只在全部經歷之後回顧總結。”

具體操作如下：

• 智慧體必須完整執行一條軌跡，直到整個episode 結束；
• 然後基於實際經歷，直接計算每個狀態或動作的真實回報：
• 再用這些“最終成績單”來更新策略或價值估計，不依賴任何對未來的預測。

這種方式就像一個士兵打完整場仗後回營覆盤：只有在戰爭塵埃落定後，才能回顧每一步的得失，反思哪些決策值得保留、哪些需要修正。簡單直觀，卻也帶來了明顯的缺點：必須等待整個 episode 結束才能得到反饋，學習節奏較慢，資料利用效率較低。

“Monte Carlo”一詞源於摩納哥的著名賭城，因其與隨機試驗和機率密切相關，在機器學習中常用來泛指一類透過隨機取樣進行估計的方法。

在上一境界中我們提到的 REINFORCE 方法，其實正是一種基於 Monte Carlo 的策略梯度演算法。它使用 episode 中取樣得到的總回報 R_t 來指導策略更新，不使用 bootstrapping，因此理論上無偏，但也面臨高方差和訓練不穩定的問題。

5.5 生物學意義

1997 年，劍橋大學神經科學教授Wolfram Schultz 等人的實驗發現：

靈長類動物中中腦多巴胺神經元的放電模式，與 TD 學習中的 prediction error 高度一致。

具體表現為：

• 意外獲得獎勵時（比預期更好） → 多巴胺釋放增加（正向 TD 誤差）；
• 獎勵如預期而至 → 多巴胺神經元沒有額外反應（TD 誤差接近 0）；
• 期待獎勵卻未獲得 → 多巴胺釋放減少（負向 TD 誤差）；

知足常樂，其實是一種對多巴胺系統的精準最佳化。你的快樂（多巴胺）並不來源於絕對的獎勵值，而是源於實際得到的獎勵與預期之間的差值。從強化學習的視角看，這正是所謂的“時間差分誤差”（TD error）：

多巴胺的釋放，正是對這個差值的響應(RPE)。如果你對未來的期望很低，即使獲得平凡的結果，也能帶來正向的驚喜，釋放更多多巴胺，讓你感到愉悅。反之，期望太高，即使結果不差，也可能因“低於預期”而失落。

所以真正的幸福，不在於你得到了什麼，而在於你得到了“超過預期的什麼”。這正是“知足常樂”的神經科學與計算認知基礎。

https://www.pnas.org/doi/10.1073/pnas.2316658121

第6層：基於價值的RL —— 從評估到決策的價值哲學

在前幾層境界中，我們見證了智慧體從條件反射的初級反應，進化為具備策略函式、能夠透過梯度最佳化實現“自我提升”的智慧體。然而，這些策略最佳化方法雖然高效，卻更像是“摸著石頭過河” —— 它們缺乏對環境結構的深入建模，也未構建出系統化的世界觀。

本層，我們引入強化學習領域的核心支柱之一：貝爾曼方程（Bellman Equation） —— 一個可遞迴、具備“預見未來”能力的結構化公式。與前述策略直接最佳化不同，貝爾曼方程的核心思想是：當前行為的好壞，取決於其對未來長期回報的影響。這意味著，智慧體不再只是“在當下做出合理選擇”，而是開始嘗試“在腦海中繪製未來的地圖”，以評估和規劃最優行為。

基於價值函式的方法，正是透過不斷逼近貝爾曼方程的解，來學習狀態或動作的長期價值（Value），進而引導策略更新。透過這種方式，智慧體不僅“知道當下該做什麼”，更“知道做了之後會發生什麼” —— 決策的基礎從即時反饋，躍升為預測驅動的價值評估。

儘管基於價值的方法源於上世紀 1950 年代的動態規劃理論，在馬爾可夫決策過程（MDP）等問題中取得了大量成功，因此在多數強化學習教材中（如 Sutton 等人的經典著作）被安排在第二章位置。然而，放眼當下，隨著深度強化學習與基於策略的無模型方法（Model-Free Policy Optimization）迅速發展，Value-based 方法的相對“價效比”正在下降。其在高維、複雜任務中的侷限性逐漸顯現，因此，將這一章節適當“後移”，以更貼合現代強化學習的學習路徑，也是一種更具邏輯性的安排。

https://link.springer.com/chapter/10.1007/978-981-19-0638-1_4

6.1 價值函式

在基於價值（Value-based）的方法中，核心思路不再是直接最佳化策略本身，而是先學會“評估”每個狀態或動作的價值。這種評估是透過期望累計回報來衡量的，通常分為兩種形式：

• 狀態值函式（State Value Function）：

表示從狀態出發，遵循策略所能獲得的期望總回報。

• 動作值函式（Action-Value Function）：

表示在狀態下采取動作，後續按照策略所能獲得的期望總回報。

在強化學習中，狀態（state）是智慧體對環境當前情境的感知。它可以是一個影像（如遊戲畫面中的一幀）、一個數字向量（如股票價格序列），或者一組感測器讀數。狀態決定了“此時此刻，環境是什麼樣的”。而動作（action）是智慧體在該狀態下可做的決策或選擇，例如“向左移動”、“購買一支股票”、“加速前進”等。每個動作都可能改變環境，從而進入新的狀態，並獲得一個即時獎勵。

6.2 貝爾曼方程

“貝爾曼方程”（Bellman Equation），又稱“動態規劃方程”（Dynamic Programming Equation），由理查德·貝爾曼（Richard Bellman）（1920-1984）於20世紀50年代提出，最初用於研究導彈控制中的最優決策問題。從歷史上看，貝爾曼方程的提出時間甚至早於1956年達特茅斯會議（人工智慧領域的公認起點），它是動態規劃（Dynamic Programming）這一數學最佳化方法能夠實現最優解的必要條件。該方程的核心思想是：

將某一時刻的決策問題的“最優值”，表示為當前選擇所帶來的即時收益，加上該選擇引匯出的子問題的最優值。

換言之，它將一個動態最佳化問題拆解為一系列更小、更易求解的子問題。這種分而治之的結構，被貝爾曼稱為“最優性原理”（Principle of Optimality），即：“一個最優策略的任一子策略，亦必然是該子問題的最優策略”。

https://data-science-blog.com/blog/2022/03/01/four-propositions-to-dynamic-dynamic-programming-dynamic-programming-and-the-bellman-equation-part-two/

貝爾曼方程最初廣泛應用於控制理論和應用數學等工程領域，隨後在經濟學中也發揮了深遠影響，成為動態最最佳化分析中的基礎工具。幾乎所有能夠藉助最優控制理論（Optimal Control Theory）求解的問題，也都可以透過構造並分析相應的貝爾曼方程來解決。

需要指出的是，“貝爾曼方程”通常特指離散時間（discrete-time）最佳化問題中的動態規劃方程。而在處理連續時間（continuous-time）最最佳化問題時，其對應形式則是一類偏微分方程，稱為漢密爾頓-雅可比-貝爾曼方程（Hamilton–Jacobi–Bellman Equation，簡稱 HJB 方程）。

HJB 方程是連續時間最優控制理論的核心工具，是貝爾曼原理在連續系統中的自然延伸。在強化學習中，貝爾曼方程是連線環境、策略與價值函式的橋樑，構成了值迭代（Value Iteration）、策略迭代（Policy Iteration）等一系列核心演算法的理論基礎，也為後續如 Q-learning、DQN 等方法的發展奠定了根基。

更詳細的內容，請見：

https://zhuanlan.zhihu.com/p/1923267407058830526

P.S. 搞機器學習的人，大多聽過“維度詛咒”（Curse of Dimensionality）這個詞吧，也是Richard Bellman最早提出(coined)的。他還是普林斯頓史上最快獲得博士學位的人（3個月完成學位，在服役之後）（二戰期間，他在Los Alamos的理論物理組工作）。

6.3 貝爾曼最優方程：理性行為的形式化表達

在前一節中，我們介紹了貝爾曼方程，它刻畫了給定策略下某狀態的期望價值。然而，強化學習的最終目標通常不是評估某個既定策略，而是找到最優策略，使得智慧體在任何狀態下都能獲得儘可能高的長期收益。拿地圖導航來舉例，地圖不僅要能計算出透過不同路線到達目的地的時間（貝爾曼方程），還要給出最短/最快路徑。

這時，貝爾曼最優方程（Bellman Optimality Equation，BOE）登場了。它不再是條件性的“根據某個策略”，而是直接刻畫了在所有策略中表現最優的那個策略的遞推關係，同樣分為狀態和動作兩個方程：

這裡的操作，標誌著“決策”的出現：它在所有可能的行動中，選擇能夠帶來最大長期價值的那一個。這是強化學習中最關鍵的一步躍遷：從“評估某種行為的價值”，進化為“選擇最優行為”。Q表示行動的質量(Quality)，後面要講的Q-Learning和DQN的Q都是這裡來的。

最優策略的定義

一旦得到了或，就可以使用貪婪策略（greedy policy）構造出最優策略：。這意味著，智慧體只要知道每個狀態-動作對的“最優值”，便能推匯出最優行為規則。與前面的策略評估不同，貝爾曼最優方程將“學習什麼”和“做什麼”緊密繫結在一起，成為理性決策的形式化表達。

一個隱含但深刻的哲學問題

貝爾曼最優方程其實也提出了一個“自洽性”的悖論問題：我們如何知道某個策略是最優的？答案是：我們並不知道，但我們可以構造出滿足自洽方程的最優值函式，然後從中匯出最優策略。換句話說，“先有價值，後有策略”，最優行為源於對未來價值的理解，而非經驗或模仿。

小結

貝爾曼最優方程不僅是強化學習中的核心公式，更是一種哲學宣言：

“真正的智慧，不應只是對當前情況的應激反應，而是基於對未來的預測來做出當下的最優選擇。”

它為後續一系列最優策略學習方法（如值迭代、策略迭代、Q-learning 等）提供了統一的數學基礎，也為通往 AGI 的道路，搭建了“理性決策”的橋樑。

https://zhuanlan.zhihu.com/p/1924409358093099292

6.4 策略迭代與值迭代：在期望與現實之間尋找平衡

在強化學習的價值哲學中，值函式（Value Function）是通向最優策略的核心中介。正如前文所述，貝爾曼方程為我們提供了一種將“未來期望回報”進行遞迴建模的方式，使得智慧體可以在不顯式建模環境的情況下，評估每個狀態-動作的長遠收益。而基於值函式的最優性演算法，正是試圖在不直接學習策略函式的前提下，透過逼近最優值函式來反推出最優策略。

本節我們將介紹三種基於貝爾曼思想的核心演算法：值迭代（Value Iteration）、策略迭代（Policy Iteration），以及二者之間折中（或者說是更General）的方案——截斷式策略迭代（Truncated Policy Iteration）。

6.4.1 值迭代

值迭代（Value Iteration， VI）是最早被提出的動態規劃演算法之一(Bellman 1957)，也被稱為 backward induction（反向歸納）。核心思想是：不顯式維護策略，而是將策略最佳化過程融合進值函式更新。

具體步驟：1）所有狀態價值初始化，通常都為0；2）每一步直接應用 Bellman 最優性方程：

透過不斷應用該更新操作，值函式逐步逼近 $v^*(s)4 ，下圖中可以看到值從終點（1.00）逐步傳播到全域性。

3）當值收斂後，透過以下公式直接提取最優策略：

Value Iteration與馬上要提到的策略迭代（6.4.2）相比，其方法可謂“激進直接”：它融合了策略評估與策略改進兩個步驟（見下小節6.4.2），由於每輪都面向最優動作更新，值迭代往往具備更快的收斂速度，適合在狀態空間有限、轉移機率已知的情境下使用，是眾多基於值的演算法（如 Q-learning、DQN 等）的理論起點。

相比於第 4 層中的策略梯度方法可能因梯度資訊區域性而陷入次優解，價值迭代（Value Iteration, VI）具備全域性性的更新特性。在每一輪迭代中，它會同時對所有狀態的價值函式進行更新，使得整個策略空間在全域性層面上趨向最優解。這種“同時掃過全部狀態空間”的更新機制，使其更容易跳出區域性最優。

但與此同時，這種全域性更新也帶來了更高的計算成本，尤其在狀態空間較大時，收斂速度較慢。此外，VI 中並不顯式儲存和更新策略，而是透過值函式間接推導，使得策略的演化過程難以追蹤。更重要的是，VI 將策略評估與策略改進融合在一步“貪婪最大化”中，缺乏可調的中間過程，不利於學習動態的控制與分析。

為了克服這些限制，一種更具可解釋性和調節性的迭代方法應運而生 —— 策略迭代（Policy Iteration, PI）。

6.4.2 策略迭代

https://levelup.gitconnected.com/fundamentals-of-reinforcement-learning-value-iteration-and-policy-iteration-with-tutorials-a7ad0049c84f

策略迭代（Policy Iteration, PI）是一種“雙迴圈”結構的求解方法，由斯坦福大學 Ronald Howard (1934-2024) 於 1960 年提出。其核心思想非常直觀：先評估當前策略的表現，再基於評估結果改進策略，迴圈往復直到收斂。這一過程可拆解為兩個階段：

• 策略評估（Policy Evaluation）對當前策略 \pi 固定不變，利用貝爾曼期望方程不斷迭代逼近其值函式

• 策略改進（Policy Improvement）基於當前值函式，更新策略使其在每個狀態下選擇最優動作：

上述兩個階段交替執行，直到策略不再改變，即達到了策略收斂。可以證明：策略迭代在有限狀態空間下總是收斂到最優策略。

在策略迭代（Policy Iteration）和值迭代（Value Iteration）之間，還有一種折衷方案，稱為：

6.4.3截斷式策略迭代（Truncated Policy Iteration）

截斷式策略迭代（Truncated Policy Iteration, TPI）是一種在策略迭代（Policy Iteration, PI）與價值迭代（Value Iteration, VI）之間折中權衡的中間路徑，在實際強化學習任務中被廣泛應用。換句話說，PI 與 VI 都可以被視為 TPI 的特例：當評估步數趨於無窮時，TPI 退化為標準的 PI；當評估步數為 1 時，則等價於 VI：

• k=1 時，TPI 就變成了 值迭代VI
• k→∞ 時，TPI 就退化為 策略迭代PI

在實際任務中，適度的 k 值（如 3~10）通常能顯著提升效率而幾乎不影響策略質量這種結構上的連續性，使三者關係類似於梯度下降中的 Batch Gradient Descent、Stochastic Gradient Descent 與 Mini-batch Gradient Descent；類似的還有上一層討論過的MC, n-step TD和TD(0)。

TPI 的核心思想是在每輪策略改進之前，僅進行有限步數的策略評估，從而在計算效率與策略收斂性之間取得良好平衡。它既繼承了 VI 的高效性，又保留了 PI 中對策略收斂的更強控制，是強化學習中一種兼具實用性與理論價值的方法。

TPI的基本步驟如下：

• 初始化策略 ，初始化值函式。
• 有限步策略評估（k-step Policy Evaluation）：對當前策略，進行次貝爾曼期望更新，得到近似值函式

• 策略改進（Policy Improvement）：使用近似值函式更新策略：

• 收斂判定：若策略發生的變化低於設定的閾值，或達到最大輪數，則停止；否則返回步驟 2。

TPI 不僅在理論上構建了 PI 與 VI 的連續譜，也啟發了現代 RL 中一系列有限更新 + 策略改進的近似方法，如：

• Generalized Policy Iteration（GPI）：一種理論框架或“正規化”，描述了強化學習中策略評估與策略改進交替進行的基本過程，無論評估精度如何（精確或近似），只要兩者交替進行，策略總會不斷改進並趨於最優，PI、VI、TPI、Q-learning、SARSA 等都屬於 GPI 範疇。
• 深度強化學習中的 DQN（Q-learning） 與 A3C 等 Actor-Critic 方法；TRPO / PPO 中以 trust region 或近端更新限制策略變動，也是一種“截斷改進”的思想延續。

小結：

TPI是一個兼具穩定性與效率的中間路徑，不僅在理論上貫通了策略迭代PI與值迭代VI，也在現代RL的深度版本中廣泛出現，體現出從離線到線上、從近似到精確的連續性思想。

小貼士：離線學習是在固定資料上訓練策略，線上學習則是在與環境即時互動中邊試邊學。打個比方：離線 = 看錄影學打拳；線上 = 上臺邊打邊學。

6.5 SARSA 與 Q-Learning：on-policy vs. off-policy 的分野

在值函式的RL方法下，如果對環境的模型不瞭解，就需要考慮使用SARSA 和 Q-Learning 是兩種最為經典的無模型（model-free）演算法，它們都透過更新狀態-動作值函式 Q(s, a) 來逐步逼近最優策略。然而，它們的更新路徑卻體現出兩種核心思想的對立：on-policy 與 off-policy。這不僅是更新機制的技術區別，更是智慧體“如何面對不確定未來”的哲學分野。

6.5.1 SARSA：基於當前策略的價值更新（on-policy）

https://www.upgrad.com/tutorials/ai-ml/machine-learning-tutorial/sarsa-in-machine-learning/

SARSA 的名字來自於它更新所依賴的五個變數：，更新公式為：

這個公式是否似曾相識？是不是很像TD：

這幾乎是 TD 的自然延伸，只不過從 狀態值 V 變成了 動作值 Q，並且用到了“下一個動作”的資訊，形成了一個完整的五元組（SARSA）。可以說：SARSA 是 TD 學習在動作值上的 on-policy 版本，最後那一項可以理解為TD-Target。從 V 到 Q，從狀態到狀態-動作對，從只看下一狀態到考慮下一動作，這是一種逐步逼近真實期望的泛化路徑。

再進一步，SARSA是不是也像梯度上升公式：，TD Target對應，是“目標函式的提升方向”。儘管它不是標準意義下的梯度，但確實遵循同樣的思想：一點一點逼近最優目標的估計值。這背後統一的數學基礎，其實可以追溯到隨機逼近理論(Stochastic approximation)。

• Robbins-Monro 定理：在不確定性環境中，用“估計誤差”驅動更新，逐步逼近期望值，，其中：：第 n 次迭代的引數估計；：學習率（步長），通常滿足；：帶有噪聲的觀測函式，期望為目標函式（通俗理解：噪聲抵銷了，無偏估計）；：我們想逼近的期望值，在TD裡面就是TD-target。該定理由美國數學家Herbert Robbins與Sutton Monro 1951年提出。

Robbins-Monro 定理，比牛頓法的確定性收斂速度稍慢，但其強大之處在於能夠在噪聲環境中依然保證收斂性，並無需顯式計算導數或海森矩陣，更適合強化學習這類樣本噪聲大、環境反饋不穩定的問題。來源：https://cenac.perso.math.cnrs.fr/hdr/algo-stochastiques.html

• Dvoretzky 定理（Dvoretzky’s Theorem）：揭示了高維空間中“區域性逼近全域性”的幾何特性，為強化學習中估計收斂提供了理論支撐。Dvoretzky 定理由以色列數學家Aryeh(Arie)Dvoretzk（1916-2008）在1960年代早期出提出。

是否對每天使用的SGD的理論基礎提出者有點感恩和崇敬之心，看看人家六七十年前的成就，奠定了今天RL乃至ML最佳化的重要基礎。

因此，可以說：

SARSA 是 TD 學習在動作值（ Q 值）層面的 on-policy 實現，它既繼承了 TD 的增量更新風格，也具備某種“偽梯度上升”的結構。

回到公式本身，由於下一個動作是基於當前策略（如下面將提到的）所取樣的，SARSA 實際上會將探索行為帶來的“非最優後果”也納入學習過程。換言之，它是在模擬 “你實際上會怎麼做”，而不是理想情況下最優該怎麼做”。這使得 SARSA 在訓練過程中更加保守，具有更好的穩定性。

舉個例子：想象你在訓練一個走迷宮的機器人。SARSA 會基於機器人當前真實採用的策略來評估路徑——即便它因為探索而走了彎路，也會納入經驗更新。這種學習方式更貼近現實，有助於在早期避免過度樂觀或策略震盪。

SARSA 是一種 on-policy 學習方法，它更新動作價值時，使用的是當前行為策略下實際選取的下一個動作。這一點雖然增強了學習的穩定性和安全性，尤其適用於需要規避風險的環境（如機器人控制），但也帶來了兩個明顯的缺點：

• 學習過於保守：它評估的是“我實際會怎麼走”的結果，哪怕這不是最優路徑，也會圍繞它進行微調。
• 收斂慢、易陷入區域性最優：在策略初期，探索行為較多時，SARSA 也會“學習探索行為的後果”，從而影響最優策略的學習速度。

為了解決 SARSA 的這類問題，Q-Learning 被提出作為一種 off-policy 的強化學習方法。它跳出了當前策略的限制，每一步都朝著最優策略的方向更新：不管當前行為是否最優，它始終用下一個狀態中“看起來最好的動作”來指導更新。這種“大膽假設、激進最佳化”的思路，使得 Q-Learning 更有機會快速學到理論上最優的策略，尤其適合在模型明確、訓練目標清晰的環境中使用（如圍棋、博弈 AI、遊戲等）。SARSA 是“跟著自己腳步走”，而 Q-Learning 是“向著山頂努力走”，哪怕此刻腳下偏離了方向。

小貼士：on-policy：learn和act是一個策略；off-policy：learn和act的策略是兩個不同的策略。

6.5.2 Q-Learning：最優策略驅動的更新（off-policy）

https://github.com/imohitmayank/interactive_q_learning

Q-Learning 雖然同樣以五元組為基礎進行更新，但它與 SARSA 的核心區別在於目標值的計算方式。在 Q-Learning 中，動作價值函式的更新公式為：

其中下一狀態中假設的最優動作。

與Sarsa的公式對比：

Sarsa（On-policy）更新公式的意思是：我更新當前這一步的 Q 值，是基於我實際上走了哪一步（ A_{t+1} ）後的回報進行估計的。行為策略 = 目標策略（on-policy），強調對當前實際行為後果的總結，更新更保守。

Q-Learning（Off-policy）更新公式的意思是：我雖然實際走了某一步，但在更新時假設自己下次一定選最優動作（），來估算未來收益。行為策略 ≠ 目標策略（off-policy），強調對理想最優行為的推演，更新更激進。

如果你是在設計一個實際任務，如果想要保守一點、減少因為過度樂觀導致的風險：用 SARSA；想要快點學出最優策略，能承受一定的不穩定性：用 Q-Learning。Q-Learning和SARSA，分別是理想主義者（總假設下一步是是最優的完美行為）和現實主義者（承認自己會犯錯）的代名詞。

Q-Learning 雖然在小規模離散狀態空間中非常有效，但在面對大規模或連續空間問題時暴露出一些關鍵缺陷，比如：Q值透過查表方式儲存，在連續和高維情況下，表變得很大，容易導致 “維度災難”；表格型方法不能對未見過的狀態進行推理；學習過程的不穩定與過估計現象。為了解決這些問題，DeepMind 在 2015 年提出了 Deep Q-Network（DQN），開啟了深度強化學習的新時代。

Q-Learning 是由 Christopher J.C.H. Watkins 於 1989 年在其博士論文中首次提出的，為後續的深度 Q 網路（DQN）奠定了基礎，是強化學習史上的一個重要里程。

6.5.3 DQN：從查表到函式逼近，深度強化學習的起點

Deepmind 早期DQN玩 Atari遊戲

2015 年，一段令人震撼的影片出現在 NeurIPS 的舞臺上：智慧體盯著一塊畫素螢幕，不斷揮動“球拍”擊打上方磚塊，逐漸學會打出人類玩家都難以企及的“穿牆打法”。而它的“眼睛”只有畫素，“大腦”只是一個深度神經網路。這正是 DeepMind 釋出的里程碑工作 —— Deep Q-Network（DQN）。

DQN 的出現，首次將深度神經網路成功地應用於強化學習任務中，使得代理人不依賴任何手工特徵，僅透過影像畫素與獎勵訊號，就能在 Atari 2600 多款遊戲中超越人類水平。這一成就標誌著深度強化學習（Deep Reinforcement Learning）的正式崛起。

核心思想：

在傳統 Q-Learning 中，我們維護一個表，記錄每個狀態-動作對的估計價值。這本質上是一個 有限狀態空間下的離散查表操作。但如果我們換一個角度思考，把表看作是一個函式，那麼：

• 輸入是狀態和動作；
• 輸出是這個狀態-動作對的期望回報；
• Q-Learning 實際上是在構建一個 從狀態-動作對到回報的函式逼近器。

然而，當狀態空間巨大甚至是連續的（比如影像畫素），Q 表就無法窮舉記錄，這時“查表”將變得不切實際。

這正是 DQN 的突破點所在：

用神經網路來逼近 Q 函式，取代查表，從而拓展到高維狀態空間。

在 DQN 中，我們訓練一個引數化神經網路，輸入狀態（通常是影像或特徵），輸出所有可能動作的值，從而實現策略的選擇與價值估計。

https://towardsdatascience.com/reinforcement-learning-explained-visually-part-5-deep-q-networks-step-by-step-5a5317197f4b/

更新規則與 Q-Learning 類似，只不過 Q 值不再查表，而是透過神經網路預測：

其中目標值為：，完整公式：

注意這裡的是一個目標網路（target network）的引數，與主網路引數 \theta 定期同步，以減少震盪。不然，就像在追移動的兔子，目標一直在變化，永遠追不到。

為了解決強化學習中特有的不穩定性和收斂困難，DQN 引入了三項重要機制：

• 1） 目標網路（Target Network），設定一個凍結引數的網路來生成目標值，並每隔若干步將主網路引數複製過去，緩解訓練震盪。
• 2）經驗回放（Experience Replay），將Agent經歷的狀態轉移存入回放快取，從中隨機取樣小批次進行訓練，打破樣本之間的時間相關性，提升樣本利用效率。
• 3）Mini-batch SGD（小批次梯度下降） 在每一步中，從經驗池中取樣一小批資料，用標準的梯度下降最佳化損失函式，提升訓練穩定性。

DQN 不僅在 Atari 遊戲中展現驚人實力，還為後續的深度強化學習方法（如 Double DQN、Dueling DQN、Rainbow 等）奠定了基礎。更重要的是，它為 AlphaGo 提供了關鍵模組，在 AlphaGo 的自我博弈訓練中，動作選擇策略網路和價值評估網路都是從 DQN 演化而來的結構；AlphaGo Zero 更進一步，採用純自我對弈訓練，完全不依賴人類資料，展示了 RL 的真正潛力。也人們首次看到了AGI的一點點微光。

小結：從值函數出發的“控制之道”

在第六境界，我們見證了強化學習最經典、最早被系統化的方法體系——基於值的強化學習。從最初的 動態規劃（DP） 的貝爾曼方程，到VI和PI，再到行為策略中不斷改進的 SARSA 和 Q-Learning，最終到DQN，這一系列方法構建了“以狀態-動作值為中心”的學習路徑。

核心理念在於：透過估計每一個狀態或狀態-動作對的長期價值，從而指導智慧體的行為選擇。而 DQN 的出現，更是把這一路線從“小表格”推進到了“大世界”，開啟了深度強化學習的大門。我們也從中看到了一個重要主題的浮現：

如何在現實取樣與理想估計之間尋找平衡？

SARSA 更保守、注重探索代價；Q-Learning 更激進、追求最優策略；DQN 則是兩者的深度融合，用神經網路逼近價值函式，讓強化學習步入高維感知世界。

至此，第六層境界：基於值的強化學習正式落幕，也標誌著整個人工智慧強化學習體系的“基石篇”完成構建。

從動態規劃的理性窮舉，到 Q-Learning 的理想主義查表，再到 DQN 的深度泛化，我們沿著價值函式的脈絡，追溯出強化學習的原始動力機制。這一篇，也順勢打破了我個人知乎文章的歷史字數記錄。

下篇預告 · RL進階篇

通往AGI之路：

• 第七境界：雙輪驅動 —— Actor-Critic 與 PPO：協同進化，價值與策略共同驅動智慧體成長
• 第八境界：動機覺醒 —— 內部獎勵與自主探索：從被動響應環境，到主動追尋目標
• 第九境界：社會智慧 —— 多智慧體與博弈：在合作與競爭中湧現規則、身份與語言
• 第十境界：語言即激勵 —— LLM 引導的策略生成：語言不只是觀察，更是策略、目標、動機的統一表達

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。