

一項由高校團隊研發的新型強化學習演算法,從理論上解決了現有演算法價值估計不準、對獎勵尺度敏感等問題。該演算法透過提供穩定可靠的決策支援,為自動駕駛的安全執行提供了堅實的技術保障。
近期,清華大學李克強院士、李升波教授團隊提出了一種改進的強化學習演算法——DSAC-T(Distributional Soft Actor-Critic with Three Refinements)。該研究基於團隊此前提出的第一代演算法 DSAC 的框架,透過引入期望值替代、雙值分佈學習和基於方差的梯度調整三項關鍵技術,顯著提升了演算法的穩定性和效能表現。
其創新之處在於採用了分散式的策略評價函式,而非傳統演算法中單一的標量評估。這種分散式評價不僅考慮當前行為的即時得分,還建模了未來所有可能得分的機率分佈,從而為策略最佳化提供了更豐富的資訊維度。經多項基準測試驗證,DSAC-T 演算法在效能上超越當前主流無模型強化學習演算法,達到 SOTA 水平。
需要了解的是,該團隊的技術輸出並非單一演算法,而是構建了完整的訓練工具鏈體系。“透過為企業提供整套訓練工具解決方案,不僅能支援 demo 驗證,更能幫助完成特定場景下的自動駕駛策略開發。”該論文第一作者、北京科技大學副教授段京良對 DeepTech 表示。

圖丨段京良(左)與李升波(右)(來源:段京良)
這套技術方案具有廣泛的應用前景,可支援多個領域的智慧系統模型訓練,包括端到端自動駕駛、具身智慧機器人以及工程機械無人作業等場景。目前,研究團隊已與滴滴、廣汽、東風、一汽、寶武等多家大型企業建立了合作關係。特別是在汽車產業智慧化轉型的背景下,該技術有望推動自動駕駛技術向更高水平發展。
此外,該演算法還有望應用於更廣泛的領域:在外賣行業,可透過派單最佳化演算法為訂單匹配最佳騎手;在工業領域,可優化工廠和倉儲超市的製冷系統分配,在滿足各區域溫度需求的同時實現節能降耗;在交通領域,還能應用於混合動力汽車的能量管理系統最佳化。
目前,研究團隊已將 DSAC 系列兩代演算法開源,並整合在其自主開發的工具鏈平臺 GOPS 中,方便學術界和工業界進行演算法訓練、效能驗證及快速部署。
近日,相關論文以《融合三項改進的分散式 Soft Actor-Critic 演算法》(Distributional Soft Actor-Critic with Three Refinements)為題發表在 IEEE Transactions on Pattern Analysis and Machine Intelligence[1]。北京科技大學段京良副教授是第一作者,清華大學博士生王文軒為共同一作,清華大學李升波教授擔任通訊作者。

圖丨相關論文(來源:IEEE Transactions on Pattern Analysis and Machine Intelligence)

在多項任務效能超主流演算法達 SOTA 水平
強化學習(RL,Reinforcement Learning)作為人工智慧領域的重要分支,因其在複雜決策和控制任務中的卓越表現而備受研究者關注。這種演算法模擬了人類透過試錯進行學習的過程,本質上是一種廣泛適用於決策和控制任務的通用框架。其核心機制是透過精心設計的獎勵函式引導智慧體(如自動駕駛系統或棋類 AI)自主探索環境,並根據獎勵反饋最佳化其行為策略。這一過程的關鍵在於,構建能夠準確評估行為價值的評價體系。
然而,傳統強化學習演算法普遍面臨價值估計不準確的瓶頸問題,特別是動作價值(Q 值)的高估現象。這往往導致最終學習到的策略效能欠佳。不同強化學習演算法效果的差異,很大程度上取決於其評價函式對行為價值判斷的準確性。

圖丨值分佈強化學習演算法 DSAC(來源:該團隊)
儘管團隊此前開發的第一代演算法 DSAC 已透過建模連續高斯分佈改進了價值估計,緩解了過估計問題,但由於分佈函式本身的不確定性,其更新過程極易失穩。
此外,DSAC 演算法存在明顯的引數敏感性問題,需要精細調參才能達到理想效果。段京良指出,成熟的通用演算法應具備跨任務的穩定性,並儘可能減少對引數調整的依賴。

圖丨DSAC 演算法核心架構和關鍵技術(來源:該團隊)
為了解決上述問題,研究團隊在第二代演算法中嵌入了三項核心技術:期望值替代(EVS,Expected Value Substituting)、雙值分佈學習(TVDL,Twin Value Distribution Learning)和基於方差的梯度調整(VCGA,Variance-Based Critic Gradient Adjustment)。
首先,EVS 針對平穩性問題,在網路更新的目標函式中,找到可以被無損替換的隨機項,然後用非隨機量進行替代,透過從源頭減少不確定性使穩定性提高,就像“用固定的靶子替代移動的靶標”。
其次,TVDL 借鑑強化學習中的雙 Q 學習(Double Q-learning)的思路,將單一值分佈學習擴充套件為學習兩個獨立對稱的值分佈,相當於設定兩位“裁判”各自打分後交叉驗證,從而為策略最佳化提供一個更穩定的最佳化目標。
段京良解釋說道:“在強化學習中,單一 Q 函式可能導致最佳化偏差,因此引入雙 Q 學習機制,透過兩個 Q 函式交叉驗證來提升策略最佳化的穩定性。我們進一步擴充套件該思路,採用雙分佈學習使最佳化目標更可靠,從而提高系統整體效能。”
最後,VCGA 針對引數敏感的問題,建立了依基於方差的梯度調節機制,根據對當前動作價值函式估計的不確定程度,即值函式的方差,動態調整值分佈函式梯度的大小。該機制有效提升了更新梯度的穩定性,大幅降低了演算法對超引數調整的依賴。
這三項技術的協同作用使 DSAC-T 能夠學習到高度準確的策略評價指標,進而訓練出更優越的控制策略。該演算法的特點是實現了“一對多”的通用效能力:同一組超引數可以在 12 類不同任務(包括基於影像輸入的複雜任務)中都保持良好效能,顯著降低了實際應用中的部署成本。

圖丨基準測試(來源:IEEE Transactions on Pattern Analysis and Machine Intelligence)
為了驗證 DSAC-T 的效能,研究團隊在多個基準任務上進行了測試,包括 Humanoid、Ant、HalfCheetah 等複雜控制任務。值得注意的是,DSAC-T 的效能優勢隨任務複雜度提升而愈加明顯:在簡單任務(如六維狀態倒立擺)中,各演算法表現近似;但在高維複雜任務(如 376 維狀態×17 維動作)中,其效能優勢顯著。

表丨演算法效能對比(來源:IEEE Transactions on Pattern Analysis and Machine Intelligence)
實驗結果顯示,DSAC-T 在所有任務中均優於或至少與主流強化學習演算法持平,包括 SAC、TD3、DDPG、TRPO 和 PPO。值得關注的是,在 Humanoid-v3 任務中,DSAC-T 的效能比 OpenAI 的 PPO 演算法和 DeepMind 的 DDPG 演算法高出 50% 以上。此外,DSAC-T 還表現出更高的學習穩定性和對獎勵尺度的魯棒性。

圖丨基準測試訓練曲線(來源:IEEE Transactions on Pattern Analysis and Machine Intelligence)
更重要的是,團隊在輪式機器人的實際控制任務(包括路徑跟蹤和動態避障)中驗證了演算法的實用性,證明其能夠有效處理現實環境中的複雜決策問題,展現出從模擬到實際應用的強大遷移能力。

從模擬到實車,為自動駕駛的安全行駛提供技術保障
將強化學習演算法從理論研究轉化為實際應用,其難度超過演算法開發本身。作為全球率先實現強化學習實車應用的團隊之一,他們始終堅持“工程化思維”的研究導向。這不僅依賴於單個演算法的突破,更需要一套包含軟體架構、工具鏈開發、工程適配以及針對具體任務的獎勵函式設計等在內的完整技術體系作為支撐。

圖丨研究團隊強化學習決控技術的發展歷程(來源:該團隊)
據介紹,該團隊的核心成員多數是工科背景,這使其研究能始終聚焦於實際應用場景。基於深厚的工程實踐積累,團隊對車輛和機器人控制領域的需求具有精準把握,能夠有效識別技術落地的關鍵因素。
兩代演算法共經歷 5 年多的探索與迭代。第一代演算法 DSAC 的研究工作始於 2018 年底,當時段京良正在清華大學攻讀博士學位。2019 年,他與團隊成功開發出 DSAC,相關論文於 2021 年正式發表 [2]。在此期間,段京良赴新加坡國立大學從事博士後研究。
2022 年回國加入北京科技大學後,段京良與其研究團隊針對第一代演算法 DSAC 存在的穩定性不足、調參依賴性強等侷限性,進一步開發出更具通用性的第二代演算法 DSAC-T。該演算法於 2023 年底完成研發,重點提升了訓練穩定性和引數魯棒性,致力於構建適用於自動駕駛、機器人等控制領域的強化學習工具鏈。
然而,強化學習在實際應用中面臨的一個關鍵挑戰在於獎勵函式的設計。以圍棋為例,其獎勵函式相對簡單明確,勝負結果可以直接作為獎勵訊號。但在自動駕駛等複雜場景中,車輛需要處理各種交通博弈,包括與其他道路使用者的互動、交通規則遵守、駕駛效率、乘坐舒適度以及潛在的動力學限制等多重因素。
如何權衡這些複雜因素,設計出合理的獎勵函式以適應現實場景,是一個極具挑戰性的問題。研究團隊憑藉豐富的專案經驗,逐步攻克了這些難題。段京良表示:“將強化學習演算法與具體任務相結合,關鍵在於針對該任務設計合理的獎勵函式。這需要研究人員既精通演算法原理,又深入理解被控物件和任務特性,才能實現二者的有機結合,設計出最符合任務需求的獎勵函式。”
在工程化實踐方面,團隊也積累了豐富的經驗。自 2020 年起,段京良的博士課題就專注於實現強化學習在實車上的應用。雖然初期場景相對簡單,但透過持續努力,團隊成功將技術推進到開放道路場景,並在此過程中積累了寶貴的研究經驗。
2024 年,他們在實車應用方面取得了突破性成果。特別值得一提的是,研究團隊透過自主研發的強化學習演算法實現了車輛在各種道路條件下的安全行駛,不僅覆蓋了多種複雜場景,還適配了不同車型平臺。
除自動駕駛外,團隊還正在積極推進強化學習端到端控制技術在多個工業場景的產業化應用,包含工程機械自主作業、機器人巡檢作業等任務。從系統平穩性、執行效率到控制精度,團隊建立了一套完整的量化評估體系,能夠與熟練的人類操作員進行客觀比較。
影片丨工業機器人巡檢作業應用(來源:該團隊)
在未來的研究中,該團隊計劃持續最佳化和迭代 DSAC-T 演算法,進一步提升其效能表現。目前,強化學習領域尚無演算法能夠學習到近乎全域性最優的策略,因此在演算法設計與最佳化方面仍存在較大的提升空間。更重要的是,面向實際應用場景,安全強化學習(Safe RL)將成為其重點研究方向之一。同時,他們還將持續探索多模態控制技術,以提升演算法在複雜任務中的表現。

參考資料:
1.Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, Shengbo Eben Li, Chang Liu, Ya-Qin Zhang, Bo Cheng, Keqiang Li, Distributional Soft Actor-Critic with Three Refinements. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 5, pp. 3935-3946, 2025. https://ieeexplore.ieee.org/document/10858686.
2.Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Qi Sun, Bo Cheng, Distributional soft actor-critic: off-policy reinforcement learning for addressing value estimation errors. IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 11, pp. 6584-6598, 2022. https://ieeexplore.ieee.org/document/9448360.
3.DSAC 開源連結:https://github.com/Jingliang-Duan/DSAC-v2
4.GOPS 開源連結:https://gops.readthedocs.io/
運營/排版:何晨龍


