華為諾亞綜述：生成式模型如何用於決策？

機構：華為諾亞決策推理實驗室

作者：李銀川、郝建業等人

近年來，生成模型在內容生成（AIGC）領域蓬勃發展，同時也逐漸引起了在智慧決策中的應用關注。由於生成模型能夠處理複雜的資料分佈，並具備強大的建模能力，它們可以被引入決策系統，用於生成引導代理進入高獎勵狀態的軌跡或中間子目標。本綜述系統性地梳理了生成模型在決策任務中的應用，並提供了全面的分類框架。

論文標題：Generative Models in Decision Making: A Survey
論文連結：https://arxiv.org/abs/2502.17100
主頁連結：https://github.com/xyshao23/Awesome-Generative-Models-for-Decision-Making-Taxonomy

1. 研究背景與動機

在智慧決策中，傳統的方法（如強化學習、動態規劃與最佳化）通常依賴手工設計的策略或基於試錯的最佳化方式。然而，這些方法往往存在計算開銷大、探索受限、泛化能力不足等問題。

相比之下，生成模型能夠透過學習環境中的資料分佈，生成更具多樣性的策略，並在複雜環境中探索更優解。這一能力使得生成模型成為決策最佳化的重要工具。

主要挑戰：

如何在環境互動中學習策略，而不僅僅模仿專家行為？
如何從已有行為中生成新策略，實現策略泛化？
如何構建魯棒的決策生成模型，以適應多種環境？
如何實現決策過程的多步推理與長期最佳化能力？

2. 生成模型的分類與決策應用

2.1 生成模型的基本型別

本綜述歸納了七種主要的生成模型：

生成式模型旨在基於現有資料集的潛在分佈生成未見過的資料樣本。在決策中，生成式模型的表現通常由三個關鍵維度來衡量：樣本質量、多樣性和計算效率。這些維度直接影響生成結果的準確性、穩健性和適用性，因此對於評估生成式模型在決策中的表現至關重要。

在這三個維度之間取得平衡，成為了生成式模型的一大挑戰。例如，擴散模型（Diffusion Models）和歸一化流（Normalizing Flows）能夠提供強大的樣本多樣性和穩定性，但其計算資源需求較高，限制了其在即時決策應用中的適用性。相比之下，像變分自編碼器（VAEs）和生成對抗網路（GANs）則在訓練速度和計算效率上更具優勢，但在保持樣本多樣性方面可能存在困難，導致生成的輸出可能過於相似或出現過擬合現象。

透過對現有研究的綜合比較，我們可以大致瞭解這七種生成式模型在樣本質量、多樣性和效率上的表現差異，從而為選擇合適的生成模型提供參考。這些比較幫助我們更好地理解生成式模型的優缺點，特別是在實際決策過程中如何平衡各項需求。

2.2 生成模型在決策中的角色

文章 3、4 兩節深入探討了生成式模型在決策中的三大核心功能，並基於我們提出的方法論分類體系對現有文獻進行了歸納整理。

若讀者希望深入瞭解相關文獻的具體分類及其在決策中的應用，我們的論文提供了系統性的梳理與深入解析，歡迎垂閱。

3. 生成模型在現實世界的應用

生成模型在多個現實決策領域中展現出強大能力，包括機器人控制、結構生成與最佳化、遊戲 AI、自動駕駛和最佳化問題。以下是這些領域中的一些典型應用。

3.1 機器人控制

機器人控制指的是指揮機器人執行特定任務或動作的過程。透過手動控制、預程式設計指令或利用感測器和機器學習演算法實現自主決策等方式，都可以實現機器人控制。生成式模型在機器人控制中扮演著重要角色，不僅可以直接控制機器人，還能透過生成合成資料來增強控制策略的訓練效果。例如，生成模型在軌跡生成和運動控制等方面得到了廣泛應用。

3.2 結構生成與最佳化

生成式模型在圖結構任務中的應用也越來越廣泛，如圖生成、圖補全和圖分類等。這些模型能夠學習訓練圖的結構，並生成具有相似特徵的新圖，廣泛應用於分子設計、蛋白質相互作用建模和建築最佳化等領域。例如，生成流網路（GFlowNets）在藥物發現中被應用，透過生成多樣化的候選解決方案來最佳化決策過程。同時，強化學習與自然語言處理結合的最新研究成果，也進一步推動了結構生成在決策中的應用。

3.3 遊戲與強化學習

遊戲 AI 是研究的一個重要領域，旨在開發能夠在人類水平上執行各種遊戲任務的 AI 系統。生成式模型在單人遊戲和多人遊戲中都展現了其巨大潛力。比如，基於變換器的多遊戲決策轉換器（Multi-Game Decision Transformer）能夠高效處理多種遊戲場景，而生成代理（Generative Agents）則能夠模擬人類行為，使得多人遊戲的複雜度和深度得以提升。

3.4 自動駕駛

生成式模型在自動駕駛領域的應用主要體現在駕駛控制、物體檢測和場景理解等方面。在駕駛決策中，生成式模型透過生成複雜的決策政策，幫助自動駕駛系統做出快速響應。同時，這些模型還能夠透過生成合成資料來解決訓練資料匱乏的問題，尤其是在邊緣案例中，幫助系統適應更復雜的道路場景。

3.5 最佳化問題

生成式模型在多種最佳化任務中也展現出了強大的能力，尤其是在黑箱最佳化、神經網路架構搜尋（NAS）和排程最佳化等方面。透過學習組合問題的解分佈，生成式模型能夠最佳化組合問題的求解過程。在神經架構搜尋中，生成式模型最佳化神經網路設計，以提高網路效能。此外，在排程最佳化中，生成模型幫助平衡方案的多樣性和質量，提升求解效率。

4. 未來發展方向

儘管生成模型在決策任務中展現了巨大潛力，但仍然存在一些挑戰。本綜述提出了三個關鍵發展方向：

高效演算法：高效演算法是推動生成模型在智慧決策中落地應用的關鍵方向。當前，最佳化計算效率已成為研究重點，例如減少擴散模型的取樣時間，以提升生成速度，同時針對自迴歸方法，改進其推理效率，以滿足即時決策的需求。透過更高效的演算法設計，生成模型在複雜決策任務中的應用將更加廣泛，進一步提升智慧系統的響應速度與實用性。

大規模泛化能力：大規模泛化能力決定了生成模型在不同任務和環境中的適配性。未來研究需要深入探索如何提升生成模型的跨任務泛化能力，使其能夠在多種環境中保持穩定的決策效能。結合多模態學習，模型可以利用多源資訊進行更深層次的環境理解，從而在複雜、不確定的環境中展現更強的適應能力。這種泛化能力的提升將極大拓寬生成模型的應用邊界，推動通用智慧的進一步發展。

自進化與自適應模型：自進化與自適應模型是讓生成式決策系統具備長期最佳化能力的關鍵。透過發展能夠自我調整和最佳化的生成模型，使其能夠在不同決策環境中自動適應變化，從而提高決策的靈活性和穩健性。此外，結合強化學習，模型可以在不斷互動中最佳化自身策略，實現長期的自適應調整，逐步趨近最優決策。這一方向的突破將推動智慧體向更高級別的自主學習和自我最佳化邁進，為更復雜的智慧決策任務提供支援。

5. 總結

生成式 AI 正在重塑智慧決策的未來！本綜述系統性地歸納了七種生成模型，構建了一個全新的決策智慧分類框架，涵蓋控制器、建模器、最佳化器三大核心角色。我們深入剖析了生成模型在機器人控制、自動駕駛、遊戲 AI、最佳化任務等關鍵領域的變革性應用，並前瞻性地探討了未來研究方向。

從智慧體的自主學習到複雜決策的最佳化，生成式 AI 正成為人工智慧發展的新引擎！隨著技術的加速演進，我們正站在智慧決策新時代的起點，迎接一個更加高效、自適應、泛化能力更強的 AI 時代。

未來已來，你準備好了嗎？

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]