ICLR2025|西湖大學提出閉環擴散控制策略,高效與閉環兼得

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報道。投稿郵箱:[email protected][email protected]
本文來自西湖大學人工智慧系的吳泰霖團隊。本文有兩位共同第一作者:魏龍是西湖大學人工智慧系博士後,馮浩東是西湖大學博士生。通訊作者吳泰霖是西湖大學人工智慧系特聘研究員,其領導的人工智慧與科學模擬發現實驗室主要研究方向為開發生成模型方法並用於科學和工程領域的模擬、設計和控制。
高效閉環控制是複雜系統控制的核心要求。傳統控制方法受限於效率與適用性挑戰;而新興的擴散模型雖然表現出色,卻難以滿足高效閉環控制的要求。西湖大學研究團隊最新提出的 CL-DiffPhyCon 框架,透過非同步並行去噪技術,在閉環控制要求下,顯著提升了控制效率和效果。論文最近被人工智慧領域頂級會議 ICLR 2025 接收
  • 論文標題:CL-DiffPhyCon: Closed-loop Diffusion Control of Complex Physical Systems
  • 論文連結:https://openreview.net/pdf?id=PiHGrTTnvb
  • 程式碼地址:https://github.com/AI4Science-WestlakeU/CL_DiffPhyCon
一、研究背景
在科學研究、工程實踐以及具身智慧等諸多領域,系統控制問題都有著廣泛的應用。在這些場景中,高效閉環控制是核心效能要求。例如,當機器人在複雜環境中執行任務,必須對周圍環境變化做出即時反應。這就需要控制系統能夠根據環境即時反饋,迅速調整控制訊號,保證每一個動作指令都基於最新的環境狀態生成。另外,工業製造、航空航天、能源生產等科學和工程領域的系統控制任務,同樣面臨著如何實現高效閉環控制的難題。
在過往的研究當中,湧現出了傳統控制方法,以及近年來的深度學習、強化學習、模仿學習等眾多控制方法。近期的 DiffPhyCon [1] 等研究表明,基於擴散模型 [2] 的方法在複雜物理系統控制中表現出色,尤其是對高維、長時間跨度的控制問題具有顯著的優勢,這主要源自於擴散模型擅長學習高維分佈的特性。這類方法從離線收集的軌跡資料中學習一個去噪模型,從噪聲開始,利用去噪模型逐步去噪,產生控制訊號。此外,基於擴散模型的策略在機器人操作任務中也具有優異的表現 [3]。
然而,現有的擴散控制方法在應用到閉環控制時,會遇到控制效果和效率難以平衡的缺陷。它們的模型視窗內所有物理時間步,都要經歷從純噪聲開始的完整去噪取樣過程。若每個物理時間視窗都照此取樣並將其中的最早控制訊號用於控制,雖然能實現閉環控制,卻會帶來非常高昂的取樣成本。而且,這種方式還可能會破壞控制訊號的時序一致性,影響整體控制性能。反之,如果為了提高取樣效率,每隔若干個物理時間步才進行一次完整取樣,又脫離了閉環控制的要求。
雖然近期有研究工作提出線上重新規劃策略(RDM)[4],自適應地確定何時重新規劃控制序列,但這種策略也不是真正意義上的閉環框架。它們往往需要額外的似然估計計算開銷,還依賴額外的超引數。面對不同任務場景,需要多次實驗來除錯這些超引數,增加了應用難度和不確定性。
二、本文主要貢獻
針對現有擴散控制方法在閉環控制中遇到的上述問題,本論文提出了一種基於擴散模型的閉環控制方法 CL-DiffPhyCon,它能夠根據環境的即時反饋生成控制訊號,實現了高效的閉環控制。該方法的核心思想是將擴散模型中的物理時間步和去噪過程解耦,允許不同的物理時間步呈現不同的噪聲水平,從而實現了控制序列的高效閉環生成。論文在 1D Burgers’方程控制和 2D 不可壓縮流體控制兩個任務上,驗證了 CL-DiffPhyCon 的顯著結果。
如下圖 1 中所示,該方法具有如下優勢:
  1. 高效取樣:CL-DiffPhyCon 透過非同步去噪框架,能夠顯著減少採樣過程中的計算成本,提高取樣效率。與已有的擴散控制方法相比,CL-DiffPhyCon 能夠在更短的時間內生成高質量的控制訊號。
  2. 閉環控制:CL-DiffPhyCon 實現了閉環控制,能夠根據環境的即時反饋不斷調整控制策略。相比已有的開環擴散控制方法,提高了控制效果。
  3. 加速取樣:此外,CL-DiffPhyCon 還能與 DDIM [5] 等擴散模型的加速取樣技術結合,在維持控制效果基本不變的前提下,進一步提升控制效率。
圖 1:本文的 CL-DiffPhyCon(右圖)相較於以往擴散控制方法(左圖和中圖)的優勢。透過採用非同步去噪框架,該方法能夠實現閉環控制,並顯著加快取樣過程。其中,H表示擴散模型包含的物理時間視窗長度,DiffPhyCon – h表示每隔h個物理時間步進行一次包含T個去噪步驟的完整取樣過程,然後將取樣的控制訊號序列中的前h個依次用於開環控制。這裡沒有展示與 DDIM [5] 的結合。
三、問題設定和預備知識
1. 問題設定:
給定初始狀態

、系統動力學G以及特定的控制目標

,本文考慮如下複雜系統的控制問題:

這裡,

分別是物理時間步

時的系統狀態和外部控制訊號,軌跡的長度為N。系統動力學G代表系統在外部控制訊號下隨時間的狀態轉移規則。G可以是隨機性的,存在非零隨機噪聲

;也可以是確定性的,即

。為了讓問題設定更具一般性,狀態的演變只能透過實際測量來觀測,即假設G的表達形式不一定可以獲得。本文中關注閉環控制,意味著每個時間步的控制訊號

是從以當前狀態

為條件的一個機率分佈中取樣得到的。這區別於開環控制或者規劃(planning)方法,即每次規劃未來多個時間步的控制訊號後,將其依次應用到環境中,並且在此期間不利用環境反饋進行重新規劃。

2. 預備知識:DiffPhyCon 簡介
DiffPhyCon [1] 是近期發表的一種基於擴散模型的規劃(planning)方法。它提前規劃一個物理時間視窗(horizon)

內所有的控制訊號,並依次將其用於系統的控制過程。為了記號方便,引入變數

表示第

物理時間步系統狀態和控制訊號的拼接。該方法包含以下過程:

  1. 首先離線收集大量的軌跡資料,每條軌跡包括初始狀態、控制序列和相應的狀態序列。
  2. 然後,用這些離線軌跡訓練一個去噪步數為T,物理時間視窗為N的擴散模型,並將所有物理時刻的系統狀態和控制訊號的聯合隱變數

    作為擴散變數。這裡在記號

    中,用下角標表示物理時間

    或其所處的區間,用括號裡的t表示擴散步驟。在擴散過程中,隨著t增大,

    中的噪聲程度逐漸增加:

    不含噪聲,

    為高斯噪聲。

  3. 在去噪過程(實際控制過程)中,以系統的初始狀態

    為條件,利用訓練的擴散模型,在控制目標

    的梯度引導下,讓t從T 降到 0,將高斯噪聲

    逐步去噪為不含噪聲的

    ,其中包含控制序列

    和對應產生的狀態序列

  4. 最後,將控制序列

    逐步輸入到環境中,實現對系統的控制。

上述過程中隱藏了一個假設:軌跡長度N 較小,這時H 取值為N。而實際問題中更為常見的情形是N 很大,這導致物理時間視窗為N的擴散模型難以在 GPU 中執行或者物理時間跨度太大導致偏離閉環要求過遠。這就需要訓練一個時間視窗相對較小(H<N)的擴散模型,然後每隔h個物理時間步進行一次完全的去噪過程,或者以自適應的方式確定何時重新規劃控制序列 [4],如圖 1 左邊和中間子圖所示。
四、CL-DiffPhyCon 方法介紹
該方法考慮的也是H<N的情形。關鍵想法是:將擴散模型的模型時間視窗內的物理時間和擴散(去噪)過程解耦,越早的物理時間賦予越快的去噪進度,也就是越低的噪聲程度。如此一來,既實現了不同物理時間步的並行取樣,提高了取樣效率;又能讓更早取樣到的控制訊號所產生的環境反饋用於後續物理時間的控制訊號取樣,實現了閉環控制。
為了方便,本文首先引入瞭如下兩個記號:
  • 同步聯合隱變數:

    表示在物理時間區間

    內,對每個分量加入相同程度噪聲。這裡t的取值範圍是 0 到T。

  • 非同步聯合隱變數:

    表示在物理時間區間

    內,為越晚的物理時間賦予越高的噪聲程度,即實現了物理時間和去噪進度的解耦。這裡t的取值範圍是 0 到

針對這兩種變數,本文訓練了兩個擴散模型:同步擴散模型

和非同步擴散模型

1. 同步擴散模型

這個模型預測同步聯合隱變數

當中每個分量包含的噪聲。它只用於

的物理時刻。訓練損失如下:

訓練這個模型的目的,是為了取樣非同步聯合隱變數

,這是物理時間上最早的非同步聯合隱變數。取樣方法如下:對於給定的初始條件

,類似於 DiffPhyCon 的去噪過程,從高斯噪聲

開始,讓t從T逐步減少到

,在每步迭代中,從

當中減去

預測的噪聲,同時減去控制目標

的梯度。這樣就取樣得到了一系列同步聯合隱變數

。再從其中取 “對角線”,就能得到初始的非同步聯合隱變數

(圖 2 的 (2) 子圖中的虛線紅框)。

2. 非同步擴散模型

這個模型預測隱變數

中每個分量包含的噪聲。它用於

的所有物理時刻。它的訓練損失如下:

訓練這個模型的目的,是為了在給定第

個物理時刻的系統狀態

和非同步聯合隱變數

的條件下,取樣

,即實現解耦的非同步去噪。取樣方法如下:從

開始,讓t從

逐步減少到 0,在每一步中,從

當中逐分量減去

預測的噪聲,同時減去控制目標

的梯度,最終得到

3. 閉環控制過程
基於以上兩個訓練好的擴散模型,閉環控制的迴圈過程如下(分別對應圖 2 中從左向右 4 個子圖):
  • 第(1)步:在第

    個物理時間步,獲得物理時間視窗

    內的初始狀態

    和系統狀態

    。特別地,當

    時,透過上文的同步擴散模型

    取樣得到

  • 第(2)步:以

    為取樣條件,利用非同步擴散模型

    ,從

    開始連續取樣

    步,得到

  • 第(3)步:將

    的第 1 個分量

    中包含的控制訊號

    輸入到環境中,得到下一個狀態

  • 第(4)步:取樣一個高斯噪聲

    ,拼接到第(2)步取樣得到的

    的最後

    個分量的結尾,得到物理時間視窗

    內的初始狀態

    ,同時將

    作為條件,進入下一個物理時間步

圖 2:CL-DiffPhyCon 用於閉環控制的流程:(1) 獲取當前物理時刻系統狀態和 “對角線形” 非同步聯合隱變數;(2) 利用非同步擴散模型去噪;(3) 將取樣到的控制訊號應用到系統;(4) 獲取系統反饋的最新狀態和更新後的 “對角線形” 非同步聯合隱變數,進入到下一個物理時刻。
4. 與擴散模型加速取樣技術的結合
值得一提的是,CL-DiffPhyCon 還可與擴散模型領域的快速取樣技術相結合,進一步提升取樣效率。例如,DDIM [5] 透過特定的取樣策略減少了取樣步數,在不損失太多采樣質量的前提下加快了取樣速度。在 CL-DiffPhyCon 的同步和非同步模型的取樣過程中引入 DDIM,能夠使得 CL-DiffPhyCon 在保持控制性能基本不變的前提下,以更快的速度完成取樣和控制訊號生成,從而在實際應用中更具優勢。論文透過實驗結果驗證了這一點,這說明 CL–DiffPhyCon 具有和已有的擴散模型領域加速取樣方法相獨立的加速效果。
四、CL-DiffPhyCon 理論分析
論文還從理論上分析了為何需要學習以上兩個擴散模型。論文的目標是對聯合分佈

進行建模,並在控制目標的引導下采樣。本文將如下的增廣 (augmented) 聯合分佈作為分析的出發點:

如果我們能夠取樣這個增廣聯合分佈中的所有隨機變數,那麼自然也就得到了

(包含於

)。而之所以要研究這個增廣聯合分佈,是因為它指引著我們讓

變得 “可被取樣”。論文研究發現,這個看似複雜的增廣聯合分佈其實具有一個有趣的規律:假設聯合分佈

滿足 Markov 性質(這是強化學習等決策類問題中常見的假設),那麼從增廣聯合分佈中取樣的問題,就可以轉化為只從兩類分佈中取樣的問題:即先從一個初始分佈

中取樣得到

,再從一個轉移分佈

中依次取樣,得到一系列

)。具體地,該取樣過程可以用如下定理描述:

所以,這裡採用了 “先繁再簡” 的分析策略,為複雜的分佈加入了取樣的可行性。這個定理還傳遞出另一個重要的性質:在每個物理時刻取樣控制變數

時,所依賴的系統狀態

可以從環境反饋中得到。這是因為我們已經取樣得到了上一個時刻的控制變數

,因此可以立即將其輸入到環境中,得到環境反饋的

。也就是說,這個取樣過程能夠滿足閉環控制的要求。

仔細觀察就會發現,上一節中學習的兩個擴散模型恰好對應兩個分佈:即同步擴散模型

的作用是從

中取樣,而非同步擴散模型

的作用是從

中取樣。所以,我們只需要這兩個擴散模型就能夠實現從軌跡資料分佈中取樣,再透過在取樣過程中加入控制目標的梯度引導,就可以最佳化控制目標。

五、實驗結果
1. 實驗設定
借鑑 DiffPhyCon [1] 論文中的實驗設定,這篇論文在兩個具有挑戰性的控制任務上進行了實驗:
(1)一維 Burgers 方程控制:透過控制外力項,使系統的最終狀態與目標狀態一致。
(2)二維煙霧間接控制:透過間接控制外部力場,最小化從非目標出口逸出的汙染物比例。
在一維 Burgers 方程控制實驗中,考慮了 6 種實際場景,如無噪聲控制、物理約束下的控制、存在系統和測量噪聲時的控制,以及部分割槽域可控制(包括全部區域可觀測和部分割槽域可觀測兩種細分場景)等。在二維煙霧間接控制任務中,設定了大範圍區域控制和邊界控制 2 種場景,每種又細分為固定障礙物地圖和隨機障礙物地圖兩種環境模式,以檢驗方法的泛化能力。
對比方法包括一系列經典控制方法、模仿學習、強化學習和擴散控制方法,如 PID、行為克隆(BC)、BPPO、自適應重規劃擴散控制(RDM)以及 DiffPhyCon 等,並對這些基線方法進行了適當調整,以保證公平比較。由於兩個實驗中的軌跡較長,研究人員將 DiffPhyCon 擴充套件為三個版本:DiffPhyCon-h(h∈{1,5,H – 1})。這裡的 DiffPhyCon – h表示每隔h個物理時間步進行一次 DiffPhyCon 的完整取樣過程,然後將取樣的控制訊號序列中的前h個用於開環控制(見上文圖 1)。
2. 實驗結果
在一維 Burgers’方程控制任務中,CL–DiffPhyCon 在 6 種場景下控制效果均優於所有對比方法。與控制效果最佳的對比方法 DiffPhyCon-1 相比,CL-DiffPhyCon 在無噪聲和帶有物理約束的設定中,使控制目標分別降低了 54.3% 和 48.6%;在兩種噪聲的情況下,控制目標分別降低了 48.6% 和 57.2%;在部分割槽域可控制場景中,控制目標分別降低了 11.8% 和 11.1%。在取樣效率上,CL-DiffPhyCon 相比每個 DiffPhyCon-h 快了約 H/h 倍(h∈{1,5,15}),也比自適應重規劃擴散控制(RDM [4])快兩倍。結合 DDIM 取樣後,加速效果更明顯,進一步實現了 5 倍的加速,且控制效果保持相當。
表 1. 一維 Burgers’方程控制任務上的實驗結果對比。
在二維煙霧間接控制中,CL-DiffPhyCon 同樣表現優異,在 4 種場景設定中,效果均優於對比方法。在取樣效率方面,CL-DiffPhyCon 比 DiffPhyCon-h 實現了約 H/h h∈{1,5,14} 倍的加速,並且比 RDM 更高效。結合 DDIM 後,推理速度進一步加快,比 RDM 快 5 倍以上。
表 2. 二維煙霧間接控制任務上的實驗結果對比。
圖 3. 在固定地圖(上圖)和隨機地圖(下圖)兩種環境下,CL-DiffPhyCon 與表現最好的對比方法在二維煙霧間接控制上的視覺化對比。橫向表示不同物理時刻。控制目標 J 越低,表示控制效果越好。
六、總結與展望
CL-DiffPhyCon 為高效閉環控制提供了一種創新解決方案。透過實驗驗證,證明了其具有兼得優良的控制效果和高效的取樣效率的顯著優勢。不過,研究人員也指出,該方法仍有提升空間。目前 CL-DiffPhyCon 是基於離線資料訓練的,未來可以考慮在訓練過程中融入環境即時反饋,探索多樣的控制策略。此外,雖然兩個擴散模型是基於對目標分佈的理論分析推出,但在引導取樣下得到的樣本與最優解的誤差界仍是一個開放問題,值得進一步深入研究。
從應用前景來看,CL-DiffPhyCon 不僅適用於這篇論文的複雜物理系統控制任務,在機器人控制、無人機控制等領域也具有廣闊的應用潛力。隨著研究的不斷深入和技術的持續進步,CL-DiffPhyCon 將不斷完善,為更廣泛領域的控制問題提供有益的解決方案。
參考文獻
[1] Long Wei et al. DiffPhyCon: A Generative Approach to Control Complex Physical Systems. NeurIPS 2024.
[2] Jonatha Ho et al. Denoising diffusion probabilistic models. NeurIPS 2020.
[3] Cheng Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. RSS 2023.
[4] Siyuan Zhou et al. Adaptive online replanning with diffusion models. NeurIPS 2024.
[5] Jiaming Song et al. Denoising Diffusion Implicit Models, ICLR 2021.
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章