ICML2024|清華提出DecisionNCE，用多模態表徵預訓練加速具身智慧

©作者 | 李健雄

單位 | 清華大學博士生

論文題目：

DecisionNCE：Embodied Multimodal Representations via Implicit Preference Learning

論文連結：

https://arxiv.org/abs/2402.18137

程式碼連結：

https://github.com/2toinf/DecisionNCE?tab=readme-ov-file

專案主頁：

https://2toinf.github.io/DecisionNCE/

端到端訓練資料的稀缺問題

具身智慧是 AGI（通用人工智慧）研究的最終目標之一，期待有一天機器人可以幫我們解決日常生活中的大部分瑣碎任務。對於人類而言，透過語言描述任務是十分方便的。因此以 RT 系列為代表的視覺-語言-控制模型（VLCM，Vision-Language-Control Model）受到廣泛關注。

VLCM 智慧體可以透過視覺理解環境，並執行人類語言所描述的任意任務，展現出了極強的 zero-shot 泛化能力。然而，VLCM 模型通常採用端到端的訓練方式，這無疑會需要海量的示教資料，如圖 1 所示。

▲ 圖1. 端到端VLCM的缺點

直觀地講，語言模型（LM，Language Model）只考慮單一語言模態，視覺-語言模型（VLM，Vision-Language Model）需要考慮視覺和語言兩個模態，而視覺-語言-控制模型（VLCM）則需要考慮視覺、語言和控制三個模態。因此，我認為在訓練所需的資料量上，VLCM>>VLM>>LM。

然而，從資料採集的難度而言，網際網路存在海量的語言資料和視覺-語言資料，但視覺-語言-控制資料則需要人類透過示教系統日積月累採集得到。同時，人類專家的示教效率通常極低，例如我們採用的Bridge data v2的VR示教方案經常會因為操作失誤或硬體失靈等玄學問題導致示教失敗。對比已有的VLCM、VLM和LM訓練資料量，可以說VLCM<<VLM<<LM。

因此，沒資料一直是Embodied AI或者說Robot Learning最嚴重的問題之一。

多模態表徵預訓練：緩解資料稀缺問題的通用解決方案

為了解決資料稀缺的問題，一個通用的解決方案是：表徵預訓練（Representation Pretrain）。其中經典的方法便是以CLIP為代表的對比學習方法。在網際網路上，我們可以找到很多人類做家務（例如EPICK-KITCHEN還有Ego4D資料集）或其他機器人執行某項任務的視覺-語言資料（例如，Open-X embodiment資料，還有最近出的DROID資料）。

雖然這些資料沒有明確的動作標籤（action label）無法直接用於策略的學習，並且這些資料中的機器人形態和我們待訓練的機器人可能大不相同，存在很嚴重的跨域偏差（cross-domain gap）。

然而，這些資料中已經蘊含有大量的有用資訊，對機器人的策略學習可能起到很強的促進作用。例如，透過觀察這些視覺-語言資料，機器人可以提前瞭解到大量任務（language instruction）看起來（vision）是長什麼樣子的；同時，這些資料會提供給機器人豐富的contact-rich的物理資訊，例如“杯子掉落後會碎”、“推物體會讓物體移動”、“拉櫃子會把櫃子拉開”等物理規律，這些都是對機器人決策非常有用的資訊。

倘若我們可以利用海量的、易收集的、分佈外的視覺-語言資料（例如人類做家務的資料）預訓練一個以機器人策略學習為核心的視覺-語言表徵（vision-language representation），從中提取出這些有助於機器人策略學習的有用資訊，那將在很大程度上緩解robot learning對資料的依賴。

▲ 圖2. Vision-language Pretrain, vision-language-control finetune的樣本高效robot learning

然而，訓練這樣的表徵是非常困難的。因為對於機器人的決策而言，一個高度抽象的語言指令所描述的是一種動態的變化過程（注意一定是一個動態而非靜態的過程，例如“把大象裝進冰箱裡”一定是有大象從外到內的動態變化），而反映動態過程的最好載體是影片，而非傳統多模態中的單幀靜態圖片。也就是說，傳統多模態表徵預訓練需要考慮的是語言和單幀圖片的對齊，而具身智慧中的多模態表徵預訓練需要解決語言和影片軌跡的對齊（trajectory-level grounding）。

在此，如果我們想粗暴地直接把語言指令和一整段影片透過對比學習的方式進行訓練，則需要將影片中的每一幀都透過神經網路提取表徵，隨後將所有影片幀的視覺表徵和語言表徵進行對齊，不僅會消耗大量的計算資源，還存在訓練難度大的問題。

因此，如何簡單、高效地實現trajectory-level grounding，提取出影片軌跡中語義豐富的全域性時序資訊（global temporal info），細節豐富的區域性時序資訊（local temporal info），並得到光滑的時序過渡十分困難。（對該領域challenge感興趣的同學老師可以仔細看我們paper的introduction和Table 1，這裡就簡單省略了）。

▲ 圖3. 機器人多模態表徵預訓練的挑戰

DecisionNCE：一種decision-centric的多模態表徵預訓練方法

在本文中，我們發現人類反饋強化學習（RLHF）中用於獎勵函式訓練的Bradley-Terry Model實際是一種天然的可用於機器人多模態表徵預訓練的方法，可以優美、簡單、高效地解決上述所有問題。

3.1 Bradley-Terry Model

在RLHF中，Bradley-Terry (BT) model通常用於獎勵函式的訓練。其最佳化目標如下所示：

式1. Bradley-Terry model

其中，是一段影片中第 t 幀圖片。是從一個完整影片中的連續影片片段。意思是人類認為影片片段比更好。透過提高影片片段上每一個單幀轉移的獎勵總和，降低影片片段上的獎勵總和，進而BT model就可以擬合人類偏好，完成獎勵函式的學習。

由此可見，BT model本質上就是在進行一種軌跡級的對比學習。因此，如果我們能想個辦法，巧妙地把視覺表徵和語言表徵融入到BT model的最佳化目標中，那不就意味著我們實現了軌跡級的多模態表徵預訓練，不正是我們想做的事情！

式2. 基於Bradley-Terry model的多模態表徵學習框架

但是，想直接把BT model拓展到表徵學習的任務中，仍有幾個問題需要解決：

1. 偏好標籤從哪來？BT model的訓練需要給出海量的人類偏好標註，但已有的資料並沒有這樣的標註。

2. 影片片段長度如何選擇？過長的影片片段可以包含語義明確的全域性時序資訊，但計算開銷極大。過短的影片片段可以反映非常細節的世界動力學關係，且計算開銷低，但丟失了語義明確的時序資訊。

3. 如何建模獎勵函式？在上式中，獎勵函式是一個關於視覺表徵 𝜙 和語言表徵 𝜓 的獎勵函式，但到底是什麼形式我們仍沒有給出明確的定義。一個好的建模方式可能會產生事半功倍的效果，顯著提高表徵學習的能力。

3.2 隱式偏好標註

針對沒有偏好標註的問題。我們提出了一個隱式人類偏好的概念，即對於一個語言指令而言，與其相匹配的影片片段是優於不匹配影片片段的。例如對於下圖“開冰箱”的語言指令，肯定是上方的影片片段更好，因為下面的影片片段很顯然並沒有完成“開冰箱”這個任務，而是完成了“拿起鍋”的任務。

實際上，現有的視覺-語言資料集基本都已經把匹配的語言-影片片段整理在了一起，所以現有資料集中有大量的這種隱式的人類偏好。因此，我們可以利用這些隱式的偏好標註進行訓練，不再需要耗費大量的人力去進行偏好的標註。

▲ 圖4. 隱式人類偏好

3.3 隨機片段取樣

針對影片片段長度選擇難的問題，我們則更加直接簡單粗暴：既然長度難選，那我們就完全隨機選。簡單地來說，我們先從一段完整影片中隨機選擇一幀作為影片片段的開始，然後在後續影片中選擇一幀作為影片片段的結束，則可以取樣出長度隨機變化的影片片段。這樣做，我們既有機率取樣出很長的影片片段從而提取全域性的時序資訊，也有機率取樣出較短的影片片段從而提取區域性的時序資訊，進而實現全域性和區域性時序的兼顧。

雖然看起來簡單粗暴，但我們在論文中發現透過簡單的隨即片段取樣，最終匯出的DecisionNCE學習方法可以天然地實現時序對比學習的目標，對提高視覺表徵在時序層面的光滑性有促進作用（在前人工作中通常採用一個額外設計的損失函式來實現，進而需要考慮不同損失函式之間的權衡問題）。此外，雖然現在針對長影片片段仍需要耗費大量的計算資源且訓練難度大，但是我們後續發現透過合適的獎勵重引數化方法則可以進一步解決這個問題。

3.4 獎勵重引數化

最後，針對如何建模獎勵函式的問題，DecisionNCE給大家提供了一個非常通用的最佳化框架，理論上可以相容任意的獎勵函式建模方式，在文中我們為大家提供了兩種簡單高效的重引數化方法：DecisionNCE-P和DecisionNCE-T。

▲ 圖5. DecisionNCE-P和DecisionNCE-T

DecisionNCE-P

首先，我們採用了一種非常經典的獎勵函式建模方法：Potential-based Reward：

式3. Potential-based Reward重引數化

式中，可以是任何相似度的衡量指標，我們在此定義為餘弦相似度。可以很明顯地看出，該獎勵函式衡量的是表徵空間中影片幀轉移對向語言前進的距離。也就是說隨著影片片段的推移，如果語言所描述的任務被逐漸解決了，那麼整體影片片段的獎勵函式就會增大，否則獎勵函式較小。

這樣定義獎勵函式，有一個非常好的好處，那就是在計算一個影片片段的獎勵函式總和時，中間影片幀的表徵會兩兩相消，進而極大地降低了計算量，簡化了訓練難度：

式4. Potential-based reward的影片片段獎勵總和

可以看出，影片片段獎勵函式的總和只和片段頭和片段尾兩幀相對語言指令的距離之差有關，不再需要處理所有的中間幀。一段影片片段是否完成語言指令就只和尾減頭所描述的距離變化相關。這樣的簡化是很合理的，例如針對“開冰箱”這個指令，我們不需要在意中間過程是什麼樣的，只需要看到最開始冰箱門是關閉的，最後冰箱門是開啟的，那就會知道“開冰箱”的指令完成了。

將式4代入到BT model的式2中進行最佳化，便會將匹配的影片-語言對中第一幀的視覺表徵推遠語言表徵，並逐漸將後續的視覺表徵拉近語言表徵，如圖5 (a) 所示。

式5. DecisionNCE-P對應的BT model

DecisionNCE-T

觀察DecisionNCE-P的最佳化目標，可以發現DecisionNCE-P理論上只有最後幀的視覺表徵和語言表徵處在最近的位置，如圖5（a）所示。這樣做，無疑是引入了一個可能不太合適的inductive bias (歸納偏置)：最後幀和語言指令更匹配，最開始幀和語言指令不匹配。然而我們在第1章重點強調過，一個語言指令代表的不是某一幀靜態圖片，而是一種從狀態A到狀態B的動態變化過程！

很顯然DecisionNCE-P並不能特別好地引入該inductive bias，那麼為了解決這個問題我們提出了DecisionNCE-T，採用了一種新的獎勵函式重引數方式：Transition-direction Reward：

式6. Transition-direction reward的影片片段獎勵總和

將其代入式2中得到的DecisionNCE-T如下所示：

式7. DecisionNCE-T對應的BT model

其中，為餘弦相似度。注意此處的餘弦相似度計算的是視覺表徵之差和語言表徵之間的相似度。如圖5 (b)所示，在此一個語言指令代表的不再對應某一幀靜態圖片，而是類似由所表示的表徵空間的一個轉移方向。

在此定義下，就算某一幀靜態圖片的視覺表徵距離語言表徵非常遠，但只要他向後轉移的方向和語言表徵相似，那我們就認為這個視覺轉移是正確的。例如還是“開冰箱”的任務，人的手從遠離冰箱的位置逐漸靠近冰箱門也可以是認為在嘗試開啟冰箱的一個子任務。

最終，我們DecisionNCE的整體framework如圖所示。

▲ 圖6. DecisionNCE的framework

3.5 分析

1. 隱式時序對比學習。不論是DecisionNCE-T還是DecisionNCE-P，都隱式地實現了時序對比學習，對提高視覺表徵在時序層面的光滑性有顯著的促進作用。觀察式5和式7的最佳化目標（分子部分），不難發現DecisionNCE-P/T都會將影片片段的結束幀拉近語言表徵，把影片片段的開始幀推遠語言表徵。要注意到我們的影片片段是隨機取樣的，因此一段影片中的每一幀都有可能作為結束幀被拉近，也有可能作為開始幀被推遠。

同時，我們可以透過簡單推導，發現越靠後的影片幀被選作結束幀的機率越大，被選作開始幀的機率越小，且是單調變化的。由此，一段影片從開始到結尾是逐漸靠近語言表徵的，在時序上表現出一種光滑的過渡，實際上正是時序對比學習的最佳化目標。由此，不難發現DecisionNCE-P/T只有一個最佳化目標且沒有任何超引數，但是可以同時提取全域性/區域性的時序特徵，還可以實現隱式的時序對比學習，以一種簡潔、優美、一體的方式解決了我們面臨的所有問題。

▲ 圖7. 隱式時序對比學習

2. 影片首幀表徵位置分析。前述的所有分析，都是針對DecisionNCE-P/T最佳化目標的分子部分展開的，接下來分析最佳化目標的分母位置。對於分母部分而言，不難理解其最佳化方向和分子部分是相反的，即將不匹配影片的開始幀和語言表徵拉近，將結束幀和語言表徵推遠。這乍一看非常不合理，因為和極大機率毫不相關，比如是“開冰箱”而是“拿起鍋”的某一幀。這樣粗暴地將兩個毫不相關的和拉近無疑會導致奇怪的結果，看起來像是最佳化“錯”了。

但是！這樣“錯誤”的最佳化目標實際會匯出很有趣的表徵結構。注意不是和某一個單一的拉近，而是和幾乎所有的拉近，因為一個只有一個匹配的語言指令，但是幾乎和其他所有的語言指令都是不匹配的。因此，每個影片的最開始幀都會被幾乎所有的語言指令拉近，最終被拉到一個不偏向任何一個語言指令的“中間地帶”，如圖8所示。這個位置是非常合理的，因為每個影片的開始幀的任務資訊都非常模糊。

例如還是“開冰箱”的任務，很多開冰箱的影片的第一幀甚至都沒有出現冰箱，就一個人在看著空無一物的地板。針對這樣的場景，是不可能直接判斷當前的任務是什麼的，因此這樣的就應該被拉到所有語言指令的“中間地帶”。然而像VIP和LIV這樣的前序工作，為了保證表徵空間的緊緻性，通常將和匹配的語言指令拉近，這才是真正地將一些毫不相關的表徵強行拉到一起。

▲ 圖8. 針對影片開始幀表徵位置的分析

實驗

在本文中，我們透過在人類做家務（EPICK-KITCHEN-100）資料集上預訓練好DecisionNCE-P/T，隨後針對凍結的表徵開展下游實驗測試。

4.1 全域性/時序資訊提取

我們首先測評DecisionNCE-P/T捕捉全域性/區域性時序資訊的能力。理想情況下，DecisionNCE-P/T需要為匹配的影片-語言對分配更高的獎勵值，為不匹配的影片-語言對分配較低的獎勵值。

下圖可以清晰地看出來，DecisionNCE-P/T的斜對角線（匹配的影片-語言對）呈現出明顯的亮線，說明其不論針對短的影片片段還是長的影片片段都可以識別出正確的時序資訊。相比之下，其他baseline演算法例如R3M, LIV和CLIP則不具備這樣的能力，特別是針對短影片片段受到噪聲的干擾嚴重。

▲ 圖9. DecisionNCE-P/T為不同長度的影片片段-語言對分配的獎勵值熱力圖

4.2 實物/模擬機械臂實驗

我們將訓練好的表徵引入極少量的下游機械臂資料進行語言條件的行為克隆（Language-conditioned behavior cloning，LCBC)學習。包含真機實驗（測評了抓放（pick & place），挪動 (move)，開 (open)，關 (close)，疊 (flod)，擺正 (flip)五個機械臂操作的基礎技能，涵蓋9個子任務）和FrankaKitchen模擬實驗（5個子任務）。

其中，FrankaKitchen所用的示教數量極其稀少，每個任務僅有1條，3條，或5條示教。要知道如果沒有預訓練好的表徵支援，僅透過如此少的資料學習出好的策略是不可能的。

▲ 圖10. 真機/模擬實驗環境

▲ 圖11. 真機LCBC實驗結果

▲ 圖12. 模擬LCBC實驗結果

無論是真機還是模擬的實驗結果，都說明DecisionNCE-P/T都可以有效地提高下游模仿學習的學習效率，降低對示教資料的依賴。其中，從模擬結果可以看出，僅有1條示教資料時，DecisionNCE-P/T都可以達到近15%的成功率。

4.3 通用獎勵函式

值得注意的是，DecisionNCE-P/T不僅可以用作表徵學習，還可以提供通用的獎勵函式，因為BT model本身不就是用來學獎勵函式的一種標準方法。我們可視化了DecisionNCE-P/T對不同的影片-語言對預測的獎勵函式，如下圖所示。

▲ 圖13. DecisionNCE-P/T的獎勵函式視覺化結果

結果表明DecisionNCE-P/T不僅可以對分佈內的資料（in-distribution）預測正確的獎勵趨勢，還具有很好的分佈外泛化能力（zero-shot reward）。更有意思的是，因為DecisionNCE自身對比學習的特性，他可以很為完全相反的影片-語言對分配相反的獎勵趨勢。

DecisionNCE-P/T獎勵函式的MPPI規劃能力。更進一步，我們可以利用DecisionNCE-P/T提供的獎勵函式直接進行zero-shot的planning規劃測試，即在模擬器中rollout出很多軌跡，然後挑選出預計獎勵函式最大的那個軌跡的第一個動作執行。

隨後不斷迴圈重複，測試MPPI規劃的成功率，成功率高則反映出獎勵函式的準確性高。我們測試了DecisionNCE-P/T獎勵函式的zero-shot能力，發現可以在FrankaKitchen的5個任務上有驚人的10%以上的平均成功率。後期有更多的資料後，我相信DecisionNCE-P/T可以提供在更多的場景提供更準確的universal rewards，解決獎勵函式難以設計的問題。

4.4 Scaling能力

除此之外，我們還初步擴大了DecisionNCE-T預訓練的資料量，引入了OpenX-embodiment的資料。在模擬LCBC的結果顯示透過引入更多的預訓練資料，DecisionNCE-T可以進一步顯著提高下游策略的表現（成功率從34.7%提高到41.4%）。因為這一系列消耗資源過大，所以我們仍在進一步探索中，目前還沒有補充到arxiv中。