在環境互動中持續進化!神經符號視角下的LLM自訓練框架

論文題目:
Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models
作者單位:
西安交通大學、上海AI Lab、香港大學、南京大學
論文地址:
https://arxiv.org/abs/2406.11736
專案地址:
https://github.com/xufangzhi/ENVISIONS
研究背景與核心問題
大語言模型(Large Language Model, LLM)在下游任務上的卓越效能,主要依靠大量人類標註的自然語言(Natural Language, NL)資料訓練。為了擺脫對人類標註資料的強依賴,研究者們開始利用合成數據,進行模型的自訓練(Self-Training),從而實現大模型能力從弱到強的轉變(Weak-to-Strong)。
這些 LLM Self-Training 的最新研究主要集中在以自然語言為核心的場景中,即輸入 x 和輸出 y 都是 NL 的形式。然而,為了拓展 LLM 的應用範圍和能力邊界,需要神經-符號結合(Neural-Symbolic)的複雜應用場景受到越來越多的關注。
在這些 neural-symbolic 場景中(例如 agentic tasks),LLM 需要根據自然語言指令 x,生成可執行的符號化表示 a,並在環境中執行得到結果(或狀態)y。相比於豐富的 NL 標註資料(x-y),收集符號化的資料對(x-a-y)是非常昂貴且有挑戰性的,主要受限於符號語言(Symbolic Language,SL)的稀缺性和內生複雜性。
因此,我們研究的核心問題就是:如何在不依賴人類標註符號資料的情況下,實現 LLM 在神經-符號場景下的 Self-Training?
環境互動的Self-Training正規化
當前,有兩種常見的 Self-Training 正規化,如下圖(a)、(b)所示。
第一種是 Distill-then-Finetune。透過 Prompt Teacher LLM(如 GPT-4)獲取資料對,用於 student LLM 的訓練。該方法簡單且有效,缺點是嚴重依賴於 Teacher LLM 且成本高。
第二種是 Reinforced Self-Training。利用 LLM 和 RL 的訓練結合,來提升效能。但是,該正規化的訓練非常低效,且獎勵模型的訓練同樣需要依賴人類標註。
針對 neural-symbolic 場景,我們提出 Env-guided Self-Training 正規化(見圖c)。僅僅依靠 LLM 自身與環境的不斷互動,完成 weak-to-strong 的轉化。優勢在於:1)不引入人類標註和 Teacher LLM,能解決 SL 資料稀缺的挑戰。2)透過自我合成數據實現自我進化,解決 LLM 在 neural-symbolic 場景上的能力短板。
上述三種正規化不是正交的,理論上可以自由組合。

自訓練框架ENVISIONS

基於 Env-guided Self-Training 正規化,我們提出了一個全新的自訓練框架 ENVISIONSENV-guIded Self-traIning framework fOr Neural Symbolic scenarios,如下圖所示。

3.1 Preliminaries

對於每一個 iteration,我們可以拿到 pair,其中 是 NL 形式的任務指令, 是對應的答案或者 NL 描述的一種結果狀態。
基本設定:基於 NL 的輸入 ,LLM 需要生成符號化的輸出 ,透過在環境 ENV 中的執行,得到確定性結果 。
3.2 Online Exploration
Online exploration 包含 Step1-7,LLM 不斷地自主生成候選軌跡並與環境互動,構造高質量的正負訓練樣本。其中,Step1-3 為 Self-Exploration 階段,Step4-6 為 Self-Refinement 階段,Step7 為 Self-Rewarding 階段。
3.2.1 Self-Exploration
Step 1:根據輸入 ,生成 個候選 symbolic solutions 。即
Step 2:在環境 ENV 中執行每一個  ,得到反饋結果,即 ;
Step 3:根據環境的反饋與  作比較,得到二值化的獎勵,即
3.2.2 Self-Refinement
由於 NL-centric 的 LLM 在符號語言生成上的天然劣勢,根據 直接生成 是有挑戰性的。考慮將 作為參考輸入,進一步生成 。該步驟可以看作 Self-Refine 的過程。
在 Step4-Step6 中,我們進行與 Self-Exploration 階段類似的操作。根據輸入 和 ,合成 ,並透過與環境的互動,得到二值化的獎勵 。
3.2.3 Self-Rewarding
根據 Step1-6,只能獲得二值化的反饋。但無法區分更好的正樣本或負樣本。因此,使用生成輸出過程中的 length-normalized logits,來作為 soft self-rewards,衡量樣本之間的相對好壞。

3.3 Data Selection and Training Strategies

前 7 個 step,收集到的軌跡可以表示為 和 。
對軌跡進行過濾篩選,得到更優的軌跡 。使用 去更新 candidate trajectory pool。
一種最直接 bootstrap LLM 的方式,就是利用正樣本進行微調。為了得到更優的正樣本進行進練,根據當前 trajectory pool 中每一個正樣本的 self-rewards 值,進行重新降序排序,得到 ranked positive set .
對於第 個輸入 ,取前 個正樣本進行訓練,形成集合 。
對應的就是一個 SFT 損失 ,根據 NL 輸入 生成對應的 。
除了正樣本之外,candidate trajectory pool 中的負樣本也具有很大的利用價值。例如,LLM 可以在 weak-to-strong 中獲取 learn from mistakes 的能力。與正樣本 pool 相似,我們也可以得到 ranked negative set 。排位越前的負樣本軌跡,對應的 self-rewards 值越高,說明是更難的負樣本。
從 和 中,我們使用 self-rewards 更低的正樣本,與 self-rewards 更高的負樣本,去構造 N2 個正負樣本對。形成包含 的集合 。考慮到 RL 方法在探索場景中的低效性,我們構造 RL-free 的 self-refine loss ,根據 和 去預測 。
最終的訓練損失就是 +,是一個純 SFT 的 loss。

主要實驗

4.1 實驗設定

實驗中選擇 LLaMA2-Chat(7B/13B)作為基座大模型。在三個不同的領域任務上對自訓練框架進行驗證,分別是 Web Agent、Math Reasoning、Logic Reasoning。具體細節如下表所示。
對比的基線方法可以按照 self-training 的正規化分為對應的三類。Distill-then-Finetune 中,分別採用 GPT-4 和 Claude-2 作為 Teacher LLM。Reinforced Self-Training 中,我們引入 Self-Rewarding、iterative SFT+DPO 作為強基線。Env-guided Self-Training 中,將 STaR 拓展到環境互動的場景,作為對比基線。
4.2 ENVISIONS在多類任務上展現了一致的優越性
從主表中可以看出,ENVISIONS 自訓練框架在所有測試任務中,均超越了對比的基線方法。相較於次優的對比基線方法,也取得了接近 3% 的平均效能增益。同時,Env-guided Self-Training 正規化在神經-符號場景下,展現了非常強的可拓展性。

4.3 ENVISIONS自訓練框架兼備進化效率和可持續性

下圖中呈現了 LLaMA2-Chat(7B)的進化過程,(a)圖中為效能變化過程,(b)圖中為探索到的成功樣本的數量變化過程。
小結:(1)ENVISIONS 探索效率很高,且隨著迭代輪次的增加,保持了穩定性。(2)RL 的基線方法在神經符號探索場景中表現的很掙扎。
4.4 在多個基座模型上的泛化能力
為了證明 ENVISIONS 在不同基座 LLM 上的泛化能力,下圖展示了多個基座 LLM 在數學推理任務上的實驗結果。
小結:ENVISIONS 不僅能訓練 LLM 完成 weak-to-strong 的轉變,也能 convert LLMs from strong to stronger。

分析實驗
5.1 ENVISIONS 成功的關鍵模組是什麼?

首先,本文進行了消融實驗,驗證了各個關鍵模組的有效性。如下圖所示。

5.2 ENVISIONS 出色效能的深層原因分析

除此以外,本文進行了大量分析實驗,來探索 ENVISIONS 優異效能的深層原因。
主要結論有三點:(1)平衡的探索效率和探索穩定性是 weak-to-strong 成功的關鍵。(2)清晰地區分正、負樣本可以幫助 LLM 的最佳化。(3)生成軌跡的多樣性對於 self-training 過程非常重要。
主要貢獻總結
(1)方法貢獻。本文針對神經符號場景,提出了基於環境互動的自訓練框架ENVISIONS。無需人類標註、Teacher LLM,實現 LLM weak-to-strong 的轉變。
(2)實驗分析貢獻。本文進行了全面的實驗分析,驗證了 ENVISIONS 的有效性,以及 Env-guided Self-Training 正規化在神經符號場景下的優越性。大量針對 “why” questions 的分析,為後續研究提供了 insights。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章