

論文題目:
Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models
西安交通大學、上海AI Lab、香港大學、南京大學
https://arxiv.org/abs/2406.11736
https://github.com/xufangzhi/ENVISIONS

研究背景與核心問題
大語言模型(Large Language Model, LLM)在下游任務上的卓越效能,主要依靠大量人類標註的自然語言(Natural Language, NL)資料訓練。為了擺脫對人類標註資料的強依賴,研究者們開始利用合成數據,進行模型的自訓練(Self-Training),從而實現大模型能力從弱到強的轉變(Weak-to-Strong)。
這些 LLM Self-Training 的最新研究主要集中在以自然語言為核心的場景中,即輸入 x 和輸出 y 都是 NL 的形式。然而,為了拓展 LLM 的應用範圍和能力邊界,需要神經-符號結合(Neural-Symbolic)的複雜應用場景受到越來越多的關注。
在這些 neural-symbolic 場景中(例如 agentic tasks),LLM 需要根據自然語言指令 x,生成可執行的符號化表示 a,並在環境中執行得到結果(或狀態)y。相比於豐富的 NL 標註資料(x-y),收集符號化的資料對(x-a-y)是非常昂貴且有挑戰性的,主要受限於符號語言(Symbolic Language,SL)的稀缺性和內生複雜性。

環境互動的Self-Training正規化
當前,有兩種常見的 Self-Training 正規化,如下圖(a)、(b)所示。

第一種是 Distill-then-Finetune。透過 Prompt Teacher LLM(如 GPT-4)獲取資料對,用於 student LLM 的訓練。該方法簡單且有效,缺點是嚴重依賴於 Teacher LLM 且成本高。
第二種是 Reinforced Self-Training。利用 LLM 和 RL 的訓練結合,來提升效能。但是,該正規化的訓練非常低效,且獎勵模型的訓練同樣需要依賴人類標註。
針對 neural-symbolic 場景,我們提出 Env-guided Self-Training 正規化(見圖c)。僅僅依靠 LLM 自身與環境的不斷互動,完成 weak-to-strong 的轉化。優勢在於:1)不引入人類標註和 Teacher LLM,能解決 SL 資料稀缺的挑戰。2)透過自我合成數據實現自我進化,解決 LLM 在 neural-symbolic 場景上的能力短板。
上述三種正規化不是正交的,理論上可以自由組合。
自訓練框架ENVISIONS

基於 Env-guided Self-Training 正規化,我們提出了一個全新的自訓練框架 ENVISIONS:ENV-guIded Self-traIning framework fOr Neural Symbolic scenarios,如下圖所示。

3.1 Preliminaries

3.3 Data Selection and Training Strategies






主要實驗

4.1 實驗設定

4.2 ENVISIONS在多類任務上展現了一致的優越性

4.3 ENVISIONS自訓練框架兼備進化效率和可持續性


小結:ENVISIONS 不僅能訓練 LLM 完成 weak-to-strong 的轉變,也能 convert LLMs from strong to stronger。
分析實驗
5.1 ENVISIONS 成功的關鍵模組是什麼?


5.2 ENVISIONS 出色效能的深層原因分析

主要結論有三點:(1)平衡的探索效率和探索穩定性是 weak-to-strong 成功的關鍵。(2)清晰地區分正、負樣本可以幫助 LLM 的最佳化。(3)生成軌跡的多樣性對於 self-training 過程非常重要。

(2)實驗分析貢獻。本文進行了全面的實驗分析,驗證了 ENVISIONS 的有效性,以及 Env-guided Self-Training 正規化在神經符號場景下的優越性。大量針對 “why” questions 的分析,為後續研究提供了 insights。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
