
作者丨鄭佳美
編輯丨陳彩嫻
2025 年 1 月 20 日 Kimi k1.5 正式釋出,伴隨著技術報告的公佈,有網友表示:“這應該是全球範圍內,除 OpenAI 之外的公司首次實現 o1 正式版的多模態推理效能了吧!”
一時間,Kimi k1.5 成了話題王者。
但在一個月後的 2 月 24 日,X 上出現了一篇關於 Kimi k1.5 的技術爆料帖,博主直言 k1.5 所用到的強化學習演算法,其實是借鑑了自己在 24 年 5 月提出的一種名為 SPPO 的技術。
訊息一齣,瞬間吸引了數萬人關注。

在這則爆料中,博主 Yue Wu 先是對 SPPO 進行了簡單解釋,並且附上了相關論文(https://arxiv.org/abs/2405.00675),簡單來說,SPPO是一種自博弈演算法,最初的動機來源於刻畫廣泛意義上的人類偏好,並且使用瞭如下圖所示的平方損失函式:

值得一提的是,點開論文連結,你會發現原來 Yue Wu 和 Zhiqing Sun 同為這篇文章的第一作者。

緊接著,他開始對 SPPO 技術進行解析:
透過迭代求解上式中的 theta_t,我們可以得到一個與人類偏好對齊良好的語言模型。SPPO 使用勝率(紅色部分)作為獎勵,並用常數近似基線(藍色部分)。

讓我們感興趣的是,我們發現它與 RLHF 目標的策略梯度有著深層的聯絡:如果我們直接用普通的策略梯度最佳化 RLHF (人類反饋強化學習)目標會怎樣?根據策略梯度定理,策略梯度實際上也具有平方損失形式(藍色項是策略梯度中的基線):

從數學上,我們證明了 SPPO 的平方損失等價於普通策略梯度的一種半線上變體:
SPPO 中的勝率充當獎勵函式(紅色部分)。
分割槽函式項自然地成為(軟)值函式(藍色部分)。

那麼這到底意味著什麼呢?
-
標準策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循當前策略的樣本。
-
SPPO 在每次迭代開始時只採樣一次,然後透過平方損失進行最佳化。
-
這使得 SPPO 成為一種輕量級的 RLHF 方法——無需即時生成!

上述分析揭示了大型語言模型(LLM)後訓練階段一個有趣的發展趨勢:
-
離線 DPO(IPO、KTO 等)取代 RLHF(獎勵模型 + 強化學習)
-
迭代 DPO、SPPO 等方法將離線方法轉化為線上對齊方法
-
更加精細的迭代 → 迴歸到線上強化學習

鑑於 GRPO(Deepseek-R1)和平方損失(Kimi k1.5)的成功,端到端強化學習的強大作用愈發凸顯,或許在大型語言模型(LLM)後訓練階段無需額外技巧——價值函式、廣義優勢估計(GAE),甚至梯度裁剪都無需使用。

另一個簡單但有趣的發現是,他們發現 SPPO 暗中在詞彙級別最佳化最優最大熵策略。其平方損失隱含地最小化了學習到的策略與最優詞彙級別策略之間的 KL 散度。

在我們後續的研究 GPO 中,我們直接最小化相對獎勵與對數比率之間的平方損失。這兩項工作中的平方損失等價於策略梯度,但它是以迭代的方式進行的。

除了提出助力 Kimi k1.5 大獲成功的 SPPO 技術外,Wu Yue 也是一個學術背景很強的科研大牛。
他本科期間師從北京大學的王立威教授,博士期間師從加利福尼亞大學洛杉磯分校的顧全全教授,目前以博士後研究員的身份在普林斯頓大學人工智慧實驗室繼續著自己的科研之路。

除此之外,2023 年至今他一共參與釋出了 9 篇 Paper,其中 3 篇均為第一作者。

強大的學術背景之外,Wu Yue 的實習經歷也非常加分。2022 年至 2024 年,他分別在 NEC 美研院、位元組美國 AI lab和 Meta 工作實習。
在 NEC 美研院期間,Wu Yue 從事個性化聯邦學習研究,並開發了一種基於混合模型的方法,該方法被 ICML 2023 接受發表;在位元組美國 AI lab 時,他專注於藥物發現領域的多構象生成,將分子動力學的物理先驗納入基於擴散的生成模型,相關成果被 ICML 2024 接受;來到 Meta 後,Wu Yue 又致力於詞彙級別獎勵建模和新架構設計,用於一般人類偏好和一般偏好最佳化,為生成式人工智慧的發展做出了貢獻。

而與他同為第一作者的 Zhiqing Sun ,目前已經從 CMU 畢業,並在今年 2 月加入 OpenAI。

參考連結:https://x.com/FrankYueWu1/status/189385002391950553
論文連結:https://arxiv.org/pdf/2405.00675



更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
