追平多模態滿血o1,kimi的新模型k1.5破解了OpenAI的秘密?

作者

週一笑

郵箱[email protected]

年關將至,大模型行業又熱鬧了起來。一天之內,兩個“對標”o1的國產大模型相繼釋出,分別是DeepSeek的DeepSeek R1,以及Kimi的k1.5。
先是DeepSeek釋出了效能比肩OpenAI o1正式版的R1,同時還公佈了詳盡的技術報告,並繼續開源模型權重,這再次讓海外技術社群感嘆,“DeepSeek才配叫做OpenAI”。
幾乎同一時間,Kimi釋出了全新的強化學習模型k1.5,OpenAI之後首個多模態類o1模型。
去年11月,Kimi 推出了 k0-math 數學模型,12月釋出了k1視覺思考模型,這次是k系列模型的第三次升級,延續了快速持續改進的節奏。
考慮到OpenAI o1預覽版的釋出時間是去年9月,o1完整版釋出到現在不到兩個月,且OpenAI沒有披露具體技術的情況下,海內外大模型的“技術代差”似乎越來越小了。
具體來看,在涵蓋了數學、程式碼和視覺的基準測試上,k1.5的long-CoT模式(長推理)表現與OpenAI o1非常接近,在某些測試中甚至略有超越。
在short-CoT模式下(短推理),k1.5在數學、程式碼、視覺、通用能力的測試專案中領先於其他模型,包括OpenAI 4o和Claude 3.5 Sonnet。
雖然沒有開源模型,但在k1.5的釋出中,Kimi團隊首次公開了25頁的模型訓練技術報告《Kimi k1.5: Scaling Reinforcement Learning with Large Language Models》,特別是在強化學習這樣的前沿領域,技術報告本身就具有重要的研究價值。
1
藏在技術報告中的“黑科技”
Kimi k1.5模型的設計和訓練有幾個關鍵要素,核心是利用強化學習(RL)來增強其推理能力:
  • 強化學習 (RL) 是關鍵:與大多數模型僅從靜態資料中學習不同,Kimi k1.5 使用RL透過試錯學習,並在獎勵的指導下進行。
  • 長上下文擴充套件:一個主要組成部分是處理非常長的文字序列的能力,最多可達128,000個 token。這是透過在訓練期間使用部分展開(partial rollouts)來實現的。這意味著系統重複使用先前嘗試的部分內容,而不是從頭開始重新生成整個新的訓練序列,從而提高訓練效率。這種長上下文允許模型更詳細地“思考”複雜問題,類似於規劃、反思和糾正其推理過程。上下文視窗的長度通常被認為是使用RL和LLM時持續改進的關鍵維度。
  • 改進的策略最佳化:RL過程使用線上映象下降(online mirror descent)的變體進行微調。這種方法有助於模型在其解決問題的過程中做出更好的決策。這種最佳化透過更好的取樣策略、長度懲罰和最佳化的資料配方得到增強。
  • 簡潔的框架:長上下文和改進的策略最佳化的結合,為使用LLM學習建立了一個簡單而有效的框架。該系統不需要諸如蒙特卡洛樹搜尋、價值函式或過程獎勵模型等複雜技術。
  • 多模態:該模型使用文字和影像資料進行聯合訓練,使其能夠利用這兩種型別的資訊進行推理。
  • Long-CoT到Short-CoT的遷移:該模型可以利用其長上下文推理能力來改進短推理模型。這可以透過使用長CoT啟用的長度懲罰和模型合併等技術來實現。
RL資料收集
Kimi k1.5 的 RL資料收集特點在於其高質量和多樣性,以及為了訓練效率所做的最佳化。為了確保訓練的有效性,資料需要涵蓋廣泛的學科(如 STEM、程式碼和一般推理),並具有均衡的難度分佈。為了避免模型作弊和過擬合,會排除容易被猜測答案的問題,並使用模型自身來評估問題難度。為了提升效率,還會利用課程學習和優先採樣等策略,以及區域性展開的技術來處理長序列。針對程式碼問題,還會自動生成測試用例,針對數學問題會使用鏈式思考的獎勵模型以提高評分準確性,並且視覺強化學習資料也分為現實世界、合成和文字渲染三種類型。
Long2short
Kimi k1.5模型使用了多種long2short(長轉短)方法,透過從long-CoT模型轉移知識來提升短思考short-CoT模型的效能。雖然長思考模型能夠達到很好的效能,但在測試時會消耗更多的tokens。幾個關鍵的long2short學習方法包括:
  • 模型合併(Model Merging):這種方法透過對長思考模型和較短模型的權重取平均值來組合它們,在不需要額外訓練的情況下得到一個新模型。
  • 最短答案篩選(Shortest Rejection Sampling):這種方法對同一個問題進行多次取樣,選擇最短的正確回答用於監督式微調。
  • DPO (直接偏好最佳化) (Direct Preference Optimization):讓CoT模型生成多個回答樣本,選擇最短的正確解決方案作為正樣本,而將較長的回答作為負樣本。這些正負樣本對構成了用於DPO訓練的成對偏好資料。
  • Long2short RL:在標準強化學習訓練階段後,選擇在效能和token效率之間取得最佳平衡的模型作為基礎模型。然後進行單獨的長轉短強化學習訓練階段,應用長度懲罰並減少最大展開長度,以進一步懲罰超過期望長度的回答。
在AIME2024測試集上k1.5整體表現出更好的token效率
這些方法有助於提高短思考模型的token效率,同時不犧牲效能。透過轉移長思考模型的思維模式,短思考模型可以用更少的token預算達到更好的結果。與其他方法(如DPO和模型合併)相比,Long2short RL展現出最高的token效率,而k1.5系列模型總體上顯示出比其他模型更優的token效率。
總的來說,long2short方法幫助短CoT模型從長CoT模型的推理策略中學習,用更少的token實現更好的效能。Kimi k1.5的報告顯示,這可以帶來效能提升,例如在AIME 2024和MATH 500基準測試上的表現。Kimi團隊認為這是一個重要的研究方向,可以進一步提高語言模型的效率。
Infra的混合部署框架
Kimi k1.5系統引入了多項基礎架構創新以支援llm的高效強化學習訓練。其核心是混合部署框架,它允許在同一個Kubernetes pod的GPU上同時部署訓練和推理工作負載,透過使用獨立的Megatron(用於訓練)和vLLM(用於推理)容器,並由檢查點引擎管理生命週期,有效防止了訓練節點在等待推理節點時的閒置狀態。
系統還採用了部分展開技術來高效處理長上下文RL訓練,它透過將長回答分割成多個迭代段並從重放緩衝區重用之前的片段來減少計算開銷,同時包含重複檢測功能以及早識別和終止重複序列。
在程式碼執行方面,系統配備了專門的沙箱服務,使用crun代替Docker作為容器執行時並重用cgroups,以提供安全高效的程式碼執行環境。
此外,系統還包含了由etcd服務管理的全域性元資料系統用於廣播操作和狀態,以及使用Mooncake透過RDMA在對等節點之間傳輸檢查點。這些創新元件共同構建了一個高效的訓練系統框架,使Kimi k1.5模型能夠有效應對長上下文和多模態資料訓練的挑戰。
總的來看,Kimi k1.5的這份技術背後的理念就像是官方推文中引用的這句話,它介紹了模型開發中的一些技巧,而這些trick往往是簡潔且優雅的。同時可以看出團隊也在調整自己的技術公開策略,把“菜譜”分享給社群,讓行業共同進步。
值得注意的是,這份報告中還列出了參與研發和資料標註工作的人員名單,相對於K1.5出色的表現,貢獻者名單其實很精煉,這可能印證了Kimi團隊的某種人才密度。
1
RL+LLM,大道至簡?
英偉達高階研究科學家Jim Fan第一時間對Kimi和DeepSeek兩家公司釋出的強化學習(RL)相關論文的評價和對比,他認為兩家公司都得出了一些相似的發現,也就是簡化強化學習框架,同時提升推理效能和效率。
無需複雜的蒙特卡洛樹搜尋(MCTS),而是線性化推理過程,結合高質量的自迴歸預測。不需要依賴額外昂貴的模型副本來處理價值函式。不需要複雜的獎勵建模,只需依賴於高質量的真實資料和最終結果。
這或許就是o1已經被“破譯”的秘密,沒有PRM,沒有MCTS,沒有複雜的配方,大規模可驗證的資料讓推理和自我反思在任何RL演算法中湧現。
一直以來,中國人工智慧企業由於在GPU上的限制,更傾向於在演算法和模型設計上追求高效,降低資源消耗,例如透過框架簡化、模型蒸餾和資料驅動的方法,這可能正好契合了o1背後的技術的趨勢。
最近,除了釋出R1,長期專注研究技術的DeepSeek開始招聘C端產品相關人才,並低調上線了C端產品;Kimi也第一次釋出模型訓練技術報告,在澄清某些傳言的同時,釋放出招攬技術人才的訊號。與此同時,位元組、通義、MiniMax、生數、面壁等企業也在紛紛推出新模型產品,大模型行業又熱鬧起來了,可以預見的是,新的一年,行業競爭也將進一步加劇。

點個愛心,再走吧


相關文章