推理模型新路線開源!與DeepSeek截然不同,拋棄思維鏈不用人類語言思考

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI
開源推理大模型新架構來了,採用與Deepseek-R1/OpenAI o1截然不同的路線
拋棄長思維鏈和人類的語言,直接在連續的高維潛空間用隱藏狀態推理,可自適應地花費更多計算來思考更長時間。
例如問題:Claire每天早餐都會做一個3個雞蛋的煎蛋卷。她在4周內會吃多少個雞蛋?
從新模型Huginn的思考軌跡視覺化中,可以看到對數字3等重要token不斷旋轉,最終收斂到正確答案對應的位置,但在不關鍵的人物名字Cla-ire上沒有這個現象。
除旋轉之外還能觀察到更多豐富的幾何模式,研究團隊認為這表明該模型正在獨立學習利用潛空間的高維性質以新的方式做推理
由於不使用長思維鏈推理正規化,新方法還有幾個額外優勢:
  • 不需要任何專門的訓練資料
  • 可以在很小的上下文視窗下工作
  • 能捕捉到難以用語言表達的推理型別
研究來自馬克思普朗克研究所、馬里蘭大學等團隊,他們使用美國橡樹嶺實驗室的Frontier超算完成訓練實驗,用到8個AMD GPU節點(4096塊GPU),沒有使用英偉達體系。

新架構給Transformer加入迴圈模組

新架構仍然圍繞Decoder-only的Transformer block構建,但分為三段:
  • Prelude(前奏):使用多個transformer層將輸入資料嵌入到潛空間中
  • Recurrent Block(迴圈塊):迴圈計算單元,在潛在空間中修改狀態
  • Coda(尾聲):從潛空間解碼,幷包含模型的預測頭
在訓練期間為每個輸入序列分配隨機數量的迭代次數。同時為了在訓練時保持較低的計算和記憶體,只反向傳播迴圈單元的最後k次迭代。
研究中可視化了模型在潛在空間中的推理軌跡,發現了這些有趣現象:
  • 對一些簡單token,模型的隱狀態會快速收斂到穩定點
  • 但對一些關鍵token,如數學問題中的數字”3”,隱狀態會形成複雜的圓形軌道
  • 還有一些token的隱狀態會沿特定方向”滑動”,可能用於計數迴圈次數
論文一作Jonas Geiping透露,他們的算力只夠一次大規模訓練,也就是最後釋出的3.5B引數的Huginn模型,在800B tokens資料上預訓練。
沒有post/mid-training過程,但可以與7B引數、在2-3T tokens資料上訓練的開源模型能力相匹配。
另外算上迴圈模組中的計算,3.5B引數的模型訓練時的計算量相當於傳統的32B模型。
有人猜測OpenAI o3使用了類似的方法,透過迴圈來達到近似無限上下文,並且控制高中低三種推理時間設定。
有OpenAI研究員已經注意到這個工作,把論文讀完了還線上捉bug。
也已經有人準備根據DeepSeek-R1開源的方法嘗試新思路,同時保留潛空間思考的推理能力,和CoT思考的可讀性。

論文:

https://arxiv.org/abs/2502.05171

模型:

https://huggingface.co/tomg-group-umd/huginn-0125

程式碼:

https://github.com/seal-rg/recurrent-pretraining

參考連結:

[1]

https://x.com/tomgoldsteincs/status/1888980680790393085
[2]https://x.com/jonasgeiping/status/1888985929727037514

評選報名2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章