繞開DeepSeek技術思路，馬普所團隊開源推理模型新路線

眼下，不少 AI 開發者正在研究 DeepSeek 的技術路線。但是，一支國外團隊卻提出了別具一格的新方法。他們提出一種推理模型新路線，這一路線繞開了思維鏈，透過採取深度迴圈隱式推理方式，為大模型效能擴充套件開闢了新維度。

具體來說，來自德國馬普所智慧系統研究所、美國馬里蘭大學和美國勞倫斯利弗莫爾國家實驗室的研究人員提出一種新型語言模型架構，該架構能夠透過潛空間中的隱式推理來擴充套件測試時計算。（注：潛空間，是指由生成模型學習得到的低維連續向量空間，其中每個點對應於資料特徵的壓縮表示。）

圖 | 相關論文的第一作者、德國馬普所智慧系統研究所的研究員喬納斯·蓋平（Jonas Geiping）（來源：https://jonasgeiping.github.io/）

透過此，研究人員打造出一款名為 Huginn 的概念驗證模型，其引數規模為 3.5B，在 800B tokens 資料開展預訓練。

該模型透過迭代迴圈塊來進行工作，從而能在測試時展開到任意深度，這與透過產生更多 tokens 來擴充套件計算的主流推理模型形成鮮明對比。

不同於基於思維鏈的方法，本次研究所使用的方法在無需使用任何專用訓練資料的前提下，就能在較小的上下文視窗中工作，並且能夠捕捉到那些難以用文字進行清晰表述的推理型別。

目前，研究人員已經公佈了全部的訓練資料、預訓練程式碼以及部分中間模型檢查點。

對於開展這項研究的初衷，研究人員在論文中表示，此前人們在提高大模型的能力時，主要採取擴充套件模型引數的做法，這種做法需要大量的資料和計算。

儘管人們探索出了透過擴充套件測試時間計算來增強模型推理能力的方法，但是對於主流方法來說它涉及到針對長鏈思維示例進行後訓練，以便讓模型在其上下文視窗中具備表達中間計算的能力，從而將思考過程外化。

這種做法的缺點在於：對於那些代價高昂的內部推理過程來說，必須始終被歸結為一個單一的、經過文字表述的下一個標記，而這會造成資源的浪費。

如果模型能夠在其連續的潛空間中“原生地”進行“思考”，那麼它們可能會表現得更出色。

在全球首臺“百億億次級”超算 Frontier 開展訓練

要想實現上述目的，其中一種方法是在模型中新增一個迴圈單元。這個單元以迴圈的方式執行，它能迭代地處理並更新其隱藏狀態，從而能使計算無限期地持續下去。

研究人員表示，本次模型採用僅含解碼器的 Transformer 模組構建而來。這些模組被劃分為三個功能組：前奏模組（Prelude）、迴圈模組（RecurrentBlock）和尾聲模組（Coda）。

前奏模組使用多個 Transformer 層將輸入資料嵌入到潛空間中；迴圈模組是執行遞迴計算並修改狀態的中心單元；尾聲模組使用若干層從潛空間中解嵌入，同時包含模型的預測頭。（注：預測頭，是深度學習模型中的一個元件，通常用於在模型的末端執行特定的預測任務。）

核心模組設定在前奏模組和尾聲模組之間，透過迴圈核心模組，可以在“歌曲”中加入任意數量的“詩節”。這裡的“歌曲”可以理解為模型的處理流程，“詩節”可以理解為處理步驟或迴圈次數等。

（來源：arXiv）

在確定能夠可靠地訓練小型測試模型之後，並且訓練資料量達到 10B 個 tokens 之後，研究人員開始進行更大規模的實驗。

鑑於研究人員的計算資源有限，因此其只有兩個選擇：要麼訓練多個小的、但是無法體現效果或擴充套件性的模型；要麼訓練一箇中等規模的單一模型。綜合考量之後，研究人員準備了一次單一規模的執行實驗。

具體來說：他們將訓練設定分為架構、最佳化設定和預訓練資料這幾個部分。由於研究人員只能獲取執行一次大規模模型訓練的計算資源，所以他們使用了一種資料集組合方式，該方式旨在最大程度地激發模型的推理能力，而非追求最佳的基準測試效能。

這種資料集組合方式在很大程度上偏向於程式碼資料和數學推理資料，同時包含適量的通用網路文字，以便模型能夠獲得標準的語言建模能力。

按照前人提出的方法，研究人員直接將相關的指令資料混合到預訓練資料中。與此同時，研究人員透過“位元組對編碼”（BPE，Byte Pair Encoding）的方法，構建了一個包含 65536 個標記的詞彙表。（注：位元組對編碼，是一種用於自然語言處理的子詞分詞技術，旨在解決傳統分詞方法在處理未知詞和稀有詞時的侷限性。）

不同於傳統的分詞器訓練方法，研究人員直接在預訓練語料庫的指令資料子集上構建分詞器，以便在目標領域實現標記化效率的最大化。

同時，他們還大幅修改了預分詞的正則表示式，以便更好地支援程式碼、縮寫形式以及 LaTeX 格式內容。（注：預分詞，是分詞過程的一個前期步驟。正則表示式，則是一種用於匹配字串模式的工具。預分詞的正則表示式，是在預分詞階段使用的正則表示式。）

研究人員在每個文件的開頭都新增一個<|begin_text|>標記。在對預訓練語料進行標記化之後，他們將標記化後的文件打包成長度為 4096 的序列。

在打包過程中，除了保留幾個包含數學內容的較長文件來源之外，研究人員丟棄了那些缺乏前文語境的文件結尾部分，以此來解決語境關聯的問題。

隨後，他們利用美國橡樹嶺國家實驗室的全球首臺“百億億次級”超級計算機 Frontier 叢集分配的計算時間來訓練這個模型。Frontier 叢集是一個大規模的高效能計算系統，其中包含 8 個配備 AMD MI250X GPU 的節點。這些節點透過 4 個 HPE Slingshot 網路介面卡實現相互連線。（注：HPE Slingshot，是由惠普旗下的超級計算機制造商 Cray 開發的一種高效能乙太網互連技術。）

對於排程系統，研究人員透過 SLURM 進行編排，並以 bfloat16 混合精度進行訓練。（注：SLURM 是一個用於 Linux 叢集的資源管理軟體，它可以有效地分配和管理叢集中的計算資源。bfloat16 混合精度，是一種用於深度學習計算的特殊浮點數格式，旨在提高計算效率和數值穩定性。）

透過大量使用 PyTorch 編譯以及針對隱藏維度進行最佳化，他們讓單節點訓練速度達到 108.75TFLOP/s，實現了 87% 的可實現浮點利用率（AFU，Achievable FlopUtilization）。

同時，研究人員使用資料並行進行訓練，以及僅僅使用最佳化器分片技術和梯度檢查點技術來最佳化訓練過程。其中：最佳化器分片技術是一種減少記憶體佔用和提高訓練效率的技術；梯度檢查點技術是一種用於減少深度神經網路訓練過程中視訊記憶體消耗的技術。

當每個 GPU 的批次大小為 1 時，每步的全域性批次大小最終達到 1600 萬個 tokens，從而能將 GPU 間的通訊頻寬降至最低。

當研究人員在 4096 個 GPU 上進行大規模運算時，每個 GPU 的運算速度可達每秒 52 – 64 萬億次 TFLOP/s，即可以達到 41% – 51% 的可實現浮點利用率，這意味著每秒可以處理 100 萬 – 120 萬個 tokens。

程式設計能力擊敗所有通用開源模型

與此同時，研究人員針對最終模型進行了 800B 個 tokens 的訓練，並針對一個非迴圈基線模型進行 180B 個 tokens 的訓練，然後把這些檢查點、與其他在規模類似的完全公開資料集上訓練的開源模型進行對比。

另外，他們還透過 lm-eval 開源工具庫來執行所有標準基準測試，並透過 BigCodeBench 來執行程式碼基準測試。（注：BigCodeBench 是一個用於評估大模型在程式碼理解和生成任務中的表現的 Python 庫。）

但是，要將本次模型與其他大模型進行直接對比並非易事，因為參與對比的其他大模型都是固定深度 Transformer 模型的小幅變體。

由於研究人員的模型僅有 3.5B 個引數，因此在預訓練期間所需的互聯頻寬相對較小，但它在預訓練期間消耗的實際浮點運算次數（FLOPs，Floating Point Operations）接近於一個擁有 32B 個引數的 transformer 模型在預訓練期間的消耗。並且，透過使用擴大規模的方法，本次模型的效能能夠持續提升，直至達到相當於標準 50B 個引數的固定深度 transformer 模型的浮點運算預算水平。

實驗結果顯示，本次模型優於上一代 Pythia 系列模型，並且在大多數指標上與 OLMo 的第一代模型 OLMo7B 大致相當。但是，相比使用更大規模、經過更好資料集訓練的新一代 OLMo 模型，本次模型的表現稍顯遜色。

另外，研究人員還對本次模型的數學能力和程式設計能力加以評估。在數學能力測試上，他們使用 GSM8k 資料集、遵循 Minerva 評估規則的 MATH 資料集以及 MathQA 資料集。在程式設計能力測試上，他們在 MBPP 和 HumanEval 這兩個基準測試上開展測試。結果顯示：就數學能力而言，本次模型遠遠超過除了最新版 OLMo – 2 模型之外的所有模型。就程式設計能力而言，本次模型擊敗了所有其他通用開源模型。不過，它並未超越 StarCoder2 這種使用數萬億個 tokens 進行專門訓練的程式碼模型。