
作者丨郭海惟
編輯丨陳彩嫻
a-m-team 又發新論文了。
這個團隊上週剛剛在 Hugging Face 低調開源了32B稠密模型,但在多項關鍵推理評測中擊敗了 DeepSeek-R1,並與超大規模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下,因此贏得了海內外的不少關注。
今天,a-m-team 釋出了一篇名為“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的論文,介紹了 R1 之後下一代推理模型的小進展。
在這篇論文中,研究團隊發現基於 AM-Thinking-v1 的問答資料“純蒸餾”(即只用SFT)訓練出的“學生模型”,竟然在多個高難推理任務上接近甚至達到當前最優水平(SOTA),不僅超過了Qwen3-32B,甚至接近了 Qwen3-235B 這樣大一個數量級的模型表現。

論文連結:https://arxiv.org/pdf/2505.14464
在大模型能力競賽持續推進的今天,如何以更低的訓練成本獲得更強的推理能力,成為開源社群面臨的核心挑戰之一。
相比於 SFT+RL 的訓練方式,只用 SFT 意味著著數十倍的成本縮減——也就是說,沒有強化學習能力的企業級玩家將 AM-Thinking-v1 蒸餾版拿去直接 SFT 後落地,能夠大幅提升應用效率、降低落地成本。
這意味著開源社群未來能以更低的訓練成本,獲得更強的推理能力。而這項工作成立的前提條件是,需要能有良好的資料來源。
換言之,假如資料來源能驅動蒸餾模型的成長,那麼蒸餾也將不只是一個簡簡單單的智慧“壓縮”動作,而是會有潛力成為在開源社群生態中螺旋生長的系統性工程。
蒸餾(Distillation)作為一種低成本、高效率的訓練方式,已被廣泛用於模型壓縮與能力遷移。一般情況下,基於GRPO 或者 PPO 的 RL 訓練,但一個被長期忽視的問題是:你的蒸餾源選對了嗎?
a-m-team 近期開源了一套基於 AM-Thinking-v1 和 Qwen3-235B-A22B 兩個頂尖大模型生成的推理蒸餾資料集。透過對 189 萬條高質量推理任務的並行蒸餾對比分析發現:
-
基於 AM-Thinking-v1 蒸餾訓練出的學生模型在多個高難推理任務上接近甚至達到當前最優水平(SOTA);
-
這份開源資料集為低成本構建強推理能力模型提供了紮實支撐;
-
用同樣的學生模型、訓練配置、benchmark 套件對比訓練結果;
-
開源其中兩份(AM-Thinking-v1 和 Qwen3-235B-A22B)的資料以供社群驗證。
正如本篇論文一語雙關的主標題,“Not All Correct Answers Are Equal”——不同的模型,如果生成相似正確的答案,但並不代表他們都有相同的價值。因為基於這個正確答案背後的資料來源質量、結構存在差異,自然對後續訓練的貢獻可能存在顯著差異。
a-m-team研究以自家最新發布的AM-Thinking-v1為例,根據其團隊研究,以AM-Thinking-v1為教師模型培訓出來的純蒸餾模型,相比於Qwen3-235B-A22和DeepSeek-R1的蒸餾模型在效能上有著顯著的領先優勢。

不僅如此,AM蒸餾過程中的損失曲線也是最低的,這點其實從圖一的評分排列中也可見一斑。如下圖所示,AM長期保持了遠低於其他模型的基準損耗。

損耗低的背後是 AM 團隊本身提供了更適合學習的高質量的資料。
a-m-team 團隊對從三個不同的大規模模型 AM-Thinking-v1、Qwen3-235B-A22B和 DeepSeek-R1的訓練資料進行了詳細分析後,認為這種分數差異來或許自於他們在資料結構上的優勢。

首先,AM的token 長度分佈更加多樣。
如下圖專門展示了數學例項的詞元跨度分佈情況。結果表明,AM-Thinking-v1 的數學資料呈現出高度分散的分佈狀態,呈現了更多的短序列。
這意味著,AM的響應跨度廣——它既能生成簡潔的1024 token以內回覆,也能輸出超過 10240 token 的複雜推理鏈,這種“長短結合”的分佈為模型的自適應能力提供了資料支撐。

其次,AM 模型資料來源的困惑度更低,資料質量更高。
研究稱,AM 的平均Perplexity(PPL)數值為2.5,低於Qwen3.0和DeepSeek R1 2.9,表明 AM 的資料在語言流暢性、連貫性等方面更優,這或許代表其適合用於訓練結構化 reasoning 過程。

而由於更好的資料結構,除了跑分領先外,生成行為也更符合“人類推理模式”。
研究者聲稱,在較難的任務中(如下圖AIME2024\2025),AM 蒸餾模型會自動生成更長 reasoning 過程,而在較簡單任務(如下圖中 MATH500)中則保持簡明。
這意味著模型保持了一個較好的長排程能力。

a-m-team宣佈開源了它的蒸餾資料,主要包括AM-Thinking-v1 Distilled Dataset和Qwen3-235B-A22B Distilled Dataset。其中每條資料都包含:
-
標準化 prompt;
-
符合驗證標準的 + 格式推理鏈;
-
精準分任務分類(數學、程式碼、科學、指令、多輪對話等);
-
驗證分數(均高於 0.9)及自動評分資訊。
研究者希望,這份資料集不僅能助力社群低成本達成強推理能力,更能夠為後續 RLHF、CoT 微調、可控生成等高階能力構建提供基礎。同時,AM團隊也正在試水更廣泛的模型改進和應用場景。
正如AM團隊在一篇分析文章中指出,“蒸餾資料的選擇不再是技術細節,而是決定效能上限的關鍵因素。”優質的蒸餾資料來源未來或許將直接影響訓練效率和效能上限。
而對於模型觀察者來說,AM團隊在本次論文中旗幟鮮明地提出了“Not All Correct Answers Are Equal”,其實也是對現階段模型的一種全新反思框架:
尤其在評分差異與使用者感知逐漸脫節,許多從業者對評分審美疲勞的今天,什麼樣的開源大模型才更可以被稱作領先的?蒸餾背後體現的資料結構或許會是一個全新的視角。
近日,大家都在感嘆:DeepSeek 的 R1 之後,大模型已經很久沒有新的技術突破了。但實際證明,默默在認真研究技術的團隊還在不斷創新和取得貢獻。



更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
