3710億數學Tokens！全球最大開源數學資料集MegaMath震撼釋出，碾壓DeepSeek-Math

©來源 | 機器之心

在大模型邁向推理時代的當下，數學推理能力已成為衡量語言模型智慧上限的關鍵指標。

近日，LLM360 推出了MegaMath：全球目前最大的開源數學推理預訓練資料集，共計 3710 億（371B）tokens，覆蓋網頁、程式碼和高質量合成數據三大領域。

報告標題：

MegaMath: Pushing the Limits of Open Math Corpora

報告地址：

https://arxiv.org/abs/2504.02807

資料集地址：

https://hf.co/datasets/LLM360/MegaMath

程式碼地址：

https://github.com/LLM360/MegaMath

這不僅是首次在規模上超越 DeepSeek-Math Corpus（120B）的開源資料集，更代表從「只靠網頁」到「面向推理」的重大跨越。短短數日時間，資料集下載量已經來到 3 萬餘次，並且持續在 Hugging Face 趨勢榜上名列前茅。

▲ MegaMath資料集總覽

為什麼我們需要 MegaMath？

在現有主流閉源數學語料如 Qwen-2.5-Math（1T）和 DeepSeekMath（120B）持續展現卓越數學能力的同時，開源研究社群長期缺乏等量級、等質量的數學資料。

當前可用的開源資料集（如 OpenWebMath、FineMath）規模過小，無法支撐更大規模的模型訓練；過濾過度，導致數學樣本量缺失多樣性不足。

▲ MegaMath和其他資料集的統計資料對比

為解決這一痛點，MegaMath 團隊本著「做困難而正確的事情」為目標，以規模 × 質量 × 多樣性為核心設計，歷時 9 個月時間，構建了全面開放的數學推理資料底座。

MegaMath 資料集共計 3710 億 tokens，是之前經典開源數學資料，如 OpenWebMath 的約 20 倍。資料集共分為三大部分：

2790 億 tokens：數學密集網頁資料（Math-rich Web）
281 億 tokens：數學相關程式碼（Math Code）
640 億 tokens：高質量合成數據（Synthetic Data）

每部分資料均經過多輪篩選、清洗並透過下游預訓練實驗充分驗證，以確保實用性與泛化能力並存。

構建 MegaMath 的秘方

如何構建這樣一個龐大的推理資料集呢？作者將他們主要分為 3 塊內容，並精心設計了不同的資料「流水線」，確保高效、高質量的資料開發。

高質量的網頁資料構建

▲ MegaMath的網頁資料處理流程

為了徹底最佳化數學文字的處理流程，作者重新下載處理了 2014–2024 年間所有的 99 個 Common Crawl 檔案包，並對網際網路的數學文字提取進行一系列大量的工程最佳化來確保資料質量：

當前常用的開源文字抽取工具對 HTML 中數學的元素並沒有很好地處理，團隊因此開發了一套 HTML 結構最佳化的指令碼，在抽取前就提取和最佳化 LaTeX、KaTeX、mathml 等元素中的公式資訊進行重構，以確保在抽取時充分保留文字中的數學符號、公式和定理。

由於不同抽取器的處理速度有區別，團隊創新地採用了兩段式提取方法，第一階段注重效率，用快速的抽取器進行抽取 + 篩除非數學樣本；第二階段注重精度，用包含更多規則的處理器進一步移除文字噪音和精細篩選出和數學強相關的資料。這使得 MegaMath 最終保留出數學強相關、且更乾淨的大規模數學文字資料。

對於如何訓練穩健而準確的文字分類器，團隊也發現了因為種子資料收集帶來的分佈偏移問題，因此在第一階段的粗篩之後透過重新收集種子資料訓練分類器來進行二階段篩選。

考慮到目前研究社群對於續訓練（Continual Pre-training）、中期訓練（Mid-Training）的廣泛需求，作者還利用語言模型對文字的教育價值進行動態打分，再次過濾得到包含極高教育價值的數學子集，並進一步用 LLM 進行精煉，得到了遠超開源任何資料集質量的子集；在和現存最高質量的資料 FineMath 進行一對一公平對比時，也能顯著超過 4% 的下游效能。

這一系列的工程最佳化和技術迭代最終形成了：

MegaMath-Web：包含 263B tokens 的最大規模網際網路數學語料
MegaMath-Web-Pro：包含 15B tokens 的 LLM 最佳化後的超高質量數學語料

精確的數學程式碼資料召回

▲ MegaMath-Code的多步召回流程

程式碼資料被廣泛驗證，有利於提升模型的數學表現、提升模型利用「生成程式碼 + 執行求解」正規化進行解題的能力。

因此，這是一份寶貴的資料領域。MegaMath 在現存最大的程式碼預訓練資料集 Stack v2 中挖掘了數學相關程式碼塊，同時結合團隊之前提出的 Programming Every Example（ProX）方法，利用以下方式：

1. 大模型評分（LLM scoring）

2. 微調小模型快速篩選（SLM filtering）

高效清洗出了包括科學計算、符號推理、邏輯程式等領域的程式碼資料，形成 MegaMath-Code，一個包含 28.1B tokens 的數學相關語料，包含了共 11 種程式語言，進一步加強了資料集的豐富程度。

大規模數學資料合成

▲ MegaMath-Synth的三種大規模合成方法

近年來，合成數據已經成為大模型訓練不可缺失的一部分資料；尤其是當傳統的資料已經被大量發掘和利用的情況下，合成數據代表了一類可持續被開發的高質量資料來源。這在之前的開源預訓練資料集中，通常是沒有被探索的。

MegaMath 團隊積極擁抱合成數據，並開源了預訓練規模的高質量文字，包含（1）Q&A 問答形式（解決數學題）；（2）合成程式碼（跨語言轉為 Python）；（3）文字 + 程式碼交錯資料（更貼近真實解題場景）；所有樣本都經過質量檢測（包括程式碼塊的可執行性校驗）。

團隊透過不斷最佳化 Prompt、簡化工程設計，達到在消融實驗中表現全面優於現有合成的基線。

效果如何，表現說話

▲ MegaMath-Llama-3.2 1B / 3B的表現在CoT和PAL測試上均提升顯著。

MegaMath 不是單純地「堆資料」拼大小，而是對每一步都進行了嚴謹驗證以確保資料質量。

這包括：（1）文字抽取流程驗證；（2）去重策略對比（在機器承受範圍內尋求最優的 MinHash 去重策略）；（3）fastText 過濾閾值、訓練策略調優；（4）程式碼資料比重 & SLM 召回率消融；(5）合成策略的迭代。

為了檢驗這些策略，所有的實驗都在足夠大的尺度下進行了預訓練 + 下游評測的驗證實驗，用來為最終的方案和策略提供足夠顯著的實驗訊號。

最終，MegaMath 共進行了超過 50 次的預訓練驗證，並最終在 Llama-3.2（1B & 3B）上進行了 100B 的預訓練。

實驗表明，MegaMath 能夠在 GSM8K、MATH 等數 10 個標準數學任務上取得 15–20% 的絕對提升。這些數字實打實地說明了 MegaMath 資料集在數學推理上的顯著效果。

作者的願景

作者希望，MegaMath 的釋出，能在一定程度上推動開源數學預訓練資料集在規模、質量與多樣性上的進一步發展，也希望 MegaMath 能成為構建更強數學語言模型的一個堅實起點，激發更多來自學術界與工業界的合作與創新。

在邁向更強推理能力與更高智慧上限的過程中，MegaMath 只是初步階段的嘗試。作為一個致力於開放科學與開源研究的團隊，團隊深知這項工作的挑戰與侷限，也非常感激開源社群給予的諸多啟發與幫助。

特別感謝 Hugging Face、DeepSeek、Qwen 等優秀開源團隊長期以來提供的模型、工具和資料方案，讓團隊有機會站在巨人的肩膀上持續打磨和完善這個工作。

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

3710億數學Tokens！全球最大開源數學資料集MegaMath震撼釋出，碾壓DeepSeek-Math

相關文章

強化學習ScalingLaw錯了？無需蒸餾，資料量只要1/6，效果還更好

Rule-based強化學習≠古早邏輯規則！萬字拆解o1多模態推理最新進展

RFMEP01：Pi和π0具身基礎模型

MM-Eureka：極少數據實現多模態推理的R1-Zero時刻

超越DeepSeek推理，效率更高！斯坦福馬騰宇新作：有限資料，無限迭代

寫給小白的大模型入門科普

零基礎入門：DeepSeek微調教程來了！

模型訓練越多反而越差？多團隊聯合揭示“災難性過度訓練”現象，模型擴充套件需被重新審視

ICLR2025|如何在ImageNet-1K上訓練視覺基礎模型？！

817樣本激發7倍推理效能：上交大「少即是多」定律挑戰RLScaling正規化