微軟釋出3.48Ttoken訓練資料集+高質量處理管線,覆蓋通用、程式碼、數學、問答等關鍵領域

在當前大模型訓練耗盡了越來越多可用資料的狀況下,高質量訓練資料的重要性日益凸顯。
前不久,微軟研究院公佈了一項名為 REDSTONE 的開源專案,提供了一套完整的資料處理框架,包括通用領域和特定領域資料的處理指令碼,以及經過篩選的高質量 Common Crawl 資料索引。研究團隊使用這一框架成功構建了總規模達 3.48 萬億 token 的資料集,涵蓋通用知識、程式碼、數學和問答等多個領域。
圖丨相關論文(來源:arXiv
與以往的資料處理方法相比,REDSTONE 在資料質量和處理效率上都實現了顯著提升。特別是在特定領域資料的獲取上,REDSTONE 顯著降低了資料集構建的門檻,使得研究人員能夠更容易地獲取高質量的專業領域資料。
從資料集的具體構成來看,REDSTONE 主要分為通用領域和特定領域兩大類資料:
通用領域資料 REDSTONE-Web 的規模達到了 3.17 萬億 token,這些資料來自 93 個 Common Crawl 快照,時間跨度從 2013 年到 2023 年。
為了確保資料質量,研究團隊採用了多層過濾機制,包括語言識別、基於規則的過濾、基於模型的過濾以及去重處理。特別值得一提的是,他們使用了 fastText 進行語言識別,並設定了 0.5 的置信度閾值來篩選英語內容。在文件級別的過濾中,他們設定了嚴格的質量標準,例如要求文件詞數在 50 到 100,000 之間,平均詞長在 3 到 10 個字元之間等。
特定領域資料則包括三個主要部分:
1. REDSTONE-Code(2502 億 token):這部分資料特別關注程式碼相關內容,包括程式碼片段及其相關的解釋文字。研究團隊透過分析 HTML 頁面中的特定標籤(如<code>標籤)來識別和提取程式碼內容,同時保留了程式碼的上下文資訊,這對提升模型對程式碼的理解能力具有重要意義。
2. REDSTONE-Math(159 億 token):數學資料集包含了 HTML 格式的數學公式(111 億 token)和 ASCII 格式的數學內容(48 億 token)。研究團隊使用了特殊的處理流程來確保數學公式的正確性,並使用 pylatexenc 庫進行語法檢查。
3. REDSTONE-QA(514 億 token):問答資料集分為開放式問答(513 億 token)和多選題(1 億 token)兩類。這些資料經過精心篩選和處理,確保問題和答案的質量。特別是對於多選題,研究團隊還保留了詳細的解釋,這有助於模型建立更深入的理解。
圖丨通用與特定領域資料構成(來源:arXiv
在資料處理方面,REDSTONE 採用了兩個核心模組:提取模組(Extraction)和過濾模組(Filtering)。提取模組負責從原始網頁中獲取所需格式的訓練資料,而過濾模組則透過多種技術手段(包括關鍵詞搜尋、正則表示式匹配和機器學習模型)來篩選高質量內容。特別是在處理程式碼和數學公式時,研究團隊開發了專門的處理流程,確保了這些特殊格式內容的準確提取和保留。
值得注意的是,REDSTONE 在處理通用領域資料時,同時使用了 WARC 和 WET 兩種格式的 Common Crawl 資料。這種雙軌並行的處理方式不僅提高了資料的多樣性,還能夠互補各自的優勢。
在 WET 格式資料處理中,團隊改進了 CCNet 的去重策略,將處理範圍擴大到整個快照;而在 WARC 格式資料處理中,則採用了 Trafilatura 工具來提取主要內容,確保了提取內容的清晰度和相關性。
圖丨 RedStone-Web 的後續階段(來源:arXiv
在評測環節,REDSTONE 團隊採用了全面的基準測試方案,分別針對通用領域和特定領域進行了詳細評估。評測結果顯示,該資料集在多個領域都取得了令人矚目的成果。
在通用領域評測中,REDSTONE-Web 與其他知名的開源資料集(如 RedPajama、FineWeb、RefinedWeb 等)進行了對比。測試結果表明,REDSTONE-Web 在多項常識推理任務中表現突出,超過了現有的開源資料集。
圖丨開源資料集中評估任務的比較(來源:arXiv
在程式碼領域,研究團隊在 REDSTONE-Web 的基礎上增加了 REDSTONE-Code 進行測試。在 HumanEval 基準測試中,模型的 pass@1 指標從原本的 0.0125 提升到了 0.0555,pass@10 指標則從 0.0168 提升到了 0.1035。
類似地,在 MBPP 測試中,pass@1 指標從 0.0751 提升到 0.1311,pass@10 指標從 0.1566 提升到 0.2458。這些顯著的提升充分說明了 REDSTONE-Code 資料集對提升模型的程式碼生成能力具有重要價值。
在數學領域的評測中,研究團隊將其與 OpenWebMath 進行了對比。結果顯示,REDSTONE-Math 在 GSM8k 測試中的困惑度為 3.1125,優於 OpenWebMath 的 3.2503;在 MATH 測試中的困惑度為 3.0557,同樣優於 OpenWebMath 的 3.1288。這些結果表明,REDSTONE-Math 在數學推理能力方面具有明顯優勢。
此外,在問答能力方面的評測結果顯示,在融入 REDSTONE-QA 資料後,模型在 MMLU 測試中的得分由 0.3481 提升至 0.4582 的水平。這一顯著提升證明了 REDSTONE 在提取和處理問答類資料方面的優勢。
圖丨 RedStone-QA 的評估(來源:arXiv
雖然受限於許可證原因,處理後的資料集目前無法直接開源,但研究團隊鼓勵開發者使用這套框架重現資料集並貢獻給開源社群。據專案更新日誌顯示,不久前已有開發者基於開原始碼成功復現了相關資料集,其規模和質量均與原始資料集相當(專案地址:https://huggingface.co/zjsd)。
未來,研究團隊計劃從三個方向繼續改進:首先是引入更先進的過濾技術,包括利用多模態訊號來提升資料質量;其次是擴充套件支援多語言資料集的構建;最後是建立即時資料更新機制,確保資料集的時效性。這些改進將進一步提升 REDSTONE 的實用價值,使其成為推動大語言模型發展的重要基礎設施。
參考資料:
https://arxiv.org/abs/2412.03398
運營/排版:何晨龍


相關文章