突破資料思維密度,僅4T資料讓8B模型逼近GPT-4o-mini

“尺度定律”之下,大模型除了要突破算力瓶頸,亦面臨高質量資料即將“見底”難題。如何透過“通專融合”技術路徑實現通用人工智慧,正日益成為業內共識。
1月15日,上海人工智慧實驗室對書生大模型進行重要版本升級,書生·浦語3.0(InternLM3)透過精煉資料框架,大幅提升了資料效率,並實現思維密度的躍升。僅使用4T訓練資料的InternLM3-8B-Instruct,其綜合性能超過了同量級開源模型,節約訓練成本75%以上;同時,書生·浦語3.0首次在通用模型中實現了常規對話與深度思考能力融合,可應對更多真實使用場景。
體驗頁面:https://internlm-chat.intern-ai.org.cn(點選文末閱讀原文直達)
GitHub連結:https://github.com/InternLM/InternLM
HuggingFace連結:https://huggingface.co/internlm
ModelScope連結:https://www.modelscope.cn/models/Shanghai_AI_Laboratory/internlm3-8b-instruct

高思維密度帶動高效能推理

資料是大模型能力提升的重要“推進劑”。目前主流開源模型多以擴大預訓練資料規模作為效能提升路徑,預訓練資料量普遍接近20T token,訓練成本也隨之線性增長,同時也引起業內關於資料瓶頸和Scaling Law可持續性的思考。
上海AI實驗室研究團隊認為,資料質量的提升帶來的增益會顯著高於資料規模的提升,而資料的“思維密度”(IQPT,Intelligence Quality per Token)是資料質量的核心,即資料的思考過程中蘊含的邏輯性、複雜性、啟發性等。為此,團隊提出大規模資料精煉框架,大幅提高了訓練資料的質量。在具體實踐中,書生·浦語3.0僅使用4T token的預訓練資料,即實現主流開源模型18T資料的訓練效果。透過構建資料“思維密度”槓桿,撬動模型效能提升,為突破Scaling Law帶來了新的研究正規化。
為了更好評估資料“思維密度”的影響,研究人員對指標進行量化定義,將資料思維密度(IQPT,Intelligence Quality per Token)定義為模型平均效能與訓練資料量的比值,可以衡量大模型訓練資料的“投入產出比”。對比國內外效能領先的同量級開源模型,以Llama3.1作為基準,書生·浦語3.0的資料思維密度高出4倍以上。
透過資料精煉框架,研究團隊使書生·浦語3.0大幅提升了資料效率,實現思維密度的躍升。該框架包括以下兩個核心要素:
  • 資料處理的智慧化:為了實現資料的精細化處理,研究團隊將資料分為千萬個領域,在此類人力難以負擔的規模上,透過智慧體自我演進技術,大規模自動化質檢,根據錯例進行反思,為每個領域進行定製化處理。
  • 高價值資料的合成:基於通專融合的方式,以通用模型快速迭代合成演算法,再精選資料訓練專用模型,透過在海量天然資料中進行素材挖掘,改進的樹狀搜尋策略,以及多維度質量驗證,合成大量內容豐富,質量可靠的高價值資料。
基於司南OpenCompass開源評測框架,研究團隊使用統一可復現的方法,對書生·浦語3.0等模型進行了評測。評測採用了CMMLU、GPQA等十多個權威評測集,維度包括推理、數學、程式設計、指令跟隨、長文字、對話及綜合表現等多方面效能。評測結果顯示,相比同量級開源模型,書生·浦語3.0在大多數評測集得分領先,綜合性能十分接近GPT-4o-mini。

深度思考和常規對話融合,“能言”亦“巧思”

以“通專融合”路徑探索通用人工智慧,其關鍵技術之一在於同步提升深度推理與專業泛化能力。本次釋出的書生·浦語3.0,首次在通用模型中實現深度思考與常規對話融合,一個模型就能應對更多真實使用場景。
由於深度思考和常規對話的資料風格存在較大差異,當前業界普遍針對強推理能力單獨構建專用模型。此前,上海AI實驗室亦釋出了強推理模型書生 InternThinker,其具備長思維能力,並能在推理過程中進行自我反思和糾正,在數學競賽評測集上超越了 o1-preview。基於通專融合的技術路線,研究團隊探索了不同型別資料的融合訓練方案,使得書生·浦語3.0 同時具備常規對話和深度思考能力,透過系統提示詞(system prompt)的控制,可以讓單一模型在兩種模式間的一鍵切換,讓通用模型具備深度思考能力。
在後訓練階段,研究團隊還構建了以任務場景和知識體系驅動的合成數據探索方案,探索了基於世界知識樹(World Knowledge Tree)的指令標註與合成方案,並運用基於多智慧體的方式構建生成了高質量的回覆。透過充分挖掘使用者真實指令和合成指令的潛力,進行了多工場景精細化分類,打造了數十萬高質量微調指令資料集,從而大幅提升模型的對話體驗。
如下圖所示,在進行推理任務時,使用者可以將書生·浦語3.0從常規對話模式一鍵轉變成深度思考模式。

積極擁抱開源社群和國產生態,書生·浦語開箱即用

在研究正規化創新及模型能力提升的基礎上,上海AI實驗室持續推進以高質量開源賦能創新,透過推出開源基座模型、全棧開源工具鏈、各類開源框架等形式,讓產業界及開發者便捷實現書生系列模型的訓練、部署與應用。同時,基於DeepLink開放計算體系,實驗室與昇騰、寒武紀、沐曦等算力硬體廠商開展合作,在新興算力硬體上實現了書生·浦語3.0的微調訓練與高效推理,從軟硬體多角度共同促進AI生態繁榮。

體驗案例展示

書生·浦語3.0可用於解答有趣的推理謎題,在箭頭迷宮問題中,讓模型在棋盤格中找到從起點到終點的可行路徑。這道題目需要空間理解和演算法綜合應用能力,對於OpenAI o1模型而言也極具挑戰。
書生·浦語3.0透過深度推理,圓滿地找到了可行的路徑:
對於經典的猜數字問題,書生·浦語3.0也可輕鬆應對:
在“高智商”之外,書生·浦語3.0同樣擁有“高情商”和優秀創作能力。
書生·浦語3.0也將深度思考能力拓展到了智慧體任務,成為了開源社群內首個支援瀏覽器使用的通用對話模型,支援20步以上網頁跳轉以完成深度資訊挖掘。
如以下影片所示,模型針對買房推薦問題,細緻全面地進行分析和規劃,在二手房網站上像人一樣進行操作和瀏覽,來找出符合要求的房源。
掃碼加入書生·浦語交流社群,與開發者面對面,暢聊關於大模型的一切~

相關文章