預訓練真的結束了嗎?可能沒有,而且是以一種新正規化出現

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
在近期關於大規模模型與資料規模極限的討論中,OpenAI 的 Ilya Sutskever 以及 微軟研究院的 Shital Shah 都提出了一個值得關注的觀點:隨著模型不斷擴張,資料的質量與多樣性會逐漸成為訓練的瓶頸,傳統的預訓練正規化可能走向終結。

Ilya Sutskever 在演講中直言“預訓練(as we know it)將會終結”,暗示需要全新的思路來拓展資料邊界。Shital Shah 則在社交媒體上更是指出,真實資料的高質量部分是有限的,繼續簡單堆砌相似資料並不能突破“質量上限”,而合成數據(synthetic data)的潛力尚未被充分發掘。

基於這一背景,今天的arxiv, 一篇關於多模態foundation model構建的文章首次驗證了該想法。

論文:Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition連結:https://arxiv.org/abs/2503.12303

當前多模態大模型(如GPT-4、LLaVA)依賴海量高質量資料預訓練,但現實世界的高質量圖文資料即將耗盡。鑑於此,當前的大部分工作關注在如何透過增強推理最佳化或微調(如RL fine-tuning)來增強model的泛化能力,從而促進model self-improvement。但是近期工作發現這種提高非常依賴基座模型預訓練階段獲得的能力,不同模型的self-improvement差異巨大。就像不教學習方法、只讓學生“刷題”,遇到新題型仍難以應對。

論文指出,模型進步需要預訓練、推理最佳化、微調三者的深度協同,而SICOG框架正是這一理念的實踐者。

核心創新:模型進步需要三位一體的協同

SICOG:讓模型學會“自我進化”

  • 描述鏈(Chain-of-Description, CoD)模型像偵探一樣分步驟觀察影像,從主體到細節,從關係到背景。例如,對於一張女孩彈吉他的影像,傳統方法可能只說“女生在彈吉他”;而 CoD 會分層次描述:
    • 一位紅髮女性坐在床上,懷中抱著一把木吉他(人物姿勢與主物體清晰可見);
    • 吉他為淺色指板的經典木製款式,光線柔和渲染出溫暖氛圍(細節層面);
    • 她坐在床上,筆記本放在小桌上,燈串和掛飾佈置在背景中(元素關係);
    • 房間有梳妝檯、牆面裝飾等(邊緣資訊未被忽略);
    • 最終生成一段完整描述:女生盤腿坐在床上練琴,環境溫馨,專注神情清晰可見。
這種方式讓模型“看影像像人一樣”,從細節到整體,提升感知質量。
  • 結構化解題思路(Structured Chain-of-Thought, CoT)面對複雜問題,模型進行多步推理:
    • 拆解任務 → 提取關鍵資訊 → 步步推理 → 總結答案 例如在一個幾何題中,傳統方法可能直接猜答案,而 CoT 會分步進行:
    • 明確目標是求三角形某邊長;
    • 從圖中識別出直角三角形、垂直線段、邊長資料;
    • 判斷相似三角形關係,列出比例公式,代入計算;
    • 得出最終答案為 C 選項。 這種方式讓模型“解題像學霸一樣”,透過層層推理得出準確結論。

持續自我迭代:讓模型自己教自己,持續提升

  1. 用少量標註資料教模型基礎能力
  2. 讓模型給未標註資料生成候選答案
  3. 透過“投票機制”篩選優質答案(自我一致性)
  4. 用篩選後的資料重新預訓練,持續進化

實驗結果:模型能力全面提升

論文在12個主流測評集(涵蓋圖表理解、數學推理、抗幻覺等)中驗證SICOG的效果:
  • 綜合能力提升2-4%,尤其在需要深度推理的任務(如ScienceQA)優勢明顯
  • 抗幻覺能力增強,錯誤率降低1-2%(如POPE測評)
  • 資料越多表現越好,自產資料量從11.8萬增至21.3萬時,模型效能持續增長 這種方法的表現甚至超過了主流的strong-to-weak distillation, multi-agent collaboration的方法
研究還表明,透過合成數據進行預訓練,不僅提升了模型的基礎認知能力,還顯著增強了後續微調的效果。

而且作者還驗證了這種透過合成數據進行多模態預訓練的方法也同樣遵循scaling law。

更有趣的是,基礎越強的模型自我進化越快,類似“學霸更會自學”。實驗顯示,強基模型LLaVA-Qwen2-7B-UHD比普通模型LLaVA-Llama3.1-8B-UHD提升幅度高50%。

作者還提出了一個變體方法:用偏好學習(Preference Learning)替代傳統的監督微調(SFT),進一步提升模型基礎能力。
實驗表明:
  • 在所有測試集上表現更優;
  • Preference Learning 比 SFT 更能增強模型泛化性;
  • 也印證了“強化學習優於 SFT”這一長期假設。

未來展望:邁向真正的“自主學習”模型

SICOG首次實現了“資料自產-訓練-能力提升”的完整閉環,打破了傳統AI依賴人工標註的瓶頸。這種類人的認知發展模式,讓模型從“被動學習”轉向“主動進化”。未來,結合人類反饋(如偏好學習),模型可能實現真正的終身學習。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章