MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 深度學習自然語言處理

在近期關於大規模模型與資料規模極限的討論中，OpenAI 的 Ilya Sutskever 以及微軟研究院的 Shital Shah 都提出了一個值得關注的觀點：隨著模型不斷擴張，資料的質量與多樣性會逐漸成為訓練的瓶頸，傳統的預訓練正規化可能走向終結。

Ilya Sutskever 在演講中直言“預訓練（as we know it）將會終結”，暗示需要全新的思路來拓展資料邊界。Shital Shah 則在社交媒體上更是指出，真實資料的高質量部分是有限的，繼續簡單堆砌相似資料並不能突破“質量上限”，而合成數據（synthetic data）的潛力尚未被充分發掘。

基於這一背景，今天的arxiv, 一篇關於多模態foundation model構建的文章首次驗證了該想法。

論文：Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition連結：https://arxiv.org/abs/2503.12303

當前多模態大模型（如GPT-4、LLaVA）依賴海量高質量資料預訓練，但現實世界的高質量圖文資料即將耗盡。鑑於此，當前的大部分工作關注在如何透過增強推理最佳化或微調（如RL fine-tuning）來增強model的泛化能力，從而促進model self-improvement。但是近期工作發現這種提高非常依賴基座模型預訓練階段獲得的能力，不同模型的self-improvement差異巨大。就像不教學習方法、只讓學生“刷題”，遇到新題型仍難以應對。

論文指出，模型進步需要預訓練、推理最佳化、微調三者的深度協同，而SICOG框架正是這一理念的實踐者。

核心創新：模型進步需要三位一體的協同

SICOG：讓模型學會“自我進化”

描述鏈（Chain-of-Description, CoD）模型像偵探一樣分步驟觀察影像，從主體到細節，從關係到背景。例如，對於一張女孩彈吉他的影像，傳統方法可能只說“女生在彈吉他”；而 CoD 會分層次描述：

一位紅髮女性坐在床上，懷中抱著一把木吉他（人物姿勢與主物體清晰可見）；
吉他為淺色指板的經典木製款式，光線柔和渲染出溫暖氛圍（細節層面）；
她坐在床上，筆記本放在小桌上，燈串和掛飾佈置在背景中（元素關係）；
房間有梳妝檯、牆面裝飾等（邊緣資訊未被忽略）；
最終生成一段完整描述：女生盤腿坐在床上練琴，環境溫馨，專注神情清晰可見。

這種方式讓模型“看影像像人一樣”，從細節到整體，提升感知質量。

結構化解題思路（Structured Chain-of-Thought, CoT）面對複雜問題，模型進行多步推理：

拆解任務 → 提取關鍵資訊 → 步步推理 → 總結答案例如在一個幾何題中，傳統方法可能直接猜答案，而 CoT 會分步進行：
明確目標是求三角形某邊長；
從圖中識別出直角三角形、垂直線段、邊長資料；
判斷相似三角形關係，列出比例公式，代入計算；
得出最終答案為 C 選項。這種方式讓模型“解題像學霸一樣”，透過層層推理得出準確結論。

持續自我迭代：讓模型自己教自己，持續提升

用少量標註資料教模型基礎能力
讓模型給未標註資料生成候選答案
透過“投票機制”篩選優質答案（自我一致性）
用篩選後的資料重新預訓練，持續進化

實驗結果：模型能力全面提升

論文在12個主流測評集（涵蓋圖表理解、數學推理、抗幻覺等）中驗證SICOG的效果：

綜合能力提升2-4%，尤其在需要深度推理的任務（如ScienceQA）優勢明顯
抗幻覺能力增強，錯誤率降低1-2%（如POPE測評）
資料越多表現越好，自產資料量從11.8萬增至21.3萬時，模型效能持續增長 這種方法的表現甚至超過了主流的strong-to-weak distillation, multi-agent collaboration的方法