預訓練還沒終結!港中文清華等提出「三位一體」框架,持續自我進化


新智元報道  

編輯:LRST
【新智元導讀】港中文、清華等高校提出SICOG框架,透過預訓練、推理最佳化和後訓練協同,引入自生成資料閉環和結構化感知推理機制,實現模型自我進化,為大模型發展提供新思路。
當前(多模態)大模型正深陷「資料飢渴」困境:其效能高度依賴預訓練階段大量高質量(圖文對齊)資料的支撐。
然而,現實世界中這類高價值資料資源正在迅速耗盡,傳統依賴真實資料驅動模型能力增長的路徑已難以為繼。
在NeurIPS 2024會議上,OpenAI聯合創始人Ilya Sutskever明確指出:「Pre-training as we know it will end」, 這一判斷是對傳統預正規化極限的清晰警示。
為延續效能提升,主流研究方向開始轉向推理最佳化與後訓練微調(如強化學習)。
然而,最新研究表明:此類改進極其依賴模型在預訓練中所奠定的能力基礎:如果模型在早期未能系統性地習得相關能力,後續最佳化就如同在沙地上建高樓——進展有限,風險頗高。
不同模型在「自我進化」能力上的表現也存在巨大差異,其實質仍是「題海戰術」的延伸:缺乏方法論支撐的訓練,難以應對真實世界中的複雜和變化。
面對這一瓶頸,大模型的未來路在何方?
微軟研究院科學家 Shital Shah 在社交媒體上指出:合成數據synthetic data)或許是打破當前能力天花板的關鍵。
近日,港中文聯合清華等高校提出:未來大模型效能的持續提升,需依賴「預訓練、推理階段的計算擴充套件、後訓練最佳化」三者的深度協同。這一觀點打破了傳統依賴單一預訓練路徑的正規化,為下一代多模態基礎大模型(Foundation MLLMs)的構建提供了全新思路。
論文連結:https://arxiv.org/html/2503.12303v5
在此基礎上,研究團隊提出了創新性框架——SICOG(Structured In-Context Optimization and Generation),旨在重塑大模型的進化路徑。SICOG引入了獨創的「鏈式描述」技術,透過五步漸進式視覺解析引擎,實現模型從顯著內容捕捉到細粒度關聯推理的全面感知躍升。
該框架同時採用了「結構化思維鏈」機制,有效增強模型對多模態資訊的融合處理與複雜推理能力。更具突破性的是,SICOG透過自生成資料閉環+語義一致性篩選機制,使模型在零人工標註的條件下實現認知能力的持續進化,真正邁向高效、自主的學習正規化。
SICOG的提出,不僅打破了當前模型在資料、算力與微調最佳化三者割裂發展的瓶頸,也為未來通用人工智慧(AGI)模型的構建提供了可擴充套件、可遷移的新路徑。

SICOG:三位一體協同框架,讓模型學會「自我進化」
傳統多模態大模型(MLLMs)依賴海量標註資料與靜態預訓練正規化,面臨資料稀缺與能力增長受限的雙重瓶頸。為突破這一困境,本文提出全新框架 SICOG(Self-Improving Systematic Cognition),首次構建了涵蓋「後訓練增強—推理最佳化—再預訓練強化」三位一體自進化機制,重新定義了預訓練邊界,為下一代MLLMs注入動態認知與持續學習能力
SICOG的三階段協同機制包括:
  1. 後訓練增強利用少量高質量標註資料,提升模型的系統性認知與基礎推理能力;
  2. 推理最佳化在大規模無標籤多模態資料上進行自主推理,透過「自我一致性投票機制」篩選出高置信度答案,自動生成偽標籤;
  3. 再預訓練強化將篩選後的高質量偽標註資料反饋用於預訓練,實現模型能力的持續進化。
SICOG的關鍵創新在於實現了模型的「學中實踐、實踐中進化」:從少量種子資料出發,模型透過「看圖總結+解題推理」主動構建多工樣本,實現資料生成與學習閉環。無需大規模人工標註,即可高效擴充套件預訓練資料,根本性緩解當前高質量多模態資料稀缺的問題。

描述鏈(Chain-of-Description, CoD)

讓模型「看影像像人一樣
CoD(描述鏈)是一種結構化分步感知方法,使模型像偵探一樣逐層觀察影像,從主體到細節、從關係到背景,構建出完整、邏輯嚴密的影像理解過程。
以「一位女孩彈吉他」的影像為例,傳統模型可能僅生成「女生在彈吉他」的粗略描述,而CoD會分為五個有序階段,逐步深化理解:
  1. 提取主體內容:首先識別影像的核心語義元素,如:「一位紅髮女性坐在床上,懷中抱著一把木吉他」,確保模型對主要物件有清晰把握,為後續分析打下基礎。
  2. 分析細節資訊:進一步觀察細節屬性,如「吉他為淺色指板的經典木製款式,光線柔和,渲染出溫暖氛圍」,捕捉紋理、顏色、光影等低層資訊,增強描述的豐富性與精度。
  3. 考慮關係屬性:描述影像中元素之間的互動關係,如:「她坐在床上,筆記本放在小桌上,燈串和掛飾點綴背景」,強化對空間佈局與語義結構的建模。
  4. 檢查邊緣/背景內容:不忽略次要資訊,如:「房間內有梳妝檯、牆面裝飾等背景元素」,補充場景語義,完善整體理解。
  5. 整合為連貫描述:將上述觀察統一組織為一段完整、邏輯清晰的自然語言描述。
透過CoD,模型能夠逐步「構建影像語義結構」,實現從感知到理解的飛躍,顯著提升圖文對齊的質量與邏輯性。

結構化解題思路(Structured Chain-of-Thought, CoT)

讓模型「解題像學霸一樣」
CoT(結構化思維鏈)是一種任務驅動的推理框架,支援模型在面對複雜問題時進行分步推理、資訊整合與因果判斷,廣泛應用於數學計算、邏輯問答、跨模態推理等任務。
例如,在一道幾何題中,傳統模型可能直接嘗試「猜測答案」,而CoT的解題過程如下:
  1. 明確任務目標:識別問題型別,例如「求三角形某邊的長度」。
  2. 提取關鍵資訊:從影像中提取直角三角形、垂線、邊長等必要條件。
  3. 邏輯推理分析:判斷相似三角形關係,列出比例公式並代入數值。
  4. 總結計算得解:透過計算得出答案,例如「選項C」。
CoT讓模型具備類人的「解題能力」,不僅能處理複雜的數理任務,還能支援跨模態因果推斷,奠定模型認知系統化的基礎。

能力全面躍升:SICOG的三大關鍵優勢

藉助CoD和CoT,SICOG不僅構建了結構化的感知與推理流程,更在訓練正規化上實現了根本性突破,具備以下三大核心優勢:
  1. 顯著降低對高質量資料的依賴:僅需少量種子資料即可啟動,透過自生成資料迴圈最佳化,實現大規模多模態資料的「零標註」擴充套件。
  2. 實現動態認知進化:打破傳統「一訓定終身」的預訓練模式,支援模型在使用過程中持續學習、能力不斷升級,具備「終身學習」特徵。
  3. 感知與推理一體最佳化:不再侷限於感知能力的提升,SICOG在預訓練階段即融合「感知+推理」,模擬人類認知流程,使模型對圖文、圖問等複雜任務具備更強泛化與應變能力。

實驗驗證:SICOG實現模型能力全面提升
為了驗證SICOG框架的有效性,研究在12個主流多模態評測集上進行了系統性評估,涵蓋圖表理解、數學推理、抗幻覺能力等多個關鍵維度。實驗結果表明,SICOG能顯著提升模型的綜合表現,具體成果如下:

綜合性能穩步提升

  • 在整體評測中,模型平均表現提升2%–4%
  • 尤其在依賴多步推理的任務中表現突出,如ScienceQA,展現出更強的邏輯推理與跨模態理解能力。

幻覺控制能力增強

  • POPE等抗幻覺評測中,模型錯誤率下降了1%–2%

自生成資料推動持續進化

  • 隨著自生成資料量從11.8萬條提升至21.3萬條,模型效能持續上升,呈現出良好的擴充套件性與學習能力;
  • 表明SICOG的「自我進化機制」不僅可行,而且具備高度可擴充套件性。

超越主流預訓練方法

  • SICOG在多個任務中表現甚至超過了主流的strong-to-weak distillation和multi-agent collaboration方法
實驗還表明,基礎模型效能越強,其在自我進化過程中的能力提升也越顯著。例如,LLaVA-Qwen2-7B-UHD相較於LLaVA-Llama3.1-8B-UHD,效能提升幅度高出約50%。這表明:強大的基礎能力不僅決定模型的初始表現,更顯著增強其後續自學習與最佳化能力
這一現象類似於人類學習中的「馬太效應」——「學霸更會自學」。具備更優初始結構與知識表示的模型,能夠更高效地利用資料、激發潛力,在持續進化中取得更大進步。
研究進一步表明,基於合成數據的預訓練顯著提升了模型的基礎認知能力,從而強化了後續微調效果。這一結果再次驗證了:預訓練、推理階段的計算擴充套件與後訓練最佳化三者之間存在高度協同關係。只有打通這三環節,才能實現模型能力的持續躍升與高效進化。
此外,研究發現,SICOG生成的合成數據同樣遵循規模法則(scaling law):模型能力隨著資料量的增加持續提升。這進一步證明了自生成資料在模型進化過程中的有效性與可擴充套件性。
研究人員提出了一種變體方法:在第一階段的後訓練增強中,以偏好學習(Preference Learning)替代傳統的監督微調(SFT),以進一步強化模型的基礎能力。
實驗結果表明,偏好學習在提升模型泛化能力方面優於SFT,尤其在處理複雜任務時表現更為穩健。這一結果從實證層面驗證了長期以來的觀點:強化學習正規化在特定任務中相較於監督微調更具優勢
細粒度影像感知能力顯著增強,在細節識別與關係屬性捕捉方面表現出更高的準確性與魯棒性。
多模態理解與推理能力顯著提升

展望:預訓練的新邊疆——從靜態訓練到動態進化
SICOG透過構建一個涵蓋「資料生成→模型訓練→能力進化」的閉環體系,突破了傳統預訓練對高質量人工標註資料的依賴,展現出類人認知發展的潛力。該框架不僅實現了模型的自我學習與持續最佳化,也為邁向真正自主學習型智慧體奠定了堅實基礎。
在當前研究中,SICOG透過引入Chain-of-Description(CoD)並配合Chain-of-Thought(CoT)的推理機制,顯著增強了多模態模型的感知與推理能力。然而,這一進展仍只是通向完全自主學習的起點。
未來,若能進一步引入環境反饋機制(如具身智慧場景)與持續最佳化機制,模型將有望具備終身學習的能力,實現從「被動學習」向「主動成長」的躍遷。在與環境的持續互動中,模型不僅可以利用自身生成的資料進行自我最佳化,更能夠主動識別知識盲區、動態調整學習策略,從而在複雜任務與多變環境中不斷進化、持續提升。
參考資料:
https://arxiv.org/html/2503.12303v5


相關文章