上海AILab等提出GENOME(+)框架:單卡4090玩轉10+大模型的種群進化

遺傳演算法、粒子群演算法等作為經典的群體智慧方法,自誕生以來便在最佳化問題領域得到廣泛應用。然而,這類傳統方法在大模型時代中是否仍然適用?上海人工智慧實驗室 OpenAGCI Team 聯合東北大學資料探勘實驗室最近的研究成果重新證明了這類方法在大模型時代仍然擁有潛力。
他們提出了名為 GENOME(+)的大語言模型最佳化框架,以創新性的視角系統地將進化演算法引入到大語言模型的種群最佳化問題中,無需梯度最佳化,讓大語言模型種群經過交叉、變異、選擇、繼承以及整合等經典進化操作,僅用極少的樣本即可提高模型效能。
在涵蓋了數學、推理、程式碼、常識問答以及情感分析的 12 個數據集的實驗中,相較於現有的模型融合和最佳化演算法,表現出穩定且明顯的效能優勢,最高效能提升達到 54.8%。目前已全面開源了相關程式碼和模型,使用單張 4090 顯示卡即可輕鬆執行該框架。
論文標題:
Nature-Inspired Population-Based Evolution of Large Language Models
開源倉庫地址:
https://github.com/ZhangYiqun018/GENOME
模型地址:
https://huggingface.co/Estwld/GENOME-gemma-2b-it
論文地址:
https://www.alphaxiv.org/abs/2503.01155
研究亮點
  • 創新性框架:首次清晰定義了大語言模型群體進化問題,採用遺傳演算法的核心思想——模型權重為“基因”,效能表現為“適應度”,引入交叉(crossover)、變異(mutation)、選擇(selection)、繼承(succession)以及群體決策(ensemble)進化機制,實現模型群體動態最佳化;
  • 無需梯度傳播:完全摒棄了傳統的梯度最佳化流程,每個新任務只需 200 個樣本即可快速完成模型適應過程,大幅降低計算資源消耗與成本;
  • 明顯效能優勢:在廣泛的任務評測中(包括數學推理、邏輯推理、程式設計等領域共計 12 個數據集),GENOME 方法相較於現有模型融合和最佳化方法,表現出穩定且明顯的效能優勢,最高效能提升達到 54.8%;
  • 泛化與擴充套件性:所提出的 GENOME+ 方法進一步透過群體決策(ensemble)機制提升泛化能力,成功實現跨任務泛化,零樣本情況下效能平均提升 11.79%,並支援模型群體擴充套件至 40 個規模;
  • 硬體需求低、開源共享:方法實現簡單高效,在單個 24GB GPU 即可執行完整最佳化流程,程式碼和模型已全部開源,推動社群快速復現與後續創新。
研究背景與動機
近年來,大量經過專門微調的專家模型逐漸興起,這些專家模型在特定任務中表現優異,但如何高效地融合並利用這些專家模型以適應多樣的新任務仍然面臨巨大挑戰。
當前針對多個 LLM 的模型融合方法(如路由機制和引數融合)存在明顯侷限性:路由機制方法通常需要大量的監督資料且難以擴充套件到新專家模型;靜態引數融合方法雖然不需額外資料,但依賴預定義規則,泛化性有限;動態引數融合方法往往聚焦於透過某個特定指標(比如準確率,困惑度等)將多個模型融合成一個多才多藝的模型,無法充分利用模型的群體智慧。
另一方面,傳統的進化演算法(如遺傳演算法)雖被廣泛應用於最佳化問題,但在大模型最佳化中由於收斂速度慢、引數空間過於龐大等原因逐漸被邊緣化,未能充分發揮其潛在價值。
因此,上海 AI Lab 與東北大學的研究團隊提出一種創新的視角:既然生物進化能夠以高效的群體最佳化方式適應複雜且多變的環境,能否將這一進化機制引入到大語言模型的最佳化中,以解決現有方法存在的不足?
基於這種動機,他們提出了 GENOME(+)框架,期望透過群體進化快速高效地實現大語言模型群的最佳化和泛化。
GENOME(+)框架細節
GENOME(+)方法的核心思想在於以群體方式整體最佳化模型引數。具體過程包括:
  • 初始化(Initialization):透過專家模型權重隨機組合生成初始群體;
  • 交叉(Crossover):融合父代模型權重產生新個體,增強群體多樣性;
  • 變異(Mutation):隨機調整模型引數,持續探索最佳化潛力;
  • 選擇(Selection):根據模型表現選擇效能更優的個體保留,提升整體效能;
  • 繼承(Succession):透過經驗共享與最佳模型學習,提升群體整體質量;
  • 群體決策(Ensemble):聚合多個最優模型輸出結果,提高最終決策質量。
實驗設定與詳細結果
研究團隊使用 gemma-2-2b-it 作為基礎模型,針對 12 個涵蓋數學、邏輯推理、程式設計、多語言處理和情感分析等領域的資料集展開詳細實驗。
4.1 單任務適應測試
研究團隊在多個單任務資料集上評測了 GENOME(+)框架的表現。在 DROP 邏輯推理任務中,GENOME 方法相比現有方法效能提高了 54.8%。在 GSM8k 和 MATH 兩個數學資料集中,GENOME 的效能平均提升達到 25.6%。
4.2 多工同時適應測試
在同時針對邏輯推理(DROP、BBH)、數學推理(GSM8k、MATH)等的多工最佳化中,GENOME(+)框架表現穩定,可以同時提升同領域的兩個任務的效能。
4.3 零樣本跨任務泛化測試
研究團隊還評估了 GENOME+ 在未見任務上的泛化能力,例如先在 MMLUPro 任務適應,然後在 MMLU 任務上直接測試。
實驗結果顯示,GENOME+ 在這種零樣本泛化任務上效能平均提升 11.79%,超過了其他現有方法。此外,GENOME(+)還能勾提升模型在未見語言上的表現,研究團隊在 gemma2 模型未見語言的翻譯任務上進行了實驗,效能平均最高提升 15.98%
4.4 擴充套件性測試
研究人員分別測試了模型群體從 10 個擴充套件到 40 個的情況,GENOME+ 在這種擴充套件條件下依然保持穩定的效能優勢,表現出良好的擴充套件性。
4.5 硬體適應性測試
在 NVIDIA RTX 4090(24GB)與 A100(80GB)顯示卡平臺上進行效能測試。結果顯示,在較低視訊記憶體條件(24GB)下,雖然最佳化時間變長,但 GENOME(+)框架依然保持效能穩定。該實驗證明 GENOME(+)在單個 24GB GPU 即可執行完整最佳化流程。
4.6 消融實驗
研究團隊進一步透過消融實驗分別去除交叉、變異、選擇、繼承和群體決策等關鍵操作,分析每個進化機制的具體貢獻。實驗結果表明,每個操作對整體效能都有重要貢獻,強調了框架中各進化機制的重要性。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章