日本AI公司釋出自適應大模型,可動態調整其權重以完成各種任務

作者 | Sakana AI
譯者 |  劉雅夢
策劃 |  褚杏娟
適應性是自然界最引人注目的現象之一。從章魚改變皮膚顏色以融入周圍環境的方式,到人類 大腦在受傷後如何自我重塑,使個體能夠恢復失去的功能並適應新的思維或運動方式。生物體表現出適應性,使生命能夠在多樣化和不斷變化的環境中蓬勃發展。
在人工智慧領域,適應性的概念具有類似的吸引力。想象一下,一個機器學習系統可以動態調整自己的權重,以便在不熟悉的環境中茁壯成長,這本質上說明了系統在學習過程中不斷地進化了。人工智慧的自適應效能力有望提高效率,並有可能使終身模型與現實世界的動態特性保持一致。
這種自適應人工智慧的願景是我們最新研究論文Transformer²(“Transformer 的平方”)的核心,在該論文中,我們提出了一種機器學習系統,可以動態調整其權重以完成各種任務。Transformer²這個名字反映了它有兩個步驟的過程:首先,模型分析傳入的任務以瞭解其要求,然後應用特定於任務的調整來生成最佳結果。透過有選擇地調整模型權重的關鍵元件,我們的框架允許 LLM 即時動態地適應新任務。Transformer²在各種任務(如數學、編碼、推理和視覺理解)方面表現出了顯著的進步,在效率和任務特定效能方面優於 LoRA 等傳統靜態方法,同時需要的引數要少得多。
我們的研究讓我們看到了未來人工智慧模型不再是靜態的。這些系統將在測試時動態擴充套件其計算能力,以適應它們遇到的複雜任務,體現出能夠持續變化和終身學習的生命智慧。我們相信,自適應性不僅會改變人工智慧研究,還會重新定義我們與智慧系統的互動方式,創造一個適應性和智慧並駕齊驅的世界。
Transformer²是一個機器學習系統,可以動態調整其權重以適應各種任務。適應性是一種非凡的自然現象,就像章魚如何將其顏色與環境融為一體,或者大腦在受傷後如何自我重塑一樣。我們相信,我們的新系統為新一代自適應人工智慧模型鋪平了道路,這些模型可以修改它們自身的權重和架構,以適應它們遇到的任務性質,體現出了能夠持續變化和終身學習的生命智慧。
LLM 大腦剖析
就像人類大腦透過相互連線的神經通路儲存知識和處理資訊一樣,LLM 將知識儲存在其權重矩陣中。這些矩陣是 LLM 的“大腦”,掌握著它從訓練資料中學到的知識的精髓。
瞭解這個“大腦”並確保它能夠有效地適應新任務,需要仔細研究它的內部結構。這就是為奇異值分解(Singular Value Decomposition,SVD)提供了用武之地。將 SVD 想象成一名外科醫生對 LLM 的大腦進行詳細的手術。這位外科醫生將 LLM 中儲存的龐大而複雜的知識分解為更小、有意義和獨立的部分(例如,數學、語言理解等的不同途徑或組成部分)。
SVD 透過識別 LLM 權重矩陣的關鍵元件來實現這一目的。在我們的研究中,我們發現增強某些元件子集的訊號,同時抑制其他元件,可以提高 LLM 在下游任務中的效能。在此基礎上,Transformer²朝著動態、特定於任務的自適應邁出了新的一步,使 LLM 能夠在各種複雜的場景中脫穎而出。
Transformer²介紹
Transformer²是一種新穎的方法,它開創了自適應 LLM 這一概念,它有一個兩步流程,該流程重新定義了這些強大的模型是如何處理不同任務的。其核心是能夠動態調整其權重矩陣的關鍵元件。在訓練時,我們引入了奇異值微調(Singular Value Finetuning,SVF),這是一種採用強化學習(RL)來增強 / 抑制來自不同“大腦”元件訊號以用於各種型別下游任務的方法。在推理時,我們採用了三種不同的策略來檢測任務的身份,並相應地調整模型的權重。下圖概述了我們的方法。
我們的方法說明。
左圖:我們使用 SVD 將 LLM 的“大腦”(即權重矩陣)分解為幾個獨立的元件。
右圖:我們使用強化學習來訓練這些元件的組合,以完成各種任務。元件可以在不同的任務之間共享。例如,在上圖中,紫色齒輪被語言理解和推理所共享。在推理時,我們識別任務型別,然後動態調整元件的組合。_
SVF 和 RL 訓練
在訓練時,SVF 學習一組 z 向量,每個下游任務一個 z 向量。每個 z 向量都可以被視為某項任務的專家,它是一個緊湊的表示,指定了權重矩陣中每個分量的期望強度,充當一組“放大器”或“阻尼器”,以調節不同元件對模型行為的影響。
例如,假設 SVD 將權重矩陣分解為五個分量[A、B、C、D、E]。對於數學任務,學習到的 z 向量可能是[1,0.8,0,0.3,0.5],這意味著分量 A 對數學至關重要,而分量 C 幾乎不會影響其效能。對於語言理解任務,z 向量可能是[0.1,0.3,1,0.7,0.5],這強調了分量 C 對於這項任務是至關重要的,儘管它對數學的用處不大。
SVF 使用強化學習在一組預定義的下游任務上學習這些 z 向量。學習到的 z 向量使 Transformer²能夠適應各種新的下游任務,同時僅引入最少數量的附加引數(即 z 向量)。
自適應
在推理時,我們為我們的框架設計了一種兩輪自適應的策略,該策略有效地組合了一組特定於任務的 z 向量。在第一次推理過程中,給定一個任務或單個輸入提示,Transformer²使用下面三種自適應方法中的一種來分析其測試的時間條件。在第二次推理中,Transformer²透過組合 z 向量來相應地調整權重,從而產生與其新設定最相關的最終響應。
我們將任務檢測 / 自適應的三種方法總結如下:
  1. 基於提示(Prompt-based)的自適應。一個專門設計的適應提示(Prompt)對任務進行分類(例如數學、編碼),並選擇一個預先訓練的 z 向量。
  2. 基於分類器(Classifier-based)的自適應。使用 SVF 訓練的任務分類器在推理過程中識別任務並選擇適當的 z 向量。
  3. 小樣本(Few-shot)自適應。透過加權插值組合多個預訓練的 z 向量。一種簡單的最佳化演算法根據在少數樣本評估集上的表現來調整這些權重。
這三種方法共同確保了 Transformer²能實現穩健而高效的任務自適應,從而為在不同場景下實現卓越的效能鋪平了道路。詳情請參閱我們的 論文。
主要成果
我們將我們的方法應用於 Llama 和 Mistral LLM 的廣泛任務上,包括數學(GSM8K、math)、程式碼(MBPP-Pro、HumanEval)、推理(ARC-Easy、ARC-Challenge)和視覺問答(TextVQA、OKVQA)。
我們首先著手透過 SVF 在這些任務中獲取 z 向量,並將其與 LoRA 進行比較。下表中的結果表明,SVF 在基於文字的任務上的表現優於 LoRA,在 GSM8K 上表現尤為突出。這可以歸因於我們的強化學習訓練目標,與 LoRA 的微調方法不同,它不需要為每個問題提供“完美的解決方案”。右側的直方圖也說明了 SVF 在視覺領域的驚人能力。
在廣泛任務對 SVF 的評估。
我們將每個任務分為訓練集、驗證集和測試集。我們使用 MBPP-Pro 的 pass@1 和所有其他任務的準確性作為評估指標來報告測試集效能。左圖:語言任務上的 SVF。歸一化分數在括號中。右圖:VQA 任務上的 SVF。_
然後,我們針對 LoRA 在未見過的任務上(特別是 MATH、HumanEval 和 ARC-Challenge)評估我們的自適應框架。下面的左表表明,隨著所有任務中方法複雜性的增加,我們的策略實現了越來越多的效能提升。
一個特別有趣的發現來自分析小樣本學習如何結合不同的 z 向量來解決任務,如右圖所示。在解決 MATH 問題時,與預期相反,該模型並不完全依賴於其 GSM8K(數學)專用的 z 向量。這表明,複雜的數學推理受益於數學、程式和邏輯推理能力的結合。我們在其他任務和模型中觀察到了類似的意外組合,突出了該框架綜合各種不同型別專業知識以實現最佳效能的能力。
Transformer²的評估。
我們直接報告測試集在未見過任務上的效能。左表:在未見過任務上的自適應。右圖:學習到的 z 向量插值權重。
最後,我們探討了一個有趣的問題,它挑戰了人工智慧開發中的傳統觀點:我們能否將知識從一個模型轉移到另一個模型?令我們興奮的是,當將學習到的 z 向量從 Llama 轉移到 Mistral 時,我們觀察到了積極的影響,後者在大多數任務中表現出了更好的效能。詳細結果見下表。
雖然這些發現很有希望,但我們應該注意到,這兩種模型都具有相似的架構,這可能解釋了它們的相容性。這種知識共享是否適用於更多樣化的人工智慧模型仍是一個懸而未決的問題。儘管如此,這些結果表明,為新的 / 更大的模型開啟解開和回收特定於任務的技能的大門提供了令人興奮的可能性。
跨模型 z 向量轉移。
將接受過 Llama3-8B-Instruct 訓練的“專家”轉移到 Mistral-7B-Instruct-v0.3 上,並進行少量適應的結果。
未來:從靜態模型到生命智慧
Transformer²代表了人工智慧系統發展的一個重要里程碑。它能夠透過增強的組合性即時動態自適應未知任務,這表明了自適應 LLM 在徹底改變人工智慧研究和應用方面的潛力。
但這僅僅是個開始。Transformer²讓我們得以一窺未來,人工智慧系統不再是為固定任務訓練的靜態實體。相反,它們將體現“生命智慧”,即隨著時間的推移不斷學習、進化和適應的模型。想象一下,一個人工智慧能夠無縫整合新知識或在現實世界環境中調整其行為,而無需再訓練,就像人類如何適應新的挑戰一樣。
前進的道路在於構建能夠動態適應且與其他系統協作的模型,結合專業能力來解決複雜的多領域問題。像 Transformer²這樣的自適應系統彌合了靜態人工智慧和生命智慧之間的差距,為高效、個性化和完全整合的人工智慧工具鋪平了道路,這些工具推動了各個行業和我們日常生活的進步。
原文連結:
https://sakana.ai/transformer-squared/
宣告:本文為 InfoQ 翻譯,未經許可禁止轉載。
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
你也「在看」嗎?👇

相關文章