AI模型合體手術刀來了!上交大&上海AILab&華師大提出LED-Merging,拒絕「能力」與「安全」二選一

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

1. 引言
想讓大模型同時精通數學、程式設計?一個直接的想法是,把不同“專業”的模型融合(Model Merge)起來,打造一個全能的“六邊形戰士”。然而,理想很豐滿,現實卻很骨感。現有模型融合技術常常導致“安全-效用衝突”:一個安全模型和一個數學模型融合後,數學能力可能提升了,但安全“護欄”卻被拆了,變得容易生成有害、危險的回答。
為了解決這一棘手問題,來自上海人工智慧實驗室、上海交通大學、華東師範大學的研究團隊提出了一個全新的、無需訓練的解決方案——LED-Merging,如同為模型融合過程配備了一把精準的“神經元手術刀”,旨在徹底根除這一頑疾,論文已被ACL 2025 Main Conference接收。

該方法巧妙地解決了模型融合中的核心衝突,能在不犧牲專業能力的前提下,大幅提升融合後模型的安全性,為構建可靠、強大的多工大模型提供了一條高效的新路徑。 
2. 1+1 <2? 模型合併的“致命缺陷”:安全與效用能力的失衡
現有模型合併方法,正面臨著這種“能力越強,安全越弱”的致命困境。如下圖所示。傳統合並方法存在致命缺陷,安全防護能力會災難性下降。
如圖1a所示,合併後的模型能輕鬆解決數學問題,但當被問及有害問題時,它卻能提供危險的建議。而圖1b的資料則量化了這一悲劇:數學、程式碼能力(Accuracy/Pass@1)的提升,往往伴隨著安全評分(Safety Score)的斷崖式下跌。

為什麼模型一合併就變“邪惡”?研究團隊發現,傳統合並方法在融合兩個專家模型時,犯了兩個根本性錯誤: 
1. 神經元誤判(Neuron Misidentification):傳統方法僅憑引數大小來決定保留哪些神經元。這好比僅憑音量大小判斷一句話的重要性,完全忽略了內容。結果,大量負責“安全剎車”的關鍵神經元被當作不重要的引數而丟棄。
2. 跨任務干擾(Neuron Interference):即便一些安全神經元被保留下來,它們也常常與負責數學、程式碼等功能的神經元在同一位置上發生“引數打架” 。如圖1c所示,這種衝突導致了破壞性的引數抵消,最終兩敗俱傷。 
實驗資料觸目驚心:當一個經過安全對齊的Llama-3模型與數學模型融合後,其在安全測試基準HarmBench中的有害內容響應率飆升,安全能力驟降超過30% 。這種“安全-效用能力”的衝突,正是當前模型合併技術走向大規模應用的最大障礙。
3. LED-Merging:為模型融合打造“內生安全系統”
面對現有技術的困境,LED-Merging提出了一套全新的、無需訓練的融合三部曲,就像為模型合併過程建立了一條精準、有序的排程流水線
1. L – 精準定位 (Location) ,啟用“神經元GPS”。 首先,拋棄粗暴的基於幅度的篩選。LED-Merging利用梯度歸因(gradient-based attribution)技術,像一個高精度GPS,準確識別並標記出在基礎模型和各個專家模型中,分別負責安全、數學、程式碼等不同任務的關鍵神經元
2. E – 動態選舉 (Election) ,組建關鍵神經元“全明星陣容”。定位之後,如何取捨?LED-Merging引入動態選舉機制,它要求一個神經元必須同時在基礎模型和專家模型中都表現出高重要性,才能被“選舉”為核心功能神經元並保留下來。這確保了最終選出的,是真正兼顧了通用知識與專業技能的“全明星陣容”,從源頭上平衡了安全與效能。 
3. D – 衝突解耦 (Disjoint) ,開闢“引數專用道”。模型合併最關鍵的一步,如何避免神經元“打架”?LED-Merging透過集合運算,為不同任務(安全、數學、程式碼)的神經元更新劃分出相互隔離的“專用車道”。這意味著,負責安全的引數更新,絕不會與負責數學的引數更新在同一位置發生衝突。這種徹底的解耦,根除了跨任務干擾的頑疾。
LED-Merging的概覽圖與演算法流程。從分別定位(Location),到聯合選舉(Election),再到最後的衝突解耦(Disjoint),最終將三組互不干擾、各自精銳的神經元向量合併,實現安全、高效的融合。

4. 實踐驗證:安全與能力的完美平衡
在Llama2, Llama-3、Mistral等多個主流模型家族、橫跨7B到13B的實驗中,LED-Merging交出了一份近乎完美的答卷: 
·安全防護的“超級進化”:在HarmBench安全測試中,LED-Merging的表現堪稱驚豔。合併後的Llama-3-8B有害響應率降低了31.4% ,而WizardLM-13B的安全分數更是飆升了70.8% 。這意味著,LED-Merging不僅沒有削弱安全,反而透過智慧的神經元排程,讓模型的安全能力變得比原始安全模型更強。 
·效用能力的“高保真度”:安全提升了,能力有沒有打折?完全沒有。在GSM8K數學推理基準上,合併後的模型保留了專業模型95%的效能,準確率高達52.39% 。在程式碼生成評測基準MBPP上,其成功率甚至比原始程式碼模型提升了40.2% 。
·跨模型、跨尺寸的“零感知”防禦:無論是在Llama-3、Llama-2還是Mistral架構上,無論模型是7B、8B還是13B,LED-Merging都表現出高度一致的有效性和穩定性。這證明了其方法的普適性,表現了其成為工業級解決方案的潛力。
·跨語言的“無障礙”推理:LED-Merging強大的泛化能力不止於此,它在多語言場景下同樣表現出色。在MGSM8KInstruct和MSVAMP兩大跨語言數學推理測試中,LED-Merging在所有合併方法中取得了最高的綜合準確率。尤其是在孟加拉語(Bengali)等低資源語言上,其準確率相比傳統方法Task Arithmetic提升了93.8%,同時在德語、中文等高資源語言中也保持著頂尖水準。這充分證明了LED-Merging在跨語言遷移應用中的可靠性和巨大潛力。 

5. 作者簡介
本文由上海交通大學,上海人工智慧實驗室和華東師範大學聯合完成。 主要作者包括上海交通大學博士生馬千里與上海AI實驗室劉東瑞(共同一作)等。
通訊作者為上海AI實驗室青年科學家邵婧,研究方向為AI安全可信。
論文地址:
https://arxiv.org/abs/2502.16770 
程式碼:
https://github.com/MqLeet/LED-Merging

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章