
來源 | 北大對齊小組投稿
如何將全模態大模型與人類的意圖相對齊,已成為一個極具前瞻性且至關重要的挑戰。
導讀:在當前 AI 領域的快速發展中,“有效加速”和“超級對齊”已經成為兩個主要的發展動向,它們深刻影響著研發方向和投資決策。前者以 OpenAI 為代表,後者則得到了包括 Llama 等諸多開源模型的支援。
全模態大模型與全模態對齊:大模型效能的最後一塊拼圖
人類在日常生活中接收到的資訊往往是全模態的,不同的感官渠道能夠互相補充,幫助我們更全面地理解和表達複雜的概念。這種全模態的資訊流對大模型範式轉向通用人工智慧也同等重要,研究人員開始嘗試將大語言模型進行模態擴充套件,得到不僅能夠處理語言,還可以理解並生成影像、音訊、影片等多種資訊的全模態模型,如 GPT-4o、Chameleon 等。也包含目前最為流行的開源視覺語言模型,LLaMA-3.2-Vision。
以 LLaMA-3.2-Vision 為代表的大語言模型多模態化已是大勢所趨,而支援任意的模態輸入並生成任意模態的輸出的全模態大模型將成為未來的里程碑。如何將全模態大模型與人類的意圖相對齊,已成為一個極具前瞻性且至關重要的挑戰。然而,隨著模態的增加,輸入輸出空間的分佈更加廣泛,並增加了幻覺現象,使得全模態對齊變得更加複雜。
在不到兩週的時間內,北大對齊小組基於 LLaMA-3.2-Vision 的 11B 預訓練版本進行後訓練 (Post-Training) 對齊微調得到 Beaver-Vision-11B,表現出了比 Meta 微調的 LLaMA-3.2-11B-Vision-Instruct 更強的對齊性與指令跟隨性。

例如,在被提問到圖中的拉麵來自於何家餐廳時,LLaMA-3.2-11B-Vision-Instruct 沒有準確識別出餐具中的“一蘭”字樣,將餐廳錯誤地解讀為"Ippudo";專家模型 GPT-4o 識別準確,但提供的回答並不詳細具體。而 Beaver-Vision-11B 既準確地識別出了餐廳,還提供了細緻的思考與推理過程。
Beaver-Vision-11B 是北大對齊小組在全模態對齊系列工作上的應用示範。事實上,為進一步促進社群的多模態對齊研究,北大對齊小組在資料集、演算法、評估以及程式碼庫四大維度貢獻了開源力量。
-
資料:200k包含人類語言反饋和二元偏好的資料集,包含圖、文、影片、語音全模態。 -
演算法:從語言反饋中學習的合成數據正規化,大幅提升 RLHF 後訓練方法的表現。 -
評估:面向全模態模型的模態聯動與模態選擇評估。 -
程式碼庫:支援圖、文、影片、語音全模態訓練與評估的程式碼框架

透過該框架,研究人員不但可以利用該框架進行多模態模型的對齊實驗,提高模型的訓練和評估效率,還可以用該框架微調各種大模型,提升在特定任務上的表現。該框架的推出,對探索全模態大模型與人類的意圖相對齊、研究如何透過不同對齊演算法讓模型輸出更符合人類預期和價值觀具有重要意義。在 Meta 並未披露 LLaMA-3.2-11B-Vision-Instruct 對齊技術細節情況下,北大對齊小組願以誠意滿滿的資料、訓練、模型、評估的全流程開源,為全模態對齊研究貢獻力量。
align-anything 論文地址:
https://arxiv.org/abs/2412.15838
https://arxiv.org/abs/2412.15838
align-anything 開原始碼地址:
https://github.com/PKU-Alignment/align-anything)
https://github.com/PKU-Alignment/align-anything)
align-anything 資料集地址
:
https://huggingface.co/datasets/PKU-Alignment/align-anything
align-anything 測評榜單地址
:
https://huggingface.co/spaces/PKU-Alignment/EvalAnything-LeaderBoard
Beaver-Vision-11B 模型
:
https://huggingface.co/PKU-Alignment/Beaver-Vision-11B
AA-chameleon-7b-base 模型
:
https://huggingface.co/PKU-Alignment/AA-chameleon-7b-base
AA-chameleon-7b-plus 模型
:
https://huggingface.co/PKU-Alignment/AA-chameleon-7b-plus
全模態資料集: align-anything
北大對齊小組同時釋出首個全模態人類偏好資料集 align-anything。與專注於單個模態且質量參差不齊的現有偏好資料集不同,align-anything 提供了高質量的資料,包括了輸入和輸出中的任何模態,旨在提供詳細的人類偏好註釋以及用於批評和改進的精細語言反饋,從而實現跨模態的全面評估和改進。

align-anything 涵蓋圖、文、影片、音訊 4 種模態,並根據輸入與輸出的多樣性延伸至 8 種任務
現有資料集的對比

表中的首選項註釋方法由三個部分組成:
-
A 是指標註來源,它指示如何在資料集中確定偏好項。主要是人工註釋或手動構建、由 GPT-4V 或其他系統等模型生成或註釋,或是從多個來源聚合。 -
S 表示偏好訊號的組成,其中可能包括評分、排名和推理。在某些情況下,首選項是透過最佳化、更正或破壞響應來構建,以形成所需的首選項對。 -
F 則表示資料集是否在這些首選項維度中提供更詳細的細粒度反饋。
透過和目前現有偏好資料集的對比,北大對齊小組發現雖然隨著大模型的能力逐漸向越來越多模態遷移,目前偏好資料集卻缺乏細粒度的反饋維度且涵蓋模態較少,同時缺乏一個合理的結構和紐帶,將跨模態偏好資料集組織起來。
資料集的呈現
為了能夠應對上述提到的挑戰,在資料集的構建階段,北大對齊小組開創性地將資料集的呈現分為三個模組,透過語言反饋標註作為彌合模態之間鴻溝的橋樑,承載任意模態上的人類細粒度偏好反饋:
-
Any-to-Any
表示任意型別的輸入輸出模態的雙向轉換。 -
Any-to-Text
表示從非文字模態的輸入向文字模態輸出的轉換。 -
Text-to-Any
則代表從文字模態向其他任意模態進行的轉換。
同時,他們還演示了基於多模態特性最佳化資料集質量的多步驟流程:

從流程圖可以看到,首先設計針對各種模態量身定製的特徵,根據特定的模態任務及其相應的特徵,以最佳化部分較低質量的原始提示,以得到最終版本的問題,同時從多個來源收集回答(包括根據特性構造偏序問答對、呼叫開源和閉源模型以及使用人工生成答案)。接著對收集到的問答對使用目前 SOTA 閉源模型和專業標註人員進行細粒度的偏好標註。標註過程涵蓋各種維度,每個維度都有相應的偏好回答選項和評分標準。最後,針對各個模態任務特性,提供有關回答的語言反饋(包括批評和最佳化)。這裡的語言反饋流程分為三步:確定批評的範圍、對相應需要批評的範圍進行反饋,以及對整個反饋過程提供最佳化建議。這樣的語言反饋流程正規化捕獲了跨模態的直接偏好和基於語言的反饋,確保對響應進行全面評估和最佳化。

如上述例子所示,
align-anything
的資料涵蓋了多種模態的輸入,在多個維度上標註了二元偏好,且使用 Critique 和 Refinement 作為語言反饋,標識回答的錯誤指出,並提供改進意見。全模態演算法:從全模態語言反饋中學習
演算法動機
為了解決全模態的統一對齊,北大對齊小組透過更豐富的資訊內容實現更精確、細粒度的全模態對齊,需要從資料多樣性和反饋機制統一性兩個方面深入探索和最佳化。
-
豐富的全模態反饋資料:傳統對齊方法依賴單一模態資料,無法滿足全模態模型對齊的複雜需求。需要引入更豐富和複雜的反饋模態,如結合影像、音訊、影片等多種模態的資訊,使反饋內容更加立體和多元化。這種全模態反饋能呈現更多維度的資訊,幫助模型更好地理解和捕捉不同模態之間的相互關係,提高對齊的精準度; -
統一的反饋收集和處理機制:當前不同模態之間的反饋形式不統一,導致對齊過程中協調性差。設計一種通用的反饋建模與收集機制,允許人類提供自由形式的反饋,無論是文字描述、影像標註還是語音指令。開發高效的反饋處理機制,將任意模態上的人類反饋轉換為細粒度監督訊號,對全模態的反饋進行統一建模處理,使其在模型訓練中具有一致性;
演算法流程
如何利用好語言反饋的豐富資訊賦能全模態對齊,是北大對齊團隊重點關注的關鍵科學問題。為此,他們提出了從語言反饋中學習的正規化(Learning from Language Feedback, LLF)。

四大環節:
-
評論模型建模:使用交叉熵損失函式,令多模態大模型擬合數據集中的語言反饋,作為評論模型。訓練完成的評論模型將對輸入的問答對提供評論。 -
模型自提升:令初始模型在給定好 prompt 的資料集上生成一系列 response,再利用評論模型對此生成的評論,令初始模型針對自身的 response 進行修正。 -
獎勵建模:將修正後的 response 與原先的 response 拼接,組成偏序對,進行獎勵建模,或是 DPO 微調。 -
強化學習微調:基於訓練好的獎勵模型,完成完整的強化學習微調流程。
實驗結果
北大對齊小組希望 LLF 能夠透過語言反饋提取出更加豐富的偏好資訊,從而提升多模態大模型的指令跟隨能力。他們已在多種模態上驗證了 LLF 的有效性:

LLF 合成的偏好對反映了更加統一的人類偏好,增強了所有模態的對齊效能。我們觀察到,當使用二元對時,DPO 和 PPO 在某些模態上存在負提升。然而,採用 LLF 後,它們在所有模態上都表現出積極的改進。有趣的是,北大對齊小組發現 LLF 對 LLaVA-13B 的改進要大於對 LLaVA-7B 的改進。這表明 LLF 在更強大的模型上的表現更好。

更驚喜的是,北大對齊小組透過更進一步的實驗觀察到,少量 LLF 資料對於對齊演算法的提升大於大量的二元偏好資料,兩者的差異最大可以是 1:4。如上圖所示,北大對齊小組使用相較於二元偏好資料集的 25%、50%、75% 的語言反饋資料集訓練評論模型,隨後令其合成與二元偏好資料集等量的偏好資料,並進行對齊微調。結果表明,即便是 25% 的語言反饋,仍能令評論模型合成出效果更好的二元偏好資料集。這更加充分地表明:LLF 能夠透過語言反饋提取出更加豐富的偏好資訊,從而提升多模態大模型的指令跟隨能力。
全模態評估:模態聯動與模態選擇
全模態模型旨在理解各個模態,並結合它們的資訊以生成高質量的響應。為了評估它們的綜合多模態處理能力,我們建立了 164 個測試條目,每個條目都包含文字、視覺(影像或影片)和聽覺(音訊或語音)元件。這些相互關聯的模態要求模型準確整合所有輸入,因為任何一個模態的失敗都會導致錯誤的答案。例如,如果一個模型未能處理視覺輸入,它可能會錯過圖片中的人感到害怕這一點。同樣,如果沒有聽覺處理,它可能無法理解這個人的恐懼是由於狗在吠叫。

模態聯動
-
不同模態輸出之間具有相關性和一致性,不能毫不相干或者自相矛盾。
-
相關性:不同模態資訊具有明顯關聯。 -
一致性:不同模態資訊表達的物件或者觀點一致。 -
不同模態輸出之間能夠相輔相成,互相進行資訊的補充,例如:
-
文字中提到到圖片(影片)或音訊,圖片(影片)或音訊資訊能夠作為文字資訊的補充。 -
圖片(影片)和音訊資訊分別對同一個物件進行了描述,視覺資訊和音訊資訊相互結合,營造豐富的場景資訊。
模態選擇
-
對於給定問題,選擇適當的模態進行回答,從而能更好地回答該問題。 -
選擇模態時應當考慮必要性和簡潔性,對回答問題幫助不大的模態是不必要的。
測評結果

當前的模型仍然遠遠落後於全模態模型。在全模態理解方面,僅使用單一模態的模型得分不到最高分的一半。即使是處理視覺和聽覺輸入的 Gemini-1.5-Pro,也未能獲得滿分。與人類不同,這些模型無法以完全整合的方式感知不同的模態,儘管它們在單個模態內的表現幾乎達到了人類水平。此外,在選擇輸出模態時,模型與人類的選擇不太一致。人類可以根據指令自適應地選擇最佳的模態組合,而模型往往只輸出文本資訊,導致資訊丟失,或者輸出所有可用模態,導致冗餘。有限的多模態能力,尤其是在主要基於文字訓練的模型中,阻礙了它們有效綜合資訊的能力,使得在細節和簡潔之間取得平衡變得困難。
全模態程式碼庫:align-anything
align-anything 框架致力於使全模態大模型與人類意圖和價值觀對齊,這裡的全模態包括文生文、文生圖、文圖生文、文生影片等任意到任意的輸入與輸出模態,總體而言,該框架具有以下特點:

-
高度模組化:對不同演算法型別的抽象化和精心設計的 API,使用者能夠為不同的任務修改和定製程式碼,以及定製化模型與資料集註冊等高階擴充套件用法; -
支援跨任意模態模型的微調:包含對如 LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion 等跨越多種模態生成與理解的大模型的微調能力; -
支援不同的對齊方法:支援任意模態上的多種對齊演算法,既包括 SFT、DPO、PPO 等經典演算法,也包括 ORPO, SimPO 和 KTO 等新演算法; -
支援多種開、閉源對齊評估:支援了 30 多個多模態評測基準,包括如 MMBench、VideoMME 等多模態理解評測,以及如 FID、HPSv2 等多模態生成評測;
訓練框架
北大對齊小組設計了具備高度的模組化、擴充套件性以及易用性的對齊訓練框架,支援由文字、圖片、影片、音訊四大基本模態衍生出的任意模態模型對齊微調,並驗證了框架對齊演算法的實現正確性。

模組化
對齊程式碼實現高度可複用。align-anything 的設計思路是模態與演算法的解耦合。例如,對於 DPO 演算法,其損失函式的實現可被抽象為:提升 chosen 答案的機率,降低 rejected 答案的機率。這一思想是模態無感的。align-anything 在模態擴充套件的過程中儘可能地複用了相同的框架,這樣既能夠突出不同模態間演算法實現的差異性,也便於使用者在新的模態上擴充套件演算法。
擴充套件性
模型與資料集註冊高度可定製。多模態大模型的迭代日新月異,新模型、新資料集層出不窮。這要求對齊框架具備高度的可擴充套件性,便於使用者快速地將新模型或新資料集僅通過幾行程式碼註冊進框架中。對於新資料集的註冊,align-anything 提出了一個名為"template"的資料集鍵值轉換規則。無論 prompt 對應的鍵名是"prompt"還是"question",無論 response 對應的鍵名是"response"還是"answer","template"機制都支援使用者透過簡單構建對映規則的方式完成鍵值解析和轉換,避免使用者單獨實現複雜的資料預處理程式碼。
易用性
使用者指南與程式碼傳參高度可復現。對齊演算法的訓練啟動往往涉及複雜的路徑與訓練超引數傳遞,而隨著模態數的增多,演算法訓練啟動愈發複雜,新使用者往往難以快速上手。為此,北大對齊小組為 align-anything 開發了詳盡的使用說明文件。

這份細緻的說明文件為已支援模態的每個對齊演算法都提供了一份可以直接複製貼上並執行的啟動指令碼。示例是最好的入門教程,透過執行這些示例,使用者可以快速啟動訓練。進一步,北大對齊團隊提供了細緻的訓練超引數傳遞規則解析,告知使用者有哪些訓練超引數可傳入,以及如何傳入,這些設計將為使用者除錯多模態大模型對齊實驗提供極大便利。
正確性
北大對齊小組在他們精心構造的全模態對齊資料集上,測試了 align-anything 在多種模態的任務和模型上的對齊表現。他們發現對齊演算法能夠大幅提升模型的指令跟隨能力,並且在多種開源榜單上進行了驗證,這些實驗結果既包含了 LLaVA 等經典的視覺語言模型,也涵蓋有最新由 Meta 開源的 Chameleon 系列模型:

除了最經典的圖文模態,北大對齊小組還在時新的音訊文字混合模態上進行了對齊的有效性驗證。Qwen2-Audio 是截至目前效果最好的開源音訊文字混合模型之一,已在 AIR Bench 等多種型別的評測榜單上取得 SOTA 的表現。Qwen2-Audio 的技術報告中提到了對齊演算法 DPO 在後訓練(Post-Training)階段的重要作用,然而,目前社群並不支援對於該模型的對齊微調。
北大對齊小組開源了首個對 Qwen2-Audio 的 DPO 演算法的實現,並在 AIR Bench 的多個維度上進行測試,在音訊文字上百尺竿頭更進一步,相較於 Qwen2-Audio 取得了明顯的提升:

評測框架
北大對齊小組精心設計了高度解耦合的多模態對齊評測框架,提供多種模態評測,支援多種推理後端,具有高度可擴充套件性,以滿足多樣化的多模態模型評測需求。

多種模態評測
align-anything 評估框架現已適配了超過 30 個常用基準測試,涵蓋了 Text ⇒ Text、Text + Image ⇒ Text 以及 Text ⇒ Image 等模態類別。此外,Text + Audio/Video ⇒ Text 和 Text ⇒ Audio/Video 的基準測試也已完成內部開發。下表列舉了部分框架中已經適配的基準測試:

多種推理後端
考慮到 Transformers 框架和 Diffusers 框架對模型支援之間的差異,align-anything 的評測框架將推理和評估過程進行了解耦合,並支援使用不同的後端進行推理。在多模態理解任務和多模態生成任務中,框架分別採用 Deepspeed 和 Accelerate 作為推理後端,以適配不同模型結構的推理需求。此外,align-anything 評測模組還提供了使用 vLLM 進行推理的介面,適配 vLLM 框架的模型能夠在評測中實現推理加速。
高度可擴充套件性
為了方便整合自定義評測集,align-anything 對評測框架進行了高度解耦。該框架主要由 DataLoader、Generator 和 Evaluator 三部分組成。DataLoader 負責載入和預處理多種評測集,轉化為適合推理的資料格式;Generator 負責使用不同的推理框架生成結果;Evaluator 則對生成的結果進行評估並輸出評分。如果開發者僅需更換評測集,而無需更改推理框架和評估方式,只需將新的評測集適配到 DataLoader 中即可完成整合。
基於 align-anything 框架,實現 Chameleon 全模態啟用與對齊
北大對齊小組基於 Meta 的 Chameleon-7B,使用了 laion-art 資料集激活了 Chameleon 模型的影像生成能力,並開源了以這個方式訓練得到的 AA-Chameleon-7B-Base 模型。他們隨後使用 align-anything 資料集的圖文聯合資料對該模型進行對齊,開源了 AA-Chameleon-7B-Plus 模型。同時北大對齊小組也開源了首個對 Chameleon 進行圖文模態輸入/輸出的 DPO 與 PPO 兩大經典對齊演算法的實現。
對齊過程中,北大對齊小組選用了包含指令跟隨、物理規律、文字清晰度、影像美學性、模態聯動和資訊豐富程度等多維度的偏好資料,達到了較好的效果。對齊後模型的文生圖能力和圖文聯合輸入/輸出能力都有較大的提升:

在圖文聯合輸入/輸出評測中,對齊後模型和對齊前模型比較,GPT-4o 評測勝率超過 80%。以下為對齊前後的一些例項比較:

基於 align-anything 框架,對 LLaMA-3.2-11B-Vision 進行指令跟隨對齊
LLaMA-3.2-11B-Vision 是最新 LLaMA-3.2 系列中以圖文問答見長的模型,北大對齊小組使用他們提出的 align-anything-Instruct 資料集對該模型進行了細緻的指令微調,得到了 Beaver-Vision-11B。該模型在多個開源評測榜上超越了 Meta 官方釋出的指令微調版本 LLaMA-3.2-11B-Vision-Instruct,表現出了更強的指令跟隨能力與影像識別能力


本開源專案由北京大學對齊小組開發並進行長期維護,團隊專注於人工智慧系統的安全互動與價值對齊,指導老師為北京大學人工智慧研究院楊耀東助理教授。核心成員包括吉嘉銘、周嘉懿、邱天異、陳博遠、王愷樂、洪東海、樓翰濤、王旭堯、張釗為、汪明志、鍾伊凡等。團隊就強化學習方法及大模型的後訓練對齊技術開展了一系列重要工作,包括 Aligner(NeurIPS 2024 Oral)、ProgressGym(NeurIPS 2024 Spotlight)以及 Safe-RLHF(ICLR 2024 Spotlight)等系列成果。近期,團隊針對 OpenAI o1 技術的深入分析累計點選量已超過 15 萬。


