NeurIPS上新|最佳化生成式AI效能,推進負責任AI實踐

(本文閱讀時間:17分鐘)
編者按:編者按:歡迎閱讀“科研上新”欄目!“科研上新”匯聚了微軟亞洲研究院最新的創新成果與科研動態。在這裡,你可以快速瀏覽研究院的亮點資訊,保持對前沿領域的敏銳嗅覺,同時也能找到先進實用的開源工具。
12月10日至12月15日,全球最負盛名的人工智慧盛會之一 NeurIPS 大會將在加拿大溫哥華舉辦。因此,我們將透過三期“科研上新”為大家帶來多篇微軟亞洲研究院入選 NeurIPS 2024 的精選論文解讀,涉及內容涵蓋大模型最佳化、生成式人工智慧、跨模態學習、社會責任人工智慧、特定領域基礎模型等。
欲瞭解微軟研究院在本屆 NeurIPS 的更多內容,請訪問:
https://www.microsoft.com/en-us/research/story/microsoft-at-neurips-2024-advancing-ai-research-across-domains/
如果你已經註冊了大會,不要錯過微軟亞洲研究院院長周禮棟博士的主旨演講:
如今,生成式 AI 和擴散模型正成為 AI 內容創作的中堅力量。在第二期 NeurIPS 2024 精選論文解讀中,大家將瞭解到微軟亞洲研究院的研究員們如何提升生成式 AI 與擴散模型的效率以及多功能性,從而使其在多樣化的應用場景中更加強大、穩健。與此同時,為了確保 AI 系統與人類的價值觀和社會規範保持一致,研究員們還開發了可評估人工智慧風險並推動倫理實踐的工具,希望加強人工智慧的治理與可信度。
「 本期內容速覽 」
01
透過多模態大語言模型反饋,提升文字到影片生成模型
02
CLAVE:評估大語言模型生成文本價值觀的自適應框架
03
大語言模型指導的組合式三維影片生成
04
利用基於交叉注意力的擴散模型作為解耦的歸納偏置(Spotlight)
05
透過資訊瓶頸保護你的大語言模型
06
理解與提升無需訓練的擴散模型引導方法
07
VASA-1:即時生成音訊驅動的、逼真的說話人臉(Oral)
01
透過多模態大語言模型反饋,提升文字到影片生成模型
論文連結:
https://openreview.net/pdf?id=3ivnixHy16
近年來,文字到影片生成模型展現出了卓越的影片生成能力,並因其廣闊的應用前景引起了廣泛關注。但這些生成模型在預訓練的過程中往往依賴於來自網際網路的大規模影片資料集,由於這類資料集的質量參差不齊,從而導致了生成的影片質量低下、不連貫、美學效果差以及未能準確反映輸入文字提示等問題。解決此問題的一種有效的策略是透過“來自人類反饋的強化學習”(Reinforcement Learning from Human Feedback, RLHF),將文字到影片生成的輸出與人類偏好對齊。然而,手動標註大規模影片偏好成本巨大,所以相關領域的大規模影片偏好資料集相對稀缺。
為應對這一挑戰,本篇論文首次探討了利用多模態大語言模型(Multimodal Large Language Models, MLLMs)進行影片偏好標註的有效性。研究員們透過實驗證明,多模態大語言模型生成的影片偏好與人類判斷高度一致,證明了多模態大語言模型能夠作為可靠的影片偏好標註者,且可以以極低的成本幫助進行大規模影片偏好標註。
根據這一發現,研究員們利用多模態大語言模型在影片的時序連貫性和文字提示匹配程度這兩個維度上,進行了細粒度的偏好標註,並最終構建了VideoPrefer資料集。該資料集包含了135,000個偏好標註,是目前為止業界最大的影片偏好資料集。
基於 VideoPrefer 資料集,研究員們又提出了 VideoRM,這是第一個專為文字到影片生成設計的影片偏好通用獎勵模型。透過全面的實驗與人工評估驗證,研究表明,VideoPrefer 和 VideoRM 能夠顯著提升現有影片生成模型的生成質量。
圖1:VideoRM 架構圖
02
CLAVE:評估大語言模型生成文本價值觀的自適應框架
論文連結:
https://openreview.net/pdf?id=Kxta8IInyN
隨著大語言模型(LLMs)取得的突破性進展,潛在的社會風險也逐漸顯現,例如生成帶有偏見的內容、不符合倫理的建議以及非法資訊。如何評估和對齊大語言模型的價值觀,成為確保其負責任發展的重要課題。
已有的方法透過包括倫理判斷、價值問卷或生成式價值評估等來評測大模型的價值觀。微軟亞洲研究院的研究員們重點關注生成式價值評估方式,即從模型在特定場景下的生成內容直接解碼其隱含的價值觀。然而,這種開放式的價值評估正規化高度依賴於無需參考答案的自動評估工具,但現有的評估工具面臨兩大挑戰:在適應性方面,人類的價值觀是多樣且動態的,可能因文化、地區甚至個體偏好而異,現有的評估工具難以適應這些新的和不斷變化的價值體系;在泛化性方面,評估方法需要能夠在不同的表達方式和複雜的場景下準確識別潛在的價值觀,但小模型容易過擬合,缺乏對未知場景的魯棒性和泛化性。
為了解決上述挑戰,研究員們提出了 CLAVE 框架。該框架結合了大規模閉源模型和小型開源模型的優勢:使用強大的閉源模型作為“概念提取器” (value concept extractor),從少量手動標註的資料中提取有代表性的價值概念並將其應用於廣泛的測試場景;將小型開源模型微調為“價值識別器” (value recognizer),基於提取的價值概念而非原始文字進行價值判斷,從而實現高效的對齊,同時減少標註和訓練成本。這一雙模型框架不僅提高了評估的適應性,還顯著增強了評估方法的泛化性和魯棒性。
圖2:(a) 現有價值觀評測模型在不同資料集上的結果。(b) CLAVE 簡單示例。
為了標準化大語言模型生成內容的價值評估,研究員們構建了一個名為 ValEval 的基準資料集,包括13,000多條人工標註的(文字、價值、標籤)資料,並對15種主流大語言模型進行了評估和對比分析。實驗結果表明,CLAVE 框架在適應性和泛化性方面相比現有方法可以達到更優的平衡。
03
大語言模型指導的組合式三維影片生成
論文連結:
https://arxiv.org/abs/2409.00558
專案連結:
https://aka.ms/c3v
得益於生成模型和大規模網際網路資料的快速發展,近年來文字生成影片技術取得了顯著進展。然而,如何精確控制生成影片中的多種不同概念,如特定角色的外觀、動作以及視角的動態變化,仍然是一個重要挑戰。
在本篇論文中,研究員們提出了一種全新的文字生成影片正規化 C3V,其把大語言模型作為導演,3D 高斯作為結構化表徵來實現組合式三維影片生成。具體而言,該方法的核心在於以模組化的方式將複雜的概念進行分解,並利用預訓練的擴散模型提供先驗進行組合,從而最大程度提高影片生成的靈活性和質量。
該方法主要分為以下三個主要階段:
圖3:組合式三維影片生成框架
階段一:任務分解與 3D 表徵生成。研究員們利用 LLMs 作為任務分解工具,將複雜的文字提示拆解成一系列子提示,每個子提示對應一個影片中的獨立概念(例如某個場景、物件或動作)。接著,利用預訓練的專家模型為每個概念生成高質量的 3D 表徵。
階段二:多概念組合。在獲得不同概念各自的 3D 表徵之後,研究員們進一步利用多模態 LLMs,透過生成包括目標尺度和軌跡等粗粒度的指導訊號,將這些概念組合到同一個三維空間中,進而渲染出逼真的影片。
階段三:融合 2D 擴散先驗的細化。為了生成更逼真的影片,研究員們引入 2D 擴散模型作為最後的最佳化步驟。透過分數蒸餾取樣(Score Distillation Sampling, SDS)對階段二生成的不同幀進行微調,使其分佈更貼近真實世界的自然影像。
透過大量實驗,研究員們發現,與現有方法相比,該方法生成的影片在細節處理和動作流暢性上表現出明顯的提升,且在靈活性方面具有顯著優勢,為文字生成影片任務提供了一種全新的解決方案。
04
利用基於交叉注意力的擴散模型作為解耦的歸納偏置
論文連結:
https://arxiv.org/abs/2402.09712
解耦表示學習的目標是從觀測資料中提取內在組成因素以表徵資料,這對於提升機器學習的可解釋性、泛化能力、控制生成和魯棒性具有重要意義。這一領域的研究通常藉助複雜的損失函式或網路結構設計來實現解耦表徵學習。在本篇工作中,研究員們提出了一個新的視角和框架 EncDiff,證明了擴散模型與交叉注意力本身就可以作為一種強大的歸納偏置,促進解耦表徵的學習。
在訓練中,EncDiff 透過將影像編碼為一組概念令牌,並將其作為擴散模型的條件輸入以重建影像,其中交叉注意力機制用於連線影像編碼器輸出的概念令牌(解耦表徵)和擴散模型。研究分析揭示了在逆擴散過程中天然存在時變資訊瓶頸,這種資訊瓶頸與交叉注意力共同作為強歸納偏置,促成解耦表徵的學習。
圖4:基於擴散模型的解耦表徵學習框架 EncDiff,以及擴散過程中的時變資訊瓶頸分析。
該工作不僅在理論上提供了新的視角,而且在實踐上也取得了顯著的成果。實驗結果表明,EncDiff 框架無需額外的正則化項,就能實現卓越的解耦效能。透過全面的消融研究和視覺化分析,研究員們分析了模型的工作原理,揭示了擴散過程以及交叉注意力機制在解耦學習中扮演了重要的作用。
解耦學習仍然是一個具有挑戰的任務,研究員們期待這些發現能激發更多關於擴散模型在解耦表徵學習中的研究,為未來更復雜的資料分析和理解提供新思路。
05
透過資訊瓶頸保護你的大語言模型
論文連結:
https://arxiv.org/abs/2404.13968
專案連結:
https://zichuan-liu.github.io/projects/IBProtector/index.html
大語言模型在多領域取得重大進展並廣泛應用,但它們可能會受到攻擊併產生有害內容。儘管科研人員努力使其與人類價值觀念對齊,然而“越獄”場景仍時有發生。有害或惡意提示的越獄攻擊損害了 LLMs 應用的完整性,因此有效防禦此類攻擊性提示成為迫切的需要。
目前已有的工作主要嘗試透過採用微調模型或擾動輸入作為防禦手段。經典的擾動存在一系列問題,一是隨機掩碼擾動出來的資訊是不完備的,並且多次訪問目標模型會造成推理損失;二是生成式擾動(如摘要、意譯等)存在指令不對齊的風險並且會引入額外開銷。對微調防禦而言,其無法訪問黑盒模型,此外越獄資料的質量也不可控。
在本研究中,微軟亞洲研究院的研究員們透過資訊瓶頸理論提出了 IBProtector,旨在尋找出一個能替代原始提示詞的子集來控制提示中的資訊量,從而達到預期的回覆。IBProtector 利用一個輕量級且可訓練的提取器,選擇性地壓縮和擾動提示,只保留目標 LLMs 回應預期答案所需的核心資訊。此外,研究員們給出了一個容易求解的資訊瓶頸損失函式來最佳化壓縮內容,並進一步考慮了梯度不可見的情況,以便與任何 LLMs 相容。
圖5:IBProtector 的整體框架
實驗結果表明 IBProtector 在多個目標模型的多種方式的越獄攻擊方式上,都保持較低的成功攻擊率。同時,提取器不會顯著影響 LLMs 推理消耗也不會降低良性提示的回覆率,保證抽取的資訊不會對正常回復結果產生影響。IBProtector 作為一種新穎、輕量、可遷移的防禦手段,可以適應各種攻擊方法和目標模型,增強 LLMs 的安全性,而無需修改底層模型,為防止 LLMs 越獄提供了新的思路。
06
理解與提升無需訓練的擴散模型引導方法
論文連結:
https://arxiv.org/abs/2403.12404
在擴散模型引導領域,分類器引導和無分類器引導是兩種主流技術,它們透過訓練額外的條件資料來實現模型控制。但最近提出的無需訓練擴散模型引導方法在影像、運動、強化學習以及科學發現等多個領域都顯示出了其重要性。
本篇論文深入探討了無需訓練方法在何種情況下可能優於需要訓練的方法:(a) 當訓練資料不足以訓練一個有效的引導時,如分子生成;(b) 在需要零樣本泛化的開放式任務目標的強化學習或運動生成中;(c) 當指導網路的損失被視為金標準時。
研究員們在文中進一步闡釋了無需訓練即可完成擴散模型引導的原因。先前的研究顯示,無需訓練的擴散模型引導可能無法生成符合條件機率分佈的樣本。但本文從最佳化的角度提供了理論證明,表明無需訓練的擴散模型引導能夠生成具有低引導網路損失的樣本,並且其收斂過程具有兩個階段:第一階段損失函式震盪,第二階段損失函式線性收斂。
圖6:無需訓練擴散模型引導方法的收斂性
最後,研究員們探討了無需訓練方法的潛在弊端。研究表明,無需訓練的擴散模型引導更容易受到對抗梯度的影響,並且需要更多的擴散步驟來實現收斂。儘管研究員們提出了一些改進方法,但也指出了這些弊端在某種程度上是不可避免的。這些發現為理解和改進擴散模型的可控性提供了寶貴的見解,併為未來的研究指明瞭方向。
07
VASA-1:即時生成音訊驅動的、逼真的說話人臉
論文連結:
https://arxiv.org/abs/2404.10667
專案主頁:
https://www.microsoft.com/en-us/research/project/vasa-1
微軟亞洲研究院的研究員們提出了一種高效的音訊生成說話人臉技術 VASA-1,該方法僅需一張人臉肖像、一段音訊和一些可選的控制訊號,即可即時生成逼真的說話影片。透過將面部動態(如唇部運動、表情、眼神和眨眼)視為單一隱變數,並結合頭部運動,該方法能夠利用擴散模型建模多樣的說話行為模式。實現這一目標的關鍵在於構建能夠表達整體面部動態的潛在空間,從而為擴散模型提供訓練資料。
圖7:VASA-1 可即時生成音訊驅動的逼真人臉影片
具體而言,研究員們利用基於隱式三維表達的人臉重現框架,透過交換頭部姿態和麵部動態隱向量來實現目標影像重建,並透過重建損失來訓練網路。為了增強框架的解耦能力,研究員們還引入了交叉身份損失和麵部動態與頭部姿態一致性損失,前者提升了面部動態與身份資訊的解耦,後者則增強了面部動態與頭部姿態的解耦。
如圖7所示,在獲得人臉解耦表徵空間後,研究員們訓練了一個整體頭部運動生成器,輸入條件包括音訊和其他控制訊號,如視線方向、頭部距離和情感偏移等。為了實現生成結果相鄰視窗的平滑過渡,研究員們使用了上一視窗的音訊特徵和生成運動的最後幾幀作為當前條件。經過訓練,該方法能夠用單張肖像影像和音訊即時生成說話人臉影片。實驗結果顯示,VASA-1 在不同測試集上的表現均大幅優於現有方法。
圖8:面部動態和頭部姿態生成演算法框架圖
注:該研究所展示的所有肖像圖片,除蒙娜麗莎之外,均由StyleGAN2或DALL·E-3技術生成,展示的是虛構且不存在的人物。我們探索的是為虛擬、互動角色生成視覺情感技能,而非模仿現實世界中的人物。
該研究致力於在正面應用的前提下,為虛擬AI形象生成視覺情感的技能。我們明確反對利用這些技術進行誤導或欺騙。儘管如此,我們認識到,與其他內容生成技術一樣,我們的技術也可能被濫用來模仿人類。我們堅決反對任何製造誤導性或有害內容的行為,並致力於將我們的技術應用於推進偽造檢測領域。目前,透過這些技術生成的影片存在可辨識的瑕疵,且根據數值分析,它們與真實影片的真實性仍存在差距。
我們認識到技術被濫用的風險,但同時也看到了其巨大的積極潛力。這些技術能夠提升教育公平性、助力無障礙溝通、為需要的人提供陪伴和治療支援等,這些都是我們進行研究和其他相關探索的重要價值所在。我們致力於負責任地開發AI,以促進人類的福祉。
因此,在確保技術將被負責任地使用並遵守相關法規之前,我們不會發布線上演示、API、產品、技術細節或任何相關內容。
隨著人工智慧技術的快速發展,確保相關技術能被人們信賴是一個需要攻堅的問題。微軟主動採取了一系列措施來預判和降低人工智慧技術所帶來的風險。微軟致力於依照以人為本的倫理原則推進人工智慧的發展,早在2018年就釋出了“公平、包容、可靠與安全、透明、隱私與保障、負責”六個負責任的人工智慧原則(Responsible AI Principles),隨後又釋出了負責任的人工智慧標準(Responsible AI Standards)將各項原則實施落地,並設定了治理架構確保各團隊把各項原則和標準落實到日常工作中。微軟也持續與全球的研究人員和學術機構合作,不斷推進負責任的人工智慧的實踐和技術。
欲瞭解微軟研究院在本屆 NeurIPS 的更多內容,請訪問:
https://www.microsoft.com/en-us/research/story/microsoft-at-neurips-2024-advancing-ai-research-across-domains/
你也許還想看:

相關文章