跨越模態邊界,探索原生多模態大語言模型

(本文閱讀時間:11分鐘)
編者按:當前多模態模型大致分為兩類,一類是專用多模態模型,如文字生成影像、文字生成影片等;另一類則是通用型多模態大語言模型,這類模型的目標是讓人工智慧具備自然語言理解和生成、影像識別,以及語音和影片的互動能力。近日,微軟亞洲研究院又提供了一個新的選擇——原生多模態大語言模型。它能夠更深入地理解物理世界並執行多模態推理和跨模態遷移,其在不同模態的資料學習中還湧現出了新的能力。
隨著人工智慧技術的持續發展,大模型已經從單一模態向多模態演化,多模態模型的應用也開始逐漸進入人們的視野。然而,終端使用者現在所接觸到的多模態模型還不是多模態模型的“完全體”。目前,多模態模型主要有三種實現方式:
多模態介面:在系統層開發統一的使用者介面,具備多種模態資料輸入和多種模態輸出的能力,但是實現上則可以透過呼叫不同模態的模型甚至是 API,在終端實現多模態能力;
多模態對齊與融合:在技術框架層將語言模型、視覺模型、聲音模型等進行連線,這些模型相互獨立學習,使用不同模態的資料進行訓練,然後將拼接好的模型在跨模態資料上繼續預訓練以及在不同任務資料上進行微調;
原生多模態大語言模型:從訓練階段開始,模型就利用大量不同模態的資料進行預訓練,技術上實現緊密的耦合,不僅可以在輸入和輸出端實現多模態,而且還具備強大的多模態推理能力以及跨模態遷移能力。通常,這一型別才被認為是真正的多模態模型。
原生多模態大語言模型
在微軟亞洲研究院全球研究合夥人韋福如看來,真正的原生多模態大語言模型不僅要在輸入輸出端支援多模態,還必須是具有實現多模態推理和跨模態遷移能力的端到端模型。而且基於多模態資料原生訓練的每一種單模態能力,都應該超越只在單模態資料上訓練的模型的效能。更重要的是,在不同模態資料學習的過程中,模型應該能夠湧現出新的能力。
沿著這一思路,微軟亞洲研究院通用人工智慧組的研究員們先後研發了多模態大語言模型 KOSMOS-1KOSMOS-2KOSMOS-2.5。現在,在這些工作的基礎上,研究員們持續探索原生多模態語言模型,希望能夠在輸入和輸出端都實現對原生多模態資料的支援,從而更深入地理解物理世界,並執行多模態推理和跨模態遷移。
KOSMOS的不斷發展得益於前代模型的研究成果:
  • KOSMOS-1 實現了語言與感知的對齊,為大語言模型支援多模態任務奠定了基礎。
  • KOSMOS-2 引入了 Grounding 能力,增強了模型的空間想象力,解鎖了多模態大語言模型的細粒度理解和推理的能力。
  • KOSMOS-2.5 透過統一框架來處理文字密集影像的多模態閱讀和理解任務,為文字豐富影像的應用提供了通用介面。
語言是多模態模型的基礎
“語言是所有多模態模型的基礎。在人工智慧和計算機科學領域,我們的目標是讓機器理解人類的語言,而不是迫使人類去學習機器的語言。所以,從模型的最終應用形態來看,語言是最直接的互動方式。此外,語言及文字具有獨特的優勢,能夠促進模型上下文理解、指令遵從以及推理能力的訓練,這是其他單一模態資料難以提供的”。韋福如表示。
基於這些思考,微軟亞洲研究院的研究員們在 KOSMOS 專案的早期研究中,就將語言模型原生支援多模態資料作為目標。在 KOSMOS-1,研究員們實現了大語言模型與感知能力的對齊,使 KOSMOS-1 模型能夠原生支援語言、感知-語言和視覺任務,涵蓋了廣泛的感知密集型任務,包括視覺對話、簡單數學方程求解、OCR,以及帶描述的零樣本影像分類等。
KOSMOS-1 涵蓋廣泛的感知密集型任務:視覺對話、帶描述的零樣本影像分類、非語言推理、OCR、數學計算
與此同時,KOSMOS-1 在大語言模型推理能力的基礎上,可以進行非語言推理。研究員們根據瑞文推理測驗(Raven's Progressive Matrices)建立了 IQ 測試基準,來評估 KOSMOS-1 模型在非語言任務上的推理能力。結果表明,KOSMOS-1 能夠感知非語言上下文中的抽象概念模式,並可以從多個選項中推匯出下一個元素。這標誌著 KOSMOS-1 可有效地完成部分零樣本瑞文推理測驗。
上圖展示了瑞文推理測驗的一個例子,下圖則展示了將 KOSMOS-1 在瑞文推理測驗中進行評測
在 KOSMOS-1 的基礎上,KOSMOS-2 採用了相同的模型架構,並引入了 Grounding 能力,賦予模型“空間想象力”。KOSMOS-2 允許使用者直接選擇影像中的物件或區域作為輸入,無需輸入詳細的文字描述,模型便能夠理解該影像區域及其空間位置。Grounding 能力還使模型能夠以視覺答案(例如邊界框)的形式進行回應,並將生成的自由形式文字響應中的名詞短語和指代表達連結到影像區域,有效解決了指代歧義問題,從而提供了更準確、資訊豐富且全面的答案。
KOSMOS-2 可以將文本回答同影像中對應的區域進行連線,使用者也可以透過邊界框表明多模態的指代 
KOSMOS-2.5 在 KOSMOS-2 的基礎上,進一步增強了對文字密集影像的多模態閱讀和理解能力,包括資訊提取、佈局檢測和分析、視覺問答、截圖理解、使用者介面自動化(UI Automation)等。KOSMOS-2.5 能夠無縫處理視覺和文字資料,實現對文字豐富影像的深入理解,並生成結構化的文字描述。
透過統一的框架,KOSMOS-2.5 可處理兩個緊密協作的任務。第一個任務是根據文字密集影像生成具有空間感知的文字塊,即同時生成文字塊的內容與其在文字密集影像中對應的座標框。第二個任務是以 Markdown 格式生成結構化的文字輸出,同時捕捉各種樣式和結構。KOSMOS-2.5 將基於 ViT(Vision Transformer)的視覺編碼器與基於 Transformer 架構的解碼器相結合,並透過一個重取樣模組將它們連線起來,實現了高效的多模態資料處理。
KOSMOS-2.5 模型架構由一個預訓練視覺編碼器和一個與重取樣器模組連線的語言解碼器組成
這種統一的模型介面顯著簡化了下游任務的訓練,並使模型能夠在現實世界的應用中有效遵循指令。
聲音與影片模態也可以基於語言模型的方法建模
儘管聲音和影片是一種連續訊號,但它們也可以被轉換為類似文字的離散詞元(token),這樣聲音模型就可以與語言模型無縫融合。微軟亞洲研究院首次基於語言建模的方法設計了文字到語音(TTS)合成框架 VALL-E,首次實現了零樣本文字到語音合成。
作為一個神經編解碼語言模型,VALL-E 利用神經音訊編解碼模型的離散程式碼表示聲音,並基於離散程式碼將 TTS 視為一個條件語言建模任務,而非傳統的連續訊號迴歸。與以往的語音合成流程,如音素 → 梅爾頻譜圖 → 波形不同,VALL-E 的處理流程是音素 → 離散程式碼 → 波形。VALL-E 基於目標文字對應的音素和使用者聲學提示生成離散的音訊編解碼程式碼,這些程式碼解碼後可以得到對應目標文字內容的聲音,並且具有和使用者聲學提示一樣的音色。
VALL-E 還展現出了類似於文字語言模型的上下文學習能力。僅需一段3秒鐘未見過說話者的錄音作為聲學提示,VALL-E 就能合成高質量的個性化語音。目前升級版的 VALL-E X 支援包括英文、德文在內的多種語言的 TTS 合成。
在原生多模態資料的學習過程中,VALL-E X 模型展示了一種新的、有趣的能力。即便沒有經過專門的資料訓練,VALL-E X 也能合成不同口音的語音,比如英倫風格、日韓式口音的英語,或者外國人說漢語時的特殊腔調。值得一提的是,為了確保模型使用的安全性,研究員們還給 VALL-E 多模態語音模型添加了水印功能,以確保輸入的聲音資料得到本人授權,防止濫用現象的發生。
VALL-E 首先透過神經音訊編解碼模型把連續的語音輸入轉化為離散的詞元,使統一的語音-文字語言模型訓練成為可能
而影片則是多模態大語言模型的基礎能力。“從資料形式上看,影片是融合不同模態資料的最佳資料型別,它包含了文字、影像、聲音等多種元素,並且天然就是流式的(streaming)資料。而且,對於世界模型的構建來說,影片能夠提供最豐富的資料,幫助模型學習物理世界的規律。因此,無論是從訓練學習的角度,還是從最終能力的角度來看,影片都是多模態模型不可或缺的要素”。韋福如表示。
從演算法和架構上推動原生多模態模型發展
韋福如認為,當前多模態模型的發展將經歷幾個主要階段。第一階段,大語言模型將呼叫其他模型或服務,來完成多模態的輸入或者輸出。例如,讀取圖片內容時,可以透過呼叫 OCR 功能提取文字資訊或者利用 ASR 模型把語音轉換成文字,進而作為語言大模型的輸入。這將使得多模態模型在輸入端具備視覺和聽覺能力,然而這一階段通常不包含多模態推理。同樣,透過呼叫文字到影像、文字到語音或文字到影片的模型,多模態模型在輸出端也能生成不同模態的內容。
而在第二階段,模型需要實現多模態融合和推理。例如,當談到“如何將大象裝入冰箱”時,模型需要像人腦一樣自然地聯想並用到不同模態的相關知識(例如大象和冰箱的概念)和步驟(把一個物體放入冰箱的流程)。
“要想實現原生多模態模型的終極形態,我們還面臨幾個關鍵問題”,韋福如說,“首先,我們需要決定模型輸入和輸出端資料的表示方式,其本質是離散資料(例如文字)和連續資料(例如影像和語音)的統一建模、表示和學習。是直接使用原始影像或影片等資料以保留儘可能多的資訊?還是將連續資料轉換成離散的詞元以實現不同模態資料類似自然語言的統一表示和學習?其次,如何有效地融合不同模態的資料?這需要設計新的模型架構,以便模型能夠在理解和整合來自不同源的資訊的同時不會相互衝突。最後,也是最具挑戰性的問題,如何構建一個支援多模態原生的學習目標和正規化?比如一個開放的問題要怎麼統一語言模型(LLM)和擴散模型(Diffusion Model),來實現深度多模態對齊、推理和跨模態遷移,並促進新的能力湧現。我們相信這些方面近期都會取得重大研究成果。”
面對這些問題,微軟亞洲研究院將持續探索。研究員們已經在應對技術和演算法上的挑戰,希望能夠為未來原生多模態模型的研究和開發提供基礎技術的創新突破。
你也許還想看:

相關文章