
(來源:MIT News)
與早期只能處理文字的模型相比,如今的大語言模型展現出了顯著增強的跨模態任務處理能力。這些先進的模型不僅能理解和生成多國語言的文字內容,還能夠執行一系列複雜的任務,比如編寫計算機程式碼、解決數學問題以及分析影像和語音資訊等。
為了揭示大語言模型這種“通才”能力的實現機制,麻省理工學院的一個研究小組深入剖析了這些模型的內部工作原理,試圖更好地理解大語言模型如何處理和生成各種型別的資料,包括文字、影像和聲音等。他們透過研究發現,這些模型在資訊處理的方式上與人類大腦存在某些相似之處。
神經科學家先前研究表明,人腦的前顳葉有一個“語義中樞”,負責整合來自視覺、觸覺等不同感官通道各種模態的語義資訊。這個中樞透過類似於一種“輻條”結構的專用神經通路接收各個感官的資訊。
如今,麻省理工學院團隊的最新研究發現,大語言模型也採用了類似的架構,無論輸入何種模態的資料,模型都會透過其核心語言體系進行抽象化處理。
舉個例子,一個以英語為核心的大語言模型,在處理日語輸入或是進行數學、計算機程式碼等的推理時,本質上仍然依賴於英語作為中心媒介。
除此之外,研究人員還證明,即使模型正在處理其他語言的資料,他們也可以透過使用模型主導語言的文字來改變其輸出,從而干預模型的語義中心。換句話說,透過核心語言干預就能改變模型對其他語言資料的處理結果。
這一發現為最佳化多模態大語言模型的訓練提供了新思路,使其能夠更好地處理各種型別的資料。
“當前的大語言模型如同一個神秘的黑箱,雖然效能卓越,但我們對它們的內部工作機制知之甚少。這項研究是理解其工作原理的重要開端,有助於未來開發更可控、更強大的模型。”該研究論文的主要作者、麻省理工學院電子工程與計算機科學系研究生吳肇鋒表示。
該項研究成果即將在國際學習表徵會議(International Conference on Learning Representations)上正式發表。該研究團隊匯聚了包括吳肇鋒以及來自麻省理工學院計算機科學與人工智慧實驗室、南加州大學和蘋果公司等的多位研究人員。

跨模態資料的整合
前期研究發現,英語主導的大語言模型在處理多語言資料時會採用英語進行邏輯推理。在此次的新研究中,吳肇鋒和團隊對這個發現進行了拓展,圍繞大語言模型如何處理不同型別資料的機制進行了深入探索。
從技術架構來看,大語言模型由多層神經網路構成。其大致的工作原理是將輸入內容(無論是文字、影像還是音訊)分解成稱為“token”的基本單元。模型為每個 token 賦予獨特的表徵向量,透過分析 token 之間的關聯性來生成後續內容。對於非文字資料,影像 tokens 對應特定視覺區域,音訊 tokens 則對應聲音片段。
研究團隊發現,模型的前端層級會依據輸入資料的型別進行針對性處理,這種機制類似人腦中負責各感官資訊傳輸的“輻條”式結構。
隨著處理層級深入,系統會將各類 tokens 轉化為與模態無關的抽象表徵,這一過程類似於人腦語義中樞對多源資訊的整合處理。
值得注意的是,無論輸入的是影像、音訊、計算機程式碼還是數學公式,只要語義相同,模型就會賦予其相似的表徵向量。
舉個例子,一張貓的圖片和一段貓的文字描述雖屬於不同的模態,但具有相同的含義,模型也會賦予兩者類似的表徵向量。
以英語為主導的模型在處理中文輸入時,其內部推理過程本質上仍使用英語作為媒介。這種特徵同樣體現在非文字資料處理中,無論是解析計算機程式碼、解決數學題,還是處理多模態資料,模型都會經歷核心語言轉化的思維過程。
為驗證這一發現,研究團隊設計了一系列實驗。首先,將語義相同但語言不同的句子對輸入模型,觀察其內部表徵的相似度;然後,將中文等非英語文字輸入以英語為主的模型,對比其內部表徵與英語和中文的相似程度。同時,研究人員對其他資料型別也進行了類似的實驗。
研究人員透過實驗和分析發現,當處理具有相似含義的句子時,大語言模型生成的內部表徵往往非常相似。這意味著,無論句子的具體表述如何,只要其核心意義相同,模型就能識別並生成類似的表示形式。這種特性使得模型在理解和生成自然語言方面表現出色。
此外,研究還揭示了一個有趣的發現:無論輸入資料是文字、影像還是音訊,模型在其內部處理過程中生成的 tokens 更加傾向於類似於以英語為中心的 tokens,而不是直接反映輸入資料的具體型別。
例如,當處理一張圖片或一段音訊時,模型內部生成的 tokens 可能更多地反映了與英語相關的語義特徵,而不是簡單地複製輸入資料的原始格式。這一現象表明,儘管這些模型能夠處理多種型別的資料,但它們在內部處理機制上可能更加偏向於基於語言的理解方式,尤其是以英語為主要參考的語言結構。
“許多這些輸入資料型別看起來與自然語言極其不同,因此當我們能夠在模型處理數學公式或程式設計表示式等非語言資料時,探測到類似於英語的 tokens,確實讓我們感到非常意外。”吳肇鋒表示。

語義中樞的應用
研究團隊深入剖析發現,大語言模型在訓練過程中自發形成的語義中樞機制,本質上是應對海量資料處理的效率選擇。
“全球眾多語言承載的知識存在大量共性,例如常識體系與事實性知識。透過語義中樞進行統一編碼,模型就能避免在每種語言中重複構建知識圖譜。”吳肇鋒指出。
為驗證這一機制的靈活性,他們還開展了另一個實驗,當模型處理非英語資料時,透過輸入英語文字干預其內部表徵。
令人驚訝的是,這種干預能精準調控模型的多語言輸出結果。這一發現為提升模型的跨模態資訊共享效率開闢了新途徑。研究者指出,透過最佳化語義中樞的資訊整合機制,有望顯著提升模型處理多樣化資料的綜合性能。
但研究也揭示出機制侷限性,某些文化專屬概念(比如特定民俗文化知識)難以透過現有中樞實現跨語言轉化。
對此,吳肇鋒提出未來模型架構的改進方向,“如何在保持核心中樞優勢的同時,為特殊文化概念保留語言專屬處理通道,這需要更精細的架構設計。”
透過深入研究大語言模型的工作機制,研究人員發現了模型內部的一個關鍵結構“語義中樞”,這個結構使得模型能夠有效地處理多種語言和資料型別,對多語言模型最佳化具有指導意義。
當一個以英語為主的模型學習其他語言時,常常會在英語處理能力上出現某種程度的下降。然而,透過對語義中樞進行調控,研究人員可以設計出更有效的策略,避免這種語言間的相互干擾,從而提升多語言模型的整體效能。
正如特拉維夫大學計算機科學教授 Mor Geva Pipek 所說的那樣,“這項研究在人工智慧與神經科學間架起橋樑,其提出的語義中樞假說不僅解釋了多模態表徵的生成機制,更為開發更優質的多模態模型提供了理論框架。”
值得注意的是,該機制還暗示著人機認知的深層次關聯。類似於人腦透過前顳葉整合多感官資訊,大模型透過語義中樞實現跨模態理解,這種功能相似性為探索通用人工智慧的認知機制提供了新視角。
這項研究得到了 MIT-IBM 沃森人工智慧實驗室等機構的聯合資助。
原文連結:
https://news.mit.edu/2025/large-language-models-reason-about-diverse-data-general-way-0219
