科研上新|金融模型、LLMs結構化剪枝、多模態對齊、AI晶片深度學習編譯器

（本文閱讀時間：10分鐘）

編者按：歡迎閱讀“科研上新”欄目！“科研上新”匯聚了微軟亞洲研究院最新的創新成果與科研動態。在這裡，你可以快速瀏覽研究院的亮點資訊，保持對前沿領域的敏銳嗅覺，同時也能找到先進實用的開源工具。

本期，我們為大家精心挑選了4篇論文，內容涵蓋金融市場元智慧體模型、大語言模型的結構化剪枝、多模態感知中的模態對齊以及 AI 晶片的深度學習編譯器，感興趣的朋友快來看看吧！

「本期內容速覽」

透過擴充套件式模態，對齊推動多模態感知

基於擴散模型引導的元智慧體，實現可控金融市場生成

NutePrune：採用多個教師模型對大語言模型進行高效漸進式剪枝

T10：分散式記憶體AI晶片的計算新模式

透過擴充套件式模態，對齊推動多模態感知

論文連結：

https://arxiv.org/abs/2407.17777v1

感知（sensing）技術如今已被廣泛地應用於各種領域。人們探索了許多感知模態，如運動感測器（IMU）、毫米波雷達、雷射雷達、Wi-Fi、超聲等。每一種模態都為感知世界提供了獨特而互補的視角，因此人們通常同時部署多種模態感知。

在本篇論文中，微軟亞洲研究院的研究員們提出了使用模態對齊的方法來進一步推進多模態感知。模態對齊是將多種模態的訊號投射到統一的特徵空間中，如圖1所示。對齊的過程是利用多種方式來增強多模態感知：首先，對齊是透過一個模態來重構另一種模態的特徵，因此模態間能夠互補；其次，統一的特徵空間可以讓多種模態融合（fusion）變得更加容易。不僅如此，多種對齊的感知模態還有潛力催生新的應用：利用統一的特徵空間，一種感知模態的訊號可以被用來檢索另一種模態的表達，例如，透過 Wi-Fi 通道的狀態資訊（CSI）獲取視覺表示，從而實現 Wi-Fi 訊號成像；跨模態的對齊特徵也可以自然地將感知能力與大語言模型（LLMs）進行連線，讓大模型更好地與物理世界互動。

圖1：將多種感知模態對齊到統一特徵空間中，以增強感知並實現新的感知應用

為了對齊多種感知模態，,研究員們提出了 BABEL 框架，包括神經網路架構、資料準備與處理，以及訓練策略。作為一個可擴充套件的預訓練多模態感知神經網路，BABEL 目前對齊了六種廣泛應用的感知模態，包括 Wi-Fi、毫米波、IMU、LiDAR、視覺與深度。BABEL 的關鍵思想是將 N 模態對齊轉化為一系列的兩模態對齊過程，從而克服感知研究中資料嚴重缺乏的問題，特別是完全配對資料的稀缺。同時，BABEL 中也提出了融合異構的預訓練單模態解碼器，來進一步減少對訓練資料的需求，以及使用自適應訓練策略來平衡新加入的模態與之前對齊的模態間的貢獻。

評估顯示，與多種多模態感知框架、單模態感知網路和多模態大語言模型相比，BABEL 在8個人類活動識別資料集上表現出色。BABEL 不僅有效地融合了多個感知模態（準確性提升高達22%），而且還提高了單個模態的效能（平均準確性提高了12%）。利用 BABEL，研究員們還討論並初步實現了跨感知模態檢索，以及將感知模態與 LLMs 進行整合等前沿研究。

基於擴散模型引導的元智慧體，實現可控金融市場生成

論文連結：

https://arxiv.org/abs/2408.12991

生成模型在自然語言處理、媒體合成和醫療應用等領域展現了驚人的能力，但在金融資料領域的應用仍然有限。目前大多數金融投資研究依賴於對市場量價資料的回放，然而這種方式難以考慮真實市場中的參與者博弈。相比之下，訂單層級的市場模擬提供了最細粒度且更具互動性和真實性的環境，對研究金融市場至關重要。

已有工作嘗試透過基於智慧體的方法模擬訂單層級的金融市場，這些方法包括使用基於規則的智慧體和基於學習的智慧體，目的是複製真實市場中觀察到的特徵性事實（stylized facts），如波動聚集。但現有方法模擬的真實度仍然有限，更重要的是，它們不具備對生成市場的可控性，而可控性對於反事實發現等下游任務十分關鍵。

在本研究中，微軟亞洲研究院的研究員們提出了可控金融市場生成問題，並構建了一個名為擴散模型引導的元智慧體模型 DiGA 來解決該問題。為了向金融市場生成建模中引入可控性，研究員們將問題表述為一個條件生成任務，以價格的單日變化率、日內振幅或日內波動率為生成目標構建特定場景（如急劇下跌或極端波動）。對此，研究員們首先建立條件擴散模型來捕捉分鐘級別的市場動態，表示為分鐘價格變化率和訂單到達速率；接著，構建一個基於有金融市場微觀結構先驗的元智慧體來根據市場動態生成訂單。

實驗結果表明，研究員們提出的 DiGA 模型能夠有效地進行可控金融市場生成，使生成的金融市場貼近控制目標，且由 DiGA 模型生成的金融市場具有優越的保真度。同時，DiGA 模型生成的資料可以服務於下游任務（如量化交易）。DiGA 模型為生成金融市場資料提供了一個創新的解決方案，為未來的研究和應用提供了新的方向和可能性。

圖2：擴散模型引導的元智慧體模型（DiGA）框架，包括兩個關鍵模組：元控制器和訂單生成器，其中元控制器為條件擴散模型，訂單生成器為元智慧體。從訂單流資料中整合控制目標以及對應的市場狀態表示來訓練元控制器後，元控制器可引導訂單生成器輸出生成的訂單流。

NutePrune：採用多個教師模型對大語言模型進行高效漸進式剪枝

論文連結：

https://arxiv.org/abs/2402.09773

大語言模型在語言任務中表現出色，但其龐大的尺寸帶來了部署和推理的挑戰。結構化剪枝是一種有效的壓縮方法，但現有方法要麼效能下降，要麼需要大量後訓練資源。那如何在保持模型效能的同時，將模型剪枝到更高的稀疏度，並減少訓練資料的需求？

來自微軟亞洲研究院和清華大學的研究員們提出了一種高效的結構化剪枝方法 NutePrune，其利用多種不同稀疏度的教師模型逐步指導學生模型學習，從而縮小教師和學生之間的能力差距，提高剪枝效果。

圖3：NutePrune 的整體設計

具體而言，NutePrune 將剪枝過程視為一個最佳化問題，學習掩碼來剪枝子模組，並藉助 LoRA 更新模型引數。其只加載一個完整的模型，透過新增不同的掩碼和 LoRA 模組來切換教師和學生模式，從而避免載入多個教師模型所帶來的記憶體消耗。同時，NutePrune 還採用了漸進式知識蒸餾（PKD）方法，收集和整合多個教師模型，逐步引導學生模型學習，縮小能力差距。

圖4：NutePrune 的優勢。左圖中採用的漸進式蒸餾透過從簡單到困難的教師模型引導學生，以避免因大容量差距對學習的損害。但這種方法需要載入大量教師模型，成本高昂。右圖則是 NutePrune，其利用不同稀疏度的模型，實現了漸進式蒸餾，並幾乎不增加額外成本。

在多個模型的實驗中，NutePrune 都取得了優異的效能。在 LLaMA-7B 的零樣本實驗中，NutePrune 在20%稀疏度下保留了原始模型97.17%的效能，在25%稀疏度下保留了95.07%的效能。與其他剪枝方法相比，NutePrune 在保持效能的同時，實現了更高的稀疏度，並顯著降低了推理延遲。NutePrune 透過高效的知識蒸餾方法，有效地實現了 LLMs 的結構化剪枝，為資源受限場景下的大語言模型部署和應用提供了新的思路。

T10：分散式記憶體AI晶片的計算新模式

論文連結：

https://arxiv.org/abs/2408.04808

隨著人工智慧技術的快速發展，快速增長的模型大小對算力的需求也越來越高。為此，AI 晶片的核心架構在過去幾年內發生了顯著變化，以滿足人工智慧應用對算力的巨大需求。傳統的晶片設計通常是共享記憶體架構（shared memory architecture），即所有核心透過訪問統一的全域性記憶體來獲取資料。然而，計算規模的不斷提升，使得全域性記憶體的大小和頻寬的增長逐漸無法跟上計算效能的需求。

為了解決這一瓶頸，新的晶片架構採用了核心間互連的分散式記憶體架構（distributed memory architecture），即：各個核心僅直接訪問本地記憶體，並透過核心間的互聯訪問其他核心的資料，例如 Graphcore IPU、Groq、Cerebras 以及 H100 的 distributed shared memory 等。這種技術進步不僅提高了計算效能，還為平行計算帶來了全新的可能性。

然而，這種新架構也帶來了新挑戰。由於當前深度學習軟體棧缺乏對這種分散式記憶體架構的有效支援，使用者很難充分利用新的晶片的優勢。對此，微軟亞洲研究院的研究員們與伊利諾伊大學厄巴納-香檳分校（UIUC）Jian Huang 老師的團隊合作設計了 T10。這是首個針對分散式記憶體架構 AI 晶片的深度學習編譯器，充分利用了核心間通訊頻寬。

具體來說，T10 透過引入分散式張量抽象（rTensor），將深度學習計算劃分為子操作，並將其對映到各個核心，採用“Compute-Shift”的執行模式，使得各核心能夠按照可預測的模式進行資料交換。T10 在晶片上的記憶體消耗與核心間通訊開銷之間進行了全域性最佳化排程，從龐大的最佳化空間中選擇最佳執行計劃，同時減少了不必要的核心間通訊。