NeurIPS上新|加強多模態協同,提高行業基礎模型精度

(本文閱讀時間:15分鐘)
編者按:歡迎閱讀“科研上新”欄目!“科研上新”匯聚了微軟亞洲研究院最新的創新成果與科研動態。在這裡,你可以快速瀏覽研究院的亮點資訊,保持對前沿領域的敏銳嗅覺,同時也能找到先進實用的開源工具。
12月10日至12月15日,全球最負盛名的人工智慧盛會之一 NeurIPS 大會在加拿大溫哥華舉辦。因此,我們透過三期“科研上新”為大家帶來多篇微軟亞洲研究院入選 NeurIPS 2024 的精選論文解讀,涉及內容涵蓋大模型最佳化生成式人工智慧、社會責任人工智慧、跨模態學習、特定領域基礎模型等。
欲瞭解微軟研究院在本屆 NeurIPS 的更多內容,請訪問:
https://www.microsoft.com/en-us/research/story/microsoft-at-neurips-2024-advancing-ai-research-across-domains/
如果你已經註冊了大會,不要錯過微軟亞洲研究院院長周禮棟博士的主旨演講:
隨著人工智慧技術的不斷進步,多模態和跨模態學習已成為AI領域的重要發展方向之一。在第三期 NeurIPS 2024 精選論文解讀中,大家將瞭解到微軟亞洲研究院的研究員們如何透過開發創新框架,加強不同資訊模態間的協同作用,從而提升 AI 系統的有效性。同時,為了滿足特定行業的精準需求,研究員們也開始定製領域特定的基礎模型,以更好地捕捉行業知識,提高 AI 在各領域的精確度,為實現更精準、更個性化的解決方案提供了可能。
「 本期內容速覽 」
01
透過符號等價和語義一致性,自動形式化數學陳述
02
EEG2Video:基於腦電訊號解碼動態視覺感知
03
ElasTST:彈性時間序列Transformer實現穩健的多預測範圍建模
04
人類感知視覺語言導航:具有動態人機互動的導航任務(Spotlight)
05
神經符號資料生成在數學推理中的應用
06
Voila-A:將視覺語言模型與使用者視線對齊(Spotlight)
01
透過符號等價和語義一致性,自動形式化數學陳述
論文連結:
https://arxiv.org/abs/2410.20936
微軟亞洲研究院的研究員們提出了一個創新框架,旨在解決大語言模型(LLMs)將自然語言數學問題自動轉化為形式語言時的準確性問題。研究員們觀察到,即使在先進的大模型中,如 GPT-4,也存在從 pass@1 到 pass@k 準確度的顯著差異,這表明單一生成的答案與多個生成答案中至少有一個正確答案之間的效能差距較大。
為了彌合這一效能差距,研究員們開發了一種基於符號等價和語義一致性的評分與選擇機制。符號等價是利用自動定理證明器來識別不同自動形式化候選之間的邏輯一致性,而語義一致性則透過比較原始文字和非形式化回譯本之間的嵌入相似度來進行評估。這一方法不僅提高了自動形式化的準確性,還減少了人工驗證或標記形式化結果的工作量。
圖1:自動形式化框架
透過在 MATH 和 miniF2F 資料集上的廣泛實驗,研究結果表明,該框架能夠顯著提升自動形式化的準確度,相對改進達到了0.22-1.35倍。此外,該方法在不同大小的大模型上均顯示出一致的有效性,表明該框架可以大大減少在糾正和驗證輸出中所需的人工干預,提高了自動形式化的效率。本篇論文還探討了當前大模型和自動定理證明器在自動形式化任務中的侷限性,併為未來的最佳化方向提供了見解。
02
EEG2Video:基於腦電訊號解碼動態視覺感知
論文連結:
https://bcmi.sjtu.edu.cn/home/eeg2video
近年來,腦機介面(BCI)技術飛速發展,然而如何從高時間解析度的腦電訊號(EEG)中解碼複雜的動態視覺感知仍是一個尚未被充分探索的領域。動態視覺感知是人類日常生活體驗的核心,其研究對揭示大腦視覺處理機制及提升腦機介面效能具有重要意義。傳統研究大多聚焦於靜態視覺刺激,缺乏對動態場景中快速變化視覺資訊的資料集支援,神經科學發現及模型設計成為限制研究進展的關鍵瓶頸。
為填補這一空白,研究員們首先收集了全新資料集 SEED-DV,這是一個專為動態視覺解碼設計的EEG-影片配對資料集。該資料集包含20名受試者的1400段影片 EEG 訊號,涵蓋40個概念的影片內容,同時詳細標註了顏色、動態性、人物及場景等多種元資訊。這一資料集為研究 EEG 解碼動態視覺感知提供了堅實的基礎,並提出了兩個重要的基準測試——EEG 視覺感知分類基準和影片重建基準,系統評估從 EEG 訊號中解碼視覺資訊的能力和重建動態影片的效能。
圖2:SEED-DV 資料集。(A)影片類別、顏色、動態等資訊(B)採集環境(C、D)資料採集正規化。
為了驗證動態視覺重建的可行性,研究員們首先在多種任務中探尋了可從腦電中解碼的資訊。結果表明,EEG 訊號中包含了對於顏色、動態性及類別的解碼能力。基於這些發現,研究員們提出了創新性解碼框架 EEG2Video,首次實現了從 EEG 訊號解碼並重建動態影片的目標。EEG2Video 框架基於 Seq2Seq 架構,充分利用 EEG 訊號的高時間解析度,透過滑動視窗提取 EEG 嵌入,將視覺資訊對齊至影片幀。同時,該框架還引入了動態感知噪聲新增(DANA)模組,可根據解碼的動態資訊調整影片生成過程,使影片在物體動態的重建中也能保持一致性。
圖3:EEG2Video 模型設計框架
作為從 EEG 生成動態視覺感知的第一個工作,EEG2Video 生成的影片在結構相似性指數(SSIM)上達到了較高水平,並顯著減少了解碼步驟,解碼效率遠超傳統方法。此外,基準測試結果顯示,EEG 訊號中的關鍵視覺資訊,如顏色和動態性,可被成功解碼,而人物數量和人臉識別等任務仍具有挑戰性。
圖4:生成影片樣例(左:視覺刺激,右:重構樣例)
03
ElasTST:彈性時間序列Transformer實現穩健的多預測範圍建模
論文連結:
https://arxiv.org/abs/2411.01842
專案連結:
https://github.com/microsoft/ProbTS/tree/elastst
時間序列預測在各行各業中起著至關重要的作用。這些實際應用場景往往都需要針對不同時間跨度提供預測,以同時滿足短期、中期和長期的規劃需求。例如,按小時、周或月預測電力需求,最佳化電力系統管理。
然而,隨著預測範圍需求的多樣性日益增加,目前大多數時間序列模型仍需針對特定的預測範圍分別訓練和最佳化,難以實現單一模型對不同預測長度的魯棒建模。儘管通用時間序列模型在支援多預測範圍方面取得了一定進展,但這些方法主要聚焦於從預訓練資料集到零樣本場景的遷移能力,尚未考慮跨不同預測範圍的魯棒性問題。
為此,研究員們提出了一種彈性時間序列 Transformer 模型 ElasTST,旨在透過一次訓練實現跨多預測範圍的一致性和準確性。
圖5:ElasTST 模型架構
ElasTST 的設計包括三個核心創新:(a) 結構化自注意力掩碼機制,從源頭上確保模型在不同預測範圍中對重合部分的預測結果始終保持一致,實現“預測範圍不變性”;(b) 可調旋轉位置編碼,適配時間序列資料的週期特性,增強對多預測範圍的適應能力;(c) 多尺度切片設計,結合細粒度與粗粒度資訊,兼顧短期動態與長期趨勢,使模型獲得更全面的特徵表達能力。此外,研究員們還設計了一種重加權策略,使單一固定範圍的訓練能夠模擬多預測範圍的效果,從而減少額外的資料取樣需求,並提升訓練的穩定性。
實驗結果表明,ElasTST 無需針對每個預測範圍單獨調優,一次訓練即可實現對任意長度的魯棒預測。在各種資料集的長短期預測任務中,ElasTST 均表現出卓越的準確性與魯棒性,尤其在未見過的長預測範圍上展現了出色的外推能力。不僅如此,與預訓練的通用時間序列模型相比,ElasTST 透過一次有監督訓練,就在下游資料集上展現出了顯著優於零樣本預測的效能,同時在不同預測範圍內也表現出了更穩定的效能優勢。
ElasTST 為時間序列預訓練基礎模型和專用模型的發展開闢了新的方向。例如,針對某一領域的資料特定訓練一個小規模的 ElasTST模型,不僅可以顯著提升在該領域內未來資料上的泛化效能,還能充分利用其適應多預測範圍的“彈性”,從而避免傳統時序模型中為每個預測長度單獨調優和部署的繁瑣流程。
04
人類感知視覺語言導航:具有動態人機互動的導航任務
論文連結:
https://arxiv.org/abs/2406.19236
專案連結:
https://lpercc.github.io/HA3D_simulator/
視覺-語言導航(VLN)是具身智慧的一個重要前沿領域,其中代理(agent)可根據自然語言指令在物理空間中進行導航。雖然現有的 VLN 系統在模擬環境中展現出不錯的結果,但由於一些關鍵的限制,它們在現實世界應用中往往表現不佳。傳統的 VLN 框架通常依賴於靜態環境、全景檢視和專家指導等,而這些操作在現實場景中很少成立。模擬與現實之間的差距一直是該任務上的一個挑戰。
為了縮短這種差距,研究員們提出了一種非靜態的導航任務,即把人類放置於場景,因為人的活動可能會影響到 agent 的表現。首先,研究員們透過建立結合動態人類活動和 Matterport3D 環境的人類感知 3D(HA3D)模擬器來開發框架,並建立了包含145個人類活動描述和435個三維人體動作模型的資料集,以此擴充套件 Room-to-Room(R2R)資料,建立人類感知的 R2R 資料集。此外,針對該動態導航任務,研究員們還設計了兩個新的導航 agent:專家監督的跨模態 agent VLN-CM 和非專家監督的決策 agent VLN-DT,並在真實世界中使用四足機器人對其進行了綜合評估和測試。
圖6:HA3D 模擬器中的場景
最終,研究員們成功地將動態人類活動整合到了 VLN 系統中,透過 HA3D 模擬器建立了更真實的模擬環境,以此開發了一個包含21,567個指令的綜合資料集 HA-R2R。實驗結果表明,VLN-DT 在僅使用隨機軌跡進行訓練的情況下,實現了與專家監督方法相當的效能。這項工作填補了類似真實世界導航研究的缺失,進一步推進了具身智慧的現實應用。未來,研究員們將專注於增強導航系統在不可預測的現實世界場景中的魯棒性。
05
神經符號資料生成在數學推理中的應用
論文連結:
https://openreview.net/pdf?id=CIcMZGLyZW
儘管大語言模型在多個領域取得了顯著進展,但它們在數學推理方面的表現仍然不盡人意。這一問題引發了一個關鍵疑問:大模型在數學推理上的不足是因為其固有的缺陷,還是僅僅因為缺乏高質量的數學資料?
為了探究這個問題,研究員們提出了一個自動化方法,旨在生成高質量的、有監督的數學資料集。該方法將現有的數學問題變異生成新的資料,同時確保新問題的多樣性和有效性。透過結合大模型的直觀非形式化優勢和數學求解器的精確符號推理能力,以及在高度不規則的符號空間中進行投影馬爾可夫鏈蒙特卡洛取樣,研究員們實現了這一過程。
同時,研究員們還提出了一個新穎的神經符號資料生成框架,該框架可自動生成高質量、有監督的數學資料。這一方法的核心在於利用神經和符號的雙重優勢:在符號空間中生成數學問題,透過系統抽樣實現多樣性,並利用符號求解器確保問題的有效性;然後,將符號空間的問題翻譯回自然語言空間,由大模型提供支援,確保新生成的正式問題與相應的自然語言版本之間的一致性。這一框架不僅提高了資料的多樣性,還透過符號求解器保證了資料的有效性,為提升大模型的數學推理能力提供了新的可能。
圖7:神經符號資料生成框架
透過在 GSM8K 和 MATH 資料集上的實證評估,研究員們證明了所提出方法的有效性。特別是,使用該框架生成的620K數學資料集進行監督微調後,基於 LLaMA-2 和 Mistral-7B 的模型在多個數據集上顯著優於現有的開源模型。此外,隨著訓練資料規模的增加,模型效能持續提升,表明該方法在進一步提升大模型的數學能力方面具有潛力。
06
Voila-A:將視覺語言模型與使用者視線對齊
論文連結:
https://arxiv.org/abs/2401.09454
近年來,視覺與語言多模態學習在人工智慧領域取得了極大進展,尤其是基於視覺語言模型(Vision-Language Models, VLMs)的發展。然而實際應用環境往往包含著複雜場景和多目標物體,對現有的視覺語言模型提出了巨大挑戰。如何將多樣化的人類注意力機制有效引入到多模態學習中成為本文的研究重點。
受人類使用者與環境互動行為的啟發,視線(gaze)能夠精準捕捉人類的注意力焦點。為此,本文提出了一種新穎的方法 Voila-A,透過視線對齊(gaze alignment)來增強視覺語言模型在實際應用中的可解釋性與有效性。
圖8:Voila-A 模型框架
研究員們先利用現有的區域性敘事(localized narratives)資料集,模擬了人類的視線模式,並收集了數百分鐘的視線資料,生成了用於訓練和測試的 VOILA-COCO 資料集。藉助配備具有眼動追蹤功能的增強現實(AR)智慧裝置,研究員們人工採集了 VOILA-GAZE 測試資料集,該資料集涵蓋了透過注視跟蹤裝置捕獲的現實生活場景。
針對如何有效建模視線資訊並與場景中的具體物體對齊的問題,本文創新性地提出了 Voila 感知模組(Voila Perceiver Blocks)。研究員們透過引入隱式查詢向量(latent query),將視線資訊融入了影像特徵中,並保留了模型的預訓練知識。
最後,研究員們使用保留的 VOILA-COCO 驗證集以及人工採集的 VOILA-GAZE 測試集對 Voila-A 進行了全面評估。實驗結果表明,Voila-A 在多個基線模型上取得了顯著優勢。透過將模型的注意力與人類的注視模式對齊,Voila-A 為開發更加直觀且以使用者為中心的視覺語言模型奠定了重要基礎,同時也促進了多種實際應用中更加自然的人機互動體驗。
欲瞭解微軟研究院在本屆 NeurIPS 的更多內容,請訪問:
https://www.microsoft.com/en-us/research/story/microsoft-at-neurips-2024-advancing-ai-research-across-domains/
你也許還想看:

相關文章