影像解碼器；多頭混合專家網路；視覺模型美學對齊；醫學視覺任務適應基準

（本文閱讀時間：10分鐘）

編者按：歡迎閱讀“科研上新”欄目！“科研上新”匯聚了微軟亞洲研究院最新的創新成果與科研動態。在這裡，你可以快速瀏覽研究院的亮點資訊，保持對前沿領域的敏銳嗅覺，同時也能找到先進實用的開源工具。

「本期內容速覽」

MedVTAB：大規模醫學視覺任務適應基準

對齊視覺模型與人類美學：演算法與評估

GLC：基於生成式特徵編碼的極低位元速率影像編解碼器

MH-MoE：多頭混合專家網路

MedVTAB：大規模醫學視覺任務適應基準

論文連結：

https://arxiv.org/abs/2404.12876

近年來，深度學習的顯著進步極大地推動了計算機視覺領域的發展，尤其是視覺 Transformer（ViT）的引入。經過大規模資料集預訓練後，這些模型在各種視覺任務上表現出了卓越的效能。透過引入專門的可學習層或標記，ViT 在特定下游任務中的適應性（稱為視覺任務適應性）為任務特定模型的最佳化開闢了新的途徑。這種適應性允許對預訓練模型進行微調，以適應特定任務的細微差別，從而提升模型的效能和適用性。

儘管這些進步顯著，但視覺任務適應性在醫學領域的應用仍未得到充分探索，特別是在多種醫學影像模態（如彩色影像、X 光片和 CT 掃描）中的應用。醫學影像領域面臨著獨特的挑戰，包括資料的異質性、對高精度的迫切需求以及模型在不同器官和疾病之間的泛化能力。此外，視覺任務適應性在系統和大規模方式下利用醫學和非醫學領域的現有知識的潛力尚未得到充分研究。

為填補這一空白，研究員們引入了一個綜合性的醫學視覺任務適應性基準資料集 Med-VTAB，希望促進視覺任務適應性技術在醫學影像領域的探索和評估。Med-VTAB 涵蓋了168萬張醫學影像，包括10個重要器官和5種在真實世界醫學場景中具有挑戰性的模態，使其成為最廣泛的同類基準之一。該基準旨在探討視覺任務適應性策略的有效性，並研究醫學影像適應中的擴充套件規律。

圖1：Med-VTAB 資料集概覽作為大規模的醫學影像適應性基準資料集概覽

隨後，研究員們考察了醫學提示調優中可調引數數量與模型效能之間的關係，以及來自醫學和非醫學預訓練權重的適應性的泛化能力。並且，研究員們還對患者 ID 分佈變化影響適應模型效能進行了研究，這是醫學應用中模型對新患者資料魯棒性至關重要的一個方面。

除了這些探索之外，研究員們還提出了一種新的適應技術，即門控專家混合介面卡（GMoE-Adapter）。它利用了來自醫學和通用視覺預訓練的見解，在醫學視覺任務適應中實現了最先進的效能。GMoE-Adapter 展示了結合領域特定知識與來自多種來源的廣泛、通用學習的混合適應策略的潛力。

圖2：門控專家混合介面卡（GMoE-Adapter）框架與標準介面卡和 MoE-Adapter 方法的對比

透過 Med-VTAB 基準和對適應策略與擴充套件規律的研究，這項工作將為醫學視覺任務適應研究設立新的標準。而透過強調定製適應技術的重要性和對新穎適應方法的探索，研究員們希望可以提高診斷準確性以及提升患者的治療效果。

對齊視覺模型與人類美學：演算法與評估

論文連結：

https://arxiv.org/abs/2406.09397

現有的大規模視覺-語言模型需要在網路級大規模的資料上進行預訓練。但資料參差不齊，得到的模型往往面臨價值對齊的問題。在文字-影像檢索任務中，可能表現為美學質量過低，細粒度要求不符，帶有有害偏見等問題。由於這類問題主觀性較高，目前缺乏有效的方式進行評估和改進。

因此，研究員們選擇了最為主觀的任務之一——美學作為代表，來研究價值對齊的問題。根據美學的定義和研究，美學可以劃分為主觀的美學理解（象徵性、文化性等）和客觀的視覺吸引力（色彩、解析度、飽和度等），其它對齊任務也類似。研究員們發現，人類對美學的理解由於存在於大量的文獻和著作中，所以能夠被大語言模型學習，進一步地，透過使用大語言模型為使用者查詢、擴充套件美學期望，從而能極大地提高美學效果。

研究員們公平地評估了各種提示詞下的大語言模型和美學模型，證明了大語言模型帶來美學理解的有效性和美學模型所包含影像先驗的有效性和互補性。為了實現端到端的高效檢索系統，研究員們提出一個基於排序的強化學習演算法來微調視覺模型，並從大語言模型和美學模型中蒸餾知識。

在評估時，研究員們首先構建了一個美學偏好資料集 HPIR，由於美學的主觀性，每條樣本都要經過30次標註的投票，並給出置信度。利用 HPIR，研究員們還驗證了 GPT-4V 作為美學評判器的可行性。最終的實驗在 HPIR、GPT-4V 評判和人類評判三個機制下共同驗證，經過美學對齊微調後的端到端檢索模型可以和集成了大語言模型和美學模型的多階段系統取得相似的成績，這極大地簡化了高質量檢索系統的複雜度，減輕了維護代價和檢索時延。

圖3：從大語言模型和美學模型中用強化學習蒸餾美學理解和視覺先驗

GLC：基於生成式特徵編碼的極低位元速率影像編解碼器

論文連結：

https://openaccess.thecvf.com/content/CVPR2024/papers/Jia_Generative_Latent_Coding_for_Ultra-Low_Bitrate_Image_Compression_CVPR_2024_paper.pdf

目前主流的影像編解碼器通常在畫素空間直接對影像編碼。然而，影像畫素的失真度量指標並非總是與人類的視覺一致，尤其在影像編碼失真較為嚴重的極低位元速率壓縮場景中。因此，實現更符合人類視覺的影像編碼是一項關鍵挑戰。

微軟亞洲研究院的研究員們發現，相比於原始畫素，生成式 VQ-VAE 的特徵具有更高的主觀視覺一致性、更低的熵和更高的魯棒性，所以更適合高主觀質量的極低位元速率編碼。基於這一觀察，研究員們提出了可以在生成式 VQ-VAE 的特徵空間進行編碼的模型 GLC。

圖4：GLC 與之前 SOTA 影像編碼器的視覺質量對比

具體來說，GLC 首先使用 VQ-VAE 的編碼器將影像編碼為生成性特徵，然後透過變換編碼網路對這些特徵進行編碼，最後將解碼的特徵透過 VQ-VAE 的解碼器重建為影像。在編碼影像時，GLC 不需要使用 VQ 編碼，而是設計了一個變換編碼網路用於特徵壓縮。這種設計不僅提高了 GLC 的壓縮率，還使其可以支援可變位元速率編碼。

為了提高壓縮效能，GLC 在變換編碼的邊資訊編碼中設計了一種基於向量碼本的先驗模型。與傳統的可分離先驗相比，這種先驗能夠以更低的位元速率編碼更強的語義資訊。GLC 還在訓練中使用了一個輔助網路，根據解碼特徵預測原圖所對應的 VQ 索引，從而提高解碼特徵與原圖的語義一致性。

實驗結果表明，GLC 在多個測試基準中實現了最高的壓縮效能。GLC 可以以平均每畫素0.03位元的極低壓縮率實現高質量的影像壓縮。與基於畫素空間壓縮的 SOTA 編碼器 MS-ILLM 相比，GLC 在相同的 FID 指標下節省了超過45%的位元。另外，透過利用其特徵空間，GLC 可以在壓縮影像的同時實現影像恢復、風格遷移等功能。

MH-MoE：多頭混合專家網路

論文連結：

https://arxiv.org/abs/2404.15045

進一步提升如大型語言模型（LLMs）和大型多模態模型（LMMs）等大型容量模型（large capacity models）的效能，有一個可靠的方法就是透過增加引數數量來擴充套件它們。然而，這些模型的龐大尺寸顯著降低了推理速度，進一步限制了它們的實用性。在此背景下，稀疏混合專家（SMoE）的方法被提出，它在減輕計算成本的同時促進了模型的可擴充套件性，但仍然面臨專家啟用率低、缺乏細粒度的分析能力等缺點。

因此，微軟亞洲研究院的研究員們提出了一個名為多頭混合專家網路（Multi-Head Mixture of Experts, MH-MoE）的高效變體結構來緩解上述問題。多頭混合專家網路採用多頭機制將每個輸入的令牌分割成多個子令牌，這些子令牌隨後會被分配給不同的專家網路並行處理，最終無縫地重新整合回原始令牌形式。