提示詞最佳化、FP4量化訓練、靈巧機器人抓取策略蒸餾、影片高效靈活建模

（本文閱讀時間：10分鐘）

編者按：歡迎閱讀“科研上新”欄目！“科研上新”匯聚了微軟亞洲研究院最新的創新成果與科研動態。在這裡，你可以快速瀏覽研究院的亮點資訊，保持對前沿領域的敏銳嗅覺，同時也能找到先進實用的開源工具。

本期，我們為大家精心挑選了4篇前沿研究論文，內容涵蓋大語言模型的提示詞最佳化、FP4 量化的高效訓練方法、靈巧機器人抓取的簡化策略以及影片內容高效建模的 Tokenizer，感興趣的朋友快來看看吧！

「本期內容速覽」

CFPO：內容-格式整合的提示詞最佳化

使用FP4量化最佳化大規模語言模型訓練

UniGraspTransformer：用於可擴充套件靈巧機器人抓取的簡化策略蒸餾

VidTok：開源的領先影片Tokenizer

CFPO：內容-格式整合的提示詞最佳化

論文連結：

https://arxiv.org/abs/2502.04295

隨著大語言模型（LLMs）在各個領域的廣泛應用，其效能的提升在很大程度上依賴於有效的提示詞（prompt）設計。在此背景下，自動化提示詞工程應運而生。如何針對特定的模型和任務，透過自動化方法找到最優的提示詞，成為了一個亟待解決的關鍵問題。

資料顯示，大語言模型對提示詞的細微變化極為敏感，這種變化涵蓋提示詞的文字內容和結構格式。然而，以往的研究工作主要聚焦於提示詞內容的最佳化，對提示詞的結構格式卻缺乏系統性研究。微軟亞洲研究院的研究員們發現，提示詞格式不僅會影響模型的輸出質量，不同模型還存在特定的格式偏好。因此，研究員們提出了一種創新方法：內容-格式整合的提示詞最佳化（CFPO），透過迭代最佳化提示詞的內容和格式，高效找出最優提示詞。

具體來說，研究員們首先構建了一個結構化的提示詞模板，將提示詞分解為內容元件和格式元件。內容元件包含任務指令、任務細節、輸出格式和示例等；格式元件則包括示例格式和整體提示詞格式，分別規定了示例的呈現方式，以及所有元件的組織格式，例如採用 Markdown 格式等。

接著，CFPO 採用進化搜尋演算法，針對提示詞的內容和格式最佳化進行了專門設計，在每一輪進化演算法迭代中分別對內容和格式進行最佳化。在內容最佳化方面，CFPO 運用大語言模型最佳化器，透過案例診斷和蒙特卡洛取樣對內容進行最佳化調整。對於提示詞的格式最佳化，CFPO 設計了一個格式池和評分系統，用於動態評估格式的效能，並引入大語言模型，依據現有格式池資訊自動生成新格式。CFPO 能夠平衡對已知有效格式的利用和對新格式的探索，從而在每次迭代中高效地找出最優格式。

圖1：單個迭代輪次內 CFPO 流程示意圖

實驗結果顯示，CFPO 在多個任務和多種開源大語言模型上的表現均達到了當前的最優水準。針對測試的開源模型，CFPO 使其在數學推理任務 GSM8K 的效能最高提升了16.37%，在 MATH500 上最高提升了31.60%；CFPO 在常識推理任務 ARC-Challenge 和 Big-Bench 分類任務上也有出色表現，展現出了強大的適用性和有效性。這些結果充分證明，CFPO 能夠顯著提升 LLMs 的效能，尤其在對提示結構敏感的推理任務中效果更為突出。

使用FP4量化最佳化大規模語言模型訓練

論文連結：

https://arxiv.org/abs/2501.17116

大語言模型的持續發展使其訓練所需的計算資源、時間和能耗也不斷增加，併成為制約 LLMs 進一步發展的關鍵瓶頸。因此，開發更高效的訓練方法迫在眉睫。模型量化作為一種透過降低數值精度來減少計算和記憶體成本的技術手段，近期逐漸成為研究熱點。儘管 FP16/BF16 和 FP8 量化已被證明在訓練中可行，但 FP4 量化由於其極低的精度和有限的動態範圍，一直面臨巨大挑戰。

為了解決這一問題，微軟亞洲研究院的研究員們提出了首個針對大語言模型的 FP4 量化訓練框架。該框架的核心在於透過技術創新解決 FP4 量化中的高誤差和有限表示能力問題。傳統的量化方法在低精度下容易導致梯度消失或梯度爆炸，且難以處理啟用張量中的異常值。對此，研究員們提出了可微分量化估計器（DGE）和異常值鉗制與補償策略（OCC）兩大創新技術。

DGE 透過可微分的量化函式近似，改善了梯度估計的準確性，使得量化操作在反向傳播中能夠傳遞準確的梯度資訊，從而提高權重更新的精度。OCC 則針對啟用張量中的異常值問題，透過鉗制異常值並引入稀疏補償矩陣，有效減少了量化誤差。此外，該框架還結合了混合精度訓練和向量粒度量化技術，進一步優化了訓練過程，使得 FP4 量化訓練在大語言模型上成為可能，並顯著降低了量化帶來的精度損失。

圖2：FP4 訓練方案的結構圖

為了全面評估該 FP4 量化訓練框架的效能，研究員們在不同規模的 LLaMA 模型（1.3B、7B 和 13B 引數）上進行了實驗。實驗結果顯示，與 BF16 基線相比，FP4 量化訓練框架在訓練損失和下游任務效能上均表現出色，任務完成率和模型精度幾乎沒有明顯下降。

未來，隨著支援 FP4 的下一代硬體（如 Nvidia B 系列 GPU）的推出，該框架有望顯著降低 LLMs 訓練的成本和能耗，推動大語言模型的廣泛應用。

UniGraspTransformer：用於可擴充套件靈巧機器人抓取的簡化策略蒸餾

論文連結：

https://arxiv.org/abs/2412.02699

近年來，靈巧機器人抓取是機器人領域的關鍵挑戰之一，尤其在處理形狀、大小和物理特性各異的物體時。現有方法（如 UniDexGrasp++）雖有進展，但在面對大規模多樣化物體時，往往面臨效能下降和訓練流程複雜的問題。

為解決這些挑戰，微軟亞洲研究院的研究員們提出了一種名為 UniGraspTransformer 的通用 Transformer 網路。其核心在於簡化訓練流程並提升泛化能力。該方法首先為每個物體訓練了一個專門的策略網路，透過強化學習生成成功的抓取軌跡。隨後，這些軌跡被蒸餾到一個通用的 Transformer 網路中。這一過程避免了傳統方法中複雜的多步訓練流程（如幾何感知聚類、課程學習和逐步蒸餾），顯著提高了訓練效率增強了模型的可擴充套件性。

圖3：UniGraspTransformer 架構與訓練流程圖

此外，UniGraspTransformer 具備強大的泛化能力，能夠處理多達12個自注意力模組，有效應對數千個物體的抓取任務，並且可以從理想化環境（如完整狀態觀測）泛化到現實世界環境（如觀測可能不完整或不可靠），展現出了卓越的適應性。

實驗結果表明，UniGraspTransformer 在不同設定下均表現出色。在狀態基設定中，UniGraspTransformer 在已見物體、未見物體（但屬於已見類別）和完全未見物體上的成功率分別為91.2%、89.2%和88.3%。在視覺基設定中，這些成功率分別為88.9%、87.3%和86.8%。與 UniDexGrasp++ 相比，UniGraspTransformer 在所有類別上均實現了顯著提升，尤其是在完全未見物體上，成功率提升了10.1%。

不僅如此，UniGraspTransformer 還能夠為各種形狀和方向的物體生成更廣泛的抓取姿態，從而實現更多樣化的抓取策略。這一特性使得 UniGraspTransformer 在處理複雜物體時更具優勢。隨著更多現實世界場景的測試，UniGraspTransformer 有望在實際機器人應用中發揮重要作用。

VidTok：開源的領先影片Tokenizer

論文連結：

https://arxiv.org/abs/2412.13061

專案連結：

https://github.com/microsoft/vidtok

近年來，影片生成以及基於此的世界模型已經成為人工智慧領域的熱門研究方向，其目標在於高效建模影片內容。然而，由於影片畫素級表示資訊高度冗餘，如何透過 Tokenizer 對影片資料進行高效壓縮和表示成為關鍵課題。當下很多工作都會透過 Tokenizer 將原始的高維影片資料（如影像和影片幀）轉換為更為緊湊的視覺 Token，再以視覺 Token 為目標訓練生成模型。

圖4：影片 Tokenizer 基礎框架

目前業界領先的影片模型多為閉源狀態，而開源的影片 Tokenizer 大多受限於單一的模型設定或欠佳的重建質量，導致其可用性較差。為此，微軟亞洲研究院的研究員們釋出了 VidTok，一款效能強大的開源影片 Tokenizer。VidTok 有三大核心技術亮點：

高效的混合模型架構設計：VidTok 採用經典的 3D 編碼器-解碼器結構，同時創新性地結合了 3D、2D 和 1D 卷積，可有效解耦空間和時間取樣。
先進的量化技術：VidTok 引入了有限標量量化（FSQ）技術，無需顯式學習碼本，顯著提高了模型的訓練穩定性和重建效能。
增強的訓練策略：VidTok 採用分階段訓練策略，訓練時間減少了50%，而重建質量不受影響。

圖5：VidTok 與領先方案的效能比較雷達圖

受益於上述技術突破，VidTok 展現出了三大優勢。首先，它具備多樣化的適配能力，支援多種隱空間表示（包括連續型、離散型），相容因果和非因果模型，並允許靈活調整壓縮率設定，以滿足不同任務需求。其次，在重建效能方面，VidTok 在 PSNR、SSIM、FVD、LPIPS 等指標上均顯著優於當前的SOTA模型。最後，VidTok 實現了全面開源，不僅提供完整的程式碼，還支援使用者在自定義資料集上進行微調，為研發人員打造了一個高效能且易用的工具平臺。

VidTok 的高效能和靈活性使其成為未來構建複雜影片系統的理想選擇，助力研發人員不斷突破技術邊界。

你也許還想看：