「不思考」反而更強？上海AILab重新定義視覺強化學習微調最優路徑

引言

近年來，基於規則的強化學習（RFT）在多模態大語言模型（MLLMs）中的應用取得了顯著進展，並且在一些模型上取得了優於監督微調（SFT）的成果。

RFT 利用可驗證的獎勵進行訓練，鼓勵模型在回答之前先進行思考。顯式思考被認為是 RFT 成功的關鍵因素，許多關於多模態 RFT 的研究也致力於復現 “aha moment” 的效果。

然而，對於一些簡單的視覺任務，例如空間理解，可能並不需要複雜的推理。最近的研究表明，過度思考反而可能對某些任務的推理效能產生不利影響。

此外，相比於 SFT，RFT 通常需要更多的微調時間，因為它涉及生成多個較長的響應。因此，顯式思考過程的作用值得進一步探討，特別是從準確性和訓練效率的角度考慮。

在此背景下，來自上海 AI Lab 的研究團隊針對多模態大語言模型中的思考過程進行了深入研究。該團隊首先探討了使用 MLLMs 進行閉式分類任務的挑戰。由於預訓練資料的限制，當前的 MLLMs 在分類能力上表現較差。

論文標題：

Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning

論文連結：

https://arxiv.org/abs/2503.16188

程式碼連結：

https://github.com/minglllli/CLS-RL/tree/main

儘管 SFT 在將 MLLMs 與最先進的分類模型對齊方面已取得顯著成效，但大規模標籤資料集的獲取仍然帶來了巨大的成本和計算開銷。因此，少樣本微調成為了一個有前景的替代方法，尤其是在對比視覺-語言模型中的應用，但在自迴歸的 MLLMs 中的應用仍未得到充分探索，需要更深入的研究。

受到基於規則的 RFT 最新成功的啟發，該團隊提出了 CLS-RL，這是一個用於分類微調的強化學習框架。與 SFT 透過令牌級損失來指導微調過程不同，CLS-RL 使用可驗證的獎勵損失來微調 MLLMs，並引導模型探索多樣化的推理思維。

實驗結果顯示，CLS-RL 在 11 個數據集的少樣本和基礎到新類設定中，表現優於 SFT，在領域內學習和新類泛化方面均取得了更好的結果。

此外，研究團隊還發現了 CLS-RL 微調中的一個“免費午餐”現象。在少樣本對比 VLM 微調中，已有研究表明，當 VLM 在特定資料集上進行微調時，它在其他資料集上的效能會急劇下降，這種現象被稱為災難性遺忘。

然而，當使用 CLS-RL 在一個特定資料集上進行微調時，模型在其他資料集上的表現也得到了提升，這一現象被稱為“免費午餐”現象。研究表明，基於規則的 RFT 不僅能夠緩解少樣本微調中的災難性遺忘問題，還能有效地教會模型影像分類的基礎知識。

接下來，研究團隊重新審視並探討了思考過程在規則基礎 RFT 中的作用。與 Deepseek-R1 中的數學問題逐漸增加響應長度不同，CLS-RL 中的響應長度在某些步驟急劇下降，而準確度獎勵則顯著上升。

這表明，分類任務中的思考過程可能沒有數學問題中那麼關鍵，因此模型逐漸傾向於採用最簡單的思考方式來得出最終答案。此外，過度思考對某些任務的負面影響也得到了進一步驗證。

在此基礎上，研究團隊提出了一種新的方法——No-Thinking-RL，旨在抑制思考過程。在 No-Thinking-RL 中，模型被直接要求回答問題，獎勵機制也做出了相應調整，只有當模型的輸出與標籤完全一致時，才會給予獎勵。

令人驚訝的是，No-Thinking-RL 在許多工中表現優於 CLS-RL，且訓練時間顯著減少。

研究團隊推測，No-Thinking-RL 優於 CLS-RL 的原因在於，顯式思考反而可能在可驗證答案之前抑制了學習。因此，他們進一步提出了“思考後答”方法（Think-After-Answer），即將思考放在答案之後，以減輕這種負面影響。後續實驗將進一步驗證這一假設。

最後，研究團隊在包括數學、空間推理和難題等多種任務上評估了 No-Thinking-RL，涵蓋了 2B 和 7B 模型大小。

結果表明，對於 2B 模型，No-Thinking-RL 在所有任務上均優於帶思考的 RFT，尤其是在數學任務中。而在 7B 模型上，三種方法在空間理解任務上的表現相似，但在數學問題上，帶思考的RFT明顯優於 No-Thinking-RL。

這些結果表明，小模型（如 2B）在微調過程中無法生成高質量的思考，且低質量的思考可能會降低效能；而對於簡單的視覺任務，思考並非關鍵，No-Thinking-RL 在小模型上的表現優於帶思考的 RFT，並且在 7B 模型上表現相似。

方法

為了最佳化模型，採用了 Group Relative Policy Optimization（GRPO）作為強化學習（RL）演算法。與透過令牌級損失最佳化模型的 SFT 方法不同，像 GRPO 這樣的 RL 方法利用來自獎勵損失的策略梯度進行最佳化，促使模型在更廣闊的解空間中進行推理探索。

在該方法中，使用了一組響應來估算相對優勢，並透過正則化控制模型的偏離程度。這種方法透過取樣響應並對其獎勵進行標準化，計算相對優勢，避免了 PPO 中的評論模型，計算效率更高。

2.1 CLS-RL

CLS-RL 方法引入了指令提示和獎勵函式。指令提示鼓勵模型在給出答案前進行思考，並輸出思考過程和最終答案。獎勵函式由格式獎勵和準確性獎勵組成，格式獎勵鼓勵模型正確地展示思考過程，而準確性獎勵則基於規則，檢查模型輸出是否與真實標籤匹配。

2.2 No-Thinking-RL

與 CLS-RL 不同，No-Thinking-RL方法鼓勵模型直接輸出答案，避免思考過程。獎勵函式僅關注準確性，模型的輸出必須與真實標籤精確匹配。這種方法顯著減少了訓練和推理時間，適用於不需要複雜推理的簡單視覺任務。

分類實驗部分

在這部分，作者展示了其分類實驗的結果，重點評估了少樣本學習能力和“自由午餐”現象，並分析了從基礎任務到新任務的遷移效能及開集分類的表現。

3.1 實驗設定

實驗目標：本實驗的主要目標是透過封閉表單的方式進行分類，即給定一部分類別標籤，模型需從中選擇正確的類別。實驗中的問題格式為“這張照片裡是什麼物體？{指令提示}”，其中指令提示會根據不同的方法進行調整。

資料集：為了全面評估三種方法（SFT、CLS-RL 和 No-Thinking-RL），作者選取了 11 個公共的分類基準資料集，包括 ImageNet、Caltech101、OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft、SUN397、DTD、EuroSAT 和 UCF101。

對於封閉表單的分類任務，從這些資料集中隨機選擇了 40% 的標籤（基礎到新任務使用 80% 標籤），幷包含真實標籤。

實現細節：所有實驗均在 8 張 A100 GPU 上進行，採用 Pytorch 框架實現。作者使用 Qwen2-VL-2B-Instruct 作為基礎模型，並對所有引數進行微調。每張 GPU 的批次大小設為 1，並使用 2 步梯度累積。影像解析度統一調整為 328×328。

3.2 少樣本學習結果

少樣本學習旨在檢驗模型在樣本數量極少的情況下，能否有效地學習到任務相關的知識。作者在 4-shot 設定下訓練了 SFT 和 CLS-RL，並對比了它們在不同資料集上的表現。

從實驗結果可以看出，CLS-RL 在大多數資料集上的表現明顯優於 SFT，整體平均準確率也更高。這表明，規則強化微調能夠幫助模型在下游任務中取得更好的效果。儘管在某些資料集中 SFT 的表現超過了 CLS-RL，但整體上 CLS-RL 更具優勢。

此外，No-Thinking-RL 在 10 個數據集上超過了 CLS-RL，最終獲得比 CLS-RL 高出 3.14% 的平均準確率。這表明，去除思考過程的強化學習微調能夠有效提升模型的效能，並且在下游任務中的表現優於含思考過程的微調方法。

3.3 “免費午餐”現象

在少樣本學習中，作者還討論了“免費午餐現象”。以往的研究表明，當模型在一個特定資料集上進行微調時，其在其他資料集上的表現可能會顯著下降，這一現象被稱為災難性遺忘。

然而，實驗結果表明，CLS-RL 和 No-Thinking-RL 的微調可以提升模型在其他資料集上的表現，即使這些資料集的分佈差異較大，甚至類列表完全不同。

例如，當模型在 SUN397 資料集上進行微調後，它在 ImageNet、StanfordCars 和 UCF101 資料集上的表現分別提高了 16.98%、15.88% 和 11.10%。這表明，規則化的強化學習微調可以幫助模型獲得更廣泛的分類知識，而不僅僅是記憶特定資料集的資訊。

3.4 收斂性對比

作者還比較了 CLS-RL 和 No-Thinking-RL 的收斂速度。實驗結果顯示，No-Thinking-RL 的收斂速度比 CLS-RL 更快。在大部分訓練步驟中，No-Thinking-RL 的準確率獎勵更高，並且在訓練的早期階段（前 30 步）測試準確率也顯著領先。

作者認為，CLS-RL 由於引入了獎勵損失格式，可能在訓練初期會產生一定噪聲，導致準確率獎勵的不穩定。

3.5 效率對比

最後，作者比較了 CLS-RL 和 No-Thinking-RL 的訓練和推理效率。結果顯示，CLS-RL 在訓練和推理階段的時間消耗明顯高於 SFT 和 No-Thinking-RL，原因在於其在微調和推理過程中需要生成多個較長的響應。

相比之下，SFT 只在微調過程中最佳化標籤，No-Thinking-RL 則透過準確性獎勵來最佳化模型，從而顯著減少了訓練和推理的時間。

在更多多樣任務上的實驗與分析

在這一部分，作者介紹了在更多多樣任務上的實驗結果，涵蓋了空間理解、數學問題和拼圖任務。實驗在 2B 和 7B 模型上進行。作者首先介紹了 “Think-After-Answer” 方法，並報告了相應的實驗結果。

4.1 Think-After-Answer

作者探討了為什麼 No-Thinking-RL 比 CLS-RL 表現更好。如所示，CLS-RL 的收斂速度比 No-Thinking-RL 慢。因此，作者假設在可驗證答案之前進行明確的思考可能會阻礙學習和收斂。為了驗證這一假設，作者提出了 “Think-After-Answer” 方法，該方法首先讓模型回答問題，然後再給出簡短的推理過程。

這樣可以減輕在 RFT 過程中明確思考的負面影響。“Think-After-Answer” 的提示是：\texttt{{Question} 請先輸出答案，格式為 <answer> </answer>，然後輸出簡短的推理過程，格式為 <reason> </reason>}。準確性獎勵保持不變。

如果假設成立，Think-After-Answer 的收斂速度應當比帶思考的 RFT 更快，並且在某些任務上的最終表現應當更好。後續的實驗結果驗證了這一假設。

4.2 在CVBench上的結果

作者在 SAT 資料集上進行 2 輪微調後，測試了模型在 CVBench 資料集上的表現。表總結了 VisualThinker-R1-Zero、Think-After-Answer 和 No-Thinking-RL 模型的結果。

對於 2B 模型，No-Thinking-RL 在準確性上比 VisualThinker-R1-Zero 提高了 6.4%，在所有子任務上都表現出色。Think-After-Answer 的表現介於 No-Thinking-RL 和 VisualThinker-R1-Zero 之間。對於 7B 模型，三種方法的結果相似。

實驗結果表明，空間理解任務中，RFT 過程中不進行思考能夠提升表現，而帶思考的 RFT 甚至在小模型上表現較差。

此外，作者還可視化了準確性獎勵曲線（見圖）。從中可以看出，Think-After-Answer 的收斂速度快於帶思考的 RFT。準確性結果和收斂速度驗證了作者的假設，即在可驗證答案之前進行明確思考會阻礙學習和收斂。

4.3 數學問題的實驗結果

在本小節中，作者對數學問題進行了實驗。為了得到最終答案，需要生成複雜的中間步驟。作者使用 Math-40K 資料集進行微調，並在 MathVista 和 MathVision 上測試微調後的模型。

結果如表所示。對於 2B 模型，No-Thinking-RL 的表現優於帶思考的 RFT。這一結果頗為驚訝，因為數學問題通常需要複雜的中間步驟才能得到最終答案。這意味著當基礎模型的能力較弱時，在 RFT 過程中生成推理鏈會導致效能下降，相較於沒有思考的 RFT，RFT 表現較差。

作者進一步將 MathVista 劃分為多個子任務，並發現 No-Thinking-RL 在除了數學文字問題（MWP）之外的所有任務中都優於帶思考的 RFT。

此外，作者還發現，帶思考的 RFT 在 MWP 任務中能超越 No-Thinking-RL。因為 MWP 和 MathVision 中的問題需要大量計算才能得出最終答案，因此直接輸出正確答案非常困難。對於其他子任務，計算要求可能不那麼高，因此 No-Thinking-RL 也能夠表現良好。

對於 7B 模型，帶思考的 RFT 顯著優於 No-Thinking-RL，這表明當模型的推理能力足夠強時，RFT 中的推理鏈會提升模型的推理能力，進而提高最終效能。

然而，作者注意到，在教材問答（TQA）和視覺問答（VQA）任務中，帶思考的 RFT 和 No-Thinking-RL 的表現接近。由於這些任務通常不需要複雜推理，因此相似的結果進一步表明，在某些視覺任務中，思考並不是 RFT 的必要條件。

4.4 謎題問題的實驗結果

在這一部分，作者介紹了謎題問題的實驗結果。作者生成了一個包含 6.5k 資料的訓練資料集，並在 PuzzleVQA（作為領域內測試）和 AlgoPuzzleVQA（作為領域外測試）上測試了微調後的模型。

實驗結果如表所示。作者發現，在 2B 和 7B 模型中，No-Thinking-RL 在領域內和領域外測試上均表現優於帶思考的 RFT。原因可能是 2B 和 7B 基礎模型在拼圖任務上的推理能力較弱，因此在 RFT 過程中生成的推理鏈會妨礙學習過程，而 Think-After-Answer 的表現明顯優於常規的帶思考的 RFT。

此外，圖顯示，Think-After-Answer 的準確性獎勵收斂速度遠快於 No-Thinking-RL。所有這些結果進一步驗證了作者的假設：在 RFT 過程中，過早的明確思考會妨礙學習。