「不思考」反而更強?上海AILab重新定義視覺強化學習微調最優路徑

引言
近年來,基於規則的強化學習(RFT)在多模態大語言模型(MLLMs)中的應用取得了顯著進展,並且在一些模型上取得了優於監督微調(SFT)的成果。
RFT 利用可驗證的獎勵進行訓練,鼓勵模型在回答之前先進行思考。顯式思考被認為是 RFT 成功的關鍵因素,許多關於多模態 RFT 的研究也致力於復現 “aha moment” 的效果。
然而,對於一些簡單的視覺任務,例如空間理解,可能並不需要複雜的推理。最近的研究表明,過度思考反而可能對某些任務的推理效能產生不利影響。
此外,相比於 SFT,RFT 通常需要更多的微調時間,因為它涉及生成多個較長的響應。因此,顯式思考過程的作用值得進一步探討,特別是從準確性和訓練效率的角度考慮。
在此背景下,來自上海 AI Lab 的研究團隊針對多模態大語言模型中的思考過程進行了深入研究。該團隊首先探討了使用 MLLMs 進行閉式分類任務的挑戰。由於預訓練資料的限制,當前的 MLLMs 在分類能力上表現較差。
論文標題:
Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning
論文連結:
https://arxiv.org/abs/2503.16188
程式碼連結:
https://github.com/minglllli/CLS-RL/tree/main
儘管 SFT 在將 MLLMs 與最先進的分類模型對齊方面已取得顯著成效,但大規模標籤資料集的獲取仍然帶來了巨大的成本和計算開銷。因此,少樣本微調成為了一個有前景的替代方法,尤其是在對比視覺-語言模型中的應用,但在自迴歸的 MLLMs 中的應用仍未得到充分探索,需要更深入的研究。
受到基於規則的 RFT 最新成功的啟發,該團隊提出了 CLS-RL,這是一個用於分類微調的強化學習框架。與 SFT 透過令牌級損失來指導微調過程不同,CLS-RL 使用可驗證的獎勵損失來微調 MLLMs,並引導模型探索多樣化的推理思維。
實驗結果顯示,CLS-RL 在 11 個數據集的少樣本和基礎到新類設定中,表現優於 SFT,在領域內學習和新類泛化方面均取得了更好的結果。
此外,研究團隊還發現了 CLS-RL 微調中的一個“免費午餐”現象。在少樣本對比 VLM 微調中,已有研究表明,當 VLM 在特定資料集上進行微調時,它在其他資料集上的效能會急劇下降,這種現象被稱為災難性遺忘。
然而,當使用 CLS-RL 在一個特定資料集上進行微調時,模型在其他資料集上的表現也得到了提升,這一現象被稱為“免費午餐”現象。研究表明,基於規則的 RFT 不僅能夠緩解少樣本微調中的災難性遺忘問題,還能有效地教會模型影像分類的基礎知識。
接下來,研究團隊重新審視並探討了思考過程在規則基礎 RFT 中的作用。與 Deepseek-R1 中的數學問題逐漸增加響應長度不同,CLS-RL 中的響應長度在某些步驟急劇下降,而準確度獎勵則顯著上升。
這表明,分類任務中的思考過程可能沒有數學問題中那麼關鍵,因此模型逐漸傾向於採用最簡單的思考方式來得出最終答案。此外,過度思考對某些任務的負面影響也得到了進一步驗證。
在此基礎上,研究團隊提出了一種新的方法——No-Thinking-RL,旨在抑制思考過程。在 No-Thinking-RL 中,模型被直接要求回答問題,獎勵機制也做出了相應調整,只有當模型的輸出與標籤完全一致時,才會給予獎勵。
令人驚訝的是,No-Thinking-RL 在許多工中表現優於 CLS-RL,且訓練時間顯著減少。
研究團隊推測,No-Thinking-RL 優於 CLS-RL 的原因在於,顯式思考反而可能在可驗證答案之前抑制了學習。因此,他們進一步提出了“思考後答”方法(Think-After-Answer),即將思考放在答案之後,以減輕這種負面影響。後續實驗將進一步驗證這一假設。
最後,研究團隊在包括數學、空間推理和難題等多種任務上評估了 No-Thinking-RL,涵蓋了 2B 和 7B 模型大小。
結果表明,對於 2B 模型,No-Thinking-RL 在所有任務上均優於帶思考的 RFT,尤其是在數學任務中。而在 7B 模型上,三種方法在空間理解任務上的表現相似,但在數學問題上,帶思考的RFT明顯優於 No-Thinking-RL。
這些結果表明,小模型(如 2B)在微調過程中無法生成高質量的思考,且低質量的思考可能會降低效能;而對於簡單的視覺任務,思考並非關鍵,No-Thinking-RL 在小模型上的表現優於帶思考的 RFT,並且在 7B 模型上表現相似。
方法
為了最佳化模型,採用了 Group Relative Policy Optimization(GRPO)作為強化學習(RL)演算法。與透過令牌級損失最佳化模型的 SFT 方法不同,像 GRPO 這樣的 RL 方法利用來自獎勵損失的策略梯度進行最佳化,促使模型在更廣闊的解空間中進行推理探索。
在該方法中,使用了一組響應來估算相對優勢,並透過正則化控制模型的偏離程度。這種方法透過取樣響應並對其獎勵進行標準化,計算相對優勢,避免了 PPO 中的評論模型,計算效率更高。
2.1 CLS-RL
CLS-RL 方法引入了指令提示和獎勵函式。指令提示鼓勵模型在給出答案前進行思考,並輸出思考過程和最終答案。獎勵函式由格式獎勵和準確性獎勵組成,格式獎勵鼓勵模型正確地展示思考過程,而準確性獎勵則基於規則,檢查模型輸出是否與真實標籤匹配。
2.2 No-Thinking-RL
與 CLS-RL 不同,No-Thinking-RL方法鼓勵模型直接輸出答案,避免思考過程。獎勵函式僅關注準確性,模型的輸出必須與真實標籤精確匹配。這種方法顯著減少了訓練和推理時間,適用於不需要複雜推理的簡單視覺任務。
分類實驗部分
在這部分,作者展示了其分類實驗的結果,重點評估了少樣本學習能力和“自由午餐”現象,並分析了從基礎任務到新任務的遷移效能及開集分類的表現。
3.1 實驗設定
實驗目標:本實驗的主要目標是透過封閉表單的方式進行分類,即給定一部分類別標籤,模型需從中選擇正確的類別。實驗中的問題格式為“這張照片裡是什麼物體?{指令提示}”,其中指令提示會根據不同的方法進行調整。
資料集為了全面評估三種方法(SFT、CLS-RL 和 No-Thinking-RL),作者選取了 11 個公共的分類基準資料集,包括 ImageNet、Caltech101、OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft、SUN397、DTD、EuroSAT 和 UCF101。
對於封閉表單的分類任務,從這些資料集中隨機選擇了 40% 的標籤(基礎到新任務使用 80% 標籤),幷包含真實標籤。
實現細節所有實驗均在 8 張 A100 GPU 上進行,採用 Pytorch 框架實現。作者使用 Qwen2-VL-2B-Instruct 作為基礎模型,並對所有引數進行微調。每張 GPU 的批次大小設為 1,並使用 2 步梯度累積。影像解析度統一調整為 328×328。
3.2 少樣本學習結果
少樣本學習旨在檢驗模型在樣本數量極少的情況下,能否有效地學習到任務相關的知識。作者在 4-shot 設定下訓練了 SFT 和 CLS-RL,並對比了它們在不同資料集上的表現。
從實驗結果可以看出,CLS-RL 在大多數資料集上的表現明顯優於 SFT,整體平均準確率也更高。這表明,規則強化微調能夠幫助模型在下游任務中取得更好的效果。儘管在某些資料集中 SFT 的表現超過了 CLS-RL,但整體上 CLS-RL 更具優勢。
此外,No-Thinking-RL 在 10 個數據集上超過了 CLS-RL,最終獲得比 CLS-RL 高出 3.14% 的平均準確率。這表明,去除思考過程的強化學習微調能夠有效提升模型的效能,並且在下游任務中的表現優於含思考過程的微調方法。
3.3 “免費午餐”現象
在少樣本學習中,作者還討論了“免費午餐現象”。以往的研究表明,當模型在一個特定資料集上進行微調時,其在其他資料集上的表現可能會顯著下降,這一現象被稱為災難性遺忘。
然而,實驗結果表明,CLS-RL 和 No-Thinking-RL 的微調可以提升模型在其他資料集上的表現,即使這些資料集的分佈差異較大,甚至類列表完全不同。
例如,當模型在 SUN397 資料集上進行微調後,它在 ImageNet、StanfordCars 和 UCF101 資料集上的表現分別提高了 16.98%、15.88% 和 11.10%。這表明,規則化的強化學習微調可以幫助模型獲得更廣泛的分類知識,而不僅僅是記憶特定資料集的資訊。
3.4 收斂性對比
作者還比較了 CLS-RL 和 No-Thinking-RL 的收斂速度。實驗結果顯示,No-Thinking-RL 的收斂速度比 CLS-RL 更快。在大部分訓練步驟中,No-Thinking-RL 的準確率獎勵更高,並且在訓練的早期階段(前 30 步)測試準確率也顯著領先。
作者認為,CLS-RL 由於引入了獎勵損失格式,可能在訓練初期會產生一定噪聲,導致準確率獎勵的不穩定。
3.5 效率對比
最後,作者比較了 CLS-RL 和 No-Thinking-RL 的訓練和推理效率。結果顯示,CLS-RL 在訓練和推理階段的時間消耗明顯高於 SFT 和 No-Thinking-RL,原因在於其在微調和推理過程中需要生成多個較長的響應。
相比之下,SFT 只在微調過程中最佳化標籤,No-Thinking-RL 則透過準確性獎勵來最佳化模型,從而顯著減少了訓練和推理的時間。
在更多多樣任務上的實驗與分析
在這一部分,作者介紹了在更多多樣任務上的實驗結果,涵蓋了空間理解、數學問題和拼圖任務。實驗在 2B 和 7B 模型上進行。作者首先介紹了 “Think-After-Answer” 方法,並報告了相應的實驗結果。
4.1 Think-After-Answer
作者探討了為什麼 No-Thinking-RL 比 CLS-RL 表現更好。如所示,CLS-RL 的收斂速度比 No-Thinking-RL 慢。因此,作者假設在可驗證答案之前進行明確的思考可能會阻礙學習和收斂。為了驗證這一假設,作者提出了 “Think-After-Answer” 方法,該方法首先讓模型回答問題,然後再給出簡短的推理過程。
這樣可以減輕在 RFT 過程中明確思考的負面影響。“Think-After-Answer” 的提示是:\texttt{{Question} 請先輸出答案,格式為 <answer> </answer>,然後輸出簡短的推理過程,格式為 <reason> </reason>}。準確性獎勵保持不變。
如果假設成立,Think-After-Answer 的收斂速度應當比帶思考的 RFT 更快,並且在某些任務上的最終表現應當更好。後續的實驗結果驗證了這一假設。
4.2 在CVBench上的結果
作者在 SAT 資料集上進行 2 輪微調後,測試了模型在 CVBench 資料集上的表現。表總結了 VisualThinker-R1-Zero、Think-After-Answer 和 No-Thinking-RL 模型的結果。
對於 2B 模型,No-Thinking-RL 在準確性上比 VisualThinker-R1-Zero 提高了 6.4%,在所有子任務上都表現出色。Think-After-Answer 的表現介於 No-Thinking-RL 和 VisualThinker-R1-Zero 之間。對於 7B 模型,三種方法的結果相似。
實驗結果表明,空間理解任務中,RFT 過程中不進行思考能夠提升表現,而帶思考的 RFT 甚至在小模型上表現較差。
此外,作者還可視化了準確性獎勵曲線(見圖)。從中可以看出,Think-After-Answer 的收斂速度快於帶思考的 RFT。準確性結果和收斂速度驗證了作者的假設,即在可驗證答案之前進行明確思考會阻礙學習和收斂。
4.3 數學問題的實驗結果
在本小節中,作者對數學問題進行了實驗。為了得到最終答案,需要生成複雜的中間步驟。作者使用 Math-40K 資料集進行微調,並在 MathVista 和 MathVision 上測試微調後的模型。
結果如表所示。對於 2B 模型,No-Thinking-RL 的表現優於帶思考的 RFT。這一結果頗為驚訝,因為數學問題通常需要複雜的中間步驟才能得到最終答案。這意味著當基礎模型的能力較弱時,在 RFT 過程中生成推理鏈會導致效能下降,相較於沒有思考的 RFT,RFT 表現較差。
作者進一步將 MathVista 劃分為多個子任務,並發現 No-Thinking-RL 在除了數學文字問題(MWP)之外的所有任務中都優於帶思考的 RFT。
此外,作者還發現,帶思考的 RFT 在 MWP 任務中能超越 No-Thinking-RL。因為 MWP 和 MathVision 中的問題需要大量計算才能得出最終答案,因此直接輸出正確答案非常困難。對於其他子任務,計算要求可能不那麼高,因此 No-Thinking-RL 也能夠表現良好。
對於 7B 模型,帶思考的 RFT 顯著優於 No-Thinking-RL,這表明當模型的推理能力足夠強時,RFT 中的推理鏈會提升模型的推理能力,進而提高最終效能。
然而,作者注意到,在教材問答(TQA)和視覺問答(VQA)任務中,帶思考的 RFT 和 No-Thinking-RL 的表現接近。由於這些任務通常不需要複雜推理,因此相似的結果進一步表明,在某些視覺任務中,思考並不是 RFT 的必要條件。
4.4 謎題問題的實驗結果
在這一部分,作者介紹了謎題問題的實驗結果。作者生成了一個包含 6.5k 資料的訓練資料集,並在 PuzzleVQA(作為領域內測試)和 AlgoPuzzleVQA(作為領域外測試)上測試了微調後的模型。
實驗結果如表所示。作者發現,在 2B 和 7B 模型中,No-Thinking-RL 在領域內和領域外測試上均表現優於帶思考的 RFT。原因可能是 2B 和 7B 基礎模型在拼圖任務上的推理能力較弱,因此在 RFT 過程中生成的推理鏈會妨礙學習過程,而 Think-After-Answer 的表現明顯優於常規的帶思考的 RFT。
此外,圖顯示,Think-After-Answer 的準確性獎勵收斂速度遠快於 No-Thinking-RL。所有這些結果進一步驗證了作者的假設:在 RFT 過程中,過早的明確思考會妨礙學習。
結論
本文系統地研究了顯式思考在規則強化微調(RFT)中的作用,提出了三種不同的訓練正規化:CLS-RL、No-Thinking-RL 和 Think-After-Answer,並在多個視覺任務中進行了實證分析。研究發現:
1. CLS-RL 能有效引導多模態大模型(MLLM)進行可驗證的推理,顯著優於傳統的監督微調(SFT),並具有良好的遷移能力,能夠在未見過的資料集上實現 “free-lunch” 式的泛化。
2. No-Thinking-RL 進一步挑戰了“思考是否必要”的假設,透過直接輸出答案而非生成思維鏈,不僅在效能上超越了 CLS-RL,還顯著降低了訓練和推理成本。
3. 在更多複雜任務上的實驗表明,小模型(如 2B)生成的低質量思考內容反而阻礙了RFT的收斂與效能,而在簡單視覺任務中,“不思考”甚至能帶來更優的結果。
4. Think-After-Answer 的引入驗證了一個關鍵假設:在生成可驗證答案之前進行顯式思考會干擾模型學習。
綜上,這項研究不僅挑戰了“思考即合理”的直覺認知,更為如何在不同任務、模型規模下設計更高效的視覺強化學習正規化提供了新的理論依據與實踐路徑。它啟示我們:在多模態推理中,思考的“時機”與“方式”比“是否思考”本身更為重要,為後續 RFT 正規化的設計提供了全新思路。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章