點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!


Q-Insight: Understanding Image Quality via Visual Reinforcement Learning
·論文作者: Weiqi Li(李瑋琦), Xuanyu Zhang(張軒宇), Shijie Zhao†(趙世傑), Yabin Zhang(張亞彬), Junlin Li(李軍林), Li Zhang(張莉) and Jian Zhang†(張健)(†通訊作者)
單位:北京大學資訊工程學院、字節跳動
論文:https://arxiv.org/abs/2503.22679
https://github.com/lwq20020127/Q-Insight
任務背景:畫質理解需求的新挑戰與機遇
近年來,隨著智慧手機攝影、影片流媒體和AI生成內容(AIGC)的快速發展,人們對影像畫質的要求持續攀升,影像質量評估(Image Quality Assessment, IQA)任務的重要性日益凸顯。以往的IQA方法主要分為兩類:(1)評分型方法,這類方法通常只能提供單一的數值評分,缺乏明確的解釋性,難以深入理解影像質量背後的原因;(2)描述型方法,這類方法嚴重依賴於大規模文字描述資料進行監督微調,對標註資料的需求巨大,泛化能力和靈活性不足。針對上述問題,北大與字節跳動聯合提出了基於強化學習的影像質量理解新模型—Q-Insight。與以往方法不同的是,Q-Insight不再簡單地讓模型擬合真實評分(GT),而是將評分視作一種引導訊號,促使模型深入思考、推理影像質量的本質原因。透過這種創新思路,Q-Insight在質量評分、退化感知、多圖比較、原因解釋等多個任務上均達到業界領先水平,具備出色的準確性和泛化推理能力,有望為影像畫質增強、AI內容生成等多個領域提供強有力的技術支撐。
主要貢獻
Q-Insight首次將強化學習引入影像質量評估任務,創造性地運用了“群組相對策略最佳化”(GRPO)演算法,不再依賴大量的文字監督標註,而是挖掘大模型自身的推理潛力,實現對影像質量的深度理解。如圖所示,Q-Insight不僅輸出單純的得分、退化型別或者比較結果,而是提供了從多個角度綜合評估畫質的詳細推理過程。

在實際訓練過程中,我們發現單獨以評分作為引導無法充分實現良好的畫質理解,原因是模型對影像退化現象不夠敏感。為了解決這一問題,我們創新性地引入了多工GRPO最佳化,設計了可驗證的評分獎勵、退化分類獎勵和強度感知獎勵,聯合訓練評分迴歸與退化感知任務。這種多工聯合訓練的策略,顯著提高了各個任務的表現,證明了任務之間存在的強互補關係。

實驗結果
實驗結果充分驗證了Q-Insight在影像質量評分、退化檢測和零樣本推理任務中的卓越表現:
在影像質量評分任務上,Q-Insight在多個公開資料集上的表現均超過當前最先進的方法,特別是在域外資料上的泛化能力突出,並能夠提供完整詳細的推理過程。

在退化感知任務上,Q-Insight的表現顯著優於現有的退化感知模型,尤其是在噪聲(Noise)和JPEG壓縮退化型別識別的準確性上。

在零樣本影像比較推理任務上,Q-Insight無需額外監督微調,即可準確、細緻地分析和比較影像質量,展示出強大的泛化推理能力。

VILLA實驗室簡介
視覺資訊智慧學習實驗室(VILLA)由北京大學長聘副教授張健於2019年創立,致力於視覺重建與生成、AIGC內容安全等前沿領域的研究,成立以來已在TPAMI、TIP、IJCV、CVPR、ICCV、NeurIPS等頂級期刊會議上發表論文100餘篇,其開源專案在GitHub平臺獲得廣泛關注,累計star數超過10k。實驗室負責人張健副教授谷歌學術引用逾1.1萬次,h-index達52,其單篇一作論文最高被引超1300次,累計榮獲國際期刊/會議最佳論文獎6項及全球挑戰賽冠軍1項。近期代表工作包括:影像條件可控生成模型T2I-Adapter、拖拽式細粒度影像/影片編輯DragonDiffusion/ReVideo、全景影片生成模型360DVD、全景內容處理/增強方案ResVR/OmniSSR、零值域擴散重建模型DDNM、高效擴散超分方案AdcSR、動態場景重建框架HiCoM/OpenGaussian、實用影像壓縮感知重建PCNet、多模態篡改檢測大模型FakeShield、支援AIGC篡改定位與版權保護水印技術OmniGuard/EditGuard、多模態畫質理解大模型Q-Insight等。多項技術已成功應用於產業界,獲得國內外知名企業的產品化落地。實驗室動態可透過官網(https://villa.jianzhang.tech/)或張健老師個人主頁(https://jianzhang.tech/)檢視。
何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!
CVPR 2025 論文和程式碼下載
在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集
ECCV 2024 論文和程式碼下載
在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
