西湖大學劉沛東團隊獲CVPR2025最佳論文候選!GlobustVP求解器全面提升3D視覺滅點精度、速度和魯棒性!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

來源:西湖大學工學院SOE
近期,西湖大學工學院劉沛東團隊研究推出了一個創新魯棒全域性GlobustVP求解器首次將凸鬆弛技術引入曼哈頓世界滅點估計領域,透過創新性"軟關聯"機制將非凸最佳化問題轉化為半正定規劃問題。合成數據和真實世界資料上的大量實驗表明,與以往的研究相比,GlobustVP 在效率、魯棒性和全域性最優性之間取得了良好的平衡,顯著優於原SOTA方法。其核心突破在於:首次構建線段滅點聯合推理的全域性最佳化框架,透過截斷損失函式實現抗離群點最佳化,並設計幾何正交約束來滿足曼哈頓空間假設。該成果已開源作為三維重建、SLAM領域的新基礎工具,為自動駕駛等場景提供關鍵技術支撐。相關研究成果以“GlobustVP: Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World”為題,發表於計算機視覺頂級會議CVPR 2025The IEEE/CVF Computer Vision and Pattern Recognition Conference》,從全球13,008篇投稿(接收率22.1%)中脫穎而出,成功入選僅有15篇的最佳論文候選名單(Best Paper Finalist)(Top 0.1%
論文連結:
https://openaccess.thecvf.com/content/CVPR2025/html/Liao_Convex_Relaxation_for_Robust_Vanishing_Point_Estimation_in_Manhattan_World_CVPR_2025_paper.html
三維感知的持久挑戰:消失點問題的設定
在我們的日常視覺經驗中,一個常見的現象是,當我們注視一條筆直的鐵軌或公路延伸至遠方時,兩條在三維世界中平行的線,在二維的照片上似乎會交會於地平線上的一點,這個點在計算機視覺中被稱為“消失點” 。精確定位消失點是讓機器從平面圖像中解讀其三維空間結構的基礎,對於相機標定、同步定位與地圖構建(SLAM)以及場景結構理解等任務至關重要。
本次研究聚焦於曼哈頓世界的假設下進行消失點估算這個假設認為,人造環境(如城市街道、室內房間)中的絕大多數結構都由三個相互正交(垂直)的主要方向構成,如同曼哈頓的棋盤式街道佈局儘管這為問題提供了有用的結構性先驗,但估算消失點的核心挑戰依然存在,且極其複雜。
挑戰的根源在於一個雞生蛋,蛋生雞的困境:要找到一個消失點,你需要知道影像中的哪些線段是指向它的;但反過來,要確定哪些線段屬於同一個消失點,你又需要先知道這個消失點的位置這種線段與消失點之間的耦合關係使得最佳化問題的求解空間充滿了大量的區域性最小值local minima——也就是那些看起來不錯但實際上是錯誤的解答因此,一個能保證找到全域性最優解的演算法顯得尤為珍貴。
過去數十年,研究人員提出了各式各樣的解決方案,主要可分為三類:
  • 區域性最佳化方法:如基於RANSAC、期望最大化(EM)或霍夫變換(Hough voting)的演算法,它們速度較快,但其隨機抽樣的特性使其無法保證能找到全域性最優解,結果往往不穩定且對初始值的設定非常敏感。
  • 全域性最佳化方法:如分支定界法(Branch-and-Bound, BnB),雖然能保證找到數學上的最優解,但其運算成本在最壞情況下呈指數級增長,在處理複雜場景或大量線段時,耗時過長,嚴重限制了其實用性。
  • 基於學習的方法:近年來,深度學習也被應用於此任務,但這類方法通常缺乏可解釋性與最優性保證,且其表現高度依賴訓練資料,對於從未見過的場景型別,其泛化能力往往不足,限制了它們在實際場景中的應用。
總結來說,一個能同時滿足全域性最優性、對噪聲和無關資料有強大抵抗力(穩健性)、並且運算速度足夠快的消失點估算演算法,一直是學界亟待解決的難題。

GlobustVP的正規化轉移:凸鬆弛的創新解法

GlobustVP的誕生,為解決上述挑戰提供了一個全新的正規化其核心思想是首次將凸鬆弛技術引入消失點估算領域,將原本棘手、充滿陷阱的非凸最佳化問題,巧妙地轉化為一個平滑、易於求解的凸問題,從而能直接找到全域性最優解。
此方法主要包含以下幾個創新步驟:
第一步:創新的軟性關聯截斷式多重選擇誤差
傳統方法通常以非黑即白的方式將每條線段硬性分配給某個消失點或將其判定為局外點。 GlobustVP則採用了一種更靈活的軟性關聯機制,這是透過一個獨創的截斷式多重選擇誤差truncated multi-selection error)來實現的。
這個誤差設計有兩大亮點:
  • 多重選擇(Multi-selection):它不僅能判斷一條線是局內點inlier,屬於某個VP)還是局外點outlier,無關的線),還能同時確定它屬於三個消失點中的哪一個,實現了線段關聯與消失點定位的聯合估計。
  • 截斷(Truncated):對於那些與所有三個消失點都相距甚遠的局外點(即無關的干擾線段),演算法會賦予它們一個固定的、預設的最大誤差值。這樣做的好處是,這些無關的干擾線段不會對最終消失點的精確定位產生過度的負面影響,因為它們的誤差貢獻被截斷了,從而確保不會引入偏差,極大地提升了演算法的穩健性。
第二步:從QCQPSDP凸鬆弛
基於上述的誤差公式,研究團隊首先將整個問題構建為一個二次約束二次規劃(Quadratically Constrained Quadratic Programming, QCQP問題。雖然這是數學上的標準形式,但它本質上仍是一個非凸問題,難以直接求得全域性最優解。
接下來便是整個研究的點睛之筆——凸鬆弛研究人員利用矩陣理論中的技巧,將這個複雜的QCQP問題鬆弛成一個半定規劃(Semidefinite Programming, SDP問題。具體而言,他們透過引入一個新的矩陣變數並捨棄其中唯一的非凸秩一約束rank-1 constraint)來實現這一轉化。 SDP問題是一類著名的凸最佳化問題,其最大的優點是不存在誤導性的區域性最小值。這意味著,一旦問題被轉化為SDP形式,就可以使用現成的最佳化求解器,在多項式時間內找到那個獨一無二的全域性最優解。研究團隊在論文的附錄中從理論上證明,在無噪聲和無局外點的條件下,這種鬆弛是緊的tight relaxation),代表著求解這個簡化後的SDP問題等同於求解原始的、更困難的問題。
第三步:高效的“GlobustVP迭代求解器
儘管SDP能保證全域性最優解,但當影像中的線段數量龐大時,直接求解一個巨大的SDP問題仍然可能非常耗時。為此,研究團隊設計了一個名為“GlobustVP”的高效迭代求解器。
這個求解器採用了逐個擊破的策略。它並非一次性求解全部三個消失點,而是在每次迭代中,集中精力去全域性搜尋一個消失點及其對應的線段集合,並將其餘所有線段暫時視為局外點。這個子問題對應一個規模小得多的SDP問題,可以被快速地全域性求解。一旦找到一個消失點和它的粉絲線段們,這些線段就會被從資料集中移除,然後演算法在剩下的線段中繼續尋找下一個消失點。經過三次迭代,三個消失點的初步位置便被依次找出。最後,再透過一個曼哈頓後處理精煉步驟,對這三個點的位置進行微調,以確保它們嚴格滿足相互垂直的幾何約束。

方法亮點與實證
GlobustVP演算法的卓越性不僅體現在理論的優雅,更在大量的合成數據與真實世界資料集的實驗中得到了充分驗證。
  • 全域性最優性保證:與那些可能陷入區域性最優解的傳統方法不同,GlobustVP基於凸鬆弛的框架為該問題提供了堅實的理論基礎。在溫和的條件下,該方法能夠保證找到問題的全域性最優解,論文的附錄中提供了嚴謹的數學證明。
  • 卓越的穩健性:獨創的截斷式誤差設計使得演算法對局外點(無關線段)和噪聲(不精確的線段檢測)具有極強的抵抗力。在合成數據測試中,即使在局外點比例高達70%的極端情況下,GlobustVP依然能保持極高的準確率,而其他多種主流方法在此情況下效能已嚴重下降甚至失效。
  • 效率與準確性的絕佳平衡:GlobustVP在運算速度和準確性之間取得了出色的平衡。實驗結果表明,它比同樣追求全域性最優解的BnB方法快得多,同時準確率遠高於以速度見長的RANSAC等方法。這一點使其不僅在理論上優越,在實際應用中也極具價值。
  • 強大的泛化能力與真實世界表現:作為一種基於幾何模型的演算法,GlobustVP不依賴特定的資料集進行訓練,因此具有很強的泛化能力。在國際公認的真實世界資料集York Urban Database (YUD)上的測試中,GlobustVP的角度準確率(AA)全面超越了所有對比的傳統方法和頂尖的深度學習方法。在另一合成數據集SU3上的表現也極具競爭力。大量的定性和定量結果(如圖1和圖7所示)均證明了其在真實場景中的優越效能。
本項研究的第一作者為西湖大學-浙江大學聯合培養的博士研究生廖邦彥,西班牙薩拉戈薩大學的博士後研究員趙禎俊為共同第一作者。西湖大學的劉沛東研究員為通訊作者。
這項工作得到了國家自然科學基金、西湖大學-牧原聯合研究院等專案的資助。
 來 源  | 劉沛東實驗室
 編 輯  | 楊佳吟  審 核  | 劉沛東、蘇凌菲

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章