3D高斯潑濺演算法大漏洞:資料投毒讓GPU視訊記憶體暴漲70GB,甚至伺服器宕機

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI

隨著3D Gaussian Splatting(3DGS)成為新一代高效三維建模技術,它的自適應特性卻悄然埋下了安全隱患。在本篇 ICLR 2025 Spotlight 論文中,研究者們提出首個專門針對3DGS的攻擊方法——Poison-Splat,透過對輸入影像加入擾動,即可顯著拖慢訓練速度、暴漲視訊記憶體佔用,甚至導致系統宕機。這一攻擊不僅隱蔽、可遷移,還在現實平臺中具備可行性,揭示了當前主流3D重建系統中一個未被重視的安全盲區。

引言:3D視覺的新時代與未設防的後門隱患

過去兩年,3D視覺技術經歷了飛躍式發展,尤其是由 Kerbi等人在2023年提出的3D Gaussian Splatting (3DGS),以其超高的渲染效率和擬真度,一躍成為替代NeRF的3D視覺主力軍
你是否用過 LumaAI、Spline 或者 Polycam 之類的應用上傳圖片生成三維模型?它們背後很多就用到了3DGS技術。3D高斯潑濺無需繁重的神經網路,僅靠一團團顯式的、不固定數量的3D高斯點即可構建逼真的三維世界。
但你知道嗎?這個看起來高效又靈活的“新王者”,居然隱藏著一個巨大的安全隱患——只要改動圖片的細節,就能讓系統在訓練階段直接崩潰!
來自新加坡國立大學和崑崙萬維的研究者在 ICLR 2025上的Spotlight論文《Poison-Splat: Computation Cost Attack on 3D Gaussian Splatting》中,首次揭示了這一致命漏洞,並提出了首個針對3DGS計算複雜度的攻擊演算法:Poison-Splat
圖一:乾淨(左)與Poison-Splat攻擊後(右)的輸入影像、三維高斯點雲,以及GPU視訊記憶體、訓練時間和渲染速度的顯著變化。這裡的每張圖片由畫素表徵(左上)和3DGS高斯點的視覺化(右下)拼接而成,更好地展示其二維畫素空間和三維高斯空間的變化。

問題背景:強大的模型“適應性”是優點,還是漏洞?

圖二:NeRF (左) 和 3D Gaussian Splatting (右) 分別引領了3D視覺的一個時代,但它們的核心思想卻截然不同。NeRF (圖a) 使用神經網路對三維場景隱式建模,其複雜度和計算成本由訓練者透過超引數人為指定;而 3DGS (圖b) 使用不固定數量的三維高斯對場景顯式建模,其複雜度和計算成本會根據需要建模的三維內容進行自適應調整。
3D Gaussian Splatting 相比於NeRF最大的區別之一,就是它擁有自適應的模型複雜度:
  • 訓練過程中,模型會根據影像複雜度自動增加或減少高斯點(3D Gaussian)
  • 影像越複雜,模型訓練過程就會產生越多的高斯點 → 佔用更多視訊記憶體、需要更長訓練時間
本質上,3DGS會智慧地根據建模場景“細節多不多”來決定要分配多少計算資源。
圖三:計算成本(GPU視訊記憶體佔用、訓練效率)、高斯點數量、資料集影像複雜度之間的強正相關關係。對於不同的資料集場景,(a) GPU視訊記憶體佔用和高斯點數量的關係;(b)訓練耗時和高斯點數量的關係;(c) 高斯點數量和圖片複雜程度(以Total Variation Score衡量)的關係。
這原本是一個很聰明的設計, 3DGS依靠其強大的適應性,可以讓每一個參與訓練的高斯點都“物盡其用”。
但問題來了,如果有人故意上傳“帶毒的複雜影像”,會發生什麼?

揭秘3DGS的複雜度漏洞:Poison-Splat攻擊演算法

攻擊目標:GPU佔用率和訓練時間
設計一種擾動輸入影像的方法,將經過擾動的影像作為3DGS的輸入後,能夠大幅增加訓練成本(GPU視訊記憶體和訓練時長)。
問題建模:max-min雙層最佳化問題
我們可以將整個攻擊建模成一個 max-min雙層最佳化(bi-level optimization)問題:
  • 內層(min):3DGS 嘗試還原三維場景,擬合各視角的輸入影像。(正常訓練)
  • 外層(max):攻擊者試圖找到最“消耗資源”的影像擾動方式。(攻擊目標)
這類雙層最佳化問題通常都極難直接求解。為此,研究者們提出了三大創新策略:
核心技術1:引入“代理模型”(proxy model) 作為內層近似器
  • 為了降低計算成本,我們訓練一個輕量的代理 3DGS 模型,用於快速模擬 victim 的行為
  • 每次攻擊迭代時,從代理模型生成檢視,再進行最佳化更新
  • 保證多視角一致性(multi-view consistency),避免影像之間相互矛盾
核心技術2:利用影像“非光滑性”誘導高斯密度增長
  • 觀察發現,3DGS 會在細節豐富/邊緣突出的影像區域生成更多高斯點
  • Total Variation(TV)值是對影像“非光滑度”的一個很好的度量。因此我們最大化影像的 Total Variation(TV)值,從而誘導3DGS模型過度複雜。
核心技術3:約束擾動強度,提升攻擊隱蔽性
  • 攻擊影像若改動過大,容易被檢測
  • 借鑑對抗攻擊領域的經典設定,攻擊者可引入 L-∞球約束(ϵ-ball)控制每個畫素最大擾動,確保影像語義完整、肉眼難以分辨
  • 如果沒有隱蔽性要求,攻擊者可以無限制擾動輸入影像,最大化攻擊效果
圖四:在約束條件下,攻擊者的代理模型產生的變化被限制在畫素擾動預算內,可以隱蔽地增加三維重建需要的計算消耗。
圖五:無約束攻擊中,攻擊者使用的代理模型的三維表徵不受限制地複雜化,使三維重建所需的計算成本大大增加。

實驗結果:最高讓訓練時間翻倍、視訊記憶體飆升20倍

研究者在多個公開3D資料集(NeRF-Synthetic、Mip-NeRF360、Tanks and Temples)上評估了攻擊效果。實驗結果證實,對於危害最大的無限制攻擊,其攻擊效果令人震驚。在被攻擊的最差3D場景下:
  • GPU視訊記憶體:從原本不到4GB飆升到80GB(直接擊穿主流顯示卡)
  • 訓練時間:最長可達接近5倍增長
  • 高斯數量:最高可增加至原來的20倍+
  • 渲染速度:最壞可降至原來的1/10
圖六:當攻擊者可以無限制地對輸入影像進行改動,可以帶來極高的額外計算開銷,對服務提供商造成重大的資源浪費。
就算對輸入圖片做了隱蔽性約束,當圖片中每個畫素的擾動都不得和乾淨圖片偏離16個畫素值時,其攻擊效果仍然不容小覷,且隱蔽性更高,更加難以識別和檢測:
圖七:在畫素值擾動不超過16/255的約束下,部分場景能使視訊記憶體消耗增高超過8倍,以至超過常見24GB顯示卡的顯上限。
此外,攻擊對黑盒模型同樣有效(如 Scaffold-GS),表明它不僅“殺傷力強”,還具備“跨平臺傳染性”。

圖八:即使攻擊者無法事先知道服務商具體的模型和引數,黑盒攻擊也能產生效果。當攻擊者針對原始3DGS演算法進行Poison-splat攻擊,產生的投毒資料對於Scaffold-GS這樣的變體模型仍然有很好的攻擊效果。

實際風險:這不是學術遊戲,而是真實威脅

現實中,很多3D服務商(如 Polycam、Kiri)都支援使用者自由上傳影像或影片進行建模。
這意味著:
  • 攻擊者可以偽裝成普通使用者提交“毒圖”
  • 在高峰時段導致系統“忙不過來”
  • 若GPU資源被“毒圖”霸佔,其他使用者任務將被拒絕執行,導致服務癱瘓(DoS)
圖九:原始影像、約束攻擊、無約束攻擊作為輸入時的計算代價對比。橫座標是3DGS模型擬合輸入圖片需要的訓練時長,縱座標是訓練過程中GPU即時視訊記憶體消耗。相比於原始影像,poison-splat攻擊會大幅增加GPU視訊記憶體佔用和訓練時長,讓系統負載飆升。

意義與貢獻:為何要“攻擊”3DGS?

提出風險不是在“搗亂”,而是在為AI系統打預防針。這項工作是:
  • 首次系統性地揭示3DGS訓練階段的資源安全漏洞
  • 首個在三維視覺中將“資料投毒”擴充套件到“訓練資源消耗”這一維度
  • 提出一套通用且具備可遷移性的攻擊框架,推動 3D 安全領域發展
與此同時,研究者們也揭示了簡單的防禦(如限制高斯數量)無法有效應對攻擊,且會嚴重降低模型重建精度,導致模型“學不好”,服務方依然無法交付高質量 3D 場景。
圖十:簡單限制高斯點總量並不是理想的防禦。雖然能限制資源消耗,但會嚴重影響3D重建的服務質量。如何設計更加智慧的防禦仍然是一個開放問題。
這些結果預示著,如果 3D 重建廠商沒有相應防護,一旦有人“惡意上傳”或“篡改”使用者資料,系統很可能出現視訊記憶體不足或訓練無效。
目前該研究已將全部程式碼、資料處理流程、可復現實驗開源,感興趣的小夥伴可以在Github上檢視
在空間智慧、世界模型更加需要依賴三維視覺的今天,討論其演算法的安全性也變得越來越重要。在通往更強大AI的道路上,我們需要的不僅是效能的飛躍,還有安全的護欄。希望這篇工作能喚起大家對3D AI系統安全性的重視。
歡迎在留言區分享你的觀點、疑問或補充!
論文連結:https://arxiv.org/pdf/2410.08190GitHub:https://github.com/jiahaolu97/poison-splat
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章