
©PaperWeekly 原創 · 作者 | 楊雨辰
單位 | 復旦大學、上海人工智慧實驗室

簡介
精確的人體 3D 姿態估計是眾多領域的基礎,如機器人、運動表現分析等,而獲取大量的自然條件下的 3D 姿態標註極其困難。具體而言,3D 姿態真值獲取通常需要搭建動作捕捉環境。該方式仍然需要耗費大量人力物力,且資料受限於動作型別和人體外貌多樣性,因而使得以 3D 真值為基礎的全監督姿態估計算法難以泛化到更多室外場景。
上海人工智慧實驗室的研究團隊著眼於無監督的姿態估計,旨在發揮該類演算法能夠利用大量室外未標註的資料的特性,增強模型效能。考慮到無監督的分割演算法 [1] 在室外場景的優秀表現,研究團隊探索了利用更易廣泛獲取的人體掩膜作為監督訊號,完成端到端的無監督 3D 姿態估計的演算法,近期為 ECCV 2024接收。

論文標題:
Mask as Supervision: Leveraging Unified Mask Information for Unsupervised 3D Pose Estimation
論文連結:
https://arxiv.org/pdf/2312.07051.pdf
程式碼連結(即將公開):
https://github.com/Charrrrrlie/Mask-as-Supervision
演算法以下兩大問題上實現突破:
-
提出顯式利用人體結構先驗,消除了以往無監督方法中還存在的有監督後處理(SPP)步驟 -
強調了無監督方法中難以區分人體左右的問題,並提出利用一致性約束進行有效解決
實現 SOTA 無監督 3D 姿態估計結果,推動了 3D 姿態估計在更廣泛複雜場景的應用。
Pipeline


動機

無監督姿態估計的難點在於設計無需人工標註的損失函式,為檢測器最佳化提供目標。
人體掩膜容易以無監督的方式獲得,包括以影片為輸入的傳統靜態背景建模方法,以及利用新興的 SAM [1] 在豐富圖片上的泛化能力。同時,掩膜能夠看作是關鍵點的退化形式。如果人體關鍵點能從人體掩膜中被髮掘,便能夠實現監督訊號的獲取。
於是我們將關鍵點到人體掩膜的過程看作由粗至細粒度的補全過程,設計了包含結構資訊的人體骨架掩膜和包含形狀資訊的人體體型掩膜,深度挖掘掩膜資訊,由關鍵點逐步逼近真實掩膜。
消除有監督後處理步驟

姿態檢測中的人體關鍵點包含有指定順序和實際物理含義,一類無監督姿態估計算法並未考慮這一點,導致雖然檢測的關鍵點和某些真值關鍵點相合,但無法確定具體對應關係。
較差的可解釋性使得該類方法需要檢測較多數量的關鍵點(大於 30 個),並透過訓練集上的真值,學習關鍵點到真值姿態的對映關係,採用有監督後處理(supervised post-processing, SPP)得到最終結果。該類方法仍然需要訓練集上的人工標註,與真正無監督的理念相悖。

本文演算法將人體視作由剛體骨架構成的整體,構造骨架特徵圖。利用 [2] 擴充套件的高斯核,以一定寬度的線段顯式建模由一對關節點連線的骨骼 B_b。當骨架的連線方式確定時,每一個關鍵點的物理含義將被確定。同時,其在掩膜中的最優結構,將確定關鍵點的目標位置。
人體左右對稱的影響

由於人體的對稱性,基於人體形狀建模的無監督方法在左右關鍵點互換後,仍將得到相同的損失,從而並不能區分人體左右狀態。使用有監督後處理的諸多方法中,該對稱性由有監督的對映解決,並被忽略討論。
本文強調了這一問題,並使用多視角影像進行解決。在多視角影像可用時,用以構建人體掩膜的關鍵點將利用相機引數投影至二維,從而透過多視角幾何約束確保各視角下關鍵點沒有出現對稱性錯誤。
最佳化監督訊號

考慮到將顯式建模的人體骨架置於人體掩膜中,會出現多種次優的結構,這將對演算法的最佳化產生困難。本文使用了層次化的最佳化方式,首先將變化範圍較小的軀幹部分構建人體骨架進行最佳化,而後將四肢納入最佳化過程。此外,我們還設計了基於測地距離的權重掩膜,使得遠離掩膜中心的正確關鍵點能減少更大損失,並容忍接近掩膜區域但位於掩膜外的錯誤關鍵點,從而平滑最佳化的求解空間。
實驗結果

我們在常用的 Human3.6M 和 MPI-INF-3DHP 資料集上進行實驗,取得了無監督演算法中的 SOTA 結果。
Human3.6M資料集

我們標註了不同方法共性的設定,包括 SPP(有監督後處理)、UP(未配對的真值姿態或基於此的先驗)、T(人工設計的模板)、SF(有監督翻轉,對應左右不分問題)。
可以看出,本文演算法無需上述限制條件,即可實現無監督 3D 姿態估計,並取得最優效能。同時,在 SPP 的設定下,演算法突出的效能也進一步說明利用掩膜資訊挖掘特徵的有效性。
MPI-INF-3DHP資料集

在該資料集上多數方法採用了上述 SPP 或 UP 的設定,我們在同樣設定下取得了 SOTA 效能,並展示了 MPI-INF-3DHP 資料集推薦的 PCK 和 AUC 指標,方便後續工作進行比較。
利用室外場景資料
為驗證本文提出的無監督演算法具有利用並學習廣泛來源資料的能力,我們設計了多個數據集混合訓練的實驗,包括引入完全無任何姿態資料標註的 TikTok 影片資料集。在資料量逐步提升時,模型在未參與訓練的野外資料集 MPII 中效能表現逐步提升,從模型泛化能力的角度證明本文無監督方法的可適用性。
TikTok 資料集單目影像中得到 3D 姿態標註結果:

多個數據集混合訓練的效能提升結果:


參考文獻

[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollar, and Ross Girshick. Segment anything. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4015–4026, 2023
[2] Xingzhe He, Bastian Wandt, and Helge Rhodin. Autolink: Self-supervised learning of human skeletons and object outlines by linking keypoints. Advances in Neural Information Processing Systems, 35:36123–36141, 2022
有興趣實習或者工作的讀者請聯絡:[email protected]
歡迎大家🌟該專案~
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
