IndoorMS:首個多光譜室內場景理解語義分割資料集

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

0 導讀
本論文的第一作者朱欽峰是西交利物浦大學在讀博士生,其導師為範磊副教授。他的主要研究方向為語義分割、多模態資訊融合、3D視覺和資料增強。
主頁:https://zhuqinfeng1999.github.io/
本文是對論文IndoorMS: A Multispectral Dataset for Semantic Segmentation in Indoor Scene Understanding的解讀。 
室內場景理解是計算機視覺中的關鍵任務,傳統上依賴RGB資料進行深度學習驅動的語義分割,以實現畫素級別的場景理解。然而,室內環境中的多光譜資訊卻鮮少被利用,這種資訊能夠提供超越可見光譜的寶貴資料。為填補這一空白,我們推出了IndoorMS,一個專為室內場景語義分割設計的多光譜資料集。該資料集使用多光譜感測器在17座建築的多樣化室內環境中採集影像,涵蓋會議室、大廳、休息室、辦公室、走廊和教室等場景。IndoorMS提供了19個精細標註的語義類別,為室內場景分割的穩健評估奠定了基礎。
我們使用多種領先的語義分割框架進行了基準實驗,並對它們的效能進行了深入分析。結果顯示,最佳模型組合——ConvNeXt-s與UperNet——取得了82.38的mF1得分和72.90的mIoU得分。儘管取得了這些令人鼓舞的結果,IndoorMS對分割網路的挑戰依然存在,如類別分佈不平衡以及RGB與多光譜資料之間的領域差異。這項工作標誌著首次透過專用資料集支援多光譜室內場景理解的努力,為該領域的研究開闢了新機遇。我們還提出了未來研究的潛在方向。資料集目前已在github開源。

論文標題:IndoorMS: A Multispectral Dataset for Semantic Segmentation in Indoor Scene Understanding
原文連結:
https://doi.org/10.1109/JSEN.2025.3559348
專案主頁:
https://zhuqinfeng1999.github.io/IndoorMS/
下載地址:
https://github.com/zhuqinfeng1999/IndoorMS
單位:西交利物浦大學、利物浦大學
01 背景介紹:多光譜資料在室內場景中的潛力
室內場景理解在智慧自動化系統中至關重要,尤其是在室內自主車輛和無人機等無人系統中,它們需要準確識別室內物體和區域以進行導航和路徑規劃。傳統的語義分割方法依賴RGB資料,但多光譜資料能夠提供更豐富的特徵,特別是在遙感、醫學成像等領域已展現出巨大價值。然而,在室內場景理解中,多光譜資料的應用仍相對較少。 
IndoorMS資料集的釋出填補了這一空白,首次為研究者提供了在室內環境中利用多光譜資訊進行語義分割的機會。透過捕捉可見光和紅外波段的資訊,IndoorMS能夠提供比RGB資料更豐富的特徵,有望提升語義分割的精度和魯棒性。
02 資料集介紹:IndoorMS的構建與標註

圖1. IndoorMS資料集示例影像,包括休息室、走廊和教室場
IndoorMS資料集包含從17座不同建築物中採集的227張多光譜影像,涵蓋多種室內場景,如會議室、走廊、教室等。資料採集時考慮了不同時間和天氣條件下的光照變化,確保了資料的多樣性。資料集提供了19個精細的語義類別,包括牆壁、天花板、地板、門窗等,為複雜的室內場景理解任務提供了挑戰。
資料採集:使用Silios CMS4多光譜感測器,採集9個波段的影像,覆蓋554nm至838nm的波段以及一個灰度通道。資料採集覆蓋了多種光照條件和視角,確保了場景的多樣性。
資料標註:採用全手動標註方式,使用Label Studio工具。為了便於標註,多光譜資料透過偽彩色轉換技術轉化為RGB格式,同時提供高解析度彩色影像作為參考,確保標註的準確性。
資料集劃分:資料集按7:1:2的比例劃分為訓練集(158張)、驗證集(22張)和測試集(47張),採用隨機劃分策略以保持場景多樣性。 

圖2. 多光譜資料偽彩色轉換示意圖

圖3. 標註過程示意圖,包括偽彩色影像、標註結果和高解析度參考影像 
03 實驗 
為評估IndoorMS資料集在語義分割任務中的表現,我們使用多種代表性的語義分割框架進行了基準測試,包括ConvNeXt、ResNet、Swin Transformer等編碼器與UperNet、BiSeNet、DeepLabV3+等解碼器的組合。
實驗設定:所有模型在兩個24GB NVIDIA 4090D GPU上訓練,輸入影像調整為512×512解析度,批次大小為16。訓練採用交叉熵損失函式,並進行了廣泛的超引數調優。
評價指標:使用IoU、mIoU和mF1作為評價指標,進行了三次重複訓練以確保結果的穩健性。
結果:在從頭訓練的情況下,所有方法的分割效能有限,最佳組合ConvNeXt-s與UperNet的mIoU僅為51.61。採用ImageNet預訓練後,效能顯著提升,ConvNeXt-s與UperNet的mIoU達到72.90,mF1達到82.38。然而,某些類別如Clutter、Column、Railing和Signage的分割效能仍較低,反映了資料集中的挑戰,如類別不平衡和罕見類別的稀缺。
多光譜 vs. 偽彩色:與偽彩色影像(模擬RGB資料)相比,多光譜資料在語義分割中表現出明顯的效能優勢,證明了多光譜資訊的價值。 
04 結論
IndoorMS資料集的釋出為多光譜室內場景理解研究開闢了新天地。實驗結果顯示,儘管多光譜資料在語義分割中展現出潛力,但類別不平衡、領域差異和資料集規模有限等挑戰依然存在。未來的研究可以探索以下方向:
1. 訓練與資料增強策略:開發更有效的策略以應對類別不平衡,特別是最佳化罕見類別的效能。
2. 預訓練策略:設計基於ImageNet的預訓練策略,以緩解RGB與多光譜資料之間的領域差異。
3. 多光譜預訓練資料集:構建大規模多光譜預訓練資料集,為多光譜分析任務提供強大的預訓練模型。
4. 專用神經網路:設計專門針對多光譜資料的神經網路,以更有效地提取通道特定特徵。
5. 小樣本學習:開發高效的神經網路,充分利用有限資料中的特徵。
6. 目標檢測與例項分割:收集多光譜資料集用於室內目標檢測和例項分割,為室內機器人提供更全面的感知能力。
7. 真實與合成數據整合:探索將真實和合成多光譜資料相結合的方法,以增強模型的泛化能力。
隨著多光譜技術的不斷進步,我們期待在室內機器人、增強現實等領域看到更多創新應用。
參考文獻:
[1] Zhu, Qinfeng, Jingjing Xiao, and Lei Fan. "IndoorMS: A Multispectral Dataset for Semantic Segmentation in Indoor Scene Understanding." IEEE Sensors Journal (2025).
何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章