谷歌提出FlexiViT:適用於所有Patch大小的模型

點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
轉載自:CVHub
Title

: FlexiViT: One Model for All Patch Sizes

Author: Lucas Beyer et al. (Google Research)
Paper: https://arxiv.org/pdf/2212.08013v1.pdf
Github: https://github.com/google-research/big_vision
太長不看版,果然還是延續谷歌的風格,創新不夠,實驗來湊。
廢話不多說,直接上圖,一圖勝千言:
FlexiViT
顧名思義,FlexiViT,翻譯過來不就是靈活ViT 嘛?
Ooo,那怎麼體現靈活?我們先回顧下 Vision Transformers 的工作流程。
一句話總結就是,ViT 是一種透過將影像切割成一個個小方塊(patch)將影像轉換為序列從而輸入到Transformer網路進行訓練和推理的一種神經網路架構。
本文的重點便是在研究這些小塊塊對效能的最終影響。通常來說:
  • 方塊切的越小,精度會越高,但速度就變慢了;
  • 方塊切的越大,精度會降低,但速度就上來了;
So,我們究竟是要做大做強,還是做小做精緻?不用急,來自谷歌大腦的研究人員為你揭曉答案:成年人才做選擇,老子大小通吃。
正經點,讓我們切回來,古哥透過燃燒了數不盡的卡路里向我們證明了,在訓練期間隨機改變方塊的大小可以得到一組在廣泛的方塊大小範圍內表現良好的權重(泛化效能好)。
這結論有什麼用?那便是使得在部署時大家可以根據不同的計算預算來調整模型。
透過在以下五大版圖進行廣泛的投資,可以清晰的發現收益率遠超滬深300:
  • 影像分類
  • 影像-文字檢索
  • 開放世界檢測
  • 全景分割
  • 語義分割
為了照顧下你們這些散(韭)戶(菜),古哥說你們可以將它任意新增到大多數依賴ViT骨幹架構的模型來實現計算自由,即模型可以根據不同的計算資源調整自己的工作方式,從而獲得更好的效能和效率。
說了這麼多,怎麼做?直接把代號都發給你了,明天早盤直接梭哈即可:
看到看到這裡了,總不能白嫖吧?點個贊友情轉發下再走咯~~~
FlexiViT論文和程式碼下載
後臺回覆:FlexiViT,即可下載上面論文和程式碼
Transformer交流群成立
掃描下方二維碼,或者新增微信:CVer222,即可新增CVer小助手微信,便可申請加入CVer-Transformer 微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Transformer+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer222,進交流群
CVer學術交流群(知識星球)來了!想要了解最新最快最好的CV/DL/ML論文速遞、優質開源專案、學習教程和實戰訓練等資料,歡迎掃描下方二維碼,加入CVer學術交流群,已彙集數千人!

掃碼進群
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章