AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!



-
論文標題:Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization -
論文地址:https://arxiv.org/pdf/2503.11056v1 -
專案主頁:https://kylesargent.github.io/flowmo




-
基於 Transformer 的設計:編碼器和解碼器都使用 Transformer 架構,從而能夠更有效地處理影像資料。 -
一維潛空間表示:FlowMo 產生緊湊的潛在表示,使其適用於下游生成建模任務。 -
量化層:編碼器的輸出被量化以建立離散 token,從而實現更高效的壓縮。 -
擴散過程:解碼器使用擴散過程逐漸將隨機輸入去噪為高質量重建。

-
修正流損失(Rectified flow loss):引導擴散過程向目標影像分佈靠攏,確保生成結果的準確性; -
感知損失(Perceptual loss):保證了重建影像在視覺上與原始影像高度相似; -
熵損失(Entropy loss):鼓勵生成多樣化的潛在編碼,避免模式單一化; -
承諾損失(Commitment loss):使得編碼器輸出與量化表示儘可能接近,進一步優化了模型的穩定性與效率。





-
機率流 ODE:透過少量步驟的機率流常微分方程(ODE)整合; -
感知損失計算:在生成樣本後,模型會計算其與原始影像之間的感知損失,確保重建結果在視覺上與原始影像保持一致; -
解碼器引數更新:基於感知損失,FlowMo 對解碼器引數進行最佳化。









何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
