
由 OpenMMLab 聯合 OpenDataLab、OpenXLab、OpenGVLab 社群共同發起,MLNLP、Datawhale、ReadPaper、極市平臺和真格基金共同參與的 AI Spot 學術分享會即將來襲!AI Spot 聚焦 AI 領域前沿工作,邀請頂會論文一作親臨分享,交流 AI 前沿研究、審視 AI 發展趨勢,共同拓展認知邊界。
首期 AI Spot 分享會將在 7 月 24 日和 7 月 25 日帶來連續兩晚(19:00-21:00)的精彩直播分享。8 位來自上海人工智慧實驗室通用視覺、浦視和開放演算法團隊的研究人員將分享在 CVPR 2024 上發表的最新工作,內容涵蓋當下主流熱門任務,如多模態大模型、多模態的評測基準、三維重建、圖片編輯和生成等,歡迎大家點選下方按鈕預約觀看最熱門、最全面的 CVPR 專題分享。
01
7 月 24 日 精彩議題搶先看
-
多模態大模型幻覺成因解釋以及基於懲罰回退策略的幻覺緩解方法
-
GenNBV:面向主動三維重建的可泛化最佳視角探索策略
-
基於畫素點的拖拽式影像編輯
-
個性化影像動畫生成器,利用文字提示將影像變為奇妙的動畫
02
7 月 24 日 分享嘉賓及主題介紹

黃啟棟
中國科學技術大學的博士生,研究方向為可信/高效 AI 和多模態大模型的基礎研究,以第一作者/通訊作者身份在 CVPR、ICCV、IEEE TIP 等 CCF A 類國際頂級期刊會議上發表論文7篇,其中一作 6 篇,同時是國家獎學金等榮譽獲得者。近期在多模態大模型領域的代表作 OPERA 在國內知名公眾媒體平臺總計閱讀量超過 4 萬,引起學界廣泛關注。
分享主題:
多模態大模型幻覺成因解釋以及基於懲罰回退策略的幻覺緩解方法
簡要概述:
本次分享將從資訊流角度解釋當前多模態大模型在輸出長文字時產生幻覺的原因,揭示大模型本身在文字生成過程中的總結特性,透過一系列實驗說明了視覺資訊在序列中的“遺忘”特點。對此,本文在 Beam Search 的基礎上創新性地加入對於“過度信賴”的懲罰以及回退策略,從多個維度的實驗上表現出對於幻覺緩解的可行性與有效性。
論文連結
https://arxiv.org/abs/2311.17911
程式碼連結
https://github.com/shikiw/OPERA

陳驍
香港中文大學 MMLab 博士生,上海人工智慧實驗室浦器 OpenRobotLab 團隊實習生。目前的研究興趣是具身智慧和三維視覺,尤其是三維空間中可泛化的探索和主動重建策略。個人主頁:https://xiao-chen.tech/
分享主題:
GenNBV:面向主動三維重建的可泛化最佳視角探索策略
簡要概括:
近年來,神經輻射場等技術促進了複雜物體和大規模場景的高保真數字化。但是,採集訓練所需的高質量影像仍然是個非常費時費力的過程。為了克服現有方法跨場景泛化能力的缺陷,我們提出了 GenNBV,一種端到端、可泛化的 NBV 策略。透過採用強化學習框架,以更通用的採集準則進行迭代最佳化,將之前受限的動作空間推廣到五自由度的連續空間,使載有采集裝置的無人機能夠以任意角度進行資料採集。此外,易部署的多源場景表徵集成了場景的幾何和語義和採集軌跡等資訊,顯著增強了 NBV 策略的跨場景泛化能力。
實驗方面,我們基於 Isaac Gym 模擬器和 Houses3K、OmniObject3D 等資料集建立了一套主動重建的基準。實驗證明,我們的 NBV 策略可以不作微調地泛化到訓練階段未見過的、建築物規模的目標物體上,並且在表面覆蓋率、採集效率和重建精度等方面都超過了之前的方法。
論文連結
https://arxiv.org/abs/2402.16174
程式碼連結
https://github.com/zjwzcx/GenNBV

凌鵬揚
中國科學技術大學二年級博士生,研究方向包括影像先驗知識挖掘,高效可靠的影像復原,靈活的影像編輯,和可控式影片生成。
分享主題:
基於畫素點的拖拽式影像編輯
簡要概括:
為了實現穩定的拖拽式影像編輯,本團隊提出了動態更新的模版特徵和具有回溯機制的線性搜尋。模版特徵透過動態調整每次特徵更新的尺度來提高特徵的平穩性和可靠性;線性搜尋透過主動限制搜尋空間來緩解相似語意點的干擾;兩者協同實現更加穩定的拖拽式影像編輯。
論文連結
https://arxiv.org/html/2307.04684v3
程式碼連結
https://github.com/LPengYang/FreeDrag
Demo 體驗連結
https://openxlab.org.cn/apps/detail/LPengYang/FreeDrag

張倚銘
上海人工智慧實驗室和中國科學技術大學聯培博士生,研究方向主要為生成式人工智慧包括影片生成、音訊生成等。
分享主題:
個性化影像動畫生成器,利用文字提示將影像變為奇妙的動畫
簡要概括:
個性化文字到影像 (T2I) 模型的最新進展徹底改變了內容創作,使非專業人士能夠生成具有獨特風格的驚人影像。雖然很有前途,但透過文字在這些個性化影像中新增逼真的運動在保留獨特的風格、高保真細節和透過文字實現運動可控性方面帶來了重大挑戰。我們介紹一款個性化影像動畫生成器 PIA,它擅長與條件影像對齊,透過文字實現運動可控性,以及與各種個性化 T2I 模型的相容性,無需特定微調。
論文連結
https://arxiv.org/abs/2312.13964
程式碼連結
https://github.com/open-mmlab/PIA
Demo 體驗連結
https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia/
03
7 月 25 日 精彩議題搶先看
-
人機協作的視覺生成
-
MVBench: 多模態影片評測體系
-
單階段多維度模型搜尋正規化
-
EgoExolearn:跨視角技能學習資料集
04
7 月 25 日 分享嘉賓及主題介紹

黃子琪
新加坡南洋理工大學 MMLab@NTU 博士生,主要研究方向為視覺生成以及評測,谷歌博士獎學金 2023 獲得者。
分享主題:
人機協作的視覺生成
簡要概括:
近年來,視覺生成領域發展迅速。GANs 和擴散模型,結合大規模資料集,透過實現高質量的影像和影片生成,在娛樂、虛擬現實和數字藝術領域引發了革命性的應用。儘管取得了顯著進展,現有系統仍缺乏實現有效人機協作所需的靈活性和可控性。本報告探討人機協作的方法,旨在透過解決兩個關鍵問題來增強視覺內容生成系統的靈活性與可控性:1)如何在視覺內容生成和操控過程中有效注入人類意圖?2)從人類的角度來看,生成的內容效果如何,並且基於評價反饋可以做出哪些改進?
論文連結
https://arxiv.org/pdf/2311.17982
程式碼連結
https://github.com/Vchitect/VBench
Demo 體驗連結
https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

黎昆昌
現為中國科學院大學博士生,研究領域為影片多模態理解,在 TPAMI、CVPR、ICLR、ICCV 等頂級會議期刊上發表論文 19 篇,其中一作/共一 10 篇,谷歌學術引用 2600 餘次,曾獲博士國家獎學金、中科院院長獎學金等榮譽。
分享主題:
MVBench:多模態影片評測體系
簡要概括:
近年來,多模態大型語言模型(MLLMs)快速發展,然而大多數基準測試主要關注靜態影像任務的空間理解,忽視了動態影片任務的時間理解。為此,我們推出了 MVBench,一個涵蓋 20 個時間相關影片任務的多模態影片理解基準。我們透過靜態轉動態的方法定義這些任務,並自動將公共影片註釋轉為多項選擇問答,確保高效構建和評估公平性。此外,我們開發了影片 MLLM 基線 VideoChat2,透過多模態訓練和多樣化資料實現了卓越效能。實驗結果表明,現有 MLLMs 在時間理解上表現不佳,而 VideoChat2 在 MVBench 上的表現超過了這些模型 15% 以上。
論文連結
https://arxiv.org/pdf/2311.17005
程式碼連結
https://github.com/OpenGVLab/Ask-Anything

葉涵誠
2023 年碩士畢業於復旦大學,現為上海人工智慧實驗室研究員,研究領域為高效機器學習,神經網路模型壓縮。
分享主題:
單階段多維度模型搜尋正規化
簡要概括:
針對目前 ViT 模型搜尋中兩階段搜尋帶來的搜尋成本和評估效能下降,提出單階段搜尋框架,並利用 MIM 技術提升壓縮過程中特徵的表徵能力,從而在壓縮過程中保持重要度和稀疏度評估的準確性。
論文連結
https://arxiv.org/pdf/2403.15835
程式碼連結
https://github.com/HankYe/Once-for-Both

裴寶琦
上海人工智慧實驗室通用視覺中心(OpenGVLab)見習研究員,研究方向為計算機視覺,包括第一人稱影片理解、多模態大模型等。
分享主題:
EgoExolearn:跨視角技能學習資料集
簡要概括:
跨視角技能學習資料集 EgoExoLearn,旨在為機器人賦予透過觀察他人學習新動作的能力。透過採集第一視角與第三視角的影片素材,為機器模擬人類學習模式提供了寶貴的資料資源。同時,EgoExoLearn 精心收錄了總計 120 小時的視角與示範影片,旨在讓機器在多種環境下都能有效學習。
除影片外,我們還記錄了高質量的注視資料,並輔以詳盡的多模態標註。這些資料與標註的結合,構建了一個全面模擬人類學習過程的平臺,有助於解決機器在不同視角下對非同步動作過程的建模難題。
為了全面評估 EgoExoLearn 資料集的價值,我們提出了一系列基準測試,如跨視角關聯、跨視角行動規劃及跨視角參考技能評估等,並進行了深入的分析。我們堅信,EgoExoLearn 將成為跨視角行動橋接的重要基石,為機器人無縫學習真實世界中的人類行為提供堅實支撐。
展望未來,我們期待 EgoExoLearn 資料集能助力 AI 技術的進一步突破,推動機器人從單純的模仿走向真正的智慧,實現與人類社會的和諧共存與共同發展。
論文連結
https://arxiv.org/pdf/2403.16182
程式碼連結
https://github.com/OpenGVLab/EgoExoLearn
05
參與方式
觀看直播
參與討論
掃描二維碼加入主題交流群,近距離接觸更多 AI 小夥伴,還有機會加入直播間與嘉賓當面交流。

更多精彩內容盡在 7 月 24 日和 7 月 25 日晚的 AI Spot CVPR 專場直播,也歡迎加入 AI Spot 學術交流圈,與學術大佬面對面互動交流~


推薦閱讀
