ECCV上新|精選計算機視覺領域6篇前沿論文

(本文閱讀時間:16分鐘)
編者按:歡迎閱讀“科研上新”欄目!“科研上新”匯聚了微軟亞洲研究院最新的創新成果與科研動態。在這裡,你可以快速瀏覽研究院的亮點資訊,保持對前沿領域的敏銳嗅覺,同時也能找到先進實用的開源工具。
2024年的ECCV(European Conference on Computer Vision)於10月4日在義大利米蘭落下帷幕。作為計算機視覺領域的重要國際會議之一,微軟亞洲研究院有多篇論文入選。本期的科研上新為大家精選了其中的6篇,內容涵蓋:口語到手語翻譯、單影像的 3D 編輯、字型特效生成、定製化文字編碼器、影片編解碼器和數字化身生成。
歡迎大家參與文末的論文投票,我們將選取大家最感興趣的論文進行直播講解!
「 本期內容速覽 」
01
一個基於3D虛擬形象的、用於口語到手語翻譯的基線方法
02
擴散模型是幾何評估器:使用預訓練擴散先驗進行單影像三維編輯
03
FontStudio:用於生成字型特效的形狀自適應擴散模型
04
通向精確視覺文字生成的定製化文字編碼器Glyph-ByT5
05
用於影片編解碼器的長期上下文獲取
06
RodinHD:基於擴散模型的高保真3D數字化身生成
01
一個基於3D虛擬形象的、用於口語到手語翻譯的基線方法
論文連結:
https://arxiv.org/abs/2401.04730
專案連結:
https://github.com/FangyunWei/SLRT
手語是聽障人士廣泛採用的交流方式。目前,對於手語處理(sign language processing)的研究主要集中在手語到口語(spoken language)的翻譯,即 Sign2Spoken。然而,聽障人士和健聽人士的溝通障礙是雙向的。為了緩解這一障礙,微軟亞洲研究院的研究員們開發了一個將口語翻譯成手語的系統 Spoken2Sign。此任務與傳統的手語到口語的翻譯任務互補,二者均為現代手語處理系統的重要組成。
圖1:之前的工作透過兩種方式展示了口語到手語的翻譯結果:(a) 關鍵點序列或 (b) 2D 影片。相比之下,我們使用 3D 虛擬人物來展示翻譯結果,從而可以從任何角度視覺化結果(c)。
為了實現 Spoken2Sign 的翻譯,研究員們提出了一套簡單的基線系統,包含以下三個關鍵步驟:首先,研究員們利用現有的手語資料集,建立了一個將手語註釋(gloss)對映到對應手語影片的詞典。與此前業界工作的不同之處在於,該方法無需藉助任何額外資料。其次,研究員們提出了一種針對手語的 3D 表徵估計方法 SMPLSign-X。它綜合考慮了手語動作和普通動作的區別,大幅提升了 3D 表徵的準確性和穩健性。最後,研究員們對 Spoken2Sign 模型進行了訓練。
最終的 Spoken2Sign 模型由以下三個元件構成: 
  • 文字到手語翻譯器:將口語文字翻譯成手語註釋。
  • 手語聯結器:將手語詞典中的 3D 表徵按照手語註釋的順序連結。
  • 渲染模組:使用虛擬形象渲染連結後的 3D 表徵,即為最終模型輸出。
除 Spoken2Sign 任務本身,研究員們還進一步討論了所提出方法的兩個副產物:3D 關鍵點增強與多視角手語理解。實驗表明,以上兩個副產物均能提升基於骨架點的手語理解模型的效能。這一嶄新的 Spoken2Sign 翻譯方法,為聽障人士和健聽人士之間更便捷、更包容的交流做出了貢獻。
02
擴散模型是幾何評估器:使用預訓練擴散先驗進行單影像三維編輯
論文連結:
https://arxiv.org/abs/2403.11503
專案主頁:
https://wangrc.site/Diff3DEdit/
隨著大規模文字到影像生成模型技術的進步,影像創作領域經歷了徹底的變革。儘管如此,類似於 3D 軟體的影像 3D 編輯功能仍未能達到令人滿意的水平,單影像的 3D 編輯能力仍然是人工智慧影像編輯工具鏈中一個缺失的環節。目前基於擴散模型的方法,如新視角合成或 2D 到 3D 的轉換,雖然有所嘗試,但依然受到訓練資料泛化能力、生成影像質量以及執行時間過長等問題的限制。
針對這一問題,研究員們開發了一種名為 Diff3DEdit 的創新方法。該方法無需進行微調和額外的訓練,巧妙地利用了預訓練的影像擴散模型所提供的先驗知識,以實現單影像的三維編輯。無需依賴於多檢視資料集的額外訓練,Diff3DEdit 可直接藉助大規模文字到影像(T2I)擴散模型的強大泛化能力和高質量的影像輸出。在 Diff3DEdit 中,擴散模型扮演了雙重角色:一方面,它為恢復目標檢視影像的高保真紋理提供了必要的先驗資訊;另一方面,它還充當了幾何評價器,有效地糾正了由於深度資訊不準確所導致的視角變換中的影像畸變。
Diff3DEdit 演算法的核心在於透過迭代過程更新幾何結構,逐步消除幾何上的錯誤畸變,並細緻地最佳化編輯後的影像。演算法使用深度圖來表示幾何資訊,起初透過單目深度估計提供一個含有畸變的初始幾何形態。接著,利用擴散模型對基於畸變幾何進行 3D 編輯後的影像進行修復。隨後,將修復後的影像與原始檢視的幾何表徵進行對齊,形成一個反饋迴圈,旨在消除畸變,最終生成既高質量又保持外觀一致性的影像。
圖2:迭代演算法示意圖
研究員們在多種多樣的圖片上進行了實驗,對圖片中選定的物體執行了平移、旋轉等 3D 變換操作。透過將這些操作的結果與基線方法 Zero123、Stable Zero123 以及 Object3DiT 進行比較,並分析了影像一致性指標,研究顯示該方法在保持編輯物體外觀一致性方面表現優異。此外,在一項使用者調研中,根據影像質量、編輯姿態準確性等多個標準,超過七成的使用者傾向於選擇該方法得到的結果。在執行效率方面,該方法能夠實現大約10到20秒的互動式編輯速度。
圖3:3D 編輯結果
03
FontStudio:用於生成字型特效的形狀自適應擴散模型
論文連結:
https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07569.pdf
專案連結:
https://font-studio.github.io/
AIGC 技術的蓬勃發展使得字型特效生成這一新興領域引起了廣泛關注。該領域與常規影像生成相似,均依賴於使用者提供的提示詞來創造視覺元素。不同的是,所生成內容的外輪廓需要與使用者提供的字元輪廓相似。當涉及多個字元時,還需確保這些字元在風格上的統一性。
研究員們發現,現有的生成模型,即便是支援視覺區域條件控制的生成模型,均無法較好地解決字型特效生成任務。這主要是因為這些模型大多針對矩形畫布上的視覺生成任務而設計,對於字型特效生成中所需的非規則畫布處理顯得力不從心。同時,在生成多個字元的過程中,現有的風格遷移演算法也難以確保字元間的風格一致性。
圖4:字型特效生成問題圖示:生成牛角包樣式的ABC
為了解決這個問題,研究員們提出了 FontStudio 框架。該框架主要包含兩個部分:形狀自適應擴散模型(SDM)和形狀自適應風格遷移(SAET)。
其中,形狀自適應擴散模型的關鍵在於將不規則影像的生成問題轉化為矩形畫布和矩形掩碼的生成問題。研究員們透過構建高質量資料集,以文字提示、掩碼作為輸入,訓練條件擴散模型,並引入形狀自適應注意力機制,使模型僅在掩碼所指定的區域生成提示內容。而影像配套的掩碼則由微調的形狀自適應解碼器(SVD)生成。
形狀自適應風格遷移會透過在擴散過程中提供噪聲先驗以及字型特效傳遞技術,使得已生成的字元特效可以完整、一致地傳遞到新的字元上。此外,形狀自適應風格遷移技術具有通用性,可以方便地應用於其他擴散模型。
圖5:FontStuido 模型框架
實驗結果顯示,相比於當前領域內的其他先進方法。形狀自適應擴散模型能夠有效提高非矩形畫布上的內容生成質量。而形狀自適應風格遷移能夠更好地保證風格的一致性。使用者研究顯示,FontStudio 的生成結果在美學(79%勝率)、內容一致性(60%勝率)和字元辨識性上(67%勝率)均優於當前最強的商業產品 Adobe Firefly。
圖6:FontStuido 結果展示
04
通向精確視覺文字生成的定製化文字編碼器Glyph-ByT5
論文連結:
https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09622.pdf
專案連結:
https://glyph-byt5.github.io/
在過去兩年中,基於擴散模型的文生圖大模型取得了顯著進展,它們能夠將使用者任意輸入的文字提示詞轉化為高質量的影像輸出。而在眾多影像生成的應用場景中,視覺文字渲染——即在生成高質量影像的同時根據使用者要求生成視覺文字的能力,正在逐步受到學術和工業界的廣泛關注。視覺文字渲染任務可以理解為是文字識別任務(OCR)的逆向任務。特別是自2022年5月 Imagen 模型推出,首次突出了文字渲染能力以來,近期釋出的文生圖大模型都會著重強調在文字渲染能力上的提升,這些提升往往得益於模型引數量規模的擴大、資料集規模的增加以及文字影像資料質量的提高。
在之前的研究工作中,領域中的研究員已經發現,以往研究常忽略文字編碼器在視覺文字渲染中的重要性。常用的 T5 文字編碼器被設計用於自然語言處理,但在分詞器的設計上未單獨考慮字元,不適合直接應用於視覺文字生成任務。
受 ByT5 字元感知文字編碼器對視覺文字渲染有提升的啟發,研究員們進一步開發了專門針對視覺文字渲染任務的定製化文字編碼器。這款編碼器旨在透過提取的文字特徵,精確對應文字特徵與視覺特徵,以指導影像生成中的字元細節。為實現這一目標,研究員們構建了合成字形影像資料集,並利用對比學習將 ByT5 的文字特徵與視覺特徵空間對齊,命名為 Glyph-ByT5,專為視覺文字渲染定製。
在開發出定製化文字編碼器 Glyph-ByT5 後,研究員們面臨的挑戰是如何將其應用於已經訓練好的文生圖模型。為避免高昂的重新訓練成本,研究員們提出了區域級多文字編碼器融合方法,巧妙結合 Glyph-ByT5 與預訓練好的擴散模型中的文字編碼器。這既保留了模型原有能力,又提升了字形渲染。該方法在生成模型的交叉注意力模組中,將基於不同文字特徵對映到對應的編碼器提取的特徵,並對映到不同的空間位置,避免了語義衝突。如下圖右側所示,融合後的模型被命名為 Glyph-SDXL,該模型不僅保持了原有擴散模型的影像生成能力,還能在指定的文字框區域內實現精確的視覺文字生成。
圖7:Glyph-ByT5 方法示意圖:字形對齊預訓練階段(左)與區域級多文字編碼器融合(右)
實驗結果表明,Glyph-ByT5 顯著提高了 SDXL 模型在視覺文字渲染的準確度,從不足20%提升至約90%。值得特別指出的是,透過引入定製化文字編碼器,Glyph-SDXL 模型也獲得了在段落級別長文字渲染時所需的規劃排版能力,能夠自動在任意文字框內實現多行佈局,並準確渲染不同數量的字元。
此外,研究員們還發現,透過使用少量的高質量自然場景影像對 Glyph-SDXL 進行微調,可以提升其在開放域文字生成任務的表現。研究員們還將 Glyph-ByT5 的理念進一步擴充套件至更具挑戰性的多語言視覺文字渲染任務,首次基於擴散模型成功實現了對多達10種語言的精確文字渲染,支援不同語言中上千種不同字元的準確生成。
這些實驗結果不僅證實了定製化文字編碼器在解決擴散模型中視覺文字渲染問題上的可行性和必要性,也為領域內提供了新的思考方向,即定製化文字編碼器的概念是否可以應用於解決其他影像生成任務中的關鍵問題,如計數問題和空間控制問題。
圖8:基於 Glyph-SDXL 的多語言文字生成結果示例圖
05
用於影片編解碼器的長期上下文獲取
論文連結:
https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08346.pdf
影片壓縮演算法致力於減少影片資料中的冗餘資訊,以實現更高的位元率節省。相較於傳統影片編解碼器中的手工設計規則,新興的神經影片編解碼器(NVC)透過資料驅動的最佳化來學習時間上下文資訊以去除資訊冗餘,從而具有更高的靈活性。
大多數現有的 NVC 主要藉助基於光流的運動補償來利用短時間上下文,即估計相鄰幀之間的畫素級光流,並對解碼幀進行運動補償來作為上下文資訊。然而,這種僅依賴短期周圍上下文的做法限制了 NVC 在降低時間冗餘方面的潛力。一方面,短時間上下文的質量可能在長預測鏈中受到誤差傳播的影響。另一方面,上下文被侷限於短時間範圍內,忽略了非區域性相關性。
為了應對這些挑戰,研究員們提出的方法 DCVC-LCG,強調了長期上下文的重要性,並設計了一個長期上下文獲取(LCG)模組,引入了遠距離的參考特徵來豐富上下文的多樣性。而且長期上下文受到誤差傳播影響較小,有助於提升重構質量並抑制誤差傳播。
圖9:長期上下文獲取
在長期上下文的利用上,研究員們為 LCG 模組設計了一種類內搜尋機制。首先,模型會自適應地根據內容對參考特徵進行聚類,並將特徵向量分配到這些類中。隨後,在每個類內,研究員們會以短期參考特徵來查詢長期參考特徵,根據相似度對特徵向量進行搜尋和特徵聚合。類內特徵向量搜尋有助於過濾掉無關資訊的干擾。此外,該方法透過非區域性的搜尋擴充套件了感受野,並透過聚類確保了上下文在時域上的語義一致性。
實驗結果表明,在1080p資料集上,DCVC-LCG 模型相較於最佳傳統編解碼器 ECM 以及相較於之前的 SOTA 神經影片編解碼器 DCVC-FM,分別獲得了11.3%和10.8%的位元率節省,顯著提升了壓縮效能。
06
RodinHD:基於擴散模型的高保真3D數字化身生成
論文連結:
https://arxiv.org/abs/2407.06938
專案連結:
https://rodinhd.github.io/
在數字化飛速發展的時代,為使用者打造個性化的 3D 數字化身(avatar)在眾多遊戲平臺和元宇宙服務中變得日益普及。隨著生成擴散模型和隱式神經輻射場技術的突破,大規模自動生成 3D 數字化身迎來了新機遇。但儘管如此,現有技術在捕捉如髮型這樣的細節方面仍有所欠缺,導致生成的數字化身往往缺乏真實感。之前的方法嘗試透過二維超解析度技術來增強單一檢視的細節,但這種改進是以犧牲三維一致性為代價,嚴重影響了生成結果的實用性。
如何從三維角度出發,精確地擬合和生成精細的 3D 數字化身,成為了研究人員亟待解決的問題。對此,微軟亞洲研究院的研究員們首先發現在利用共享解碼器擬合多個數字化身的過程中,模型會災難性地遺忘對先前數字化身細節的記憶,進而使得擴散模型難以生成精細的數字化身。
圖10:RodinHD 方法總覽及模型結構
為了應對這一挑戰,研究員們提出了一種創新的資料排程策略和權重正則化技術 RodinHD。該方法有效地增強了共享解碼器對細節渲染的能力。此外,在訓練擴散模型的過程中,研究們員還採用了一種細粒度的層次化特徵表示方法,以最大化輸入肖像的引導作用,並透過交叉注意力機制將這些特徵注入到 3D 擴散模型的多個層級中,進一步提升了生成結果的真實度和生動性。
同時,考慮到高維的 3D 資料比傳統 2D 影像具有更多的資訊冗餘性,研究員們對 3D 擴散模型的加噪過程進行了重新改進,使得擴散模型能夠生成更高質量的數字化身。
圖11:RodinHD 可以根據使用者輸入影像(第一行藍色虛線表示)生成具有高保真度的數字化身。同時也支援由文字生成(第二行左)和無條件生成(第二行右)數字化身。
研究員們在三維數字化身資料集上進行了實驗評估,結果表明,RodinHD 不僅能夠生成高質量、高保真度的三維數字化身,而且在生成服裝紋理和頭髮等細節方面的能力也顯著提升。同時,RodinHD 還支援基於文字的數字化身生成和無條件數字化身生成。未來,研究員們也會對更多高質量三維數字資產生成進行更加深入的探索。
快為你喜歡的論文投上一票吧!
你也許還想看:

相關文章