
作者丨朱可軒
編輯丨陳彩嫻
今日,歷時四天(12.3-12.6)的第十七屆 SIGGRAPH Asia 在東京正式閉幕,本屆圍繞的主題為「Curious Minds」,無論是參與註冊的人數還是論文投稿數都創下了歷史新高。
華人學者在本次大會上的表現依舊十分亮眼,在會場,幾乎大多數論文背後都有華人的身影。
當前,在計算機視覺學界主要有新興派和傳統派兩類研究者,前者的目光主要聚焦在具身智慧和 3D 生成方向,而後者則依舊專注於解決幾何建模和幾何處理中的細節問題。
新興派的論文成果正處噴湧期,但今年的論文也並非全然被 AI 浪潮席捲,老派研究依舊佔據了一席之地。
除了學術論文外,今年的展位也依舊人頭濟濟。據 AI 科技評論觀察,和往年相比,今年有關動作捕捉的展示專案佔大頭,同時,以 VAST、影眸、元象為代表的 3D AIGC 大陸廠商也參與了展出。
從產業化的角度,3D 當前確實還不比多模態大模型的應用面那麼廣泛。
但深圳大學計算機與軟體學院教授胡瑞珍十分看好這一方向的發展,她告訴 AI 科技評論,「數字媒體一直在更新迭代,一開始是音訊,然後變成一些二維的影像影片,不遠的將來數字媒體的呈現形式就會變化到三維了,就像 體積影片、元宇宙,包括李飛飛提到的空間智慧,都在強調 3D 內容和三維感知。」
現階段,3D 還是一條相對而言沒有那麼擁擠的賽道,這也恰好為學術和創業提供了蓬勃發展的空間和機會。
在會場,AI 科技評論和多位從業者進行了交談,並在此之中得到了一些結論:
-
3D 生成方向有關幾何和紋理模型的技術成果正在快速更新中,但其中有關到底走端到端還是多步迭代的路徑業內稍有分歧。
-
技術還未走向完全成熟,所以 3D AIGC 的應用落地也還尚處早期,使用者對於三維的認知和需求也都有待提升,目前在與日常生活較為貼近的遊戲、美術設計和電商等方向應用較多,與前者相比,工業界落地相對已較成熟。
-
關於 Animation 的技術也還需突破,當前在骨骼方面缺乏比較 Scale 的模型,這一方向與 AI 緊密結合後和空間智慧會比較接近。
近年來,在幾何、紋理方向一直在持續出現有關大模型的前沿技術。海外包括 Meta 的 3D Gen、Adobe 的LRM 、Google 的 DreamFusion 等,國內目前比較有代表性的主要有 CLAY、TEXGen 等。
在幾何方面,影眸科技在今年的 SIGGRAPH 上被提名了榮譽獎的 3D 原生 Diffusion Transformer 生成式大模型 CLAY,也解決了 2D 升維法所存在的問題,實現直接從 3D 資料集訓練模型的突破。

CLAY的進階版本Rodin Gen-1也在今年6月正式上線,並在本屆大會上進行了展出。
VAST 所採用的是一個基於 rectified flow 的大規模形狀生成模型,據瞭解,這種模型能夠在取樣步數更少的情況下精度更高,同時訓練也會更穩定。
在紋理生成這部分,此前比較主流的操作方式主要有兩種——
第一是藉助已經訓好的影像生成模型去做紋理貼圖,這其中包括 Google 的 DreamFusion 開創的所謂「2D 升 3D」的路徑,以及常用的透過逐步的多個單視角的紋理生成和反投影進行整個模型的紋理生成。
但這種方式的缺點在於,由於生成依賴於影像模型而不具有整體的三維感知能力,AI 無法判斷各個視角的整體一致性,所以生成內容可能存在諸如一個人正反兩面都有人頭的問題,當前學術界也在尋求突破。
第二是一種依靠影像資料做訓練監督的 regression 的 model,使用一個 texture field 做紋理表示,但這種方式沒辦法做現在流行的基於原生資料訓練的 diffusion model,進行多步迭代,最終呈現出來的細節效果不太好,人眼所看不到的立體影像背面可能會比較模糊。
區別於前述兩種操作,此次 VAST 和港大、清華團隊獲得最佳論文提名獎的論文《TEXGen: a Generative Diffusion Model for Mesh Textures》帶來了自己的思考。

論文連結:https://arxiv.org/pdf/2411.14740
AI 科技評論在會場聯絡到了該篇論文的一作餘鑫,他當前在香港大學就讀博三,師從齊曉娟。據他介紹,「我們做的模型不需要依賴於 2D 升 3D 的方式,直接訓練一個原生的 diffusion model 輸出 3D 紋理內容,這種原生的 3D 模型能一次性生成整個物體的紋理。」
這塊做下來有幾處難點問題,首要的是資料,因為紋理涉及到一些表現形式,而不同的表現形式所獲得的資料多少其實是不同的,另外網路架構和算力也存在難點問題。
實際上,餘鑫也並非從一開始就做紋理模型,在 stable diffusion 出來之前,他就嘗試過用 latent diffusion 做幾何模型,後來出於多種因素考慮,他才逐漸開始轉向聚焦紋理模型。
在他看來,紋理比幾何更復雜、變化更大,並且是一種表面屬性,當前的神經網路也很難去處理紋理資料,也正是因為困難相比幾何更大,這塊賽道當前還鮮有人切入。
「我之前也做過利用 2D 升維的 3D 生成工作,這種方式的確可以在某些程度上取得驚人的短期視覺效果。但他終究不是一個透過 3D data 學習的原生模型,存在各種 bias,所以長期來講,我覺得有還是要走透過 3D 資料訓練的 feed-forward 路線。」餘鑫說道。
之後在研究過程中,他也曾考慮過類似 Meta 3D Gen 的路徑,將 3D 紋理貼圖作為兩個階段分別處理,即先多視角生成再訓練一個模型進行補全,並做出了短期效果。但最終認為這種做法其實存在一定上限,如若要追求長遠的效果,還需要嘗試新的方案。
此外,對於多個階段的生成方式,他也曾考慮過另一種方式,主要是用到紋理的兩種表現形式,並都支援直接訓練 diffusion model。(此文章即 Point-UV Diffusion,發表在 ICCV 2023 Oral。)
「之前我的想法是分兩個階段去 train 兩個 diffusion model,後來我開始思考 end to end 把兩個階段的優勢都發揮出來的可能性,感覺是可以實現的,所以也針對這一點提出了混合 2D-3D 去噪模組。」餘鑫說道。

另外,值得一提的是,影眸科技 CTO 張啟煊也透露,幾何的絕對質量和貼圖的絕對精度也將是影眸團隊接下來重點會突破的方向,明年 1 月會正式官宣新的突破性進展,並爭取在年底上線新版本。
當前,在 3D AIGC 方向的發展與影像、影片這類二維內容生成式模型在多樣性、可編輯性等方面、個性化定製等方面還有部分差距,這也是學界和業界需要合力去攻克的問題。
在胡瑞珍看來,「未來到底是走 end to end 還是 Multi step 的路徑解決問題,現階段還不好判斷,因為三維資料確實沒有二維多。」
本次大會,AI 科技評論在現場聽到最多的關鍵詞大概當屬「資料」。有業者認為,資料對於 3D 生成平臺而言是決定所做產品差異性的關鍵問題,甚至在現階段的重要性大於模型。
VAST 目前和同行相比的優勢就在於大規模高質量的私有資料集,據 VAST 首席科學家曹炎培介紹,「我們目前已經有 2000 萬高質量 3D 訓練資料,而訓練開源模型或者沒有私有資料的團隊可能只能用到幾十萬資料,這樣一兩個量級的差別會導致最終 3D AI 生成模型結果精度、泛化性、多樣性、可控性等方面的差異。」
張啟煊同樣強調了資料的重要性,「對於 3D 生成來講,其實資料的絕對數量不重要,質量非常重要。」高質量資料需要足夠細節、平整,達到 production ready 的質量,真正用在最後實際生產裡。
當前,「開放的 3D 資料存在大量過於簡單的 model,還會有很多點雲和低質量的 model,這些其實都應該剔除掉,所以我們也花了大量的時間在資料修復和資料清洗上,以此來提高整體質量。」張啟煊強調。

影眸展位
除了資料以外,3D Tokenizer 也是當前在技術上較為有挑戰性的部分,還有很大的進化空間。
目前情況來看,文字 Tokenizer 實則已經發展到比較成熟的階段,影像、影片方面其實也已經有了 Sora 在前打樣,但 3D 的研究成果還在持續更新中。
應用場景目前在 3D 生成領域也還不夠明晰,在業內看來,如若只是服務遊戲、美術等方面,最終的盤子不夠大。AI 科技評論在現場走訪到的幾家廠商,現階段基本集中於遊戲、設計、3D列印、電商等落地場景。
VAST 面向的場景之一是幫助遊戲、動畫行業降本增效,降低此類內容的製作成本和時間,其二則是泛定製化、泛工業的 3D 列印,除此之外、也是未來最關注的場景,則為需要即時低成本 3D 內容創作的UGC(user-generated content)場景。
「比如元宇宙,以及一些做開放世界的客戶,其實很希望引入一些 UGC 玩法,有了 3D 內容生成平臺以後他們能夠解決海量 3D 資產構建的問題,並且設計出在沒有即時 3D 生成技術前無法設想的玩法。」曹炎培告訴 AI 科技評論。
「我們在今年 SIGGRAPH Asia 上參與的另一個環節 Real-Time Live! 中所展示的 Tripo Doodle,也正是如何利用 AI 3D 技術讓普通人能夠從簡筆畫即時生成自己想要的 3D 模型。」
在他看來,「從邏輯和技術發展趨勢上來講,3D 內容平臺是未來一定會出現的應用方向,所以我們未來的發展方向正是構建這樣一個平臺,而現在所做的 AI 3D 工具是一個必經階段,因為構建內容平臺首先需要易上手、低成本的內容創作工具。」

VAST 展位
影眸所切入的也有類似賽道,但和 VAST 的主要區別在於,前者所做的工具會更為專業。在今年 8 月的 SIGGRAPH 上,影眸團隊也在 Real-time Live 中也展示了其特有的 3D ControlNet 功能。
「比起讓 AI 像個隨機的老虎機,我們更希望讓藝術家可以自己掌控生成的環節。」張啟煊分享道。
除此之外,電商也是 3D 生成當前的一塊落地場景, 影眸目前所做的主要是給傢俱、工藝品商家提供 3D 模型。
不過,值得關注的是,現階段,服裝類暫時已不被各家納入應用範疇,此前,其實虛擬試衣一直分為 3D 和 2D 兩派。
去年,影眸曾考慮過服裝生成的市場,其發表的《DressCode: Autoregressively Sewing and Generating Garments From Text Guidance》也在 SIGGRAPH 主會拿過榮譽提名獎,主要介紹了一種專為 3D 服裝設計的生成式 AI 框架 DressCode。
但在今年的會場中,張啟煊告訴 AI 科技評論,「現在大家想做虛擬試衣,基本上會跳過 3D 這個步驟,直接進行影片生成,所以我們這方面先擱置了,選擇 All in 物品級的 3D 生成上。」
「結合 3D 生成做虛擬試衣其實是需要進行布料模擬的,而這一步十分消耗算力,但影片生成其實所需要的算力相對會更少,而在其他場景裡的算力消耗程度則相反。」他進一步介紹其觀察。
曹炎培也認為虛擬換裝方向現階段結合影像、影片生成模型相較純 3D 方案會是更優解。在他看來,影片生成模型在和諧度、動態觀感等方面很有優勢,而純 3D 方案則有一些難以解決的問題:
「首先,所需要的 3D 衣服模型許多小的網店商家肯定沒有,他們只有實體服裝,但如若透過 3D 掃描等數字化方式也較難得到準確、高質量的服飾模型。在此之後,如果要實現虛擬試穿,在純3D管線中,還涉及如何獲取試衣者的高還原度 3D 數字模型、如何進行高質量物理解算與渲染獲得試穿效果等難題。」
產業化的落地對比學術界必然會存在些許滯後性,而目前 3D 這塊領域的技術還在更新迭代中,只有當技術走向成熟以後,應用落地才能隨之提速。
前文所提到的基本是與日常生活更貼近的場景,使用者或許對於三維的需求暫時不太旺盛。但胡瑞珍向 AI 科技評論分享了她的觀察,在她的視角中,實際上,現在在工業界範圍內,3D 的落地已經相當廣泛。
「類似智慧智慧工廠、港口的智慧排程等等,這些場景都需要三維內容,要有一些數字車間,這部分的發展其實遠比我們想象的要成熟,只是距離日常生活稍微有點遠,許多人不太瞭解。」
同樣作為在現場比較有代表性的廠商之一的元象,選擇了 3D 市場中的其他切入方向。大空間 VR 是他們此次展出的重點產品。
其偏於 XR 的整合應用本身,應用場景主要線上下透過佩戴頭顯進行沉浸式體驗,當前元象在全國已開設了三十多家「幻旅之門」線下門店。
據元象引擎和 AIGC 演算法負責人黃浩智介紹,「我們主要以超取樣配合效能最佳化帶來高畫質晰度畫面,品質清晰度、不眩暈以及幀率穩定是我們大空間 VR 的優勢。」
另外,元象本次大會帶來也展示了一款骨骼動畫的外掛,透過文字生成骨骼動畫的動作。今年 8 月,元象推出了國內首個基於物理的 3D 動作生成模型 MotionGen,主要解決生成逼真角色動作的行業內持續性挑戰問題。
不過,元象也還在探索初期。會場有 3D 從業者告訴 AI 科技評論,當前,在 Animation Rigging 的方向上,其實還比較缺少用資料訓得非常充分、非常 Scale 的模型,去服務動態 3D。
MotionGen 在動作自然度、文字匹配度等方面也都還有提升空間。
「如若描述的文字太過複雜,可能會存在無法理解的情況,訓練資料也影響到最終呈現的效果,資料、模型都還有很多最佳化空間。」元象動作生成演算法負責人鍾國仁向 AI 科技評論介紹道。
也同樣由於剛剛起步,使用者處於免費試用期,所以元象所使用的也還是開源資料集。
當前,在解決資料問題方面,比較主流的路徑有兩條:
一是結合動捕裝置自己生產資料,這也是業界普遍採用的方法。展位位於元象對面的廠商唯晶科技所選擇的方式便與此類似。
唯晶科技旗下產品 Genmotion.AI 的負責人劉同梅介紹,「我們目前和世界排名靠前的遊戲公司合作,而他們在使用 AI 工具時,其實擔憂的關鍵問題在於資料來源,所以我們所有的資料都是自己動捕的,所有的動作都有全程錄影詳細記錄,甚至結合區塊鏈輔助溯源。」
元象也有自己的動捕裝置,但在鍾國仁看來,前述做法其實對許多廠商而言比較費時費力。
所以,元象更看好另外一種做法,即從影片裡提取動作,之後再基於大語言模型理解這些動作,然後形成相關文字描述,這也相當於一部分資料。

元象 XVERSE 展位
另外,骨骼的形態變換也有廠商正在探索更多情景。
劉同梅告訴 AI 科技評論,「我們目前的 3D 動畫只有一種骨架,骨架重定位的功能正在開發中,之後可支援侏儒和巨人有差異性的骨骼,另外,現階段 3D 動作只支援人的骨骼,四足動物動作資料還未深入研究。」
值得一提的是,VAST 的 Tripo 平臺上也有自動角色繫結和動畫的相關功能,可以控制所生成的 3D 形象展開多樣的動作,但目前主要適用於人形或類人形角色,更加泛用的動畫功能還在研發當中。

VAST 的綁骨畫面演示
結構化生成也是後期需要研究突破的方向。在業者的設想中,未來其實可以做到讓類似抽屜等物體可拆分為幾片,甚至操作其開合,這也會是一個有想象力的方向。
面向更大的 3D 場景的產品也同樣仍處在發展初期,目前做得更偏向於全景影像,將其 3D 化可以看到任意一面的動態,但是,透過 3D 實現操作和互動物件業內也還在探索中。
值得一提的是,事實上,Animation 和李飛飛所提出的「空間智慧」也是有共通之處的。
胡瑞珍談到,「 Animation 通俗理解其實就是建模已經做好了,之後讓角色動起來,看上去更加真實,這其中所有的東西都會涉及到對空間感知、空間計算,現在我們把 AI 的一些技術用進來,其實跟空間智慧的概念是很像的。」
「李飛飛把空間智慧推得很火,但其實也不算是新的概念,她其實就是把學界此前沒有合併的概念進行了合併,另外她其實也沒有嚴格定義到底怎樣才算空間智慧,所以在我們看來,只要在三維空間去進行感知、互動,都算是需要有空間智慧的。」
今年第三次迴歸東京的 SIGGRAPH Asia 相比於去年的悉尼,參會熱情明顯高升,不少參會者都向 AI 科技評論興奮地分享了一邊學術交流一邊遊玩東京的經歷。
SIGGRAPH Asia 作為 SIGGRAPH 在亞洲的延伸,雖然參會人數和投稿量規模會相對小一點,但同樣也作為大會技術交流和海報主席的胡瑞珍向 AI 科技評論透露,兩場大會的技術論文評選標準是完全一致的,論文質量也處於同一高度。
近年,投稿數量從三百多篇到近千篇,學者投稿 SIGGRAPH Asia 的熱情正直線走高,不過,也有會場學者表達了些許遺憾,在他們看來,本次大會還是沒有給到太多預期外的驚喜。
明年的大會將落地在香港,在人工智慧的浪潮之下,計算機視覺和圖形學的未來發展將會如何,可以繼續拭目以待。




更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片