


作者:Kefei
排版:Scout

隨著語言、影像等領域的 foundation model 被廣泛應用,頭部公司和應用逐漸跑出來,我們開始期待其他模態或其他領域的 foundation model 的出現。3D 是我們非常關注的一個領域,相比圖文和影片,傳統 3D 建模流程複雜,多為人工手動操作,週期長,成本高。如果 3D 生成技術成熟,現有的管線中的大部分環節將被替代,極具創新性和破壞性,想象空間巨大。另一方面,3D 有成熟的應用場景,如遊戲、影視製作等,每一個場景的市場規模都很可觀。
如果我們相信每個模態都會有 foundation model 的機會,那麼 Luma 可能是目前 3D 領域最有競爭力的創業公司。
Luma AI 於2021 年 9 月成立,創始人為前 Apple AR/CV 工程師 Amit Jain、Alberto Taiuti 和 Berkeley BAIR 畢業生 Alex Yu。Alberto 現已離開公司。Luma 的核心技術是 NeRF,透過 Luma,使用者可以使用手機拍攝少量照片來生成和渲染出 3D 內容。公司成立至今已推出多個產品和功能,包括圖片轉 3D、影片轉 3D、文字轉 3D 等。
Luma 在一個相對正確的技術方向上,有非常高質量的團隊,同時還有社群和資料優勢。2023 年 3 月,Luma 完成由 Amplify Partners 領投,Nvidia(NVentures) 和 General Catalyst 等跟投的 2,000 萬美元的 A 輪融資。老股東包括 Matrix Partners、South Park Commons 等。
3D 領域的 foundation model 無疑是一個非常宏大的敘事,但 3D 生成目前仍存在許多瓶頸,包括生成質量不穩定、生成速度慢、可生成的場景多樣性較差等等。如果進一步落地到具體商業場景還涉及到設計風格、可編輯的靈活度、如何與現有管線結合或是完全重塑現有管線等一系列問題。
因此整體來看,行業目前仍處於 research 階段,距離能夠真正在產業界大規模應用還需要一段時間。我們期待 3D 儘快迎來 “Midjourney 時刻”。
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 什麼是 Luma
02 技術研究:NeRF、3D 建模、3D 生成
03 團隊
04 場景及市場規模
05 行業其他玩家及技術進展
06 結論與投資判斷
01.
什麼是 Luma
Luma AI 是一家 3D 內容解決方案公司,核心技術是 NeRF。透過 Luma,使用者可以使用手機拍攝少量照片來生成和渲染出 3D 內容。Luma 由前 Apple AR/CV 工程師 Amit Jain、Alberto Taiuti 和 Berkeley BAIR 畢業生 Alex Yu 在 2021 年 9 月聯合創立,Alberto 現已離開公司。
Luma 產品的主要功能有:拍攝捕獲 3D 影像和影片、圖片轉 3D、影片轉 3D、文字轉 3D 等,使用者可以透過 iPhone、網頁以及 API 等載體或方式實現用 NeRF 技術構建 3D 模型的功能。
2023 年 3 月,Luma 完成由 Amplify Partners 領投,Nvidia(NVentures) 和 General Catalyst 等跟投的 2,000 萬美元 A 輪融資。老股東還包括 Matrix Partners、South Park Commons 等。Amplify 此前也對 RunwayML 進行了投資,或將為兩家公司來帶一些協同效應。

產品釋出時間線
• 2022 年 10 月 22 日,Luma AI 開放網頁版 Luma,在測試版社群中,使用者可以根據網頁中給出的拍攝指導上傳符合規範的影片素材,生成 3D 影片。

Source:Twitter
•
2022 年 12 月 14 日,Luma AI 釋出 Imagine 3D,即推出文字轉 3D 模型的功能
,使用者輸入文字描述,即可生成對應的 3D 模型,模型的質量與輸入的文字有很大關係。當前,該功能尚未全量開放,還處於測試階段。

Source:Twitter
•
2023 年 1 月 7 日,Luma AI 在 IOS 上推出了 NeRF Reshoot
,Luma AI 是市場上第一個 NeRF + App 解決方案的提供者。當前,Luma 只推出了 iOS 版本,Android 版本尚在測試環節。這意味著使用者僅需透過一部 iPhone 即可使用 NeRF 技術進行 3D 建模。

Source:Twitter
•
2023 年 1 月 19 日,使用者可以將 Luma 的互動式 NeRF、全景圖、影片渲染嵌入到使用者自己的網站、部落格等中,能夠自定義共享頁面的 UI。

Source:Twitter
•
2023 年 1 月 25 日,Luma AI 宣佈 Luma NeRF 捕獲的下一版本
,影片的清晰度和解析度更高。

Source:Twitter
•
2023 年 2 月 24 日,Luma AI 實現了網頁版全體積 NeRF 渲染器
,大大提高 3D 生成的逼真程度,宣傳語中透過“即時可見,所見即所得”(All in realtime! What you see is what you get for photorealistic 3D is finally here!)對這一進步進行描述。

Source:Twitter
•
2023 年 3 月 21 日,Luma AR 釋出,使用者可以在實景照片中標記想要的 AR 影片路線,並自動生成影片
,Luma AI 成為首款 NeRF AR 記錄器,同時使用者還可以對影片進行編輯和修改,例如修改圖片或影片比例、調整幀率等。

Source:Twitter
• 2023 年 3 月 27 日,推出影片轉 3D API,這使開發人員可以透過 API 將 Luma 的 3D NeRF 模型整合到其他應用程式和產品中。就使用情況而言,其輸出能夠直接嵌入互動式的 3D 場景中、在傳統 3D 管道中構建互動的 coarse textured models 以及預渲染的 360° 影像和影片。目前轉換一個影片費用為 1 美元,轉換時間在 30 分鐘左右。

Source:Luma官網
•
2023 年 4 月,推出 Luma Unreal Engine Alpha
,是 Unreal Engine 5 的全新外掛,為 engine 帶來全體積的 Luma NeRF,可用於遊戲、虛擬製作、傳統圖形內容和 VR 等。
歡迎關注海外獨角獸影片號
•
2023 年 5 月,釋出 Unreal Engine plug-in V2
。支援 Unreal Engine 5.2;支援 macOS 和 Linux。

Source:Twitter
• 2023 年 7 月,釋出 Unreal Engine plug-in v0.3。Luma 在該版本中引入質量控制,提取 NeRF 的特定區域,微調渲染質量以匹配特定用例。

Source:Twitter
• 2023 年 8 月,釋出 Flythroughs。Flythroughs 是一個影片生成 APP,可以模擬生成無人機一鏡影片。
Source:YouTube
02.
技術研究:NeRF、3D 建模、3D 生成
NeRF 簡介
Luma 核心技術是 NeRF,NeRF 全稱 Neural Radiance Fields,是一種基於深度學習的系統,可以根據少量的 2D 影像對 3D 場景的幾何形狀和外觀進行建模,是 3D 領域的一個重大突破。
2020 年,Google 研究員 Jonathan T. Barron 與 Berkeley、San Diego 的研究員 Ben Mildenhall、Pratul P. Srinivasan、Matthew Tancik 等人共同釋出了 paper——NeRF:Representing Scenes as Neural Radiance Fields for View Synthesis,首次提出 NeRF 的概念。
“透過使用一組稀疏的輸入檢視最佳化底層連續體積場景函式,從而獲得用於合成複雜場景的檢視的最優結果。NeRF 演算法使用全連線(非卷積)深度網路表示場景,其輸入是單個連續的 5D 座標(空間位置 (x, y, z) 和觀察方向 (θ, φ)),其輸出是該空間位置的體積密度和視點相關的發射輻射率。透過沿相機光線查詢 5D 座標來合成檢視,並使用經典的體積渲染技術將輸出顏色和密度投影到影像中。”
不過,在當時,以 NeRF 的方式完成 3D 重建的過程仍然很緩慢,且需要一定的專業知識。
2022 年,Nvidia 釋出 Instant NeRF,即將逆向渲染(在幾秒鐘內將一組靜止影像轉換為 3D 數字場景)與 NeRF 相結合,生成和渲染速度提高了 1,000 倍以上。Instant NeRF 可以在幾秒鐘內訓練幾十張 2D 圖片以及它們相機角度的資料,學習高解析度 3D 場景,並在幾毫秒內渲染該場景的影像。
Nvidia 圖形研究 VP David Luebke 表示:“如果像多邊形網格這樣的傳統 3D 表示類似於向量圖,那麼 NeRF 就像點陣圖影像,它們密集地捕捉光線從物體或場景中輻射的方式。因此,Instant NeRF 對 3D 的重要性就像數碼相機和 JPEG 壓縮對 2D 攝影的重要性一樣——極大地提高了 3D 捕捉和共享的速度、便利性和範圍。”
傳統 3D 建模方法
為了更好地瞭解 NeRF,我們可以退一步瞭解傳統的、目前被廣泛應用的 3D 建模方法,進而知道 NeRF 究竟在哪些方面具有創新性。
以下是常見的 3D 建模方法:

• NeRF 與攝影測量
從上表可以看到,攝影測量和 NeRF 一樣都是用於捕捉真實場景建立 3D 模型的技術,但他們的基本原理和方法不同。攝影測量涉及識別影像中的共同特徵,例如點或邊緣,然後使用三角測量技術確定這些特徵的 3D 位置。而 NeRF 不涉及識別影像中的共同特徵,而是透過深度學習從一組 2D 影像推斷出場景的連續 3D 表示。
攝影測量是一項成熟的技術,多年來一直用於建立真實世界物件和場景的精確 3D 模型。它使用起來相對簡單並且可以產生高質量的結果,尤其是當應用於具有明確特徵和紋理的物件或場景時。它還可用於從歷史或考古資料(如舊照片或掃描影像)建立 3D 模型。攝影測量最常見的使用場景是在建築、工程、文化遺產等各個領域建立真實世界物件和場景的 3D 模型。
而 NeRF 是一項較新的技術,在以高精度和細節捕獲複雜的 3D 場景方面顯示出巨大的潛力。它可以處理具有複雜幾何形狀和照明條件的場景,如反射和透明物體、小細節、模糊物體等等,並且可以生成僅靠攝影測量難以實現的逼真效果圖。NeRF 更靈活和準確,對用於重建的圖片的數量和解析度要求也更低。不過,NeRF 需要大量的訓練資料和計算資源,並且使用起來可能是計算密集型的。
因此,NeRF 不太可能完全取代攝影測量,兩種技術各有優缺點,適合不同型別的應用。
NeRF 與 3D 生成
目前 3D 生成的主流技術路徑大致可以分為:(1) text-to-2D,再透過 NeRF 或 Diffusion 模型完成 2D-to-3D,或直接透過 2D 素材完成 3D 建模;以及(2)直接 text-to-3D,該路徑直接使用 3D 資料進行訓練。
其中,路徑(1)更為常見,因為相比於 3D 資料,2D 資料更多、更豐富,可生成的 3D 內容也更豐富多樣。OpenAI 的 Point-E、Google 的 Dreamfusion、Nvidia 的 Magic3D 等模型均是此路徑,該路徑的許多模型都利用到 NeRF 技術。但 2D 轉 3D 生成速度較慢,生成質量也相對較低,即使單個場景的資料量足夠大,目前也很難看到質量有顯著提升,或許還需要演算法層面的創新。
路徑(2)直接使用 3D 資料集進行訓練,從訓練到微調到推理都基於 3D 資料,OpenAI 的 Shap-E、Nvidia 的 Get3D 等模型是基於此路徑。Text-to-3D 的優勢在於生成速度較快,理論上生成的內容質量也較高,但受限於 3D 資料的數量、質量和多樣性,此路徑下可以生成的 3D 場景有限,收集資料的難度更大,成本也更高。
至於哪條路徑更好?行業最後是否會收斂到其中一條路徑?又或是有新的路徑?這些問題目前在學術界仍有爭議,暫時無法給出明確的結論。
03.
團隊
• 創始人
2020年,Apple 在 iPad Pro 和 iPhone 12 Pro 上加入 LiDAR 雷射雷達鏡頭,賦予了移動裝置採集物體 3D 空間資料的能力。一年後,蘋果 AR/VR 的原員工 Amit Jain 和 Alberto Taiuti (Alberto 現已離開 Luma)共同創立 Luma AI。另一位聯合創始人 Alex Yu 於同年加入,擔任 CTO。蘋果系和伯克利系的創始人構成,使得 Luma 團隊在產品和技術層面有著先進的理解,這也是為什麼 Luma 能夠率先搶佔市場的最主要原因。
Amit Jain 是 Luma 的 Cofounder 和 CEO。Amit 畢業於 Missouri Valley College 的 Mathematics and Computer Science,2011 年至 2015 年曾創立 Cultured Pixel 並擔任 Lead Developer,也曾擔任 Product Hunt 等公司的工程師,2017 年加入 Apple 擔任 AR/VR 部門的工程師,在 3D 計算機視覺、相機、機器學習、系統工程和深度技術產品方面有著豐富的經驗。

Source:Linkedin
Alex Yu 是 Luma 的 Cofounder 和 CTO,Alex 於 2021 年畢業於 UCB 的 Computer Science and Applied Mathematics,畢業後即選擇參與聯合創立 Luma。在校期間他與 BAIR 教授 Angjoo Kanazawa 一起進行 NeRF 相關的 3D 計算機視覺研究。Alex 也曾在 Adobe 和 Google 實習。在 BAIR 和 Adobe,Alex 一直致力於透過 Plenoxels (CVPR 2022)、PlenOctrees (ICCV 2021) 和 PixelNeRF (CVPR 2021) 推進神經渲染和即時圖形領域的研究。

Source:Linkedin
• Team
除了創始人之外,官網還展示了部分 Luma 團隊成員,資訊整理如下表:

04.
場景及市場規模
Luma 當前應用場景主要為生活記錄、遊戲製作、動畫和影視製作、商品展示和銷售。除此之外,NeRF 和 3D 生成技術還可應用於地圖和導航、機器人等領域。
Luma 應用場景及市場規模
1. 生活記錄
Luma 在手機端上的應用賦予了普通人利用手機拍攝便可建立 3D 場景的能力,有人把 Luma 和 NeRF 比作“現代攝影的進化”,在 Luma 官網和 Discord 社群中,我們可以看到已經有非常多的使用者利用它進行日常生活的記錄和分享。
這部分 C 端業務是 Luma 的最大特色,但目前沒有非常清晰的商業模式,Luma 未來可能更大機率還是透過 toB 在遊戲、影視、電商等場景商業化。但 C 端平臺依然很重要,若能做好,使用者量和使用者生成的 3D 資產爆發,將為 Luma 訓練 3D foundation model 帶來很大優勢。

Source:Luma 官網
2. 遊戲
遊戲一直以來都是一個規模巨大的市場,利用 NeRF 和 3D 生成技術,遊戲創作者可以將拍攝或文字生成的遊戲資產匯入遊戲引擎中。遊戲開發通常包括策劃、程式、美術、音效、測試等環節,美術又包含了角色原畫、場景原畫、角色 3D 建模、場景建模、燈光、動畫、繫結、特效等。其中,美術佔總開發成本的大約 60%,而 3D 又佔美術總成本的大約 40%。根據 Research and Markets 資料,2022 年,全球遊戲開發市場規模為 990 億美元,2030 年預計達到 2,480 億美元,則 3D 生成可進入的市場規模大約為 595 (2,480 x 60% x 40%) 億美元。
不過,目前的技術成熟度遠遠無法滿足商業化的要求,無論是生成質量、速度、風格等等都仍未能滿足遊戲開發的標準。並且從技術角度看,網格是大部分 3D 世界的執行基礎,但 NeRF 難以相容網格,不過 Nvidia 等公司正在努力解決這一問題。但假設網格問題得以解決,生成的 3D 網格素材依然不能直接在遊戲中大規模使用,目前的 NeRF-網格最適合的場景是建立超高保真模型素材,但這實際上需要大量的人工後期處理,需要一定的行業知識和大量的額外工作。
3. 影視、動畫製作
NeRF 和 3D 生成可以簡化各類影視專案的製作流程,減少後期製作過程及所需要的人力,建模、紋理、最佳化、照明等都將變得更高效。3D 在影視、動畫中的應用通常包括 3D 建模、MG 動畫(Motion Graphic)、3D 渲染、視覺效果等。其中,3D 建模、MG 動畫、視覺效果未來都有可能透過 3D 生成完成。
根據 Grand View Research 資料,2022 年全球 3D 影視、動畫市場規模為 204 億美元,預計到 2030 年市場規模增長至 510.3 億元美元。3D 建模、MG 動畫、3D 渲染、視覺效果的市場規模佔比分別為 31%、35%、20%、14%。
3D 生成可替代的環節包括 3D 建模、MG 動畫、視覺效果,假設 3D 生成技術成熟,能夠完全取代現有管線,2030 年 3D 生成在影視和動畫製作中的市場規模將達到大約 408.2 (510.3 x 80%) 億美元。而如果只看 NeRF,NeRF 更有可能在視覺效果這一環節發揮作用,這部分市場規模在 2030 年預計可達到 71.4 (510.3 x 14%) 億美元。
以下是第一個採用 NeRF 進行製作的大型電視廣告,是由 Luma 與 McDonald 和內容創作者 Karen X. Cheng 共同創作。
Source:YouTube
4. 電商銷售
相較於線下購物,電商的最大劣勢之一在於客戶無法對商品進行全方位觀察。因此,3D 影像是一種很好的商品展示方式,但由於請 3D 藝術家參與並對掃描的物件進行調整的成本十分高昂,因此,過去一般被應用於高科技裝置、房地產等高價值的商品。
NeRF 技術的使用大大降低了 3D 生成的成本,根據 Luma AI 的官網說法,建立 3D 模型需要 60-1,500 美元和 2-10 周的時間,而使用 Luma 可實現 “1 場景 1 美元” 的超低 3D 展示成本,使普通商品使用 3D 展示成為可能。未來我們線上購物時,可以透過旋轉照片,從各個角度檢視產品,並且還可以進行各個角度的縮放。
Luma 還在 2023 年 1 月推出了 Share & Embeds 功能,電商商家可將其生成的 3D 影像直接嵌入到產品頁面中。


Source:Luma Twitter
根據 Market Watch 資料,2029 年 3D 電商市場規模可超過百萬美元。
以上規模測算均是基於 3D 生成技術已經成熟到可以完全替代現有的 pipeline 的基礎之上。
NeRF 其他應用場景
1. 地圖、導航、室內空間展示
地圖、導航、室內空間展示是一個對虛擬和現實互動要求和需求很高的場景,用 NeRF 來建立非常合適且可行。Luma 官網有一些相關的展示,但我們可以從 Google 的專案中獲得更直觀和震撼的感受。
2023 年初,Google 推出沉浸式地圖,透過 AI 將數十億張街景和航拍影像融合在一起,建立多維的世界檢視。但假設我們想前往一家餐廳,我們通常會遇到以下問題:這家餐廳空間大小如何?有戶外或靠窗的座位嗎?哪個座位是我最希望預定的?雖然照片和影片可以部分解決此類問題,但依然很難創造身臨其境的感覺。
因此,Google 在沉浸式地圖中加入了各個餐廳、咖啡館以及其他場所的室內檢視,為使用者提供了虛擬近距離觀察的能力,而背後的核心技術就是 NeRF。
Source:Google Research
2. 機器人研究
AI+機器人的一條研究路徑是,將真實場景建模,然後在模擬器裡訓練,這樣理論上不需要依賴大量的真實資料採集,並且從模擬環境轉換回真實環境的效果也會更好,尤其是像 navigation 這類對物理運動細節要求較低的環節。而 NeRF 可以大大降低場景建模的成本,是低成本場景建模的一大突破。因此我們會看到許多機器人科學家對 NeRF 感到非常興奮。
05.
行業其他玩家及技術進展
NeRF

3D生成
• Google
Google 在 2022 年 9 月公開了 DreamFusion 模型,DreamFusion 使用 2D 擴散實現文字到 3D 的生成,結合了預訓練的 2D 擴散模型 imagen 與 NeRF 的能力。

Source:Google Research
• Nvidia
Nvidia 2022 年 9 月釋出 GET3D,GET3D 只需要一塊 GPU 每秒能生成大約 20 個模型。2022 年 12 月釋出 Magic3D,Nvidia 聲稱 Maigc3D 可以在 40 分鐘內建立高質量的 3D 網格模型,比 DreamFusion 快 2 倍。

GET3D
Source:Nvidia

Magic3D
Source:Nvidia
• OpenAI
OpenAI 2022 年 12 月釋出 Point-E,Point-E 的特點是生成速度快,生成一個 3D 模型只需要幾秒到幾分鐘時間。2023 年 5 月釋出 Shap-E,採用 INR(隱式神經表示),支援 NeRF 和 DMTet(紋理網格) 兩種方法,可以更好地捕捉細粒度的形狀和紋理,突破了傳統擴散模型的侷限性。

Point-E
Source:OpenAI

Shap-E
Source:OpenAI
• Meshy AI
Meshy 是一個 3D 生成平臺,目前可實現 text-to-3D、image-to-3D、AI 3D Texturing 等功能,目標是利用 GenAI 實現整個 3D 製作流程的自動化。

Text-to-3D
Source:Meshy

Image-to-3D
Source:Meshy
AI 3D Texturing
Source:Meshy
• Ilumine AI
ilumine 推出的 InstaVerse 是一款 text-to-3D 資產生成器和視覺化工具。

Source:Ilumine AI
此外,有訊息稱 Midjourney 也在嘗試進入 3D 生成領域,創始人 David Holz 也曾公開表示過開發 3D 生成模型的意願。
06.
結論與投資判斷
為什麼看好
1. 值得 bet 的技術方向,值得 bet 的技術團隊
我們詢問了 AI、圖形學、CV 領域專家的意見,大家普遍認為 NeRF 是 CV/3D/圖形學領域非常值得關注的技術方向。2020 年 NeRF 出現的時候學術界都非常興奮,NeRF 實現了全流程可微,可以在深度學習框架上方便地實現場景表徵的訓練最佳化,
是 3D 領域一個具有開創性意義的、非常巨大的突破。
此外,近幾年許多 3D paper 和 3D 生成技術都包含了 NeRF 技術或圍繞 NeRF 進行研究,NeRF 技術也因此在短時間內不斷有突破和進展。因此,從技術路線看,NeRF 是一個值得關注、值得 bet 的方向。
而 Luma 團隊在技術方面絕對稱得上是 NeRF 或 3D 領域最頭部的玩家之一,CTO Alex Yu 在學術界口碑非常好,Matt Tancik 參與了最初 NeRF 論文的研究,Quei-An Chen 做過許多非常流行的開源 NeRF 和 3D 專案,團隊裡的其他科學家也在學術界和產業界有著豐富的 3D 研究經驗,團隊技術底子深厚,技術有新進展也能很快 catch up,長期保持在行業領先地位。鑑於 NeRF 和 3D 生成仍處在 research 階段,團隊技術實力強在現階段非常重要,可以被看作是公司的核心競爭力。
2. 社群和資料優勢
與大多數 3D 生成玩家不同,Luma 除了面向 toB,還有一個 toC 的平臺,靠 toC 平臺起家。使用者透過 Luma,使用手機拍攝照片或影片來生成和渲染 3D 內容,這些都是後續訓練 3D foundation model 的寶貴的資料。
截至 2023 年 8 月,Luma 在 Discord 的社群成員數量達到 1.7 萬名
,這個數字在 3D 領域算是一個 popular 的社群,但和大家熟知的圖文社群相比,使用者體量依然非常小。
儘管透過手機收集 2D 素材進而生成 3D 內容已經在裝置、操作方法、成本上大大降低了 3D 生成的門檻,但目前生成一個 3D 內容需要的時間仍較長,生成質量也不穩定,在當前技術水平下 C 端應用爆發的可能性仍較低。但假設技術持續有進展,門檻持續降低,3D 內容生成質量持續提升,C 端使用者和 3D 資產數量有可能迎來一個大爆發。屆時 Luma 將處在一個非常好的位置,資料優勢也將顯現。資料是目前訓練 3D foundation model 的一大卡點,如果能夠透過 C 端自發收集 3D 資料,將是一種非常好的低成本收集大量 3D 資料的方式,也會成為公司的一大優勢。
Concern
1. 技術成熟的 Timing
技術研究和技術進展部分我們有討論到 NeRF 和 3D 生成目前的技術發展情況。
3D 生成目前仍存在生成質量不穩定、生成速度慢、可生成的場景多樣性較差等瓶頸,如果進一步落地到具體商業場景還涉及到設計風格、可編輯的靈活度、如何與現有管線結合或是完全重塑現有管線等一系列問題。事實上,僅是生成質量這一個維度,目前就難以滿足商用的需求。
並且,我們在上文也提到,3D 生成目前有兩條相對主流的技術路線:(1) text-to-2D,再透過 NeRF 或 Diffusion 模型完成 2D-to-3D;以及(2)直接 text-to-3D。目前即使是學術界也很難判斷哪條路徑更有機會。路徑(1)在質量和生成速度上能否達到我們想要的效果?路徑(2)又是否透過收集足夠多的 3D 資料就能實現?有沒有可能還需要更底層的架構和演算法層面的創新?這些目前都沒有答案。而對於投資者來說,我們需要清楚今天投進去的錢更多是用於研發投入,而非是資本效率更高的產品投入或 S&M 投入。研發投入意味著週期長,timing 和回報無法預測。
2. 商業化
3D 研發需要大量的資金投入,對於創業公司而言,僅依靠投資機構支援不是長久之計,長期看企業還是需要有自我造血能力。能否自我造血一方面涉及供給端技術的成熟以及需求端的採用程度,另一方面也看團隊的產品和商業化實力。
CEO Amit Jain 有創業經歷,並在 Apple AR/VR 部門參與過產品研發,在工程和產品方面有豐富的經驗。不過從 Luma 團隊配置可以看出,Luma 核心成員多為技術背景,產品和商業化人員相對較少。據調研,Luma 團隊目前對於商業化還沒有特別清晰的路徑和思考,而更多聚焦在技術上。因此,我們現階段對 Luma 的樂觀預期是成為 3D 領域的 Midjourney,而不是 3D 領域的 Adobe。當然,成為 Midjourney 也已經足夠好。
投資判斷
如果從 venture 或 early stage 角度看,我們認為 Luma 值得投資。如果是追求穩定回報的 growth stage,Luma downside 太大,可能不是一個特別合適的投資標的。
• 為什麼值得投?
1. 隨著語言、影像、程式碼等領域的 foundation model 被廣泛應用,頭部公司或應用已逐漸跑出來,我們也開始期待影片、音訊、3D、甚至是機器人領域的 foundation model 的出現。如果我們相信每個模態或領域都會有 foundation model 的機會,那麼 Luma 是 3D 領域最有競爭力的創業公司之一,其他的具有競爭力的玩家多為 Google、Nvidia 等大型科技公司。
2. 3D 生成是一項具有極強創新性和破壞性的技術。傳統 3D 建模流程繁瑣,多為人工手動操作,週期長,成本高。如果 3D 生成技術成熟,現有的管線中的大部分環節將被替代,效率大幅提升的同時,成本大幅下降,想象空間巨大,upside 無限。
• 關於 Downside
我們認為 Luma 目前的 downside 較大。我們投資技術型創業公司,往往希望 downside 至少是被收購,判斷一家技術型創業公司被收購的機率,通常會從以下幾個維度考慮:(1) 團隊技術實力,以及技術方面是否能一直保持領先;(2)技術實力強勁的大廠 catch up 的難度;(3)其他潛在收購方如平臺型、產品型公司的業務協同程度與收購意願。
Luma 團隊技術實力很強,人才質量很高,但目前整個行業還處於早期,和 Luma 競爭的多為技術實力強勁的大公司,人才質量也非常高,核心玩家中暫時沒有誰遙遙領先或有差異化優勢,不過我們看到 Nvidia 也參與了 Luma 的 A 輪融資。其他潛在收購方如遊戲製作公司是否有收購意願,我們的調研發現這些公司雖然對 NeRF、3D 生成等前沿技術感興趣,但不太願意在技術上做過多的投入,而是希望等待技術成熟時直接使用成熟產品。因此,對於 Luma 的 downside,目前很難做出一個清晰的判斷,需要持續觀察。


延伸閱讀
關鍵詞
模型
影像
3D模型
內容
影片