專訪LumaAI首席科學家：我們更相信多模態的ScalingLaw

01.

Luma 影片生成模型 Dream Machine

海外獨角獸：Luma 最近推出的影片生成模型 Dream Machine 引發很多關注，你在其中參與了哪些工作？可以介紹下這個模型嗎？

Jiaming：我在整個專案中主要做模型訓練相關的工作，包括模型、系統等相對比較全棧的工作，也負責協調訓練方面的工作流。Dream Machine 現在還是個比較初期的模型，我們選擇了 DiT 架構，這也是大家的一個共識。

在做 Dream Machine 時候，我們想做的一個市面上已有模型不一樣的點，是讓動作幅度更大。因為我們覺得今天使用者已經不想去看只是讓圖片稍微動一動、沒什麼大幅度動作的所謂影片模型了，所以想讓動作變大。雖然這又會帶來可控性問題，或者說在某些情況下不那麼完美，但我們覺得能讓模型動得更多，對使用者體驗很重要。剩下的問題可能跟 scale up 資料、模型規模關係更大。

海外獨角獸：讓動作幅度變大這一點，是來自產品洞察，還是想解決某個技術難題？

Jiaming：更多還是從產品需求考慮。我們可以選擇讓模型動得多或者少一點，如果動得少一點，可能就跟文生圖模型更像，這就要做取捨。從設計算法的角度來講，沒有太多特殊地方，最終落腳點還是“希望呈現一個什麼樣的model”。

海外獨角獸：如果想要把動作幅度做得更大，模型哪些部分最關鍵？

Jiaming：更多是模型和資料規模驅動的。之前的模型從模型大小和訓練資料上都相對欠缺，很難做到理想情況，或者說可以嘗試去做，但效果完全不能看。大家比較保守的嘗試方案是選擇動作比較慢、沒有太多鏡頭角度切換的一些影片。隨著規模擴大，新的 feature 就會湧現。

海外獨角獸：和之前的影片生成模型，比如 Sora、Pika、Runway 相比，Dream Machine 有哪些不一樣？

Jiaming：我們的方案和 Pika 可能不太一樣，應該和 Sora、Runway Gen-3 比較類似，和 Sora 關聯性更強一點，都是 diffusion transformer 的架構。

Sora 可能類似影片模型的 “ChatGPT Moment”，大家意識到這個方向是可以大力出奇跡的，接下來就是要行動。和 language model 發生過的事很類似，大家以前還會對 Bert、GPT 存在一些爭論，現在不少人還會繼續做 language model 的底層架構研究，但整體已經 converge 到 transformer 架構，我覺得影片也基本上會往這個方向演進。

海外獨角獸：Dream Machine 釋出後，你們觀察到的 use case 主要集中在哪些場景？長期來看你們希望主要給使用者提供什麼樣的價值？

Jiaming：我們目前主要還是 to C 的產品形態，這是出於需求量考慮，我們也希望更多人用到這個產品，但與此同時我們也收到很多關於 API 的需求，所以 to B 場景也存在一些可能性。未來具體的產品形態今天還比較難預測，因為比較依賴於實際模型能力，以及市場的反饋。

02.

影片是通往 3D 的

更好路線

海外獨角獸： Luma 之前一直做 3D 重建和 3D 生成，為什麼現在要做影片生成？Luma 生成的影片空間感和物理呈現都很好，是因為 3D 的積累讓影片生成效果更好嗎？

Jiaming：我覺得這件事情可能是反過來的，我們是為了做更好的 4D，才選擇做影片生成。

我們在做 3D 時，意識到一些 3D 的方案，如果想把 3D 轉成 4D （加上時間維度）會比較難做——現在比較明確的一個做 3D 生成的方案，是用大規模圖片訓練一個基礎模型，再去做 fine-tuning，微調成一個多視角的 3D 模型，然後把它變成一個真正的 3D 場景。

如果我們想最終實現 4D，可能有兩個路線，一種就是像剛說的那樣，用圖生成 3D，再把 3D 動畫變成 4D，另一種是直接做一個影片模型，把影片模型再變成 4D。我們覺得方案二更靠譜，所以即使不考慮影片生成本身的好處，只為了在 3D 領域更進一步，也是需要做影片的。

沿著這個思路我們之前也針對一些 3D 場景對影片模型做微調，所以在 Dream Machine 之前，我們就已經搭建了一個影片轉 3D 的 workflow。

另一個直接原因是， 3D 資料相對於圖片和影片的資料特別有限，所以需要依賴資料更多的大模型來驅動。

因此，我們最初的 motivation 不是從做 3D 這件事轉向做影片，而是透過影片的方式去驅動更好的 3D。

海外獨角獸：怎麼理解透過影片的方式來驅動更好的 3D？

Jiaming：其實我們一直在用影片模型做一些測試，一開始沒太期待模型的 3D 生成能力，結果發現影片生成 3D 的能力已經很強了，出乎我們意料。關鍵點在於，這個影片模型本身的 3D 一致性，以及和圖形管線相關的、大家會關心的一些光學的東西，它都 follow 的不錯。當然這個東西不完美，可能在跳體操這類例子上就會出問題，但現在能做的 feature 還是比較驚豔的。因為我們是 3D 背景，大家會更關注一些 3D 相關的 feature，發現 3D 一致性、光學、深度、一些動態的物理現象影片也是可以做的。

我們有一個例子是，把一個圖片丟進 dream machine，直接轉成一個影片，再把影片丟到我們之前就有的一個影片轉 3D 的工作流裡，直接就能做互動，效果非常驚豔。這肯定不是最理想的管線，但這個例子說明這個管線還比較 promising，這也回到剛說的那個點，影片可能是更好的實現 3D 的路線。

Created by @Theop-Luma

3D 的 case 是技術上比較有意思的點，並不是每次都能成功，成功的時候很驚豔，不成功有時候是因為我們對影片鏡頭的焦距，以及鏡頭的狀態假設沒有設定得特別死，這並不是一個 100% 能成功的工作流，但它能做到這個 case 已經是影片模型相比傳統方案更驚豔的一個點。

海外獨角獸：你提到的這些生成影片中驚豔的效果有哪些，是否能給我們詳細介紹和展示一下？

Jiaming：第一，只看影片就能學習到所謂的深度知識。以前在 3D 領域大家比較關心深度，就是預測這個物體距離鏡頭有多深。在文生圖階段就已經有人嘗試做這件事，比如有一篇很出名的文章 MVDream 做的內容是直接用文生圖模型作為一個起點，再把它微調到一些深度資料中，結果發現不需要加很多深度資料，模型已經效果很好。

今天的影片模型不需要我們再做特殊處理，也不需要加入深度等3D相關的資料，只通過學習影片資料就能學習到深度知識、知道影片裡面物體的遠近，這也是深度的一種湧現方式。甚至不僅真實的圖片能產生好的效果，即使是一些非常抽象的圖片，比如畢加索風格的圖片，效果也很好。

下面是把一張非常抽象的旋轉木馬圖片放進影片模型中，模型生成的影片依然能模擬旋轉木馬的旋轉狀態，這說明即使是抽象的圖片，模型也能理解關於深度的資訊。

Created by @simonxxo,@ring_hyacinth

第二，除了深度，光的反射、折射，以及光是如何在不同介質中執行，影片也能理解。下面展示幾個例子：

Created by @daken_ and @gravicle

在這個影片中，背景裡有一個紅色的霓虹燈，當鏡頭移動時，人背後的光影顏色的深度和光影覆蓋的區域大小會改變。同時，當鏡頭移動時，這個人戴的眼鏡與人臉的距離、鏡片的厚度等等都會隨之調整。再有，塑膠材質基於光的反射，在傳統意義上也不是那麼容易去模擬，但這個影片表現出來的效果，包括一致性都很不錯。

NeRF-based algorithm: 100 images

Dream Machine: 1 image

這個咖啡機的例子，上下兩個我們用傳統 NeRF 和影片生成做了對比。如果用傳統 NeRF 去做，需要圍繞咖啡機周圍採集上百張圖片，才能得到比較好的 3D 重建效果。但同樣的咖啡機，今天把一張圖片放進影片模型中，它就能夠很好地模擬咖啡機的鋼鐵材質，包括光在鋼鐵材質上的反射。這實際上就可以是一張圖片轉影片再轉成 3D 的工作流，這樣的工作流比此前採集上百張圖片、用 NeRF 的方式進行重建要方便得多。

Created by @hyperparticle

這個例子展示的是高速動態場景下保持物體的一致性，並且在高速狀態的的鏡頭移動和切換的模擬效果也很不錯。對於遠處的物體，或者道路它的 simulation 還不太完美，但我覺得透過 scale up 模型大小是可以解決的。

Created by @valleeduhamel

這個 case 核心是後面的布料模擬，傳統意義上游戲管線裡的布料模擬計算成本很高，因此大家不會做得太複雜。但用影片模型就可以在成本較低的情況下模擬得很好、很真實，包括布料的材質和光影都模擬得很好。

Created by @next_on_now

這個例子展示的是不同場景的關聯性。可以看到這個小女孩的表情是比較驚恐的，她之所以會有驚恐的表情，是因為在前一幀展現的是她看到一個恐怖的東西。另外，小女孩的髮型、裙子的顏色和樣式在兩個鏡頭中展現的都是一樣的。這都是關聯性的體現，也就是說在一個連續空間裡，模型對於一些非連續的畫面和場景也可以模擬。

💡

點選檢視更多 Dream Machine 影片生成案例

除了上面的圖

生

影片案例外，Dream Machine 生成中，也會有一些不完美的案例，下面是一些能體現出模型當前侷限的例子：

Created by @alexyu00,

Possibly inferred as shot change

這個例子前一秒鐘看上去還算正常，但下一秒鐘後面突然出現一塊大石頭，還多了一些閃電。這肯定不符合正常的物理原理。

Created by @gravicle

多頭問題也是模型的一個侷限性。3D 裡面也常常出現多頭問題，是之前大家需要透過文生圖模型去生成 3D 的時候，會存在比較多類似問題，尤其是當動作幅度較快時，多頭問題就容易出現，Janus 是希臘神話裡一個有很多臉的神，所以大家把多頭問題稱為 Janus。

💡

點選檢視更多案例

最後再提一下關於如何透過影片模型去做 4D 的一個展望，一個簡單的思路是去收集多視角的影片資料，這些資料也許可以把當前的影片模型最佳化成一個多視角的影片模型，再利用多視角影片模型生成的資料去生成 4D 事件。

海外獨角獸：感謝展示，這些 Dream Machine 輸出的影片質量都很高，不管是清晰度、動作幅度，還是鏡頭的深度、光線等。

Jiaming：我還有一些其他例子沒有放，因為這裡所有的例子都是使用者生成的，需要credit，需要聯絡作者獲得允許才能放。有些我覺得非常好的例子，因為沒有聯絡到他們，不能放出來。

海外獨角獸：對於影片生成的效果，是否有一個 evaluation 框架？是否能對特定方面針對性提升？

Jiaming：現在大家做 evaluation 的方法，更多還是基於人的體驗。提升肯定是可以做的，因為 Dream Machine 還是個比較早期的產品，所以有很多明顯的問題是接下來可以被迭代的。提升可以從不同角度，比方說和資料相關的，就主要提升資料；和模型本身效率更相關，就要提升模型架構。

海外獨角獸：這些例子裡，鏡頭對物理世界的理解，是模型自然而然學到的，還是你們專門做了很多工作？

Jiaming：我們沒有針對這個事情做什麼東西，這也是為什麼它比較神奇的點。

海外獨角獸：圍繞影片生成，整個社群也開始討論 World Model、World Simulator 的概念，在做 Dream Machine 的時候，你們也發現 3D 是意料之外的能力湧現。未來 3D 和影片生成會取代今天的光學計算、圖形學嗎？

Jiaming：有些管線是可以幫助的，比如毛髮模擬、布料模擬這種計算量很高的東西相對來說就比較合適，但如果是做傳統的人臉渲染，不涉及頭髮，必要性不一定那麼大，甚至今天頭髮模擬也已經做得很不錯了，所以還要看具體的場景。如果想要去整體替代圖形學還有不小的距離，但是可能可以用來輔助一些圖形學的管線。

海外獨角獸：影片生成模型要實現 World Model、理解世界物理規則，是一個會隨著模型的 scaling up 湧現的過程，還是需要我們對模型本身進行升級改造？

Jiaming：我覺得前者的可能性更大，這其實也和 scaling law，我們說的 “Bitter Lesson”有很強的相關性。

Bitter Lesson 是 Richard Sutton 提出來的，他是強化學習領域的泰斗級人物，大部分時間都在研究演算法，怎麼用演算法的方式提高模型訓練效率。2019 年的時候他說過一句話：從歷史程序來看，一般來說簡單但是能更好利用計算量的方法，在長期來講會優於加入人類先驗知識但是計算量比較少的方法。

Richard Sutton 當時舉的例子是 AlphaGo，圍棋 AI 在用 deep learning 之前還是下不過人類的，隨著 AlphaGo、AlphaZero 出現，大家才開始覺得圍棋這個問題被解決了。但是它的一個區別是，更多先驗的設計，即以前會基於人類先驗的一些演算法，可以更好地利用計算的演算法去突破。

語言模型也是類似，大家花了這麼多時間去研究 language model、language understanding，做了很多語法、分詞、情感分析、段落整理的任務，結果發現只要計算量上來，很多工 language model 都能做。

我覺得 Video model 也有這個發展趨勢。以前針對每個影像學問題，我們都需要單獨去設計一套方案解決，基於先驗經驗去做，這樣確實能做得不錯，但確實有它的上限。在這個過程中，我們也發現對於一些相對複雜的情況，有的時候用 scaling up、用計算量更高的思路，對於它的長遠發展可能會有更好的突破。現在還不能說影片模型已經完全比圖形學好，但至少已經看到比較有前景的一些觀測。

回到更復雜的物理 simulator，我覺得也是類似的情況，隨著計算資源的增多，大家可能也會發現影片模型有類似湧現的現象，現在解決不了的問題也就自然而然解決了。

海外獨角獸：從研究進展到大家能用的最終效果上來說，是否存在某些問題屬於即使模型 scaling up 也特別難解決的？

Jiaming：很多現在看起來不是很容易解決的問題，可能隨著正規化遷移，隨著做法或者思路轉變，加上更多的計算，都可以得到不錯的解決方案。當然現在這些 model 都有各種各樣的侷限，但現在對於影片模型、3D 以及可控性的解決還是一個非常初期的階段，往後總是可以往上加一些 feature 的。

海外獨角獸：過去一年有不少公司都做影片生成的模型，有 Runway、Pika、快手可靈等等，Luma 來做影片生成，跟這些公司相比最大的優勢或者區別是什麼？會有不同的技術路線嗎？

Jiaming：從技術路線角度來講，接下來要做的事情其實是生成速度以及生成效率的最佳化。

生成速度一是跟成本掛鉤，二是跟使用者體驗相關，我覺得使用者體驗帶來的影響比成本更重要。因為從成本來看，只要我賣一個影片的價格比生成成本高，我總可以賺錢，但是這裡面不一定能夠產生太多的新東西。

但假設我們現在有一個影片模型，它生成 5 秒鐘影片只需要 5 秒，這裡面可以做的事情就比我們現在能做的事情多很多，首先它可以去 serve 更多使用者，其次是使用者體驗也會變得不一樣。我自己未來比較期待的一個點是我們在效率上有很大的提升，如果能做出來，可以開發一些新的產品思路。

另外一個點也是大家比較老生常談的，就是對可控性，或者說可編輯性的期待。快手可靈的例子可以說明，在大家已經知道 ChatGPT moment 和 scaling law work 的情況下，國內做模型的能力是很強的，大家都做得很好，給了市場一些強心劑。

不過我們和快手的市場不太一樣，從市場的角度來講可以有兩種解讀，第一種是根據現在 model 去創造什麼樣的產品，另外一種解讀，是根據未來 model 的趨勢能去研發哪些新產品？後者是更值得期待的。

影片模型現在相當於 language model 賽道剛做出來 ChatGPT 的階段，往後還有很長一段增長空間。繼續去 improve model 能力肯定是很重要的，包括可控性以及生成速度，因為生成速度影響 business model，但是單純提升速度可能不夠，因為我總可以堆更多的 GPU 去提升生成速度，如果堆了更多 GPU，並沒有節省 cost。所以最終的 business model 可能還不太一樣。

之後我們也會期望做一些跟現在大家做的不太一樣的事情、內容或者思考。當下模型和產品都很重要，如果沒有 model，就是套殼公司，如果沒有產品，那可能就變成 model serving 公司，最終還是跟大家捲成本。我們是一個 model 和產品兩方面人數差不多的公司，我們會透過使用者需求和我們對未來產品的 vision 去導向。有時候我們的產品思路不一定是現在大家覺得非常靠譜的，但是在模型相對成熟的時候，就會變得 mature。

海外獨角獸：有觀點認為，成本是 Sora 至今都沒有真正開放給大眾使用者的重要原因，但 Luma 的 Dream Machine 一發出來大家都能用到，並且體驗也很好，你們是怎麼解決成本問題的？多模態模型是否也和 language model 一樣，存在一個成本下降和能力升級之間明確的變化規律？

Jiaming：關於 Sora 沒有辦法猜具體是什麼原因，成本可能是眾多原因中的一個，但他們可能也在一定程度上有產品方向上思考，比如他們需要思考 Sora 怎麼跟 OpenAI 已有的產品結合，比如像 Dall-E 3 這樣整合到現有的產品裡，還是做一個獨立產品等等。

我個人覺得大家最後都會把成本降下來，下降多少倍不一定確定，但是一定能夠下降，並且一定能產生一些新的應用狀態，我自己很相信這件事一定會發生，所以如果我們預期會有這樣的未來，那麼可能我們對於產品或者對於模型的一些思考，也會跟這個預期掛鉤，跟大家做投資或者買股票一樣，其實很多時候大家做的其實是對預期的一個判斷，並不是對現在時的判斷。

海外獨角獸：從生成效率提升、成本下降一定會發生的角度看，除了要增加 GPU，還需要做哪些準備？

Jiaming：演算法創新肯定是需要的，現在有很多東西並不像 LLM 探索得那麼透徹，但是隨著大家去研究更多方案，演算法的創新肯定可以做得更好。

海外獨角獸：Luma 未來的重心會因為影片模型的表現超過預期發生變化嗎？你們接下來要如何在探索影片生成和 4D 這兩個方向做平衡？

Jiaming：我覺得這兩件事並不徹底衝突，我們最終要實現的目標就是多模態的理解和生成一起做。從資料角度來講，影片資料比文字資料的 token 量多很多，我們當時做了一個預測，不管是從資料集的 size 還是 token 的數量看，多模態模型都是現在最大文字預訓練模型的百倍以上。現在原生文字資料已經枯竭了，大家一方面在做合成數據，另一方面把 model size 不斷提高。如果 model size 無限提高，也會有 cost 的問題。

從多模態的角度來講，因為多模態訊號的資料量很多，scaling law 會更傾向於資料，可能不需要那麼大的模型去 scale up，就可以達到不錯的效果。

這裡還值得再提一遍 Bitter Lesson，它的核心是少用人類的先驗，多用資料、多用計算。一定程度上，我們可以認為人類語言其實也是人類的某種先驗，因為不同的人說的語言都不太一樣，並不影響大家去理解物理世界、在這個世界裡面做操作。

一定程度上語言本身也是對於這個世界所展示現象的一種壓縮或者先驗。因為語言是可以利用更多先驗的點，它壓縮率比較高，所以它利用計算的效率會比較高，那麼它肯定會先起飛，大家在語言領域先做出成果，就像大家之前用搜索在象棋中做出成果，然後圍棋做不出成果一樣。之前大家普遍認為語言做出成果，影片不一定做出成果。

但隨著資料量提高，對於世界的理解也會隨著多模態 token 的數量提高而超越之前 language model 所能夠達到的能力。當然 language 的重要性還是有的，並不是說完全甩掉 language，讓 model 自己去開發新的語言。但我用這個類比是想說明，我們比較相信未來是以多模態為主的發展趨勢，這個模態具體是影片、4D、語言、action 或是其他等等，相對來說不那麼重要。

海外獨角獸：多模態資料確實在很多 researcher 看來都很重要，現在也有觀點認為，我們最易獲取的影片資料都是經過精心剪輯、偏娛樂項的，很難幫助 AI 理解真實世界和人類的第一視角，不像語言那麼好學。你怎麼看？多模態資料的應用會存在哪些 bottleneck？

Jiaming：我覺得核心看應用場景。首先，多模態資料的量還遠沒有被cover，另外，多模態資料相對文字資料比較容易生成，比如做自動駕駛的時候只要增加攝像頭，就能獲得更多資料，但如果用文字生成資料，就需要人去寫。低質量的資料容易寫，但高質量的 fine-tune 資料，或教科書水平的資料，大家一整年也寫不出太多，從收集效率來講，收集文字資料就比收集攝像頭以及其他媒介的資料要慢一些。

4D 多視角資料和 3D 資料也難收集。但也許可以開發出新的 idea，比如上面提到的從影像到影片再到 3D，這是一條可能解決資料問題的路徑。

並且，在 4D 世界中，大部分也是影片輸出，影片的可互動性更強。在 4D 世界我們也許可以直接用一個大模型去做這樣的設定，但要求模型生成速度要更快，延遲要夠低，這樣就可以去做所謂的流處理。這些都是技術上的一些展望。

海外獨角獸：3D 生成有好幾種技術路線，你們現在比較相信什麼樣的路線？

Jiaming：我覺得從影片走到 4D 的路線相對更 promising，成功的可能性會大一點，但是也不排除有一些我們自己沒有想到的路徑被其他人想出來了。

海外獨角獸：你們之前發的 Gaussian Splatting 產品也很受關注，在 Gaussian 方向你們也做了一個可互動的場景，這塊目前在你們的 research 方向和公司層面會是一個重點嗎？

Jiaming：這件事很依賴於這個領域本身的進展，很多文章在 CVPR 等會議上發，但實際上沒有太多本質的突破。一方面因為大家精力有限，沒有辦法去把所有 idea 都試一遍。另一方面，在工業中考慮的問題和做 research 考慮的問題不太一樣，比方說我們在 Gaussian 產品裡面考慮更多的其實是使用者採集資料質量的事情。例如使用者的手機影片可能會有不同程度的模糊或者噪聲，這跟之前學術中大家做的一些假設不太一樣。

海外獨角獸：從學術角度來看，最近 Gaussian Splatting 比 NeRF 的熱度還高一些，大家提到它在效率、質量等方面表現更好。從你們產品使用的角度來看，是否也有類似的感受？

Jiaming：我個人感覺是的，因為 Gaussian Splatting 相比 NeRF，主要優勢在於它在移動端或者網頁端的渲染能力更強，但有的時候更不一定符合物理規律。而且 Gaussian Splatting 繼承了 NeRF 的一些 idea。NeRF 是 2020 年出來，Gaussian Splatting 是去年比較火，對於學術界來說，追一些新的 idea 是正常的。

海外獨角獸：你剛剛提到，4D 的影片能帶來多角度的資料，現在不管是自動駕駛還是機器人，其實也面臨高質量資料缺失的挑戰。未來做 4D 多視角是不是能夠從根本上去解決這個問題？

Jiaming：可能可以，但解決這個問題也可能不需要 4D 視角資料。從人的角度來講，好像從來也不需要往腦袋裡面注入一個 4D 視角資料，理論上人透過影片資料就可以學到所有 3D 相關的東西。人雖然能夠理解世界中的 3D 物體，但是你讓一個人去做 3D 建模，難度還是挺大的。

03.

Luma 如何定義自己

海外獨角獸：大家會經常討論一個公司到底是 research lab，還是做產品的公司，你自己覺得 Luma 屬於哪一類？

Jiaming：我們既要有 research lab 的創新能力，看到未來並且實現未來的技術能力，也需要有產品的敏捷度，這兩個少一個都不行，兩邊的重要性是一樣的。從我們 researcher 的角度來講，肯定是盡力去填補產品需求和我們能實現的事之間的 gap。相反，去做傳統的學術研究並不是我們的重點，但不管哪一種，大家遇到的挑戰都是類似的，都是在解決一些前人沒有解決的一些問題，所以這裡面就是 research 的程度也很重要。

對於 Luma 來說，我們有一個背景是公司的 co-founder 以及早期同事都是從 Berkeley 或者 Stanford 出來的，大家很容易接觸到優秀的 researcher，和這些人來討論 ideas。產品的同學也很優秀，他們可以從產品的角度去幫我們把 model 的表現形式做得更好。

海外獨角獸：從團隊角度看，做 Dream Machine 需要多大的團隊，原來有一些做 3D、NeRF 的人轉型容易嗎？是否遇到人才上的挑戰？

Jiaming：總共有十幾個人參與 Dream Machine 模型，我覺得科研背景沒有那麼重要，工程能力是比較重要的，有 3D 背景的人做工程的能力通常更強，所以團隊能力上沒有遇到太大問題。面臨的更大挑戰在於，你如何說服這些人做影片模型這件事，做一個新的、完全不一樣的東西，重點其實是調動大家去做這個事，雖然已經有很多訊號證明這件事值得做，但還是需要在內部來 align 這個目標。

海外獨角獸：聽起來更多是一個戰略和組織的問題。誰是 Luma 內部最先、最強烈提出這個 idea 的人？

Jiaming：當時內部其實有好幾個人都覺得這個事是要做的，所以也不是其中某一個人去主要 push。3D 生成做得多了，自然而然會意識到影片生成的重要性。當時做 3D 生成主要是我跟 CTO Alex 在做，我們兩個對於生成模型的細節瞭解較多，所以對影片生成的認知也會相對更快一些。

海外獨角獸：Luma 之前很專注於做 3D ，今天又有了影片生成產品 Dream Machine，你們會把自己定義成一傢什麼樣的公司？

Jiaming：我們沒有定義自己是一家 3D 公司、影片公司，或者具體做某個賽道的公司。AI 發展很快，如果想要利用好更多的 value，需要有多角度的思考模式。

相比於 language 的 scale up，我們會更相信 vision 或多模態的 scaling law，這當然有很多新的挑戰，不管是模型產品形態，還是 API 應用的一些新的 idea。

現在的研究現在都還比較初期。我們之後想做的事更 general，理想更大。產品也很重要，不能只做模型。我們需要時刻意識到技術在發展，要根據使用者反饋和技術發展趨勢，去定義這個公司當下應該做什麼。但我們整體還是 AI 背景，應該不會突然轉型去做硬體。

海外獨角獸：從成本角度，如果做一個付費產品，現在的成本達到你們覺得可以去做 business model 的水平了嗎？

Jiaming：我們現在的付費使用者狀況以及 ARR 都還不錯。但從 AI 創業公司的邏輯來想，未必要在這個階段就獲得正現金流，市場也不希望你這麼做。如果現在想做正現金流肯定是可以的，但對於公司今天的優先順序來說，沒有必要這麼做。而且模型能力提升可能帶來 business model 的變化，幾個月之後的展現形式可能跟現在我們看到的形式不太一樣，所以也沒有必要拘泥於當下的 business model。

海外獨角獸：我們瞭解到，OpenAI 的 API 和 ChatGPT 的 Gross Margin 其實並不高，包括大家都在質疑 API 這個商業模式。很同意你說未來的收費方式可能會和現在不一樣，比如說分層收費，或者把它真的當成是 agent 按照它創造的價值收費等等，這個可能是未來需要探索的。但是你們對於大的商業方向做 to C 還是 to B，現在也還沒有很明確的想法嗎？

Jiaming：用現在的 model 去想 to C 或者 to B 的商業模型，可能過了幾個月有新的 model 之後，商業模式又變了。所以我覺得商業模式是計劃沒有變化快，現在的重點還是先把模型和產品做得更好。我覺得大家不會質疑這個策略，因為有 OpenAI 的成功例子作為參考。在 ChatGPT 之前，他們幾乎沒有特別好的正向現金流，但這個產品一齣現，大家的興趣都被激發出來了，商業模式也很容易推廣。我覺得多模態模型也是類似的情況，我們可能還需要再等一等。

海外獨角獸：多模態的生成未來也會是一個 end to end 模型嗎？比如這換個可以生成圖、影片、3D 甚至音訊，更進一步，是不是能把理解和生成都放到一個模型中？

Jiaming：我覺得應該是可以做的。

理解和生成放在同一個模型裡，這件事已經有原型出現了，就是 Meta 的 Chameleon，雖然 Meta 做的更多是一個研究，它並沒有 focus on 生成的一些特點。

但這個過程中要考慮的是，從效率看不確定是不是一個好的方案，可能要分場景去看，並不是所有場景都適合做通用模型，根據不同需求工程上也需要做一些取捨。

海外獨角獸：最近在 Vision Pro 和空間計算大家有很多嘗試，這和你們在 3D 方向想做的事情會不會有一些耦合？

Jiaming：我們之前也會思考這個問題，到底要不要做一個 Vision Pro 的 APP，後來因為現在 Vision Pro 的使用者太少，還不值得去做，也許時機成熟的時候可以去做。

從整個泛硬體角度來看的話，不只 3D，4D 關係更大。因為大家 care 的很多應用場景，比方說虛擬場景互動，4D 都是必要的。只做 3D 可能會更偏向於 AR 的一些場景，目前來講好像沒有看到太好的商業場景。但如果 4D 能夠做得很好，那就是一個質的飛躍。

海外獨角獸：你怎麼看李飛飛的創業專案？他們也很強調“空間智慧”，核心是讓 AI 擁有視覺、進一步理解世界。

Jiaming：我覺得他們的想法也挺有意思，團隊背景也很強。我個人感覺他們跟我們不太一樣的點在於他們的創始團隊更多是 researcher，做工程和產品的人較少，有待觀察。不過我自己的觀點是，research 跟產品都是非常重要的部分。

至於技術路線，我並不知道他們具體的技術路線，但一般出現一個相對比較成熟的技術路線，大家就都會 converge，之所以大家會去做 transformer 或者 DiT，一定程度上是因為它有效。不排除可能會有新正規化，但目前我們還沒有把已有的正規化挖夠，還能做不少東西。有時候一個正規化被成功驗證之後，大家很快會去復現，research 方面大家都會交流，很難出現一個人或者幾個人突發奇想，做出一個其他人都想不出來的 idea。

之前從 GPT3 到 GPT4，大家所謂的追趕或者超越花了一年多的時間。但從 Sora 到可靈，或者 Dream Machine，其實中間也就過了大概 4 個月。我覺得如果有新的正規化出現，接下來大家模仿的速度可能會更快。當然這是假設，這個方案是一個相對來說簡單的方案，這個如果是一個特別複雜的方案，可能它復現的難度會大很多。但是從 Bitter Lesson 的角度來講，現在大體趨勢還是更傾向於簡單方案。

海外獨角獸：你自己現在最感興趣的研究方向和最想突破的問題是什麼？

Jiaming：我最近比較感興趣的方向，跟系統，或者說 transformer 本身的正規化更相關。大家現在基本不否認 scaling law 會創造更多智慧，但 transformer 本身隨著 sequence 變長，它的二階 performance 限制了 sequence length 的長度。如果有更有效的演算法去解決這個 sequence 問題，會是個非常有意思的方案。

現在有一些基於 RNN 的方案，像 RNN RWKV Mamba，或一些基於線性 transformer 的方案，但好像最終在大規模實驗中的效果都不如 transformer。所以我覺得現在大家要去思考，如何能在保證之前 performance 的情況下，讓 sequence length 從現在的百萬級變成千萬級或者億級。

我自己的一個深刻體會是，任何問題乘以 10 或者乘以 2，解決方案都會變得非常不一樣，無論從演算法或者從系統上都需要重新設計一遍。如果在這個領域能夠實現更大的突破，那對於訓練的效率和多模態理解，都會很有幫助。

第二個我關心的點是，對於現有的 transformer 或者 model 本身它們在做什麼的理解，或者看這些 model 真的學到什麼東西的一些理解，可以幫我們更好地理解或預測 scaling law，使得我們能夠更加低成本或者高效率去訓練模型。

第三個我自己比較感興趣，但是也比較難的一個點是，diffusion 的 scale，相比於 Autoregressive，它的主要問題是它在一個連續空間。在資訊理論層面，連續空間跟離散空間的邏輯非常不一樣，我不知道這是不是一個因果關係。但最後導致的一個情況是，你很難在 diffusion model 去算 perplexity，也不能去衡量 token 效率。很難像 language model 裡面，你看到這個 loss 就知道它是什麼樣，我覺得現在 diffusion model 上大家有 scaling law 的意識，但是真正 scaling law 還是一個非常模糊的階段，數學上真的還不太好做，如果有人能做出來還挺有意思的。

海外獨角獸：DiT 已經用了 transformer，是否某種程度上解決了 diffusion scale的問題？

有一個常見的誤解是， diffusion 跟 transformer 是並列概念。但其實他們並不是並列的概念，所以 DiT 的出現並不是說把兩個不同的概念放在一起，只是說把一個之前在 autoregressive 被驗證成功的方法用在 diffusion 的訓練過程中。

類似的情況，我對於 transformer 這個結構的 improvement，或者我剛才所說的對於長序列理解的這個工作，在自迴歸模型上能做，在 diffusion 上應該也能做，這個模型架構的 idea 應該是互通的。但是 diffusion跟 autoregressive 一個是離散，一個是連續，他們的訓練方式還有推理方式，還有 scaling law 本身是不一樣的。

我們知道 diffusion 肯定有 scaling law 存在，只是我們找不到它這個係數，相當於說你要推一個定理，你需要搞一些常數，對吧？現在是我們認為常數存在，但我們並不知道這個常數是什麼，大概是這樣一個問題。

我覺得這也不是無法實現，只是現在有能力做的人沒有功夫做，有功夫做的人可能沒有足夠資源做。很難說這個係數對實際生產作用有多深遠的影響，但從 researcher 角度說，如果能把這個做得更好，訓練這種 model 會更像科學而不是玄學。